Module 3 / AI 管理學認證課程

讓 AI 輸出,穩定可信

AI 輸出品質為什麼參差?建立審核點(Checkpoint)的系統設計,讓 AI 幫你管 AI,以及何時需要人類介入的判斷框架。

約 95 分鐘
4 堂課
完成後取得 Module 3 徽章
3.1
輸出品質的四個維度
AI 輸出品質參差,不是因為 AI 不穩定,而是因為你從來沒有定義過「好」是什麼。四個維度讓你從模糊的「感覺不好」變成可操作的品質標準。

核心概念

AI 輸出品質參差,根本原因不是 AI 的隨機性——而是你從未定義過「好的輸出」是什麼
沒有定義的標準,就沒有辦法系統性地改善。你只能靠感覺說「這次好、上次差」,卻無法告訴 AI 成員哪裡要改、改多少。

Module 2 我們建立了 AI 成員,學會如何委派任務。但現在你可能已經遇到一個問題:同樣的 AI 成員、同樣的任務,輸出有時讓你滿意,有時讓你皺眉。這種不穩定不是 AI 的問題——是品質標準還沒建立起來。

要系統性管理 AI 輸出品質,你需要四個評估維度。每個維度都有明確的「好的信號」和「壞的信號」,以及常見的失敗原因。

四個品質維度

Dimension 1
正確性
Accuracy — 資訊是否真實可驗證
最明顯的失敗模式
輸出的資訊是否在事實上正確、可以驗證?這是大多數人唯一會檢查的維度,也是 AI 最明顯的失敗模式(幻覺事實、錯誤數字、過時資訊)。
常見問題:引用不存在的來源 · 數字錯誤 · 日期過期
Dimension 2
完整性
Completeness — 是否涵蓋所有必要元素
正確但不完整的陷阱
輸出是否包含了你期待的所有要素?AI 可能給出正確但殘缺的答案——回答了你問的問題,卻漏掉了你需要但沒問到的部分。
常見問題:漏掉關鍵欄位 · 只答一半 · 忽視邊界案例
Dimension 3
一致性
Consistency — 格式與風格是否穩定
工作流程整合的關鍵
同樣的任務,輸出格式是否每次一致?對於需要將 AI 輸出接入下游流程的工作,一致性是最重要的維度——格式不穩定會讓整個自動化管道崩潰。
常見問題:格式每次不同 · 長度忽長忽短 · 標題結構改變
Dimension 4
可用性
Usability — 輸出是否可以直接使用
真正節省時間的關鍵
拿到輸出後,你需要花多少時間才能真正用上它?可用性高的輸出可以直接複製使用;可用性低的輸出需要大量編輯,AI 幫你省下的時間又全還回去了。
常見問題:需要大量改寫 · 語氣不對 · 結構需要重組

品質稽查清單

用這張表評估你的 AI 成員的輸出。每次發現「壞的信號」,就追查「常見原因」——大多數問題都可以透過調整系統提示解決。

維度 好的信號 壞的信號 常見原因
正確性 每個數字都有來源可查;不確定的資訊明確標注 出現無法驗證的數字;引用不存在的報告;過期資訊以現在式呈現 沒有要求來源標注;沒有禁止「推斷」;模型訓練截止日與任務時間落差大
完整性 覆蓋了職責說明書中要求的所有欄位;有「未找到」的明確標注 某些必要欄位整個消失;重要但未問的資訊被略過 系統提示中的輸出格式不夠明確;成員缺乏「默認需要哪些欄位」的認知
一致性 10 次輸出格式相同;標題結構固定;長度在設定範圍內 今天 Markdown、明天純文字;有時有表格有時沒有;長度差距 3 倍以上 格式要求只用自然語言描述,沒有用範例固定;溫度(temperature)設定過高
可用性 拿到輸出 5 分鐘內可以直接使用;符合你實際需要的語氣和受眾 需要花 30 分鐘以上改寫;語氣太正式或太隨意;需要重新組織結構 沒有告訴成員「最終使用場景」;沒有提供語氣或受眾範例;沒有給對比示範(「好的例子 vs 壞的例子」)

最常見的品質盲區

常見錯誤 · 「我只看輸出對不對」

大多數 SME 老闆在評估 AI 輸出時,只會問一個問題:「這個資訊對嗎?」他們檢查正確性,卻完全忽略一致性和可用性。

結果是:AI 輸出每次格式都不一樣,你得花 20 分鐘把它整理成你需要的格式;語氣總是差一點,你得花時間改寫。AI 幫你省下了「找資料」的時間,卻沒有省下「整理資料」的時間。

正確做法:在你的 AI 成員職責說明書中,針對四個維度各設定一個明確的及格標準。不是「資訊正確」,而是「每個數字附來源 URL,沒有來源的標注『待確認』」。

✎ 實作練習 · 20 分鐘

為你的 AI 成員建立四維度品質標準

選一個你已有的 AI 成員(Module 2 召聘的),用以下格式為它建立品質標準:

  1. 正確性標準:哪些資訊必須有可驗證來源?什麼算「不確定的資訊需要標注」?
  2. 完整性標準:每次輸出必須包含哪些欄位?哪些缺失是不可接受的?
  3. 一致性標準:格式模板是什麼?長度範圍是什麼?(例:400–800 字,Markdown H2 結構)
  4. 可用性標準:這個輸出的最終使用場景是什麼?使用者是誰?接收後需要多少時間才能直接用?

把這四個標準加入你成員的系統提示「品質標準」區塊,Lesson 3.2 會用到它。

3.2
Checkpoint 系統設計
每一個 AI 行動,在進入下一步之前,需要通過一個驗證關口。Checkpoint 不是讓你多做一件事,而是讓你少做很多次「善後」。

核心概念

Checkpoint 是工作流程中的一個定義好的暫停點——在 AI 輸出進入下一個步驟之前,先驗證它是否達標。
設計原則:鎖住每個 AI 成員的出口。每一個 AI 行動,如果它的輸出會餵給下一個步驟,就需要一個關口。

想像你的工作流程是一條生產線。每個 AI 成員是一個工作站,它接受輸入、產出輸出、傳給下一站。如果工作站 A 產出了有問題的零件,直接進入工作站 B 繼續加工,最後你得到的成品是有問題的——而你要花 10 倍的時間才能回溯到哪裡出了錯。Checkpoint 就是每個工作站出口的品質檢驗台。

三種 Checkpoint 類型

T1
格式關(Format Gate)
問:這個輸出是否符合規定的格式?

格式關驗證的是結構性要求:欄位完整嗎?長度在範圍內嗎?Markdown 語法正確嗎?必要的標題存在嗎?

好消息:格式關可以完全自動化——你可以寫一個簡單的腳本,或者讓另一個 AI 成員用清單驗證。格式不符就退回重試,格式符合就放行,無需人工介入。
T2
事實關(Fact Gate)
問:這個輸出中的可驗證聲明,是否真實?

事實關驗證的是內容層面:引用的數字是真實的嗎?來源是可查到的嗎?有沒有明顯的幻覺事實?

自動化程度:事實關可以用另一個 AI 負責,但有限制(詳見 Lesson 3.3)。對於高風險資訊(會在客戶報告中出現的數字),建議人工抽查 20–30%。
T3
決策關(Decision Gate)
問:這個輸出涉及後果不可逆的行動嗎?

決策關保護的是真實世界的動作:對外發送的內容、涉及承諾的文字、會影響客戶關係的決定。

規則:決策關永遠需要人類。不管你的 AI 成員有多可靠,涉及不可逆後果的輸出,你必須親自過目。Lesson 3.4 會給你一個具體的判斷框架。

一個完整工作流程中的 Checkpoint 設計

以下是一個「研究 → 分析 → 報告」的三步驟工作流程,加入了三個 Checkpoint:

1
研究 AI → 搜尋與整理資料
研究 AI 接收主題,使用 WebSearch 和政府開放資料工具,產出結構化的 Markdown 研究摘要。
Checkpoint 1 — 格式關 驗證:輸出是否包含所有必要欄位(執行摘要、核心發現、數據來源清單)?長度是否在 400–800 字範圍內?
✗ 不符合格式 → 退回研究 AI 重試(最多 2 次) ✓ 格式正確 → 進入下一步
2
分析 AI → 解讀發現、提出洞察
分析 AI 接收研究摘要,識別趨勢、比較數據、提出 3–5 個對業務有意義的洞察。
Checkpoint 2 — 事實關 驗證:洞察中引用的統計數字是否可以在研究摘要中追蹤到來源?有沒有出現研究摘要中沒有的新數字(可能是幻覺)?
✗ 發現不可溯源的數字 → 標記並通知人工確認 ✓ 所有數字可溯源 → 進入下一步
3
文案 AI → 撰寫客戶報告
文案 AI 接收洞察,撰寫可讀性高、適合 SME 老闆閱讀的客戶報告草稿。
Checkpoint 3 — 決策關 驗證:這份報告是否要發送給真實客戶?報告中是否有任何承諾或建議?
✗ 涉及對外發送 → 人類必須審核後才能寄出 ✓ 僅供內部參考 → 可直接使用

關鍵洞察:被跳過最多的是格式關

常見錯誤 · 忽略格式關的代價

大多數團隊會跳過格式關,因為「感覺很瑣碎」。但統計顯示,40% 的 AI 工作流程失敗,來自格式不一致導致下游步驟崩潰。

一個典型案例:研究 AI 有時產出 Markdown 格式,有時產出純文字。你的文案 AI 的系統提示假設輸入是 Markdown,當拿到純文字時,它的輸出格式整個亂掉,你還以為是文案 AI 出問題,花了半小時 debug,最後才發現問題出在研究 AI 的格式不穩定。

格式關的成本是零(一個清單、一個 AI 驗證器就夠了);格式失敗的成本是 debug 時間 + 重工時間 + 錯誤決策風險。這個投報率,絕對值得加。

✎ 實作練習 · 30 分鐘

為你的工作流程設計三個 Checkpoint

選一個你目前用 AI 成員處理的工作流程(哪怕只有一個 AI 成員),用以下格式設計 Checkpoint:

  1. 識別流程節點:這個工作流程有幾個步驟?每個步驟的輸出是什麼?
  2. 設計格式關:每個步驟的輸出需要滿足哪些格式要求?把它寫成清單(可機器驗證的)
  3. 識別事實關需求:哪些輸出包含可驗證的事實聲明?這些需要額外驗證
  4. 標記決策關:哪些輸出最終會對外可見或涉及承諾?這些需要人類審核

Lesson 3.3 會教你如何讓另一個 AI 成員自動執行格式關和事實關的驗證。

3.3
讓 AI 監察 AI
你不需要人工審核每一份 AI 輸出。第二個 AI,給對了評估標準,可以抓到大多數品質問題——而且它比你更快、更不會漏看格式細節。

核心概念

違反直覺的洞察:你不需要人類來審核所有 AI 輸出
第一個 AI 負責產出,第二個 AI 負責根據明確標準評估。評估者 AI 不帶有與產出者 AI 相同的「視野盲點」——它評估的是輸出,而不是嘗試生成輸出。這個分工,讓品質審核可以自動化。

讓 AI 監察 AI 的底層邏輯是:生成和評估是兩種不同的認知任務。產出者 AI 需要創造力和知識整合;評估者 AI 只需要對照清單核查。後者比前者簡單很多,也適合用更便宜、更快的模型來做。

三種實作模式

Pattern A
同任務不同版本對比
對同一個任務,用不同的溫度設定或不同的提示方式,要求同一個 AI 成員產出兩個版本。
比較兩個版本的差異:如果差異很大(關鍵事實相互矛盾),就是一個警示信號,說明這個輸出的可靠度不高;如果兩個版本高度一致,可信度就高很多。

最適用於:高風險的事實聲明,例如市場規模數字、法規條文、財務數據。
Pattern B
對照清單驗證
建立一個「品質稽查員 AI」,給它兩樣東西:品質清單 + 需要驗證的輸出。它的唯一任務是核查清單中的每一項,並輸出 PASS 或 FAIL,以及失敗的具體位置。

最適用於:格式關和基礎完整性檢查。可以完全自動化,成本極低(使用 Haiku 模型即可)。
Pattern C
反向查驗
給一個 AI 明確的指令:「嘗試找出這份報告中的錯誤或遺漏資訊。你的目標是讓這份報告不及格。」
這種「對抗性審核」比一般審核更有效,因為它強迫 AI 採取挑剔的立場,而不是默認同意。

最適用於:重要報告的事實關審核,以及需要識別潛在風險的決策文件。

品質稽查員 AI 設定範例

以下是一個可以直接複製使用的品質稽查員 AI 子代理人設定,適合作為 Pattern B 的格式關和完整性驗證:

~/.claude/agents/quality-reviewer.md YAML + Markdown
---
name: quality-reviewer
description: 品質稽查員:負責驗收其他 AI 成員的輸出。
           當你需要驗證某份 AI 輸出是否達到品質標準時,
           使用此代理人進行格式和完整性審查。
model: claude-haiku-4-5
tools: []
---

你是品質稽查員。你的唯一職責是根據以下清單,
評估輸入的文稿是否達標。

## 評估清單

□ 長度在 400–800 字之間
□ 包含至少 3 個可驗證的數據點
□ 每個數據點都有來源標注
□ 沒有「可能」「據說」等不確定用語
  (除非明確標注為推測)
□ 格式符合指定 Markdown 結構
□ 包含必要欄位:執行摘要、核心發現、待確認項目

## 輸出格式(嚴格遵守)

第一行必須是 PASS 或 FAIL,後跟冒號。

如果 PASS:
PASS: 文稿通過所有品質標準。

如果 FAIL:
FAIL: 以下項目未達標:
- [具體問題 1](位置:[具體引用])
- [具體問題 2](位置:[具體引用])

## 你的行為規範

- 只輸出判斷結果,不給建議、不改寫、不補充
- 如果清單中某項無法從文稿中判斷,標注「無法判斷:[原因]」
- 你的角色是品管,不是編輯

在工作流程中觸發品質稽查員

在 Claude Code 中,你可以在工作流程中這樣呼叫品質稽查員:

觸發指令
在研究 AI 完成後
Use the quality-reviewer to evaluate the following research report:
[貼上研究 AI 的輸出]

如果結果是 FAIL,退回給研究 AI 並附上稽查員的問題清單,要求修正。
退回指令
品管失敗時
Use the 研究 AI to revise the previous report. The quality-reviewer identified the following issues:
[貼上 FAIL 清單]

Please address each issue and resubmit.
⚠ AI 監察 AI 的限制

兩個 AI 可能共享相同的盲點——例如共同的訓練資料偏差,或對某個領域知識的系統性錯誤認知。這意味著:不要讓 AI 稽查 AI 負責決策門——只負責格式關和部分事實關。決策門永遠需要人類。此外,對於涉及台灣特定法規、地方政策的事實,AI 稽查員的可靠度會下降——這類事實需要人工交叉比對。

✎ 實作練習 · 30 分鐘

建立你的品質稽查員 AI

用以下步驟建立適合你工作流程的品質稽查員:

  1. 複製上面的設定範本:建立 ~/.claude/agents/quality-reviewer.md
  2. 客製化評估清單:把清單改成針對你最常需要驗收的 AI 成員的具體標準(參考 Lesson 3.1 的四維度品質標準)
  3. 實測:取一份你現有 AI 成員的輸出,讓品質稽查員評估。看它能抓到什麼問題
  4. 調整清單:如果稽查員漏掉了重要問題,把那個維度加入清單

目標:建立一個你可以在每次 AI 輸出後觸發的自動化品管流程,讓人工審核從「每次必做」變成「抽查 20–30%」。

3.4
人類介入的判斷框架
AI 監察 AI 可以處理很多品質問題。但有些決定,你必須親自做。三個問題的決策樹,讓你清楚知道什麼時候該拿回主導權。

核心概念

不是所有 AI 輸出都需要人類審核——那樣你省不了多少時間。但有些輸出,如果你不親自過目,風險是真實的、後果是不可逆的。
三個問題的決策樹讓你在 30 秒內判斷:這份 AI 輸出需要人類介入嗎?

Module 1 我們學了「AI 不是工具,是員工」。員工可以做很多事,但有些事老闆必須親自處理——不是因為員工不夠好,而是因為那個決定帶著你的名字、你的責任。管理 AI 成員也是一樣的道理。

三問決策樹

Q1:這個輸出的後果是否不可逆? (一旦執行,無法撤回、修改或補救) │ ├─ 是 → 🔴 人類必須介入(HUMAN REQUIRED) │ 不要讓 AI 做最終決定。你可以讓 AI 準備所有資料, │ 但最後那個「確認執行」必須是你。 │ └─ 否 → 繼續 Q2 Q2:這個輸出是否對外可見? (客戶、合作夥伴、政府機關或公眾會看到) │ ├─ 是 → 🟡 人類審核(HUMAN REVIEW) │ 讓 AI 稽查員先過一遍,人類做最終確認再發出。 │ 不要讓 AI 直接對外發送任何帶有你名字的內容。 │ └─ 否 → 繼續 Q3 Q3:這個輸出是否涉及金錢、法律或合約承諾? (報價、付款指令、合約條款、法律意見) │ ├─ 是 → 🔴 人類必須介入(HUMAN REQUIRED) │ 財務和法律決定的責任,AI 無法代替你承擔。 │ └─ 否 → 🟢 AI 可以自主執行(AI PROCEED) 這個輸出是內部的、可逆的、不涉及承諾—— 讓 AI 成員繼續,你不需要介入。

人類保留項目清單

不管 AI 做得多好,以下這些事永遠不能委派給 AI 獨立完成。AI 可以「備料」,但你必須「做決定」:

  • 簽署任何合約 — 不管是數位簽名還是紙本。AI 可以準備草稿、標注重要條款,但你必須親自閱讀並簽署。
  • 做出公開承諾 — 包含在 email 中承諾交期、在報告中承諾功能、在任何公開場合代表公司表態。
  • 客戶關係修復 — 道歉、補償、解釋失誤。這些涉及情感判斷和關係管理,是 AI 最不可靠的領域。
  • 解僱員工或終止合作 — 任何涉及終止人際關係或合作關係的決定,必須由人類來做。
  • 財務審批超過門檻的決策 — 設定一個你自己的門檻(例如 NT$10,000),超過這個金額的任何支出決定,AI 不能獨立批准。

CEO 法則

AI 備料,人做決定。
凡是需要你用名字承擔責任的事,不能讓 AI 代你做。

這不是在限制 AI——而是在保護你的決策品質。當你讓 AI 做了一個本來應該由你做的決定,你不是省下了時間,而是承擔了一個你沒有深思熟慮過的風險。

最好的 CEO 不是自己做所有事的人;而是知道哪些事必須自己做的人。

應用範例:常見情境判斷

情境 Q1 不可逆? Q2 對外可見? Q3 金錢/法律? 判斷
研究 AI 產出的內部市場分析報告 AI 自主
文案 AI 草擬的客戶 email 初稿 是(發出後) 人類審核
分析 AI 給出的採購建議(NT$50K) 人類必須介入
研究 AI 草擬的競品分析供內部討論 AI 自主
法務 AI 草擬的合約條款(需要簽署) 是(簽後) 人類必須介入
品質稽查員對研究報告的 PASS/FAIL 判斷 AI 自主
✎ 實作練習 · 20 分鐘

建立你的人類介入規則

根據三問決策樹,為你自己的工作情境建立一份「人類介入規則清單」:

  1. 列出你的 AI 成員常見的輸出類型:(10 種左右,對照你實際工作流程)
  2. 對每個輸出類型跑一遍決策樹:標記為「AI 自主」「人類審核」「人類必須介入」
  3. 建立你的財務門檻:決定你的 AI 成員可以自主建議的最高金額(NT$ ____)
  4. 把規則寫進 CLAUDE.md:讓 AI 成員知道哪些輸出需要等待你的確認後才能繼續

這份清單就是你的「AI 成員授權書」——你知道每個成員可以做什麼、不能做什麼,它們也知道什麼時候需要暫停等你。

🏆

完成 Module 3:你已建立品質管控框架

你現在有四個維度評估 AI 輸出、三種 Checkpoint 類型、讓 AI 監察 AI 的實作方法,以及知道什麼時候必須是你自己來。

  • 1
    四維度品質標準:為你的 AI 成員建立了正確性、完整性、一致性、可用性的具體及格標準
  • 2
    Checkpoint 設計:為你的工作流程設計了格式關、事實關、決策關三層 Checkpoint
  • 3
    品質稽查員 AI:建立並實測了自動化品質稽查員,讓 AI 監察 AI 的格式和完整性
  • 4
    人類介入規則:完成了三問決策樹的情境分類,建立了你自己的人類保留項目清單
Module 4:即將開放 → 返回課程主頁

繼續深化你的 AI 管理能力

Module 3 讓你的 AI 成員輸出更穩定可信。明察情報服務本身就是建立在這套品質管控框架上——每份報告都經過四維度驗收才交付。

即將開放

Module 4:策略決策——哪些事你不能讓 AI 代替你決定

CEO 與 AI 的邊界在哪裡。真實世界動作(簽約、談判、關係)的人類責任設計,以及如何讓 AI 備料、人做決定的協作模式。

  • CEO 決策 vs AI 建議的邊界
  • 真實世界動作的人類責任設計
  • AI 備料、人做決定的協作流程
  • 策略情境下的授權框架

完成 Module 3 的學員將優先收到 Module 4 開放通知。