Lesson 3.1
3.1
輸出品質的四個維度
AI 輸出品質參差,不是因為 AI 不穩定,而是因為你從來沒有定義過「好」是什麼。四個維度讓你從模糊的「感覺不好」變成可操作的品質標準。
⌄
核心概念
AI 輸出品質參差,根本原因不是 AI 的隨機性——而是你從未定義過「好的輸出」是什麼。
沒有定義的標準,就沒有辦法系統性地改善。你只能靠感覺說「這次好、上次差」,卻無法告訴 AI 成員哪裡要改、改多少。
Module 2 我們建立了 AI 成員,學會如何委派任務。但現在你可能已經遇到一個問題:同樣的 AI 成員、同樣的任務,輸出有時讓你滿意,有時讓你皺眉。這種不穩定不是 AI 的問題——是品質標準還沒建立起來。
要系統性管理 AI 輸出品質,你需要四個評估維度。每個維度都有明確的「好的信號」和「壞的信號」,以及常見的失敗原因。
四個品質維度
品質稽查清單
用這張表評估你的 AI 成員的輸出。每次發現「壞的信號」,就追查「常見原因」——大多數問題都可以透過調整系統提示解決。
| 維度 | 好的信號 | 壞的信號 | 常見原因 |
|---|---|---|---|
| 正確性 | 每個數字都有來源可查;不確定的資訊明確標注 | 出現無法驗證的數字;引用不存在的報告;過期資訊以現在式呈現 | 沒有要求來源標注;沒有禁止「推斷」;模型訓練截止日與任務時間落差大 |
| 完整性 | 覆蓋了職責說明書中要求的所有欄位;有「未找到」的明確標注 | 某些必要欄位整個消失;重要但未問的資訊被略過 | 系統提示中的輸出格式不夠明確;成員缺乏「默認需要哪些欄位」的認知 |
| 一致性 | 10 次輸出格式相同;標題結構固定;長度在設定範圍內 | 今天 Markdown、明天純文字;有時有表格有時沒有;長度差距 3 倍以上 | 格式要求只用自然語言描述,沒有用範例固定;溫度(temperature)設定過高 |
| 可用性 | 拿到輸出 5 分鐘內可以直接使用;符合你實際需要的語氣和受眾 | 需要花 30 分鐘以上改寫;語氣太正式或太隨意;需要重新組織結構 | 沒有告訴成員「最終使用場景」;沒有提供語氣或受眾範例;沒有給對比示範(「好的例子 vs 壞的例子」) |
最常見的品質盲區
大多數 SME 老闆在評估 AI 輸出時,只會問一個問題:「這個資訊對嗎?」他們檢查正確性,卻完全忽略一致性和可用性。
結果是:AI 輸出每次格式都不一樣,你得花 20 分鐘把它整理成你需要的格式;語氣總是差一點,你得花時間改寫。AI 幫你省下了「找資料」的時間,卻沒有省下「整理資料」的時間。
正確做法:在你的 AI 成員職責說明書中,針對四個維度各設定一個明確的及格標準。不是「資訊正確」,而是「每個數字附來源 URL,沒有來源的標注『待確認』」。
為你的 AI 成員建立四維度品質標準
選一個你已有的 AI 成員(Module 2 召聘的),用以下格式為它建立品質標準:
- 正確性標準:哪些資訊必須有可驗證來源?什麼算「不確定的資訊需要標注」?
- 完整性標準:每次輸出必須包含哪些欄位?哪些缺失是不可接受的?
- 一致性標準:格式模板是什麼?長度範圍是什麼?(例:400–800 字,Markdown H2 結構)
- 可用性標準:這個輸出的最終使用場景是什麼?使用者是誰?接收後需要多少時間才能直接用?
把這四個標準加入你成員的系統提示「品質標準」區塊,Lesson 3.2 會用到它。
Lesson 3.2
3.2
Checkpoint 系統設計
每一個 AI 行動,在進入下一步之前,需要通過一個驗證關口。Checkpoint 不是讓你多做一件事,而是讓你少做很多次「善後」。
⌄
核心概念
Checkpoint 是工作流程中的一個定義好的暫停點——在 AI 輸出進入下一個步驟之前,先驗證它是否達標。
設計原則:鎖住每個 AI 成員的出口。每一個 AI 行動,如果它的輸出會餵給下一個步驟,就需要一個關口。
想像你的工作流程是一條生產線。每個 AI 成員是一個工作站,它接受輸入、產出輸出、傳給下一站。如果工作站 A 產出了有問題的零件,直接進入工作站 B 繼續加工,最後你得到的成品是有問題的——而你要花 10 倍的時間才能回溯到哪裡出了錯。Checkpoint 就是每個工作站出口的品質檢驗台。
三種 Checkpoint 類型
格式關驗證的是結構性要求:欄位完整嗎?長度在範圍內嗎?Markdown 語法正確嗎?必要的標題存在嗎?
好消息:格式關可以完全自動化——你可以寫一個簡單的腳本,或者讓另一個 AI 成員用清單驗證。格式不符就退回重試,格式符合就放行,無需人工介入。
事實關驗證的是內容層面:引用的數字是真實的嗎?來源是可查到的嗎?有沒有明顯的幻覺事實?
自動化程度:事實關可以用另一個 AI 負責,但有限制(詳見 Lesson 3.3)。對於高風險資訊(會在客戶報告中出現的數字),建議人工抽查 20–30%。
決策關保護的是真實世界的動作:對外發送的內容、涉及承諾的文字、會影響客戶關係的決定。
規則:決策關永遠需要人類。不管你的 AI 成員有多可靠,涉及不可逆後果的輸出,你必須親自過目。Lesson 3.4 會給你一個具體的判斷框架。
一個完整工作流程中的 Checkpoint 設計
以下是一個「研究 → 分析 → 報告」的三步驟工作流程,加入了三個 Checkpoint:
關鍵洞察:被跳過最多的是格式關
大多數團隊會跳過格式關,因為「感覺很瑣碎」。但統計顯示,40% 的 AI 工作流程失敗,來自格式不一致導致下游步驟崩潰。
一個典型案例:研究 AI 有時產出 Markdown 格式,有時產出純文字。你的文案 AI 的系統提示假設輸入是 Markdown,當拿到純文字時,它的輸出格式整個亂掉,你還以為是文案 AI 出問題,花了半小時 debug,最後才發現問題出在研究 AI 的格式不穩定。
格式關的成本是零(一個清單、一個 AI 驗證器就夠了);格式失敗的成本是 debug 時間 + 重工時間 + 錯誤決策風險。這個投報率,絕對值得加。
為你的工作流程設計三個 Checkpoint
選一個你目前用 AI 成員處理的工作流程(哪怕只有一個 AI 成員),用以下格式設計 Checkpoint:
- 識別流程節點:這個工作流程有幾個步驟?每個步驟的輸出是什麼?
- 設計格式關:每個步驟的輸出需要滿足哪些格式要求?把它寫成清單(可機器驗證的)
- 識別事實關需求:哪些輸出包含可驗證的事實聲明?這些需要額外驗證
- 標記決策關:哪些輸出最終會對外可見或涉及承諾?這些需要人類審核
Lesson 3.3 會教你如何讓另一個 AI 成員自動執行格式關和事實關的驗證。
Lesson 3.3
3.3
讓 AI 監察 AI
你不需要人工審核每一份 AI 輸出。第二個 AI,給對了評估標準,可以抓到大多數品質問題——而且它比你更快、更不會漏看格式細節。
⌄
核心概念
違反直覺的洞察:你不需要人類來審核所有 AI 輸出。
第一個 AI 負責產出,第二個 AI 負責根據明確標準評估。評估者 AI 不帶有與產出者 AI 相同的「視野盲點」——它評估的是輸出,而不是嘗試生成輸出。這個分工,讓品質審核可以自動化。
讓 AI 監察 AI 的底層邏輯是:生成和評估是兩種不同的認知任務。產出者 AI 需要創造力和知識整合;評估者 AI 只需要對照清單核查。後者比前者簡單很多,也適合用更便宜、更快的模型來做。
三種實作模式
比較兩個版本的差異:如果差異很大(關鍵事實相互矛盾),就是一個警示信號,說明這個輸出的可靠度不高;如果兩個版本高度一致,可信度就高很多。
最適用於:高風險的事實聲明,例如市場規模數字、法規條文、財務數據。
最適用於:格式關和基礎完整性檢查。可以完全自動化,成本極低(使用 Haiku 模型即可)。
這種「對抗性審核」比一般審核更有效,因為它強迫 AI 採取挑剔的立場,而不是默認同意。
最適用於:重要報告的事實關審核,以及需要識別潛在風險的決策文件。
品質稽查員 AI 設定範例
以下是一個可以直接複製使用的品質稽查員 AI 子代理人設定,適合作為 Pattern B 的格式關和完整性驗證:
--- name: quality-reviewer description: 品質稽查員:負責驗收其他 AI 成員的輸出。 當你需要驗證某份 AI 輸出是否達到品質標準時, 使用此代理人進行格式和完整性審查。 model: claude-haiku-4-5 tools: [] --- 你是品質稽查員。你的唯一職責是根據以下清單, 評估輸入的文稿是否達標。 ## 評估清單 □ 長度在 400–800 字之間 □ 包含至少 3 個可驗證的數據點 □ 每個數據點都有來源標注 □ 沒有「可能」「據說」等不確定用語 (除非明確標注為推測) □ 格式符合指定 Markdown 結構 □ 包含必要欄位:執行摘要、核心發現、待確認項目 ## 輸出格式(嚴格遵守) 第一行必須是 PASS 或 FAIL,後跟冒號。 如果 PASS: PASS: 文稿通過所有品質標準。 如果 FAIL: FAIL: 以下項目未達標: - [具體問題 1](位置:[具體引用]) - [具體問題 2](位置:[具體引用]) ## 你的行為規範 - 只輸出判斷結果,不給建議、不改寫、不補充 - 如果清單中某項無法從文稿中判斷,標注「無法判斷:[原因]」 - 你的角色是品管,不是編輯
在工作流程中觸發品質稽查員
在 Claude Code 中,你可以在工作流程中這樣呼叫品質稽查員:
[貼上研究 AI 的輸出]
如果結果是 FAIL,退回給研究 AI 並附上稽查員的問題清單,要求修正。
[貼上 FAIL 清單]
Please address each issue and resubmit.
兩個 AI 可能共享相同的盲點——例如共同的訓練資料偏差,或對某個領域知識的系統性錯誤認知。這意味著:不要讓 AI 稽查 AI 負責決策門——只負責格式關和部分事實關。決策門永遠需要人類。此外,對於涉及台灣特定法規、地方政策的事實,AI 稽查員的可靠度會下降——這類事實需要人工交叉比對。
建立你的品質稽查員 AI
用以下步驟建立適合你工作流程的品質稽查員:
- 複製上面的設定範本:建立
~/.claude/agents/quality-reviewer.md - 客製化評估清單:把清單改成針對你最常需要驗收的 AI 成員的具體標準(參考 Lesson 3.1 的四維度品質標準)
- 實測:取一份你現有 AI 成員的輸出,讓品質稽查員評估。看它能抓到什麼問題
- 調整清單:如果稽查員漏掉了重要問題,把那個維度加入清單
目標:建立一個你可以在每次 AI 輸出後觸發的自動化品管流程,讓人工審核從「每次必做」變成「抽查 20–30%」。
Lesson 3.4
3.4
人類介入的判斷框架
AI 監察 AI 可以處理很多品質問題。但有些決定,你必須親自做。三個問題的決策樹,讓你清楚知道什麼時候該拿回主導權。
⌄
核心概念
不是所有 AI 輸出都需要人類審核——那樣你省不了多少時間。但有些輸出,如果你不親自過目,風險是真實的、後果是不可逆的。
三個問題的決策樹讓你在 30 秒內判斷:這份 AI 輸出需要人類介入嗎?
Module 1 我們學了「AI 不是工具,是員工」。員工可以做很多事,但有些事老闆必須親自處理——不是因為員工不夠好,而是因為那個決定帶著你的名字、你的責任。管理 AI 成員也是一樣的道理。
三問決策樹
人類保留項目清單
不管 AI 做得多好,以下這些事永遠不能委派給 AI 獨立完成。AI 可以「備料」,但你必須「做決定」:
- 簽署任何合約 — 不管是數位簽名還是紙本。AI 可以準備草稿、標注重要條款,但你必須親自閱讀並簽署。
- 做出公開承諾 — 包含在 email 中承諾交期、在報告中承諾功能、在任何公開場合代表公司表態。
- 客戶關係修復 — 道歉、補償、解釋失誤。這些涉及情感判斷和關係管理,是 AI 最不可靠的領域。
- 解僱員工或終止合作 — 任何涉及終止人際關係或合作關係的決定,必須由人類來做。
- 財務審批超過門檻的決策 — 設定一個你自己的門檻(例如 NT$10,000),超過這個金額的任何支出決定,AI 不能獨立批准。
CEO 法則
AI 備料,人做決定。
凡是需要你用名字承擔責任的事,不能讓 AI 代你做。
這不是在限制 AI——而是在保護你的決策品質。當你讓 AI 做了一個本來應該由你做的決定,你不是省下了時間,而是承擔了一個你沒有深思熟慮過的風險。
最好的 CEO 不是自己做所有事的人;而是知道哪些事必須自己做的人。
應用範例:常見情境判斷
| 情境 | Q1 不可逆? | Q2 對外可見? | Q3 金錢/法律? | 判斷 |
|---|---|---|---|---|
| 研究 AI 產出的內部市場分析報告 | 否 | 否 | 否 | AI 自主 |
| 文案 AI 草擬的客戶 email 初稿 | 否 | 是(發出後) | 否 | 人類審核 |
| 分析 AI 給出的採購建議(NT$50K) | 否 | 否 | 是 | 人類必須介入 |
| 研究 AI 草擬的競品分析供內部討論 | 否 | 否 | 否 | AI 自主 |
| 法務 AI 草擬的合約條款(需要簽署) | 是(簽後) | 是 | 是 | 人類必須介入 |
| 品質稽查員對研究報告的 PASS/FAIL 判斷 | 否 | 否 | 否 | AI 自主 |
建立你的人類介入規則
根據三問決策樹,為你自己的工作情境建立一份「人類介入規則清單」:
- 列出你的 AI 成員常見的輸出類型:(10 種左右,對照你實際工作流程)
- 對每個輸出類型跑一遍決策樹:標記為「AI 自主」「人類審核」「人類必須介入」
- 建立你的財務門檻:決定你的 AI 成員可以自主建議的最高金額(NT$ ____)
- 把規則寫進 CLAUDE.md:讓 AI 成員知道哪些輸出需要等待你的確認後才能繼續
這份清單就是你的「AI 成員授權書」——你知道每個成員可以做什麼、不能做什麼,它們也知道什麼時候需要暫停等你。
完成 Module 3:你已建立品質管控框架
你現在有四個維度評估 AI 輸出、三種 Checkpoint 類型、讓 AI 監察 AI 的實作方法,以及知道什麼時候必須是你自己來。
-
1四維度品質標準:為你的 AI 成員建立了正確性、完整性、一致性、可用性的具體及格標準
-
2Checkpoint 設計:為你的工作流程設計了格式關、事實關、決策關三層 Checkpoint
-
3品質稽查員 AI:建立並實測了自動化品質稽查員,讓 AI 監察 AI 的格式和完整性
-
4人類介入規則:完成了三問決策樹的情境分類,建立了你自己的人類保留項目清單
Module 4:策略決策——哪些事你不能讓 AI 代替你決定
CEO 與 AI 的邊界在哪裡。真實世界動作(簽約、談判、關係)的人類責任設計,以及如何讓 AI 備料、人做決定的協作模式。
- CEO 決策 vs AI 建議的邊界
- 真實世界動作的人類責任設計
- AI 備料、人做決定的協作流程
- 策略情境下的授權框架
完成 Module 3 的學員將優先收到 Module 4 開放通知。