Module 3：品質管控與監察機制 · AI 管理學

Lesson 3.1

3.1

輸出品質的四個維度

AI 輸出品質參差，不是因為 AI 不穩定，而是因為你從來沒有定義過「好」是什麼。四個維度讓你從模糊的「感覺不好」變成可操作的品質標準。

⌄

核心概念

AI 輸出品質參差，根本原因不是 AI 的隨機性——而是你從未定義過「好的輸出」是什麼。
沒有定義的標準，就沒有辦法系統性地改善。你只能靠感覺說「這次好、上次差」，卻無法告訴 AI 成員哪裡要改、改多少。

Module 2 我們建立了 AI 成員，學會如何委派任務。但現在你可能已經遇到一個問題：同樣的 AI 成員、同樣的任務，輸出有時讓你滿意，有時讓你皺眉。這種不穩定不是 AI 的問題——是品質標準還沒建立起來。

要系統性管理 AI 輸出品質，你需要四個評估維度。每個維度都有明確的「好的信號」和「壞的信號」，以及常見的失敗原因。

四個品質維度

Dimension 1

正確性

Accuracy — 資訊是否真實可驗證

最明顯的失敗模式

輸出的資訊是否在事實上正確、可以驗證？這是大多數人唯一會檢查的維度，也是 AI 最明顯的失敗模式（幻覺事實、錯誤數字、過時資訊）。

常見問題：引用不存在的來源 · 數字錯誤 · 日期過期

Dimension 2

完整性

Completeness — 是否涵蓋所有必要元素

正確但不完整的陷阱

輸出是否包含了你期待的所有要素？AI 可能給出正確但殘缺的答案——回答了你問的問題，卻漏掉了你需要但沒問到的部分。

常見問題：漏掉關鍵欄位 · 只答一半 · 忽視邊界案例

Dimension 3

一致性

Consistency — 格式與風格是否穩定

工作流程整合的關鍵

同樣的任務，輸出格式是否每次一致？對於需要將 AI 輸出接入下游流程的工作，一致性是最重要的維度——格式不穩定會讓整個自動化管道崩潰。

常見問題：格式每次不同 · 長度忽長忽短 · 標題結構改變

Dimension 4

可用性

Usability — 輸出是否可以直接使用

真正節省時間的關鍵

拿到輸出後，你需要花多少時間才能真正用上它？可用性高的輸出可以直接複製使用；可用性低的輸出需要大量編輯，AI 幫你省下的時間又全還回去了。

常見問題：需要大量改寫 · 語氣不對 · 結構需要重組

品質稽查清單

用這張表評估你的 AI 成員的輸出。每次發現「壞的信號」，就追查「常見原因」——大多數問題都可以透過調整系統提示解決。

維度	好的信號	壞的信號	常見原因
正確性	每個數字都有來源可查；不確定的資訊明確標注	出現無法驗證的數字；引用不存在的報告；過期資訊以現在式呈現	沒有要求來源標注；沒有禁止「推斷」；模型訓練截止日與任務時間落差大
完整性	覆蓋了職責說明書中要求的所有欄位；有「未找到」的明確標注	某些必要欄位整個消失；重要但未問的資訊被略過	系統提示中的輸出格式不夠明確；成員缺乏「默認需要哪些欄位」的認知
一致性	10 次輸出格式相同；標題結構固定；長度在設定範圍內	今天 Markdown、明天純文字；有時有表格有時沒有；長度差距 3 倍以上	格式要求只用自然語言描述，沒有用範例固定；溫度（temperature）設定過高
可用性	拿到輸出 5 分鐘內可以直接使用；符合你實際需要的語氣和受眾	需要花 30 分鐘以上改寫；語氣太正式或太隨意；需要重新組織結構	沒有告訴成員「最終使用場景」；沒有提供語氣或受眾範例；沒有給對比示範（「好的例子 vs 壞的例子」）

最常見的品質盲區

常見錯誤 · 「我只看輸出對不對」

大多數 SME 老闆在評估 AI 輸出時，只會問一個問題：「這個資訊對嗎？」他們檢查正確性，卻完全忽略一致性和可用性。

結果是：AI 輸出每次格式都不一樣，你得花 20 分鐘把它整理成你需要的格式；語氣總是差一點，你得花時間改寫。AI 幫你省下了「找資料」的時間，卻沒有省下「整理資料」的時間。

正確做法：在你的 AI 成員職責說明書中，針對四個維度各設定一個明確的及格標準。不是「資訊正確」，而是「每個數字附來源 URL，沒有來源的標注『待確認』」。

✎ 實作練習 · 20 分鐘

為你的 AI 成員建立四維度品質標準

選一個你已有的 AI 成員（Module 2 召聘的），用以下格式為它建立品質標準：

正確性標準：哪些資訊必須有可驗證來源？什麼算「不確定的資訊需要標注」？
完整性標準：每次輸出必須包含哪些欄位？哪些缺失是不可接受的？
一致性標準：格式模板是什麼？長度範圍是什麼？（例：400–800 字，Markdown H2 結構）
可用性標準：這個輸出的最終使用場景是什麼？使用者是誰？接收後需要多少時間才能直接用？

把這四個標準加入你成員的系統提示「品質標準」區塊，Lesson 3.2 會用到它。

Lesson 3.2

3.2

Checkpoint 系統設計

每一個 AI 行動，在進入下一步之前，需要通過一個驗證關口。Checkpoint 不是讓你多做一件事，而是讓你少做很多次「善後」。

⌄

核心概念

Checkpoint 是工作流程中的一個定義好的暫停點——在 AI 輸出進入下一個步驟之前，先驗證它是否達標。
設計原則：鎖住每個 AI 成員的出口。每一個 AI 行動，如果它的輸出會餵給下一個步驟，就需要一個關口。

想像你的工作流程是一條生產線。每個 AI 成員是一個工作站，它接受輸入、產出輸出、傳給下一站。如果工作站 A 產出了有問題的零件，直接進入工作站 B 繼續加工，最後你得到的成品是有問題的——而你要花 10 倍的時間才能回溯到哪裡出了錯。Checkpoint 就是每個工作站出口的品質檢驗台。

三種 Checkpoint 類型

格式關（Format Gate）

問：這個輸出是否符合規定的格式？

格式關驗證的是結構性要求：欄位完整嗎？長度在範圍內嗎？Markdown 語法正確嗎？必要的標題存在嗎？

好消息：格式關可以完全自動化——你可以寫一個簡單的腳本，或者讓另一個 AI 成員用清單驗證。格式不符就退回重試，格式符合就放行，無需人工介入。

事實關（Fact Gate）

問：這個輸出中的可驗證聲明，是否真實？

事實關驗證的是內容層面：引用的數字是真實的嗎？來源是可查到的嗎？有沒有明顯的幻覺事實？

自動化程度：事實關可以用另一個 AI 負責，但有限制（詳見 Lesson 3.3）。對於高風險資訊（會在客戶報告中出現的數字），建議人工抽查 20–30%。

決策關（Decision Gate）

問：這個輸出涉及後果不可逆的行動嗎？

決策關保護的是真實世界的動作：對外發送的內容、涉及承諾的文字、會影響客戶關係的決定。

規則：決策關永遠需要人類。不管你的 AI 成員有多可靠，涉及不可逆後果的輸出，你必須親自過目。Lesson 3.4 會給你一個具體的判斷框架。

一個完整工作流程中的 Checkpoint 設計

以下是一個「研究 → 分析 → 報告」的三步驟工作流程，加入了三個 Checkpoint：

研究 AI → 搜尋與整理資料

研究 AI 接收主題，使用 WebSearch 和政府開放資料工具，產出結構化的 Markdown 研究摘要。

Checkpoint 1 — 格式關 驗證：輸出是否包含所有必要欄位（執行摘要、核心發現、數據來源清單）？長度是否在 400–800 字範圍內？

✗ 不符合格式 → 退回研究 AI 重試（最多 2 次） ✓ 格式正確 → 進入下一步

分析 AI → 解讀發現、提出洞察

分析 AI 接收研究摘要，識別趨勢、比較數據、提出 3–5 個對業務有意義的洞察。

Checkpoint 2 — 事實關 驗證：洞察中引用的統計數字是否可以在研究摘要中追蹤到來源？有沒有出現研究摘要中沒有的新數字（可能是幻覺）？

✗ 發現不可溯源的數字 → 標記並通知人工確認 ✓ 所有數字可溯源 → 進入下一步

文案 AI → 撰寫客戶報告

文案 AI 接收洞察，撰寫可讀性高、適合 SME 老闆閱讀的客戶報告草稿。

Checkpoint 3 — 決策關 驗證：這份報告是否要發送給真實客戶？報告中是否有任何承諾或建議？

✗ 涉及對外發送 → 人類必須審核後才能寄出 ✓ 僅供內部參考 → 可直接使用

關鍵洞察：被跳過最多的是格式關

常見錯誤 · 忽略格式關的代價

大多數團隊會跳過格式關，因為「感覺很瑣碎」。但統計顯示，40% 的 AI 工作流程失敗，來自格式不一致導致下游步驟崩潰。

一個典型案例：研究 AI 有時產出 Markdown 格式，有時產出純文字。你的文案 AI 的系統提示假設輸入是 Markdown，當拿到純文字時，它的輸出格式整個亂掉，你還以為是文案 AI 出問題，花了半小時 debug，最後才發現問題出在研究 AI 的格式不穩定。

格式關的成本是零（一個清單、一個 AI 驗證器就夠了）；格式失敗的成本是 debug 時間 + 重工時間 + 錯誤決策風險。這個投報率，絕對值得加。

✎ 實作練習 · 30 分鐘

為你的工作流程設計三個 Checkpoint

選一個你目前用 AI 成員處理的工作流程（哪怕只有一個 AI 成員），用以下格式設計 Checkpoint：

識別流程節點：這個工作流程有幾個步驟？每個步驟的輸出是什麼？
設計格式關：每個步驟的輸出需要滿足哪些格式要求？把它寫成清單（可機器驗證的）
識別事實關需求：哪些輸出包含可驗證的事實聲明？這些需要額外驗證
標記決策關：哪些輸出最終會對外可見或涉及承諾？這些需要人類審核

Lesson 3.3 會教你如何讓另一個 AI 成員自動執行格式關和事實關的驗證。

Lesson 3.3

3.3

讓 AI 監察 AI

你不需要人工審核每一份 AI 輸出。第二個 AI，給對了評估標準，可以抓到大多數品質問題——而且它比你更快、更不會漏看格式細節。

⌄

核心概念

違反直覺的洞察：你不需要人類來審核所有 AI 輸出。
第一個 AI 負責產出，第二個 AI 負責根據明確標準評估。評估者 AI 不帶有與產出者 AI 相同的「視野盲點」——它評估的是輸出，而不是嘗試生成輸出。這個分工，讓品質審核可以自動化。

讓 AI 監察 AI 的底層邏輯是：生成和評估是兩種不同的認知任務。產出者 AI 需要創造力和知識整合；評估者 AI 只需要對照清單核查。後者比前者簡單很多，也適合用更便宜、更快的模型來做。

三種實作模式

Pattern A

同任務不同版本對比

對同一個任務，用不同的溫度設定或不同的提示方式，要求同一個 AI 成員產出兩個版本。
比較兩個版本的差異：如果差異很大（關鍵事實相互矛盾），就是一個警示信號，說明這個輸出的可靠度不高；如果兩個版本高度一致，可信度就高很多。

最適用於：高風險的事實聲明，例如市場規模數字、法規條文、財務數據。

Pattern B

對照清單驗證

建立一個「品質稽查員 AI」，給它兩樣東西：品質清單 + 需要驗證的輸出。它的唯一任務是核查清單中的每一項，並輸出 PASS 或 FAIL，以及失敗的具體位置。

最適用於：格式關和基礎完整性檢查。可以完全自動化，成本極低（使用 Haiku 模型即可）。

Pattern C

反向查驗

給一個 AI 明確的指令：「嘗試找出這份報告中的錯誤或遺漏資訊。你的目標是讓這份報告不及格。」
這種「對抗性審核」比一般審核更有效，因為它強迫 AI 採取挑剔的立場，而不是默認同意。

最適用於：重要報告的事實關審核，以及需要識別潛在風險的決策文件。

品質稽查員 AI 設定範例

以下是一個可以直接複製使用的品質稽查員 AI 子代理人設定，適合作為 Pattern B 的格式關和完整性驗證：

~/.claude/agents/quality-reviewer.md YAML + Markdown

---
name: quality-reviewer
description: 品質稽查員：負責驗收其他 AI 成員的輸出。
           當你需要驗證某份 AI 輸出是否達到品質標準時，
           使用此代理人進行格式和完整性審查。
model: claude-haiku-4-5
tools: []
---

你是品質稽查員。你的唯一職責是根據以下清單，
評估輸入的文稿是否達標。

## 評估清單

□ 長度在 400–800 字之間
□ 包含至少 3 個可驗證的數據點
□ 每個數據點都有來源標注
□ 沒有「可能」「據說」等不確定用語
  （除非明確標注為推測）
□ 格式符合指定 Markdown 結構
□ 包含必要欄位：執行摘要、核心發現、待確認項目

## 輸出格式（嚴格遵守）

第一行必須是 PASS 或 FAIL，後跟冒號。

如果 PASS：
PASS: 文稿通過所有品質標準。

如果 FAIL：
FAIL: 以下項目未達標：
- [具體問題 1]（位置：[具體引用]）
- [具體問題 2]（位置：[具體引用]）

## 你的行為規範

- 只輸出判斷結果，不給建議、不改寫、不補充
- 如果清單中某項無法從文稿中判斷，標注「無法判斷：[原因]」
- 你的角色是品管，不是編輯

在工作流程中觸發品質稽查員

在 Claude Code 中，你可以在工作流程中這樣呼叫品質稽查員：

觸發指令

在研究 AI 完成後

Use the quality-reviewer to evaluate the following research report:
[貼上研究 AI 的輸出]

如果結果是 FAIL，退回給研究 AI 並附上稽查員的問題清單，要求修正。

退回指令

品管失敗時

Use the 研究 AI to revise the previous report. The quality-reviewer identified the following issues:
[貼上 FAIL 清單]

Please address each issue and resubmit.

⚠ AI 監察 AI 的限制

兩個 AI 可能共享相同的盲點——例如共同的訓練資料偏差，或對某個領域知識的系統性錯誤認知。這意味著：不要讓 AI 稽查 AI 負責決策門——只負責格式關和部分事實關。決策門永遠需要人類。此外，對於涉及台灣特定法規、地方政策的事實，AI 稽查員的可靠度會下降——這類事實需要人工交叉比對。

✎ 實作練習 · 30 分鐘

建立你的品質稽查員 AI

用以下步驟建立適合你工作流程的品質稽查員：

複製上面的設定範本：建立 ~/.claude/agents/quality-reviewer.md
客製化評估清單：把清單改成針對你最常需要驗收的 AI 成員的具體標準（參考 Lesson 3.1 的四維度品質標準）
實測：取一份你現有 AI 成員的輸出，讓品質稽查員評估。看它能抓到什麼問題
調整清單：如果稽查員漏掉了重要問題，把那個維度加入清單

目標：建立一個你可以在每次 AI 輸出後觸發的自動化品管流程，讓人工審核從「每次必做」變成「抽查 20–30%」。

Lesson 3.4

3.4

人類介入的判斷框架

AI 監察 AI 可以處理很多品質問題。但有些決定，你必須親自做。三個問題的決策樹，讓你清楚知道什麼時候該拿回主導權。

⌄

核心概念

不是所有 AI 輸出都需要人類審核——那樣你省不了多少時間。但有些輸出，如果你不親自過目，風險是真實的、後果是不可逆的。
三個問題的決策樹讓你在 30 秒內判斷：這份 AI 輸出需要人類介入嗎？

Module 1 我們學了「AI 不是工具，是員工」。員工可以做很多事，但有些事老闆必須親自處理——不是因為員工不夠好，而是因為那個決定帶著你的名字、你的責任。管理 AI 成員也是一樣的道理。

三問決策樹

Q1：這個輸出的後果是否不可逆？（一旦執行，無法撤回、修改或補救） │ ├─ 是 → 🔴 人類必須介入（HUMAN REQUIRED） │ 不要讓 AI 做最終決定。你可以讓 AI 準備所有資料， │ 但最後那個「確認執行」必須是你。 │ └─ 否 → 繼續 Q2 Q2：這個輸出是否對外可見？（客戶、合作夥伴、政府機關或公眾會看到） │ ├─ 是 → 🟡 人類審核（HUMAN REVIEW） │ 讓 AI 稽查員先過一遍，人類做最終確認再發出。 │ 不要讓 AI 直接對外發送任何帶有你名字的內容。 │ └─ 否 → 繼續 Q3 Q3：這個輸出是否涉及金錢、法律或合約承諾？（報價、付款指令、合約條款、法律意見） │ ├─ 是 → 🔴 人類必須介入（HUMAN REQUIRED） │ 財務和法律決定的責任，AI 無法代替你承擔。 │ └─ 否 → 🟢 AI 可以自主執行（AI PROCEED）這個輸出是內部的、可逆的、不涉及承諾—— 讓 AI 成員繼續，你不需要介入。

人類保留項目清單

不管 AI 做得多好，以下這些事永遠不能委派給 AI 獨立完成。AI 可以「備料」，但你必須「做決定」：

✋ 簽署任何合約 — 不管是數位簽名還是紙本。AI 可以準備草稿、標注重要條款，但你必須親自閱讀並簽署。
✋ 做出公開承諾 — 包含在 email 中承諾交期、在報告中承諾功能、在任何公開場合代表公司表態。
✋ 客戶關係修復 — 道歉、補償、解釋失誤。這些涉及情感判斷和關係管理，是 AI 最不可靠的領域。
✋ 解僱員工或終止合作 — 任何涉及終止人際關係或合作關係的決定，必須由人類來做。
✋ 財務審批超過門檻的決策 — 設定一個你自己的門檻（例如 NT$10,000），超過這個金額的任何支出決定，AI 不能獨立批准。

CEO 法則

AI 備料，人做決定。
凡是需要你用名字承擔責任的事，不能讓 AI 代你做。

這不是在限制 AI——而是在保護你的決策品質。當你讓 AI 做了一個本來應該由你做的決定，你不是省下了時間，而是承擔了一個你沒有深思熟慮過的風險。

最好的 CEO 不是自己做所有事的人；而是知道哪些事必須自己做的人。

應用範例：常見情境判斷

情境	Q1 不可逆？	Q2 對外可見？	Q3 金錢/法律？	判斷
研究 AI 產出的內部市場分析報告	否	否	否	AI 自主
文案 AI 草擬的客戶 email 初稿	否	是（發出後）	否	人類審核
分析 AI 給出的採購建議（NT$50K）	否	否	是	人類必須介入
研究 AI 草擬的競品分析供內部討論	否	否	否	AI 自主
法務 AI 草擬的合約條款（需要簽署）	是（簽後）	是	是	人類必須介入
品質稽查員對研究報告的 PASS/FAIL 判斷	否	否	否	AI 自主

✎ 實作練習 · 20 分鐘

建立你的人類介入規則

根據三問決策樹，為你自己的工作情境建立一份「人類介入規則清單」：

列出你的 AI 成員常見的輸出類型：（10 種左右，對照你實際工作流程）
對每個輸出類型跑一遍決策樹：標記為「AI 自主」「人類審核」「人類必須介入」
建立你的財務門檻：決定你的 AI 成員可以自主建議的最高金額（NT$ ____）
把規則寫進 CLAUDE.md：讓 AI 成員知道哪些輸出需要等待你的確認後才能繼續

這份清單就是你的「AI 成員授權書」——你知道每個成員可以做什麼、不能做什麼，它們也知道什麼時候需要暫停等你。

🏆

完成 Module 3：你已建立品質管控框架

你現在有四個維度評估 AI 輸出、三種 Checkpoint 類型、讓 AI 監察 AI 的實作方法，以及知道什麼時候必須是你自己來。

1

四維度品質標準：為你的 AI 成員建立了正確性、完整性、一致性、可用性的具體及格標準
2

Checkpoint 設計：為你的工作流程設計了格式關、事實關、決策關三層 Checkpoint
3

品質稽查員 AI：建立並實測了自動化品質稽查員，讓 AI 監察 AI 的格式和完整性
4

人類介入規則：完成了三問決策樹的情境分類，建立了你自己的人類保留項目清單

Module 4：即將開放 → 返回課程主頁

繼續深化你的 AI 管理能力

Module 3 讓你的 AI 成員輸出更穩定可信。明察情報服務本身就是建立在這套品質管控框架上——每份報告都經過四維度驗收才交付。

回到課程總覽查看明察情報服務

即將開放

Module 4：策略決策——哪些事你不能讓 AI 代替你決定

CEO 與 AI 的邊界在哪裡。真實世界動作（簽約、談判、關係）的人類責任設計，以及如何讓 AI 備料、人做決定的協作模式。

CEO 決策 vs AI 建議的邊界
真實世界動作的人類責任設計
AI 備料、人做決定的協作流程
策略情境下的授權框架

完成 Module 3 的學員將優先收到 Module 4 開放通知。

讓 AI 輸出，穩定可信

核心概念

四個品質維度

品質稽查清單

最常見的品質盲區

為你的 AI 成員建立四維度品質標準

核心概念

三種 Checkpoint 類型

一個完整工作流程中的 Checkpoint 設計

關鍵洞察：被跳過最多的是格式關

為你的工作流程設計三個 Checkpoint

核心概念

三種實作模式

品質稽查員 AI 設定範例

在工作流程中觸發品質稽查員

建立你的品質稽查員 AI

核心概念

三問決策樹

人類保留項目清單

CEO 法則

應用範例：常見情境判斷

建立你的人類介入規則

完成 Module 3：你已建立品質管控框架

繼續深化你的 AI 管理能力

Module 4：策略決策——哪些事你不能讓 AI 代替你決定