Evals 是 AI 產品的最高 ROI:從 Error Analysis 到 LLM Judge 的完整實戰流程
Evals 是 AI 產品的最高 ROI:從 Error Analysis 到 LLM Judge 的完整實戰流程
(摘要自 Lenny’s podcast) https://www.youtube.com/watch?v=BsWxPI9UM4c
🧠 為什麼「會做 Evals」正在變成 AI 產品的核心技能?
這場對談最鮮明的訊息是:要做出很好的 AI 產品,你得很會做 evals(評估/評測)。而且這不是「加分項」,而是高報酬、能直接改變產品成敗的工作。主持人說,兩年前他從未聽過「evals」這個詞;現在它卻成了節目最常出現的熱門主題之一——甚至連 Anthropic 與 OpenAI 的兩位 CPO 都說:evals 正成為產品打造者最重要的新技能。
更有趣的是:世界上成長最快的一些公司,本質上就是在「替 AI labs 建立、販售、提供 evals」。主持人提到他剛訪談過 CF Mercor(此處按原文保留名稱),讓他覺得「有很大的事情正在發生」。
而這集來賓 Hamel Hussein 與 Shreya Shankar,正是把 evals 從「小眾、神秘」推向「AI 產品必修技能」的重要推手。他們在 Maven 上教授 evals 課程,且是 Maven 平台排名第一的課程;已教過 2,000+ 位 PM 與工程師、橫跨 500 家公司,包含 OpenAI 與 Anthropic 團隊的大量成員,以及幾乎所有主要 AI lab。
主持人在開場直接下結論式推薦:這集是他聽過最深、但也最容易懂的 evals 入門,甚至讓他在「明明沒有產品要寫 eval」的情況下,也被激起「好想去寫 eval」的興奮感。
📌 Evals 到底是什麼?不是只有「單元測試」那麼窄
對談一開始就把「什麼是 eval」講得很落地。
1) Hamel 的定義:系統化衡量與改進 AI 應用
Hamel 說,evals 是一種系統化(systematically)衡量與改善 AI 應用的方法。它不需要很可怕,本質上就是把 LLM 應用當成一個系統,做資料分析、在必要時建立指標(metrics),讓你能迭代、做實驗、改進。
2) 更具體的直覺:從「猜」走向「有回饋訊號」
他舉例:你做了一個「房地產助理」應用,可能會遇到:
- email 寫得不像你想要的風格
- 工具(tool)呼叫錯誤
- 或各種不可預期的錯誤
沒有 evals 的時候,你只能:
- 改 prompt,然後「希望不要把別的地方弄壞」
- 靠 vibe checks(憑感覺檢查)——一開始可以,但產品變大很快就失控
evals 的價值在於:它給你一個可依循的回饋訊號,讓你能更有信心地改善產品,而不是靠猜。
3) 主持人提的比喻:Evals 是不是像 Unit Tests?
主持人把 evals 想像成「LLM 的單元測試」。Shreya 的回應很關鍵:這個比喻不完全錯,但太小了。
她說 evals 是個很大的光譜:
- 單元測試只是其中一小部分:用於檢查一些「不可妥協」的功能
- 但 AI 助理常常處理開放式任務,你也得評估更模糊的面向,例如:
- 面對全新型態的使用者需求
- 新進來的使用者族群(distribution shift / 新 cohort)
- 長期追蹤使用者回饋(例如 thumbs up、互動等)
- 定期看資料找出新問題
結論是:unit tests 是 evals 的一部分,但 evals 不等於 unit tests。
🧪 「Show, not tell」:他們用真實產品資料示範 Evals 的起點
這集很重要的特色是:不是抽象講概念,而是直接看產品 logs。
1) 案例公司:Nurture Boss(物業管理 AI 助理)
Hamel 展示他合作過的公司 Nurture Boss,這是一個服務「公寓物業管理者」的 AI 助理,處理:
- inbound leads(來客線索)
- customer service(客服)
- booking appointments(預約)
- 多通道互動:chat / text / voice
- 大量 tool calls(訂房、查空房等)
- RAG retrieval(取回住戶、房源資訊)
Hamel 強調它很適合當教學案例,因為它包含「現代 AI 應用」的典型複雜度。他也提到資料已做匿名化(例如公寓名改成 Acme Apartments),並感謝對方允許他用作教學。
2) 觀測工具(Observability)與 Trace:你要先能「看見」系統在做什麼
Hamel 在一個觀測工具裡載入 logs(他用的是 Braintrust,但他強調工具不重要,也提到:
- Phoenix Arize(他們與主持人合作的部落格文章版本用它;主持人提 Amon 的文章也用 Phoenix Arize)
- LangSmith 這些都是可用的選項。
畫面上展示一筆互動的trace:一連串事件的記錄(工程術語)。他說 trace 的概念很久以前就有,但對 AI 應用特別重要,因為系統由多個元件、工具、檢索等組成。
例 1:真實 system prompt
他展示 system prompt(主持人驚訝這通常是公司「皇冠上的寶石」),內容包括:
- 你是 Acme Apartments 的 leasing team AI 助理
- 主要回覆文字訊息
- 目標是提供準確、有幫助的資訊
- 還包含 tour scheduling、applications、不同 persona 的說話方式等各種指引
例 2:使用者問一房帶書房,AI 回覆不理想
使用者:「有沒有一房帶 study?我在 virtual tours 上看到」 LLM:
- 呼叫工具查個人資訊(get individuals information)
- 查社區空房(availability) AI 回覆:「有幾個一房,但沒有特別列出有 study 的。這裡幾個選項…」 使用者追問:「有帶 study 的什麼時候有?」 AI 回:「我目前沒有關於帶 study 一房的具體可用資訊。」 使用者:「謝謝」 AI:「不客氣,有問題再問。」
Hamel 問主持人:以 lead management 產品來說,這樣好嗎?主持人說「不理想」。Hamel 補充:很多人會以為 AI「誠實」說不知道就是對,但產品角度應該要「轉接人工」或做更積極的引導。因此在此筆 trace 的 note 寫:「should have handed off to a human」。
📝 第一個關鍵步驟:Error Analysis(錯誤分析)= Open Coding(開放式編碼)
這段是整集的核心:他們強調多數人一開始就犯錯——直接跳去寫測試。
1) 為什麼不能直接「寫 tests」?
Hamel 說,常見陷阱是「立刻寫 tests」,但對 LLM 應用通常不是最好的起點,因為:
- LLM 系統的行為更「stochastic(隨機)」、表面積更大
- 你需要先用資料去「落地」:到底哪裡壞、最常壞在哪
因此應先做 error analysis:抽樣看資料、逐筆記筆記。
2) Open coding 怎麼做?原則:只寫「最上游、第一個看到的錯」
Hamel 說做法其實很「chill」:
- 先抽樣,不用看完所有 logs
- 用產品帽(product hat)看每筆 trace
- 只寫下你第一個看到的錯(最 upstream 的錯)就停,繼續下一筆
- 一開始前幾筆可能痛苦,但很快會越做越快
- 每個 observability 工具基本都能寫 notes
他甚至說:「每個人做了都會上癮。」因為能在很短時間內學到產品真相。
3) Open coding 的示範:各種「真實世界的亂」
他連續展示不同類型的錯誤,呈現「錯誤的多樣性」:
例 3:文字訊息被切碎,對話流程很卡
使用者的訊息被拆成短片段、甚至斷字,AI 不知如何回應。Hamel 說這比較像技術問題(channel 的特性),可寫 note:conversation flow is janky because of text message(他用 “janky” 形容很口語,主持人也注意到這個「很不正式但可行」的風格)。
例 4:AI 幻覺:說提供 virtual tour,但實際沒有
使用者問兩到三房、是否有 virtual tour。AI 回覆不只給房型價格,還說「我們提供 virtual tours」。但實情是:根本沒有 virtual tour。因此要記錄:hallucinating something that doesn’t exist。
🤖 常見誤解破解:能不能叫 AI 直接幫你做 error analysis?
主持人問:能不能讓 LLM 取代人工看 trace?
Shreya 的回答非常直白:在 free form note-taking(自由筆記)這一步,不是 LLM 擅長的地方。原因是:
- LLM 很可能會說「這 trace 看起來很好」
- 它缺乏產品語境:例如 virtual tour 那例子,LLM 很可能判斷「回答得很好」,但人知道功能根本不存在
她也澄清:未來或現在有些部分可以用 LLM 輔助,但至少此刻,open coding 這步不該交給 LLM。
👑 「仁慈的獨裁者」:避免委員會把流程搞到做不下去
這是訪談中一個非常有記憶點的概念(主持人說他很喜歡):benevolent dictator(仁慈的獨裁者)。
Hamel 解釋:許多團隊在 open coding 會陷入「大家一起討論、開會、共識決」的泥沼;但很多情境下這是完全沒必要的。你需要的是:
- 指定一個你信任品味(taste)的人
- 讓流程保持可負擔、可持續
- 不然成本太高,最後乾脆不做,等於輸掉
誰適合當這個人?
- **domain expert(領域專家)**一定要是
- 法律 → 法務/律師
- 心理健康 → 精神科醫師等專家
- 這個公寓租賃案例 → 了解 leasing 業務的人
- 很多時候也會是 產品經理(PM)
主持人補一句:這個人可能覺得不公平(怎麼我變獨裁者),但「是仁慈的」,重點是快速前進、不是追求完美。
🔎 做多少筆才夠?100 筆、理論飽和(theoretical saturation)
對於「要看多少筆 trace?」他們給了兩層答案。
1) 操作上:先做 100 筆,讓你心理不卡住
Hamel 說他們建議至少 100 筆,不是因為 100 是神奇數字,而是:
- 做到 20 筆時,你通常已經覺得超有用、會想繼續
- 說「100」能讓人心理上解除「無止盡」的恐懼:你知道先做完這一段就好
2) 理論上:做到「你不再學到新東西」
Shreya 補上學術術語:theoretical saturation(理論飽和),意思是:
- 當你再看下去已經不會產生新類型的 notes/概念
- 或不會實質改變你下一步要做什麼
- 初學者還沒直覺很正常,做幾輪就會建立感覺,有人可能 40、60、甚至 15 筆就飽和,取決於產品與你的熟練度
🧩 從 Open codes 到 Axial codes:開始用 AI 做「整理與歸類」
當你累積了很多 open code(自由筆記),下一步是把混亂變成可行動的結構。
1) Axial codes 是什麼?= failure modes 的分類標籤
Shreya 解釋得很清楚:
- open codes 不是 100 個獨立問題,很多只是同一類問題的不同說法
- 你不該在 open coding 當下硬建 taxonomy(分類法)
- axial code 可以理解成「失敗模式(failure mode)」的類別標籤
- 目標是把問題聚成「少數幾類」,找出最常見/最重要的,才能去攻擊它
2) 這一步可以用 LLM 幫忙,但要人放在迴圈裡
Hamel 示範把 notes 匯出成 CSV,丟到 AI 工具做分析。他提到他在錄節目前用三種 AI 工具做過分類:
- Claude(他展示 Claude 解析 CSV,產生分類)
- ChatGPT(同樣 prompt 可用)
- Julius AI(他喜歡用,因為它走 notebook / Jupyter 的資料科學風格)
他還提到一個細節:他在 prompt 裡直接用「open codes」「axial codes」這些術語,因為這些概念源自社會科學、存在很久,LLM 知道這些詞,能幫你快速對齊任務。
Claude 產出一批分類(例如 capability limitations、misrepresentation、process/protocol violations、human handoff issues、communication quality 等)。但 Hamel 說:
- 有些太泛(例如 capability limitations 太不 actionable)
- 需要人介入改名、改成更可執行的分類
📊 最樸素也最強:Count(計數)+ Pivot table,把「混亂」變成「優先級」
他們強調一個近乎「反直覺但很真」的觀點:最強的分析技巧常常就是基本計數。
流程是:
- 把你喜歡的 axial codes 整理成清單(Hamel 甚至示範用 Excel 公式把 codes 拉成逗號分隔)
- 用試算表的 AI 功能(他用 Gemini in Sheets)把每個 open note 自動歸類到某個 axial code
- 重要細節:open code 要寫得夠具體
- 你不能只寫「janky」,不然 AI(甚至人)都不知道你在說哪種 janky
- 設一個「none of the above」類別(Shreya 建議),用來偵測分類不完備,反過來提醒你補新類別或改寫類別
- 做 pivot table 計數各類出現頻率
結果(在他們示範的資料中):
- conversational flow issues 出現 17 次 Hamel 說 pivot table 很好用,還可以 double click 追到該類的所有原始資料。
但他也提醒:頻次不一定等於優先級。有些低頻問題可能風險更高、更該先修。
他也指出:不是每個問題都需要做 eval。像 formatting error 可能只是 prompt 沒寫清楚,直接修 prompt 就好;甚至某些檢查可以用純 code(不用 LLM)完成,因為成本更低。
🧑⚖️ 兩種「自動評估器」:Code-based vs LLM-as-a-Judge
這裡他們把「自動化評估」拆得很清楚。
1) Code-based evaluator:能用程式判斷就用程式
Shreya 說,與其糾結「eval 是否等於某種形式」,你可以把它想成:automated evaluator(自動評估器)。
適合用 code 的例子:
- 輸出是否為 JSON
- 是否符合 Markdown
- 長度是否太長/太短
- 格式是否符合規範
這些都可用 Python function 或規則近似判斷,成本低、穩定。
2) LLM-as-a-Judge:針對「難以用 code 表達」的狹窄問題
對於更主觀、更語境化的 failure mode,就用 LLM 當裁判,但要注意兩個原則:
- 範圍要小:一次只判斷一個 failure mode(例如「handoff 是否該發生」)
- 輸出要二元:pass/fail、true/false
他們非常反對 1 ~ 5、1 ~ 7 這類 Likert scale,因為: - 很容易變成「不做決策的逃避」
- 報表上 3.2 vs 3.7 沒人知道代表什麼
- 也容易導致大家對 eval 失去信任
Shreya 補強:LLM judge 沒你想的那麼難,因為 judge 只做一件事、輸出也是二元,它可以非常可靠。它不只可放在 CI/unit tests,也可用於線上監控(production monitoring):每天抽樣 1000 筆 trace 去跑 judge,看失敗率。
✅ LLM Judge 不是寫完就算:一定要做「對齊人類標註」與錯誤矩陣
這段是他們在「人們為什麼會被 evals 燒傷」上給出的關鍵解方。
1) Hamel 的 handoff judge prompt
他展示一個 handoff 的 judge prompt(他說可用 LLM 協助生成,但人要審、要改)。這個 prompt 指示 judge 輸出 true/false,並列出何時應 handoff,例如:
- 使用者明確要求人工
- 使用者被忽略或陷入 loop
- 政策要求轉接
- 敏感住戶議題
- 工具資料不可用
- 當天 walk-in 或 tour 的需求等
2) 最大地雷:把 judge 當福音,直接上線
Hamel 警告:很多人寫好 judge 就「信了」,覺得 judge 說錯就是錯。這會讓 eval 與現實不匹配,最後團隊失去信任,「反 eval」就誕生了。
所以你必須做:judge alignment(對齊)
方法是:把 judge 的判斷和人類(你在 axial coding 時的標註)比對。
3) 別只看「agreement 百分比」:那會騙人
Hamel 說只看 agreement 很危險,因為錯誤常在長尾。假設某錯誤只占 10%,judge 若永遠判定「pass」,也能有 90% agreement——看似很高但完全沒用。
正確做法:看混淆矩陣(confusion matrix),關注:
- human=false、judge=true(誤報)
- human=true、judge=false(漏報) 也就是矩陣裡非對角線的錯誤格子。如果有人只拿「75% agreement」就說 OK,卻沒有矩陣、也沒迭代 prompt 去降低誤差,這就是「bad smell」。
🧾 「Evals 是新的 PRD?」——他們的回答是:像,但更動態、來自真實資料
主持人提出很有力的觀察:這個 judge prompt 看起來像 PRD(產品需求文件):
- 明確列出行為要求
- 可自動、持續運行
- 甚至像「產品應該如何回應」的可執行規格
Hamel 同意,但 Shreya 加了一個更深的點:你從資料中會發現你原本想不到的需求。也就是說:
- 不要在看資料前就把「期望」全寫死
- 因為你根本不知道 failure modes 會長什麼樣
- 你會不斷修正「什麼叫好」
這也呼應 Shreya 的研究。
📄 研究支撐:Shreya 的論文《Who Validates the Validators》
Hamel 特別把一份研究報告拿出來介紹:由 Shreya 與合作者撰寫的 《Who Validates the Validators》(他稱「你想懂 evals 最酷的研究之一」)。
Shreya 解釋他們在 2023 年底做的 user study:讓開發者嘗試寫 LLM judges 或驗證輸出。關鍵發現是 criteria drift(評判標準漂移):
- 你無法一開始就把 rubric(評分規則)完全定義好
- 專家看了 10 個輸出才想到新 failure mode
- 「什麼是好/壞」會隨著你看更多資料而改變
這就是為什麼這波 AI 開發「特別難」:不是因為 ML/AI 新,而是因為輸出空間與需求理解是動態演化的。
🧰 Evals 做到哪一步算「落地」?Unit tests + 線上監控 + Dashboard
他們描述「接下來怎麼用」的方式很實務:
- 把 LLM judge 放進 unit tests/CI:每次 code 變更都跑,確保以前看過的失敗案例不再復發
- 做 production monitoring:每天抽樣跑 judge,追蹤 failure rate
- 建 dashboard:把特定 failure mode 的表現長期可視化
Hamel 補一句很現實的觀察:很多公司其實做得很系統,但不太公開談,因為這是護城河(moat)。如果你是 email writing assistant,這套「如何把品質做得更好」的方法論與資料資產,本來就不想讓競爭者輕易複製。
⚔️ 為什麼 Evals 這麼有爭議?他們認為是兩大原因
主持人提到他在 X(Twitter)看到很多「drama」,有人說不要做 evals、有人說只靠 vibe 就好。
Shreya 的觀點很「和解」:其實大家不一定站在對立面,更多是因為:
1) 每個人對「evals」的定義太狹窄、彼此雞同鴨講
有人以為 evals 只等於 unit tests;有人以為只等於 LLM judge;有人以為不含產品指標/監控。定義不同就會吵。
2) 很多人曾被「做得很爛的 evals」燒傷
典型燒傷方式:
- 用 Likert scale judge
- 沒做對齊與混淆矩陣
- 後來發現 judge 跟人類期望差很大 → 從此不信 evals → 變成反 evals
Shreya 說她完全同理,而且她也「反 Likert scale LLM judge」。
🧑💻 「Claude Code 說他們不做 eval,只看 vibes」——他們怎麼回應?
主持人把爭議拉到具體事件:有人(主持人說可能是 Claude Code head engineer)上 podcast 說「我們不做 eval,我們只 vibe」。那 evals 真的必要嗎?
Shreya 的回應有兩層:
-
Claude Code 站在很多 eval 的肩膀上
因為 Claude 的(微調後的)模型本身就是在多種 coding benchmarks 上被大量評測過,這些評測結果也公開可見。不能否認背後有 eval 系統。 -
他們很可能在做「隱形的 eval」
就算不用「eval」這個詞,他們也可能在做:
- 使用者與互動指標的監控(多少人用、對話多長等)
- 內部 dogfooding
- 有問題就進 queue、回饋給負責人
這些本質上也是 error analysis 與評估。
Hamel 補充一個重要差異:coding agent 的情境很特殊,因為:
- 開發者本身就是 domain expert
- 會整天使用(強 dogfooding)
- 能「看見輸出的 code」快速判斷好壞
所以它的 eval 流程可以更短路;但別把這種情境推廣到醫療、法律等領域(醫生不會容忍「AI 給錯建議」來幫你 dogfood)。
🧪 「AB testing vs evals」是稻草人之爭:AB test 也是 eval 的一種
他們認為「AB tests vs evals」本身就是混淆。
- AB test 需要指標(metric)來比較,而指標本質上就是 eval
- 他們對 evals 的定義是:系統化衡量品質,所以 AB test 當然在其中
但 Shreya 提醒:很多人過早做 AB test,基於「想像中的需求」下假設,而不是先做 error analysis。真正好的方式是:
- 先從資料裡找出真實 failure modes(像 text message 斷字、handoff 的怪問題)
- 再用它來形成假設與 AB test
否則 AB test 可能在測一堆不重要或方向錯的東西。
🏢 主持人追問:OpenAI 收購 Statsig(A/B 工具)代表什麼?
主持人問 Statsig 被 OpenAI 收購是否意味著 AB test 更重要。Hamel 說他不掌握內情,只推測可能有策略性;但他更想強調的是:
- labs 一直都有做 evals(foundation model 的 MMLU、HumanEval 等)
- OpenAI 甚至會回頭分析 Twitter 情緒、Reddit 貼文抱怨,試著把外部訊號拉回產品改善
- 希望未來 labs 能更重視「產品特定(product-specific)」的 eval,而不是只看通用 benchmark(因為 handoff 這種問題跟數學解題分數不相關)
- 很多 labs 的 eval 產品還停在「cosine similarity、hallucination score」這種泛用工具,長期來看不夠,需要更多資料科學式的 error analysis 流程
Shreya 甚至半開玩笑說:「我們不該是地球上唯二在推這種結構化方法的人,太荒謬了。」
❌ 最常見的三個誤解(Misconceptions)
Hamel 提了最常見的兩個:
-
「買個工具插上去,AI 會自己幫我 eval」
他說這是最大誤解:大家太想要這件事,所以市場上也有人賣,但「不 work」。 -
不看資料
他說他做顧問時,客戶常帶著問題來,但一問「我們看 trace 吧」對方會愣住。只要真的去看 trace,100% 都會學到很多,也常常直接找到問題。
他補充第 3 點:eval 沒有唯一正解;錯的方法很多,但對的方法也不只一種。你得看產品階段、資源、脈絡來設計做法;但無論如何「某種形式的 error analysis」幾乎不可或缺。
✅ 兩個最重要的實作建議:目標是改善產品,不是把 eval 做得漂亮
Shreya 的建議聚焦在心法:
- 不要怕自己做得不完美:eval 的目標不是完美,而是「能採取行動地改善產品」
- 在整個過程中善用 LLM:用來整理想法、改善 PRD、把 open codes 回寫成更好的需求文件
但重點是:別用 AI 取代你自己(仍然要人放在迴圈裡)
Hamel 的建議更偏工具化:
- 既然「看資料」是最高 ROI,就應該用 AI 協助你把「看資料的摩擦」降到最低
他展示 Nurture Boss 自己做的內部工具介面截圖,包含:- voice/email/text 分 tab
- thread 列表
- system prompt 預設隱藏(提升可讀性)
- axial coding 的錯誤計數可視化(紅色顯示數量) 他說這些介面幾小時內就能做出來(在 AI 幫忙下更容易),而且「one size fits all」很難,所以乾脆自己做最貼合需求的工具。
⏱️ 這會花多久?一週入門、之後每週半小時
主持人問最現實的問題:第一次要花多久?
Shreya 給出她的節奏:
- 初期:3 ~ 4 天,做多輪 error analysis、大量標註,直到能做出像 Hamel 那個試算表,並產出一些 LLM judge evaluators
- 後續:把流程接進測試、寫腳本、設 cron job 每週跑
維護時間可能只要:每週 30 分鐘
她也坦承自己很「data hungry」,常花更多時間是因為好奇,但不是必須。
🎉 這流程其實「很好玩」:產品帽的快樂與殘酷
Hamel 分享他前一天看客戶資料的故事:那是一個自動寄 recruiting emails 的應用。他們一打開 trace,看到信件開頭「Given your background, …」他立刻說:
- 「我討厭這種 email,我看到 Given your background 就刪掉」
- 客戶一開始還覺得 AI 已經把名字、連結、資訊放對了,很「對」
- 但從產品角度看,這是「很泛、像罐頭」的感覺
他用這故事強調:error analysis 的樂趣來自你用產品品味去挑戰「看似正確」的輸出。
🎓 他們的 Maven 課程教什麼?有哪些「福利」?
主持人說這集只是表面,請他們介紹課程。
1) 課程內容(syllabus)
Shreya 說課程涵蓋:
- error analysis 全生命週期
- automated evaluators
- 如何建立「改善飛輪(flywheel)」把 eval 變成持續改進系統
- special topics:如何為 error analysis 自己做介面(他們會 live code)
- 成本優化:當你的 eval 與產品都很強但太貴,如何用較便宜模型(她舉例:把昂貴的 GPT-5 類模型部分替換成 5 nano、4 mini 等)降低成本、維持品質
2) 課程福利(perks)
Hamel 說他最喜歡的福利是:
- 一本 160 頁、寫得非常仔細的書(book),把整個 eval 流程完整記錄,學生不用狂抄筆記
- 他們做了一個像 LennyBot 的「課程專用 bot」
- 用的是和 LennyBot.com 相同的軟體
- 把他們「所有談過 evals 的內容」灌進去:每堂課、office hours、discord chat、公開文章、論文等
- 並給學生 10 個月免費、無限制使用
- 另有一個非常活躍的 discord:所有歷屆學生都在,活躍到他說「我坐飛機度假也一直跳通知」,苦樂參半
主持人還建議他們用 Delphi 的 voice mode 訓練 bot(他說那是他最愛的功能之一,且「11 labs powered」),並說既然這集 podcast 產出,也可以拿來訓練。
💡 這場訪談真正的主張(把所有細節串成一句話)
他們整套方法,其實不是在宣傳某個工具或某種神秘工程,而是在把「AI 產品開發」拉回一個可重複的基本功流程:
- 先看 trace(觀測)
- 做 open coding(人工、領域專家、仁慈獨裁者)
- 用 LLM 做 axial coding(整理、不是取代判斷)
- 用最基本的 count/pivot table 找出優先級
- 能用 code 寫 evaluator 就別用 LLM
- 必要時做 LLM-as-judge,但一定要二元輸出、做對齊與混淆矩陣
- 把 evaluator 放進 CI 與線上監控,形成改善飛輪
- 別追求完美 eval,追求可行動的產品改善
而所有爭議(vibes vs evals、AB tests vs evals)在他們眼中,多半是定義誤會或做壞了被燒傷。真正成熟的團隊,無論叫不叫 evals,終究都在做某種形式的系統化品質衡量——只是差別在於:你做得有沒有方法、能不能規模化、能不能被信任。