Dec 26, 2025

楊植麟的「無限雪山」：Kimi 創辦人談 RL 轉向、Agent 泛化與 AI 時代的組織哲學

本文為閱讀月之暗面（Moonshot AI）創辦人兼 CEO 楊植麟長篇訪談的摘要整理。

這段訪談像是在記錄一支大模型團隊「沿著一座未知雪山持續攀登」的兩年：一方面，模型能力以近乎加速的速度演進；另一方面，每解決一批問題，就會展開更難、更抽象的新問題。

訪談背景：一年後再對話，雪山仍在，但路更清楚了

這次訪談是張小珺再次對話 Kimi（「月之暗面 / Moonshot AI」）創辦人兼 CEO 楊植麟。一年前（2024）的報導標題是〈向延綿而未知的雪山前進〉；一年後來到 2025 年 7 月，楊植麟的第一個感受是：「好像過了很久」——因為「AI 一天，人間一年」，AI 的一年在人間究竟折合多少時間已難以衡量。

他說，雪山的感覺仍然相似：仍在往山頂走，仍會看見大量未知。但不同的是：又解鎖了新場景，對「中間這條路」更清楚了。

他用模型能力的跨越做對比：兩年前模型連「寫一篇文章」都寫不明白；而現在模型不僅能寫好文章，還能連續工作幾個小時，完成複雜的端到端工程任務（例如處理程式碼、調試、修 bug、讓專案跑起來）。這些在兩年前很難想像。

「問題不可避免，但問題可以解決」：無限雪山的世界觀

楊植麟引用並反覆提到一本書 《The Beginning of Infinity》（無限的開始）。他說書裡有兩句話「要刻在石頭上」：

問題是不可避免的
問題是可以解決的

他用啟蒙運動前後的人類社會作比喻：啟蒙運動之前，社會更像靜態系統，人們用「雷公打雷」「神不高興所以下雪」這類解釋來描述現象，真正做科學研究和知識創造的人很少；啟蒙運動之後，社會變成動態系統：新知識被創造 → 解決一個問題 → 產生新的問題。新問題的出現不是壞事，而是因為知識邊界在擴張。

他把 AI 研發也視為同一種動態：例如強化學習（RL）讓一些問題得到答案，但又帶來評估、衡量、驗證等新難題。於是整個攀登過程像「每解決一題，就再上升幾百公尺」。

他甚至提出一個更激進也更浪漫的想像：雪山可能沒有盡頭。而他希望它沒有盡頭，因為那才符合「無限的開始」：永遠有新問題、永遠能解、永遠能再往上爬。

更關鍵的是：到某個階段，「不一定是自己在爬」，而是開始用 AI 來爬山。他提到團隊已用 K2 模型做許多模型訓練、資料處理、分析甚至部分訓練相關工作——以前要人工寫程式、或不會寫程式的人做不了的事，現在可以讓模型來做。AI 成為放大器（lever / amplifier），讓攀登速度提升。

AGI 不像登月：不是「到那一刻就達成」，而是方向

張小珺追問：過去人們把「中點」固化為 AGI，今天中點還是 AGI 嗎？

楊植麟的回答是：AGI 更像方向，不像某一級台階。登月是「腳踩到月球那一刻」就能宣告成功；但 AGI 很難存在某個明確時刻，讓你喊口號說「此時此刻之前是 pre-AGI，之後是 AGI」。因為：

技術能力是連續提升的：很多領域模型已可能比 99% 的人做得好（例如某些數學題、程式競賽題在提升速度下很快會被充分解決）。
影響社會的周期更長：即便技術突破，社會結構吸收這種新技術（像蒸汽機帶來的工作重組與新職業）可能需要幾十到幾百年。這種「社會消化期」也可視為 AGI 敘事的一部分。

他眼中的「過去一年大模型最重要變化」：推理、Agent 與 test-time scaling

楊植麟回顧過去一年（全球範圍）最重要的幾件事時，提出三個核心趨勢。

強思考推理模型：以 OpenAI o1 為代表

他認為 o1 類「強思考 + RL」代表一種重要範式：讓模型在解題時做大量嘗試與反思。

他把「反思」拆成兩種能力：

提出新猜想：解題過程中不停生成候選解法
自我驗證：判斷猜想對不對（即便不是顯式訓練一個 verifier，也可能在推理過程中隱式發生）

透過「猜想—驗證—再猜想—再驗證」的循環，模型等於嘗試很多次，將原本的 pass@k（多次抽樣才有機會對）逼近 pass@1（一次就對）。他也說這像科研與解題：不是線性流水帳，而是自由探索、反覆推翻與逼近。

同時他提到串行（serial）與並行（parallel）採樣策略：可以並行抽多個解，也可以串行地逐步修正；一些研究甚至指出串行上限可能更高，這與他們實驗觀察相關。

他用一個鮮明比喻形容這類推理模式： 「想像一個魚缸，然後你把一個腦子放在裡面。」 也就是「缸中之腦」：模型在不與外界交互的情境下，靠純內部思考就把題解出來。

多輪 Agent 強化學習：從「缸中之腦」走向「與世界交互」

另一條同樣重要的路，是更 agentic 的模型：它在解題時會與外界多輪互動，例如：

呼叫搜尋
使用瀏覽器
寫一段程式、跑測試、讀回輸出
不斷根據環境回饋更新下一步行動

也就是：下一步行為取決於外界回饋帶來的新狀態。這使模型不再是封閉腦，而是「在世界裡做事」。

兩條路共同指向：test-time scaling

他把上述兩類（強思考推理、以及多輪 Agent）統一到一個更底層的概念：test-time scaling——在推理/測試時，把 token 與步數規模化。

推理模型：每一輪用更多「思考 token」
Agent：用更多「輪次」與更多「工具操作 token」

代價是完成時間變長，但換來的是能做更複雜、端到端的工作。他舉例：模型可以花幾個小時自主完成一個大型工程任務——把 repo clone 下來、翻譯成另一種語言、調試測試、修完所有 bug、跑通系統——過程中不需要人工介入。

「一方產品」趨勢：腳手架逆向工程 vs 垂直整合正向訓練

楊植麟觀察到另一個趨勢：越來越多模型公司開始做一方（first-party）產品，也就是「模型原廠自己做 Agent 產品」。

他對比了兩種路線：

非原廠產品：腳手架 + 逆向工程模型分佈

過去很多產品基於基礎模型，外加工具、提示詞、context engineering、workflow 等「腳手架」來搭產品。這本質上像在做逆向工程：猜「怎樣用工具、怎樣寫 system prompt、怎樣做 context」能更接近模型訓練分佈，使效果更好。

原廠一方產品：工具/環境先設計好，再在該環境端到端訓練模型

如果模型公司自己做產品，邏輯就不同：可以先把工具與環境設計好，直接在這個環境裡端到端訓練模型，使模型「天生適配」這套工具與產品形態。上限可能更高，因為工具設計與模型訓練互相迭代：模型哪裡不行，就改工具；工具改了，又回到訓練端到端提升。

張小珺提到像 Claude Code、ChatGPT Agent 這類就是一方產品趨勢。楊植麟也補充：Moonshot 現階段投入仍以「模型主線」為主，但一方產品的趨勢很大，未來兩者邊界如何劃分仍在演化。

L1 到 L5：不是嚴格線性，而是能力互相回饋

談到某些體系把能力分成 L1（聊天）到 L5（更高階能力，例如創新者、組織者），張小珺問：為何 Chatbot/Reasoner 之後才是 Agent？又為何後面是 Innovation 與 Organization？

楊植麟的核心觀點是：它們不是嚴格線性的依賴鏈。

Agent 的上限確實受推理能力影響：要做最複雜的 agent 任務，終究要很強 reasoning。
但研發順序上，不一定非得先把狹義推理（例如長鏈思考）做到極致才能做 agent；也可能先把 agent 做好，再補推理。他以 Claude 路線做例：某些模型推理分數未必最高，但 agent 表現可能很強，代表它們押注在不同 test-time scaling 維度（多輪交互 vs 純內部思考）。

接著他解釋「Innovation」的關鍵：模型什麼時候能參與模型研發本身——例如希望 K2 參與 K3 的研發。要做到提出想法、設計實驗、分析結果、迭代方案、甚至優化 infra 性能，模型需要強 agentic 能力。

而「Organization」更像 multi-agent 系統：一個 agent 拆成多個 agent 分工（寫測試、寫文件、設計架構等），串並行運作再合併。挑戰在於 multi-agent 如何端到端訓練、以及不要過度過擬合某幾種 agent 類型以保持泛化。

他也明確否定「organization 是封頂」：推理的上限在哪、agent 的上限在哪，今天都不好說；更像永遠可提升的刻度。

Moonshot 24→25 的關鍵決策：從 SFT 轉向 RL、從對話轉向 Agent

張小珺請他復盤 2024 到 2025 這一年 Moonshot 的關鍵決策。楊植麟指出兩個最重要的方向性轉變：

研發重心從「預訓練 + SFT」轉向「預訓練 + 強化學習（RL）」 這不只是方法換了，還涉及人才儲備、研發流程、基建改造。
產品與能力路線從「對話」轉向「Agent」 這會深刻影響日常工作方式與訓練策略。

K1.5 與 K2：一個驗證 RL 路線，一個追求更好的 Base Model 與泛化 Agent

談到產品節點，張小珺問 K1.5 與 K2 對 Kimi 的意義。

K1.5：強化學習技術驗證與基建積累

楊植麟說 K1.5 更像 RL 路線的驗證：他們較早投入 RL，並得到一些關鍵結論與 know-how，包括發現：

不一定需要太多 process reward
不一定需要 value function
某些訓練設計可能有副作用
反而可以用更端到端的 reward 把訓練做得很好

過程中他們也積累了 RL 基建與算法 know-how。

K2：追求「非常好的 base model」與更好的 agentic 能力

K2 的目標包含兩條主線：

1) 更好的 Base Model：面對「資料牆」，追求 token efficiency

他指出預訓練的瓶頸在於高品質資料增長緩慢；多模態資料未必能提升「文本智商」。高品質 token 近似常數，因此他們的策略是：讓每一份 token 產生更大價值（token efficiency）。

他特別區分：

compute / training efficiency（訓得更快）：有價值，但不提高智能上限，只是更快完成同樣訓練
token efficiency（學得更有效）：在 token 受限時能抬高效果上限

為提高 token efficiency，他提到幾個具體做法：

新型優化器 Muon：相對於十年來主流 Adam，Muon 能更好利用參數結構（不是把矩陣每個元素當獨立量），因此學習效率更好。他舉早期實驗直覺：在 compute optimal 情況下可達到近似 2 倍提升——「學一份數據 ≈ 別人（用 Adam）學兩份」；如果你有 30T 高品質 token，等價於 60T 的學習效果。
對高品質資料做改寫（rephrase）：因為高品質資料在總量中占比更少，如果同一份資料反覆學容易過擬合、泛化不佳，所以希望用改寫帶來分布上的變化以提升泛化。

2) 更好的 Agentic 能力：最大的挑戰是泛化

楊植麟指出 agent 訓練最大的痛點之一是：泛化。目前很多 RL 訓練與評測都偏「單點」：

訓練任務是單點（例如只訓練某個 benchmark）
評價指標也是單點（例如分數提升）

但「分數上去」不等於「泛化更好」。他們嘗試避免模型過擬合到某些工具、環境、任務。尤其在 Agent 訓練裡，泛化比對話模型更難。

他認為 評估（evaluation）仍是瓶頸，也是阻礙 agent 泛化的重要原因：agent benchmark 不多，而且很多分數並不全面反映真實能力。

什麼是 Agent：多輪 + 工具；泛化決定天花板

楊植麟給出一個相當工程化的 agent 定義：核心特徵是兩個——

多輪（multi-turn）：能做很多步，這也是一種 test-time scaling
工具（tools）：連接模型與外部世界
- 搜尋把模型接上互聯網
- 代碼把模型接上數字世界的自動化能力

他預期未來工具呈長尾分布：若泛化做得好，模型不只會用常見工具，也能用個性化工具（公司內部資料庫、私人文檔接口、定制 API）完成業務操作。因此他認為：agent 最缺的是對「沒見過的工具」的泛化能力。若泛化足夠強，很多垂直 agent 不一定需要「重新造一個模型」，而是「給通用 agent 接上不同工具」就能垂直化。

他也補充一個重要澄清：agent 的目的不是「模擬人」，而是追求通用（general purpose）。人類也很通用，但相似只是結果，不是設計目的。他用比喻說：飛機不是為了像鳥，而是為了交通。

長上下文與多模態：要更長、更聰明，且不能互相傷害

張小珺問 long context / long-term memory 是否重要。楊植麟說非常重要，因為許多任務 128k/256k context 不夠，可能需要百萬級甚至更長；但同時「腦子要好用」——長不等於聰明，且高智商下做超長上下文本身就是巨大訓練挑戰。

他指出這裡存在天然衝突：

要高壓縮率（往往需要更大模型、更好學習）
又要更長上下文

不同架構會有權衡：有些架構長上下文更好，但短上下文可能下降。

多模態也一樣：他說「多模態只要不損傷文本智商就已經很好」，但更理想的是：多模態要能借用同一個腦子，在多模態模式下也能激發文本智商，而不是「另開一套腦」。他甚至用 MoE 打比方：不希望某些 experts 專門做多模態而導致「多模態很傻」，他們想要的是「聰明的多模態」。

開源與閉源：Base model 仍偏原廠改進，下游 specialized agent 可能從開源爆發

張小珺提到：楊植麟去年說「開源會落後於閉源」，因為開源貢獻無法直接改進 base model（缺少算力驗證、資本與人才聚集），領先者通常不開源；但今年他們開源了。

楊植麟直說：因為還沒有做到完全領先。他也更細緻區分「改進 base model」與「下游 post-training / agentic specialization」：

base model 要變更好，往往仍需原廠端到端訓練與巨大算力與閉環工程；
但開源模型能讓下游公司在定制工具集合下訓練 specialized agent（例如法律 agent），在特定場景做到非常強。這更像賦能生態，而不是直接反哺 base model。

為何 AI 產品還沒形成數據飛輪：算力 scaling 太強、回饋噪聲太大

張小珺問：為什麼 AI 產品沒有像推薦系統那樣形成數據飛輪？

楊植麟給兩個原因：

算力 scaling 太強 pre-training 能 scale，RL 也能 scale，而且 RL 的 scaling 效率可能更高（on-policy + 探索），所以單純 scale compute/flops 帶來的提升巨大，顯得其他增益很小。
外界 feedback 噪聲高，模型對噪聲敏感 數據飛輪依賴外界環境的回饋信號，但大模型對噪聲更敏感；要做飛輪需要降低噪聲，而這可能需要創造新的交互方式。

因此在他看來，當下更確定、更有效的路仍是：scale flops 與提升學習效率（token efficiency）。

「模型即產品」：訓練階段就把模型、工具、context 搭好

談到 AI 時代產品與系統，楊植麟延續他一貫觀點：**模型級產品（model-native product）**仍成立。

他解釋：做 agent 產品時，你必須把模型、工具、context 結合起來；但訓練模型時其實也必須把這一整套搭好才能訓。於是：

模型訓練完，產品也基本完成了 上層交互仍有價值，但更像最後一層「天花板」的打磨；真正的性能與適配是在訓練中完成。

CEO、組織與「用 RL 管理團隊」：SFT 與 RL 的平衡

在組織管理上，楊植麟提出一個很有辨識度的類比：科研/創新很像強化學習。

他談到「經驗主義」的局限：經驗不會自動產生新知，新知常來自「提出猜想→設計驗證」。這與訓練神經網路時觀測大量內部指標但仍需猜測因果、再做實驗驗證很相似。

他進一步把這套思路映射到管理：

用 SFT 管理：像是手把手告訴同事「應該怎麼做」，風險是失去主觀能動性與創造力
用 RL 管理：給目標/獎勵，讓團隊自己探索，風險是reward hacking（大家把指標刷漂亮，但不代表真正變好）

因此 CEO 的一個重要課題，是掌握 RL 與 SFT 的平衡：

以 RL 為主，保留探索與創新
以少量 SFT 作為「鮮豔的約束」，防止飛太遠或遺忘但手要管住：SFT 太多，創造力就被抹平。

情緒、心態與「時間的朋友」：避免情緒化決策

張小珺多次追問他的情緒狀態、是否低落、是否害怕掉下去。楊植麟的表述相對克制：

他承認人一定會有高點低點，也一定會恐懼；
但他強調避免情緒化決策，把注意力放在「當下這一步能做什麼」；
他反覆提「做時間的朋友」：很多複雜性是人為加上去的，真正的核心是喜歡這件事、想把它做好。

AI 的意義與風險：文明放大器、可能的杠杆

在訪談尾聲，楊植麟給出他做 AI 的根本動機：AI 很重要。

他引用張小珺先前問 Kimi 得到的回答：「AI 是人類文明的放大器。」他認同這點，並給出理由：下一次突破知識邊界，可能要靠 AI 這個巨大杠杆。因為人在前沿學科要花二三十年才能站到最前沿，而 AI 可能一夜之間就能學會，從而把人類推到下一輪突破。他甚至稱 AI 可能成為一種 meta science。

至於 AI 是否可能摧毀文明，他的立場是：

風險不能說不存在；
但可以做很多事（更安全的對齊、更好的社會機制）；
不能因風險就放棄，否則等於放棄文明上限。

快問快答

喜歡的食物：拉麵
推薦必讀書：《The Beginning of Infinity》
最重要的 AI 論文：Backpropagation、Transformer、GPT-3、ResNet、Adam
基於當下認知最關鍵的 bet：泛化的 Agent，用更高層的 Innovation（L4）去解 Agent（L3）的問題

核心脈絡整理

楊植麟在這次對話裡反覆回到同一個世界觀：AI 研發是一座可能無盡的雪山；每解決一個問題就會長出新問題，而真正的突破常常來自讓 AI 更像杠杆——不只更聰明，還能更通用地與世界交互、在更可靠的評估下泛化，甚至參與下一代模型的自我迭代。