楊植麟的「無限雪山」:Kimi 創辦人談 RL 轉向、Agent 泛化與 AI 時代的組織哲學
本文為閱讀月之暗面(Moonshot AI)創辦人兼 CEO 楊植麟長篇訪談的摘要整理。
這段訪談像是在記錄一支大模型團隊「沿著一座未知雪山持續攀登」的兩年:一方面,模型能力以近乎加速的速度演進;另一方面,每解決一批問題,就會展開更難、更抽象的新問題。
訪談背景:一年後再對話,雪山仍在,但路更清楚了
這次訪談是張小珺再次對話 Kimi(「月之暗面 / Moonshot AI」)創辦人兼 CEO 楊植麟。一年前(2024)的報導標題是〈向延綿而未知的雪山前進〉;一年後來到 2025 年 7 月,楊植麟的第一個感受是:「好像過了很久」——因為「AI 一天,人間一年」,AI 的一年在人間究竟折合多少時間已難以衡量。
他說,雪山的感覺仍然相似:仍在往山頂走,仍會看見大量未知。但不同的是:又解鎖了新場景,對「中間這條路」更清楚了。
他用模型能力的跨越做對比:兩年前模型連「寫一篇文章」都寫不明白;而現在模型不僅能寫好文章,還能連續工作幾個小時,完成複雜的端到端工程任務(例如處理程式碼、調試、修 bug、讓專案跑起來)。這些在兩年前很難想像。
「問題不可避免,但問題可以解決」:無限雪山的世界觀
楊植麟引用並反覆提到一本書 《The Beginning of Infinity》(無限的開始)。他說書裡有兩句話「要刻在石頭上」:
- 問題是不可避免的
- 問題是可以解決的
他用啟蒙運動前後的人類社會作比喻: 啟蒙運動之前,社會更像靜態系統,人們用「雷公打雷」「神不高興所以下雪」這類解釋來描述現象,真正做科學研究和知識創造的人很少;啟蒙運動之後,社會變成動態系統:新知識被創造 → 解決一個問題 → 產生新的問題。新問題的出現不是壞事,而是因為知識邊界在擴張。
他把 AI 研發也視為同一種動態:例如強化學習(RL)讓一些問題得到答案,但又帶來評估、衡量、驗證等新難題。於是整個攀登過程像「每解決一題,就再上升幾百公尺」。
他甚至提出一個更激進也更浪漫的想像:雪山可能沒有盡頭。而他希望它沒有盡頭,因為那才符合「無限的開始」:永遠有新問題、永遠能解、永遠能再往上爬。
更關鍵的是:到某個階段,「不一定是自己在爬」,而是開始用 AI 來爬山。他提到團隊已用 K2 模型做許多模型訓練、資料處理、分析甚至部分訓練相關工作——以前要人工寫程式、或不會寫程式的人做不了的事,現在可以讓模型來做。AI 成為放大器(lever / amplifier),讓攀登速度提升。
AGI 不像登月:不是「到那一刻就達成」,而是方向
張小珺追問:過去人們把「中點」固化為 AGI,今天中點還是 AGI 嗎?
楊植麟的回答是:AGI 更像方向,不像某一級台階。 登月是「腳踩到月球那一刻」就能宣告成功;但 AGI 很難存在某個明確時刻,讓你喊口號說「此時此刻之前是 pre-AGI,之後是 AGI」。因為:
- 技術能力是連續提升的:很多領域模型已可能比 99% 的人做得好(例如某些數學題、程式競賽題在提升速度下很快會被充分解決)。
- 影響社會的周期更長:即便技術突破,社會結構吸收這種新技術(像蒸汽機帶來的工作重組與新職業)可能需要幾十到幾百年。這種「社會消化期」也可視為 AGI 敘事的一部分。
他眼中的「過去一年大模型最重要變化」:推理、Agent 與 test-time scaling
楊植麟回顧過去一年(全球範圍)最重要的幾件事時,提出三個核心趨勢。
強思考推理模型:以 OpenAI o1 為代表
他認為 o1 類「強思考 + RL」代表一種重要範式:讓模型在解題時做大量嘗試與反思。
他把「反思」拆成兩種能力:
- 提出新猜想:解題過程中不停生成候選解法
- 自我驗證:判斷猜想對不對(即便不是顯式訓練一個 verifier,也可能在推理過程中隱式發生)
透過「猜想—驗證—再猜想—再驗證」的循環,模型等於嘗試很多次,將原本的 pass@k(多次抽樣才有機會對)逼近 pass@1(一次就對)。他也說這像科研與解題:不是線性流水帳,而是自由探索、反覆推翻與逼近。
同時他提到串行(serial)與並行(parallel)採樣策略:可以並行抽多個解,也可以串行地逐步修正;一些研究甚至指出串行上限可能更高,這與他們實驗觀察相關。
他用一個鮮明比喻形容這類推理模式: 「想像一個魚缸,然後你把一個腦子放在裡面。」 也就是「缸中之腦」:模型在不與外界交互的情境下,靠純內部思考就把題解出來。
多輪 Agent 強化學習:從「缸中之腦」走向「與世界交互」
另一條同樣重要的路,是更 agentic 的模型:它在解題時會與外界多輪互動,例如:
- 呼叫搜尋
- 使用瀏覽器
- 寫一段程式、跑測試、讀回輸出
- 不斷根據環境回饋更新下一步行動
也就是:下一步行為取決於外界回饋帶來的新狀態。這使模型不再是封閉腦,而是「在世界裡做事」。
兩條路共同指向:test-time scaling
他把上述兩類(強思考推理、以及多輪 Agent)統一到一個更底層的概念:test-time scaling——在推理/測試時,把 token 與步數規模化。
- 推理模型:每一輪用更多「思考 token」
- Agent:用更多「輪次」與更多「工具操作 token」
代價是完成時間變長,但換來的是能做更複雜、端到端的工作。他舉例:模型可以花幾個小時自主完成一個大型工程任務——把 repo clone 下來、翻譯成另一種語言、調試測試、修完所有 bug、跑通系統——過程中不需要人工介入。
「一方產品」趨勢:腳手架逆向工程 vs 垂直整合正向訓練
楊植麟觀察到另一個趨勢:越來越多模型公司開始做一方(first-party)產品,也就是「模型原廠自己做 Agent 產品」。
他對比了兩種路線:
非原廠產品:腳手架 + 逆向工程模型分佈
過去很多產品基於基礎模型,外加工具、提示詞、context engineering、workflow 等「腳手架」來搭產品。這本質上像在做逆向工程:猜「怎樣用工具、怎樣寫 system prompt、怎樣做 context」能更接近模型訓練分佈,使效果更好。
原廠一方產品:工具/環境先設計好,再在該環境端到端訓練模型
如果模型公司自己做產品,邏輯就不同:可以先把工具與環境設計好,直接在這個環境裡端到端訓練模型,使模型「天生適配」這套工具與產品形態。上限可能更高,因為工具設計與模型訓練互相迭代:模型哪裡不行,就改工具;工具改了,又回到訓練端到端提升。
張小珺提到像 Claude Code、ChatGPT Agent 這類就是一方產品趨勢。楊植麟也補充:Moonshot 現階段投入仍以「模型主線」為主,但一方產品的趨勢很大,未來兩者邊界如何劃分仍在演化。
L1 到 L5:不是嚴格線性,而是能力互相回饋
談到某些體系把能力分成 L1(聊天)到 L5(更高階能力,例如創新者、組織者),張小珺問:為何 Chatbot/Reasoner 之後才是 Agent?又為何後面是 Innovation 與 Organization?
楊植麟的核心觀點是:它們不是嚴格線性的依賴鏈。
- Agent 的上限確實受推理能力影響:要做最複雜的 agent 任務,終究要很強 reasoning。
- 但研發順序上,不一定非得先把狹義推理(例如長鏈思考)做到極致才能做 agent;也可能先把 agent 做好,再補推理。 他以 Claude 路線做例:某些模型推理分數未必最高,但 agent 表現可能很強,代表它們押注在不同 test-time scaling 維度(多輪交互 vs 純內部思考)。
接著他解釋「Innovation」的關鍵:模型什麼時候能參與模型研發本身——例如希望 K2 參與 K3 的研發。要做到提出想法、設計實驗、分析結果、迭代方案、甚至優化 infra 性能,模型需要強 agentic 能力。
而「Organization」更像 multi-agent 系統:一個 agent 拆成多個 agent 分工(寫測試、寫文件、設計架構等),串並行運作再合併。挑戰在於 multi-agent 如何端到端訓練、以及不要過度過擬合某幾種 agent 類型以保持泛化。
他也明確否定「organization 是封頂」:推理的上限在哪、agent 的上限在哪,今天都不好說;更像永遠可提升的刻度。
Moonshot 24→25 的關鍵決策:從 SFT 轉向 RL、從對話轉向 Agent
張小珺請他復盤 2024 到 2025 這一年 Moonshot 的關鍵決策。楊植麟指出兩個最重要的方向性轉變:
- 研發重心從「預訓練 + SFT」轉向「預訓練 + 強化學習(RL)」 這不只是方法換了,還涉及人才儲備、研發流程、基建改造。
- 產品與能力路線從「對話」轉向「Agent」 這會深刻影響日常工作方式與訓練策略。
K1.5 與 K2:一個驗證 RL 路線,一個追求更好的 Base Model 與泛化 Agent
談到產品節點,張小珺問 K1.5 與 K2 對 Kimi 的意義。
K1.5:強化學習技術驗證與基建積累
楊植麟說 K1.5 更像 RL 路線的驗證:他們較早投入 RL,並得到一些關鍵結論與 know-how,包括發現:
- 不一定需要太多 process reward
- 不一定需要 value function
- 某些訓練設計可能有副作用
- 反而可以用更端到端的 reward 把訓練做得很好
過程中他們也積累了 RL 基建與算法 know-how。
K2:追求「非常好的 base model」與更好的 agentic 能力
K2 的目標包含兩條主線:
1) 更好的 Base Model:面對「資料牆」,追求 token efficiency
他指出預訓練的瓶頸在於高品質資料增長緩慢;多模態資料未必能提升「文本智商」。高品質 token 近似常數,因此他們的策略是:讓每一份 token 產生更大價值(token efficiency)。
他特別區分:
- compute / training efficiency(訓得更快):有價值,但不提高智能上限,只是更快完成同樣訓練
- token efficiency(學得更有效):在 token 受限時能抬高效果上限
為提高 token efficiency,他提到幾個具體做法:
-
新型優化器 Muon:相對於十年來主流 Adam,Muon 能更好利用參數結構(不是把矩陣每個元素當獨立量),因此學習效率更好。 他舉早期實驗直覺:在 compute optimal 情況下可達到近似 2 倍提升——「學一份數據 ≈ 別人(用 Adam)學兩份」;如果你有 30T 高品質 token,等價於 60T 的學習效果。
-
對高品質資料做改寫(rephrase):因為高品質資料在總量中占比更少,如果同一份資料反覆學容易過擬合、泛化不佳,所以希望用改寫帶來分布上的變化以提升泛化。
2) 更好的 Agentic 能力:最大的挑戰是泛化
楊植麟指出 agent 訓練最大的痛點之一是:泛化。目前很多 RL 訓練與評測都偏「單點」:
- 訓練任務是單點(例如只訓練某個 benchmark)
- 評價指標也是單點(例如分數提升)
但「分數上去」不等於「泛化更好」。他們嘗試避免模型過擬合到某些工具、環境、任務。尤其在 Agent 訓練裡,泛化比對話模型更難。
他認為 評估(evaluation)仍是瓶頸,也是阻礙 agent 泛化的重要原因:agent benchmark 不多,而且很多分數並不全面反映真實能力。
什麼是 Agent:多輪 + 工具;泛化決定天花板
楊植麟給出一個相當工程化的 agent 定義:核心特徵是兩個——
- 多輪(multi-turn):能做很多步,這也是一種 test-time scaling
- 工具(tools):連接模型與外部世界
- 搜尋把模型接上互聯網
- 代碼把模型接上數字世界的自動化能力
他預期未來工具呈長尾分布:若泛化做得好,模型不只會用常見工具,也能用個性化工具(公司內部資料庫、私人文檔接口、定制 API)完成業務操作。 因此他認為:agent 最缺的是對「沒見過的工具」的泛化能力。若泛化足夠強,很多垂直 agent 不一定需要「重新造一個模型」,而是「給通用 agent 接上不同工具」就能垂直化。
他也補充一個重要澄清:agent 的目的不是「模擬人」,而是追求通用(general purpose)。人類也很通用,但相似只是結果,不是設計目的。他用比喻說:飛機不是為了像鳥,而是為了交通。
長上下文與多模態:要更長、更聰明,且不能互相傷害
張小珺問 long context / long-term memory 是否重要。 楊植麟說非常重要,因為許多任務 128k/256k context 不夠,可能需要百萬級甚至更長;但同時「腦子要好用」——長不等於聰明,且高智商下做超長上下文本身就是巨大訓練挑戰。
他指出這裡存在天然衝突:
- 要高壓縮率(往往需要更大模型、更好學習)
- 又要更長上下文
不同架構會有權衡:有些架構長上下文更好,但短上下文可能下降。
多模態也一樣: 他說「多模態只要不損傷文本智商就已經很好」,但更理想的是:多模態要能借用同一個腦子,在多模態模式下也能激發文本智商,而不是「另開一套腦」。他甚至用 MoE 打比方:不希望某些 experts 專門做多模態而導致「多模態很傻」,他們想要的是「聰明的多模態」。
開源與閉源:Base model 仍偏原廠改進,下游 specialized agent 可能從開源爆發
張小珺提到:楊植麟去年說「開源會落後於閉源」,因為開源貢獻無法直接改進 base model(缺少算力驗證、資本與人才聚集),領先者通常不開源;但今年他們開源了。
楊植麟直說:因為還沒有做到完全領先。 他也更細緻區分「改進 base model」與「下游 post-training / agentic specialization」:
- base model 要變更好,往往仍需原廠端到端訓練與巨大算力與閉環工程;
- 但開源模型能讓下游公司在定制工具集合下訓練 specialized agent(例如法律 agent),在特定場景做到非常強。這更像賦能生態,而不是直接反哺 base model。
為何 AI 產品還沒形成數據飛輪:算力 scaling 太強、回饋噪聲太大
張小珺問:為什麼 AI 產品沒有像推薦系統那樣形成數據飛輪?
楊植麟給兩個原因:
-
算力 scaling 太強 pre-training 能 scale,RL 也能 scale,而且 RL 的 scaling 效率可能更高(on-policy + 探索),所以單純 scale compute/flops 帶來的提升巨大,顯得其他增益很小。
-
外界 feedback 噪聲高,模型對噪聲敏感 數據飛輪依賴外界環境的回饋信號,但大模型對噪聲更敏感;要做飛輪需要降低噪聲,而這可能需要創造新的交互方式。
因此在他看來,當下更確定、更有效的路仍是:scale flops 與提升學習效率(token efficiency)。
「模型即產品」:訓練階段就把模型、工具、context 搭好
談到 AI 時代產品與系統,楊植麟延續他一貫觀點:**模型級產品(model-native product)**仍成立。
他解釋:做 agent 產品時,你必須把模型、工具、context 結合起來;但訓練模型時其實也必須把這一整套搭好才能訓。於是:
- 模型訓練完,產品也基本完成了 上層交互仍有價值,但更像最後一層「天花板」的打磨;真正的性能與適配是在訓練中完成。
CEO、組織與「用 RL 管理團隊」:SFT 與 RL 的平衡
在組織管理上,楊植麟提出一個很有辨識度的類比:科研/創新很像強化學習。
他談到「經驗主義」的局限:經驗不會自動產生新知,新知常來自「提出猜想→設計驗證」。這與訓練神經網路時觀測大量內部指標但仍需猜測因果、再做實驗驗證很相似。
他進一步把這套思路映射到管理:
- 用 SFT 管理:像是手把手告訴同事「應該怎麼做」,風險是失去主觀能動性與創造力
- 用 RL 管理:給目標/獎勵,讓團隊自己探索,風險是reward hacking(大家把指標刷漂亮,但不代表真正變好)
因此 CEO 的一個重要課題,是掌握 RL 與 SFT 的平衡:
- 以 RL 為主,保留探索與創新
- 以少量 SFT 作為「鮮豔的約束」,防止飛太遠或遺忘 但手要管住:SFT 太多,創造力就被抹平。
情緒、心態與「時間的朋友」:避免情緒化決策
張小珺多次追問他的情緒狀態、是否低落、是否害怕掉下去。楊植麟的表述相對克制:
- 他承認人一定會有高點低點,也一定會恐懼;
- 但他強調避免情緒化決策,把注意力放在「當下這一步能做什麼」;
- 他反覆提「做時間的朋友」:很多複雜性是人為加上去的,真正的核心是喜歡這件事、想把它做好。
AI 的意義與風險:文明放大器、可能的杠杆
在訪談尾聲,楊植麟給出他做 AI 的根本動機:AI 很重要。
他引用張小珺先前問 Kimi 得到的回答:「AI 是人類文明的放大器。」他認同這點,並給出理由:下一次突破知識邊界,可能要靠 AI 這個巨大杠杆。因為人在前沿學科要花二三十年才能站到最前沿,而 AI 可能一夜之間就能學會,從而把人類推到下一輪突破。他甚至稱 AI 可能成為一種 meta science。
至於 AI 是否可能摧毀文明,他的立場是:
- 風險不能說不存在;
- 但可以做很多事(更安全的對齊、更好的社會機制);
- 不能因風險就放棄,否則等於放棄文明上限。
快問快答
- 喜歡的食物:拉麵
- 推薦必讀書:《The Beginning of Infinity》
- 最重要的 AI 論文:Backpropagation、Transformer、GPT-3、ResNet、Adam
- 基於當下認知最關鍵的 bet:泛化的 Agent,用更高層的 Innovation(L4)去解 Agent(L3)的問題
核心脈絡整理
楊植麟在這次對話裡反覆回到同一個世界觀:AI 研發是一座可能無盡的雪山;每解決一個問題就會長出新問題,而真正的突破常常來自讓 AI 更像杠杆——不只更聰明,還能更通用地與世界交互、在更可靠的評估下泛化,甚至參與下一代模型的自我迭代。