[翻譯] Andrej Karpathy:2025 LLM 年度回顧


原文:2025 LLM Year in Review by Andrej Karpathy (2025/12/19)

2025 年 LLM 進展迅速。以下是我認為值得注意的六個「範式轉變」——改變格局、讓我印象深刻的概念性變化。


1. RLVR(Reinforcement Learning from Verifiable Rewards)

2025 年初,各實驗室的 LLM 生產流程大致是:

  1. Pretraining(GPT-2/3,約 2020)
  2. SFT(Supervised Finetuning,InstructGPT,約 2022)
  3. RLHF(Reinforcement Learning from Human Feedback,約 2022)

這是穩定的配方。2025 年,RLVR 成為新的關鍵階段。

[註] RLVR vs RLHF:

  • RLHF 靠人類標註偏好,主觀且昂貴
  • RLVR 用可驗證的環境(數學題、程式碼)當 reward,客觀且可大規模優化

透過在可驗證環境訓練(數學/程式題),LLM 自發展現出「推理」策略——學會把問題拆解成中間步驟、來回嘗試解題。這在以前的範式很難做到,因為最佳推理軌跡是什麼根本不清楚——模型得靠優化自己找出來。

與 SFT/RLHF(計算量小、訓練短)不同,RLVR 可以跑很長的優化。結果是:原本要拿來 pretrain 的算力被 RLVR 吃掉。2025 年的能力進步主要來自更長的 RL 訓練,模型大小反而差不多。

更重要的是,RLVR 帶來新的能力調節旋鈕:test-time compute。生成更長的推理軌跡 = 更多「思考時間」= 更強能力。

[註] Test-time compute scaling:

  • 傳統 scaling law:模型越大、訓練資料越多 → 越強
  • 新 scaling law:推理時間越長 → 越強
  • 這是 o1/o3 系列的核心

OpenAI o1(2024 年底)是第一個 RLVR 模型,但 o3(2025 年初)才是明顯的拐點——你能直觀感受到差異。


2. Ghosts vs. Animals / Jagged Intelligence

2025 年我(以及整個產業)開始真正理解 LLM 智能的「形狀」。

我們不是在「培育動物」,而是在「召喚幽靈」。

LLM 的一切都不一樣:神經架構、訓練資料、訓練演算法、尤其是優化壓力。人腦優化目標是「部落在叢林中存活」,LLM 優化目標是「模仿人類文字、解數學題拿分、在 LM Arena 拿到讚」。

因為可驗證領域允許 RLVR,LLM 在這些領域spike(能力尖峰),整體呈現荒謬的 jagged performance——同時是博學天才,又是認知障礙的小學生,隨時可能被越獄攻擊騙走你的資料。

[註] Jagged Intelligence:

  • 不是「整體智商」的概念
  • 某些維度超強(可驗證領域),某些維度超弱(常識、穩定性)
  • 用「人類智能」的框架去理解會踩坑

相關的是我對 benchmark 的信任崩壞。核心問題:benchmark 幾乎定義上就是可驗證環境,因此立刻被 RLVR 或 synthetic data 攻略。典型的 benchmaxxing 流程中,團隊不可避免地在 benchmark 附近的 embedding 空間建構環境,長出 jaggies 去覆蓋它們。

在 test set 上訓練已經變成一種藝術形式。

那「把所有 benchmark 都刷爆但還是沒 AGI」會是什麼樣子?


3. Cursor / LLM 應用層

Cursor(今年爆發性成長)最值得注意的是:它證明了「LLM App」這一層的存在。人們開始說「X 領域的 Cursor」。

如同我在 Y Combinator 演講提到的,像 Cursor 這樣的 LLM app 為特定垂直領域打包和編排 LLM 呼叫:

  1. Context Engineering(脈絡工程)
  2. 編排多個 LLM 呼叫,串成複雜的 DAG,平衡效能與成本
  3. 領域專用的 GUI,讓人類參與
  4. Autonomy Slider(自主性滑桿)

[註] Context Engineering:

  • 不只是 prompt engineering
  • 包含:什麼時候塞什麼資訊、如何壓縮、如何管理 token 預算
  • Cursor 做得特別好的地方

2025 年很多討論在「這層有多厚」。LLM 實驗室會吃掉所有應用嗎?還是有 LLM app 的草原?

我的看法:LLM 實驗室會培養出通用能力的「大學畢業生」,但 LLM app 會組織、微調、驅動這些畢業生成為特定垂直領域的專業人士——提供私有資料、感測器、執行器和回饋迴路。


4. Claude Code / AI 住在你的電腦上

Claude Code(CC)是第一個令人信服的 LLM Agent 展示——用 loop 串起工具使用和推理,進行延伸問題解決。

更重要的是,CC 在你的電腦上執行,用你的私有環境、資料和脈絡。

我認為 OpenAI 搞錯了——他們把早期 Codex/Agent 精力放在雲端容器、從 ChatGPT 編排。但在這個 jagged capability 的中間世界,直接在開發者電腦上跑 agent 更合理。

[註] 關鍵區別:

  • 不是「AI 運算在哪裡跑」的問題
  • 是:已存在且開機的電腦、它的安裝環境、脈絡、資料、secrets、設定、低延遲互動
  • Anthropic 搞對了優先順序

Anthropic 把 CC 包裝成精簡的 CLI 形式,改變了 AI 的樣貌——它不只是你去的網站(像 Google),而是住在你電腦上的小精靈/幽靈。這是與 AI 互動的新範式。


5. Vibe Coding

2025 年 AI 跨過能力門檻,可以純用英文建造各種厲害的程式,忘記程式碼存在。

有趣的是,「vibe coding」這詞是我在 tweet 裡隨便說的,沒想到傳這麼遠。

Vibe coding 讓程式設計不再專屬於高度訓練的專業人士——任何人都能做。這又是 LLM 如何翻轉技術擴散的例子:普通人從 LLM 獲益遠超過專業人士、企業和政府(與過去所有技術相反)。

[註] Vibe Coding 不只是「非工程師也能寫程式」:

  • 專業工程師也用它寫原本不會寫的程式
  • Karpathy 自己用 Rust 寫了客製 BPE tokenizer(不用學 Rust)
  • 寫了很多 quick demo(menugen、llm-council、reader3、HN time capsule)
  • 甚至寫用完即丟的程式去找 bug

程式碼突然變成:免費、短暫、可塑、用完即丟。

Vibe coding 會重塑軟體產業、改變職位描述。


6. Nano Banana / LLM GUI

Google Gemini Nano Banana 是 2025 最令人驚嘆的範式轉變模型之一。

在我的世界觀裡,LLM 是下一個主要計算範式,類似 1970-80 年代的電腦。因此,會看到相似的創新:個人電腦、微控制器(cognitive core)、網際網路(of agents)等等。

在 UI/UX 方面,「聊天」就像 1980 年代對電腦下指令。文字是電腦(和 LLM)偏好的格式,但不是人類偏好的,尤其是輸入端。人其實不喜歡讀文字——慢且費力。人喜歡視覺和空間地消費資訊,這就是傳統計算發明 GUI 的原因。

[註] LLM GUI 的意義:

  • LLM 應該用我們偏好的格式跟我們說話:圖像、infographics、slides、whiteboard、動畫/影片、web app
  • 目前的 emoji、Markdown 只是初步——「dress up」文字
  • 真正的 LLM GUI 還沒到來

Nano Banana 是早期提示這會長什麼樣子。重點不只是圖像生成本身,而是文字生成、圖像生成、世界知識,全部糾纏在模型權重裡的聯合能力


TLDR

2025 年是令人興奮、有些出乎意料的 LLM 之年。

LLM 正作為新型智能浮現——同時比我預期聰明很多,也比我預期笨很多

無論如何它們極其有用,我認為產業連現有能力的 10% 潛力都還沒實現。同時,還有太多想法可以嘗試,概念上這個領域感覺完全敞開。

如同我在 Dwarkesh podcast 說的:我同時(表面上矛盾地)相信我們會看到快速持續進步,而且還有很多工作要做

繫好安全帶。


翻譯與註解:本文為 Andrej Karpathy 原文的繁體中文翻譯,技術註解為譯者補充,旨在幫助理解。