Dec 22, 2025

[翻譯] Andrej Karpathy：2025 LLM 年度回顧

原文：2025 LLM Year in Review by Andrej Karpathy (2025/12/19)

2025 年 LLM 進展迅速。以下是我認為值得注意的六個「範式轉變」——改變格局、讓我印象深刻的概念性變化。

1. RLVR（Reinforcement Learning from Verifiable Rewards）

2025 年初，各實驗室的 LLM 生產流程大致是：

Pretraining（GPT-2/3，約 2020）
SFT（Supervised Finetuning，InstructGPT，約 2022）
RLHF（Reinforcement Learning from Human Feedback，約 2022）

這是穩定的配方。2025 年，RLVR 成為新的關鍵階段。

[註] RLVR vs RLHF：

RLHF 靠人類標註偏好，主觀且昂貴

RLVR 用可驗證的環境（數學題、程式碼）當 reward，客觀且可大規模優化

透過在可驗證環境訓練（數學/程式題），LLM 自發展現出「推理」策略——學會把問題拆解成中間步驟、來回嘗試解題。這在以前的範式很難做到，因為最佳推理軌跡是什麼根本不清楚——模型得靠優化自己找出來。

與 SFT/RLHF（計算量小、訓練短）不同，RLVR 可以跑很長的優化。結果是：原本要拿來 pretrain 的算力被 RLVR 吃掉。2025 年的能力進步主要來自更長的 RL 訓練，模型大小反而差不多。

更重要的是，RLVR 帶來新的能力調節旋鈕：test-time compute。生成更長的推理軌跡 = 更多「思考時間」= 更強能力。

[註] Test-time compute scaling：

傳統 scaling law：模型越大、訓練資料越多 → 越強

新 scaling law：推理時間越長 → 越強

這是 o1/o3 系列的核心

OpenAI o1（2024 年底）是第一個 RLVR 模型，但 o3（2025 年初）才是明顯的拐點——你能直觀感受到差異。

2. Ghosts vs. Animals / Jagged Intelligence

2025 年我（以及整個產業）開始真正理解 LLM 智能的「形狀」。

我們不是在「培育動物」，而是在「召喚幽靈」。

LLM 的一切都不一樣：神經架構、訓練資料、訓練演算法、尤其是優化壓力。人腦優化目標是「部落在叢林中存活」，LLM 優化目標是「模仿人類文字、解數學題拿分、在 LM Arena 拿到讚」。

因為可驗證領域允許 RLVR，LLM 在這些領域spike（能力尖峰），整體呈現荒謬的 jagged performance——同時是博學天才，又是認知障礙的小學生，隨時可能被越獄攻擊騙走你的資料。

[註] Jagged Intelligence：

不是「整體智商」的概念

某些維度超強（可驗證領域），某些維度超弱（常識、穩定性）

用「人類智能」的框架去理解會踩坑

相關的是我對 benchmark 的信任崩壞。核心問題：benchmark 幾乎定義上就是可驗證環境，因此立刻被 RLVR 或 synthetic data 攻略。典型的 benchmaxxing 流程中，團隊不可避免地在 benchmark 附近的 embedding 空間建構環境，長出 jaggies 去覆蓋它們。

在 test set 上訓練已經變成一種藝術形式。

那「把所有 benchmark 都刷爆但還是沒 AGI」會是什麼樣子？

3. Cursor / LLM 應用層

Cursor（今年爆發性成長）最值得注意的是：它證明了「LLM App」這一層的存在。人們開始說「X 領域的 Cursor」。

如同我在 Y Combinator 演講提到的，像 Cursor 這樣的 LLM app 為特定垂直領域打包和編排 LLM 呼叫：

Context Engineering（脈絡工程）
編排多個 LLM 呼叫，串成複雜的 DAG，平衡效能與成本
領域專用的 GUI，讓人類參與
Autonomy Slider（自主性滑桿）

[註] Context Engineering：

不只是 prompt engineering

包含：什麼時候塞什麼資訊、如何壓縮、如何管理 token 預算

Cursor 做得特別好的地方

2025 年很多討論在「這層有多厚」。LLM 實驗室會吃掉所有應用嗎？還是有 LLM app 的草原？

我的看法：LLM 實驗室會培養出通用能力的「大學畢業生」，但 LLM app 會組織、微調、驅動這些畢業生成為特定垂直領域的專業人士——提供私有資料、感測器、執行器和回饋迴路。

4. Claude Code / AI 住在你的電腦上

Claude Code（CC）是第一個令人信服的 LLM Agent 展示——用 loop 串起工具使用和推理，進行延伸問題解決。

更重要的是，CC 在你的電腦上執行，用你的私有環境、資料和脈絡。

我認為 OpenAI 搞錯了——他們把早期 Codex/Agent 精力放在雲端容器、從 ChatGPT 編排。但在這個 jagged capability 的中間世界，直接在開發者電腦上跑 agent 更合理。

[註] 關鍵區別：

不是「AI 運算在哪裡跑」的問題

是：已存在且開機的電腦、它的安裝環境、脈絡、資料、secrets、設定、低延遲互動

Anthropic 搞對了優先順序

Anthropic 把 CC 包裝成精簡的 CLI 形式，改變了 AI 的樣貌——它不只是你去的網站（像 Google），而是住在你電腦上的小精靈/幽靈。這是與 AI 互動的新範式。

5. Vibe Coding

2025 年 AI 跨過能力門檻，可以純用英文建造各種厲害的程式，忘記程式碼存在。

有趣的是，「vibe coding」這詞是我在 tweet 裡隨便說的，沒想到傳這麼遠。

Vibe coding 讓程式設計不再專屬於高度訓練的專業人士——任何人都能做。這又是 LLM 如何翻轉技術擴散的例子：普通人從 LLM 獲益遠超過專業人士、企業和政府（與過去所有技術相反）。

[註] Vibe Coding 不只是「非工程師也能寫程式」：

專業工程師也用它寫原本不會寫的程式

Karpathy 自己用 Rust 寫了客製 BPE tokenizer（不用學 Rust）

寫了很多 quick demo（menugen、llm-council、reader3、HN time capsule）

甚至寫用完即丟的程式去找 bug

程式碼突然變成：免費、短暫、可塑、用完即丟。

Vibe coding 會重塑軟體產業、改變職位描述。

6. Nano Banana / LLM GUI

Google Gemini Nano Banana 是 2025 最令人驚嘆的範式轉變模型之一。

在我的世界觀裡，LLM 是下一個主要計算範式，類似 1970-80 年代的電腦。因此，會看到相似的創新：個人電腦、微控制器（cognitive core）、網際網路（of agents）等等。

在 UI/UX 方面，「聊天」就像 1980 年代對電腦下指令。文字是電腦（和 LLM）偏好的格式，但不是人類偏好的，尤其是輸入端。人其實不喜歡讀文字——慢且費力。人喜歡視覺和空間地消費資訊，這就是傳統計算發明 GUI 的原因。

[註] LLM GUI 的意義：

LLM 應該用我們偏好的格式跟我們說話：圖像、infographics、slides、whiteboard、動畫/影片、web app

目前的 emoji、Markdown 只是初步——「dress up」文字

真正的 LLM GUI 還沒到來

Nano Banana 是早期提示這會長什麼樣子。重點不只是圖像生成本身，而是文字生成、圖像生成、世界知識，全部糾纏在模型權重裡的聯合能力。

TLDR

2025 年是令人興奮、有些出乎意料的 LLM 之年。

LLM 正作為新型智能浮現——同時比我預期聰明很多，也比我預期笨很多。

無論如何它們極其有用，我認為產業連現有能力的 10% 潛力都還沒實現。同時，還有太多想法可以嘗試，概念上這個領域感覺完全敞開。

如同我在 Dwarkesh podcast 說的：我同時（表面上矛盾地）相信我們會看到快速持續進步，而且還有很多工作要做。

繫好安全帶。

翻譯與註解：本文為 Andrej Karpathy 原文的繁體中文翻譯，技術註解為譯者補充，旨在幫助理解。