理想的「理想」:從 AI 資訊工具到生產力、從端到端到 VLA 司機大模型
本文為閱讀理想汽車 CEO 李想長篇訪談的摘要整理。
在一次長篇對談裡,「理想」被反覆追問:你到底想成為誰?而他的回答,指向一個更清晰也更具體的 2030 想像——成為全球領先的「人工智慧終端企業」。這句話比過去多了「終端」兩字,卻不是臨時起意的修辭,而是對「AI 必須能行動(Action)」的核心判斷:只有能在物理世界與數位世界中執行任務,AI 才會從聊天與資訊,走向真正改變效率與生活的下一階段。
這篇文章,整理這場對談的主軸:他如何看待 AI 的能力邊界、為什麼多數 AI 產品仍沒讓人更省時、什麼才叫「生產工具」、VLA 司機大模型如何訓練與落地,以及他對組織與「能量」的管理哲學。
一、為什麼 AI 變強了,人卻更累了?
對談一開始就拋出一個矛盾:人人都說 AI 很強,但加班沒有變少、成果也沒有顯著變好。他認為關鍵在於:多數人把 AI 當成「資訊工具」在用,而不是「生產工具」。
他把 AI 工具分成三個層級:
- 資訊工具:以對話、搜尋、摘要為主,提供參考與建議
- 輔助工具:提升既有流程體驗(例如語音導航、車內控制、協作輔助)
- 生產工具:能替你完成專業工作、真正產生生產力,並且你願意為它付費
他用一個很務實的判準收斂:「你願不願意掏錢」。資訊工具多半不完美,因為模型必須輸出 next token、必須給答案;一旦資料源不準確,即使推理再認真,也可能得到「一本正經的錯誤」,進一步造成「熵增」——無效資訊、無效結論、無效工作量。
在他看來,目前「摸到生產工具邊緣」的案例很少,他提到兩個代表:Cursor(AI IDE)與 OpenAI Deep Research(策略與商分人員自費使用的深度研究工具)。
二、AI 要成為生產工具,差的不是更聰明,而是「能行動」
他認為「生產工具」的必要條件,是 Action:不能只知,必須能行,得做到「知行合一」。
也因此,他特別肯定像 Manus 這類通用 Agent 的方向:透過虛擬機、工具調用,去完成「像專業人員那樣」的工作流程——不是只靠 RAG 抓索引,而是追到資訊源頭、讀原始資料、形成可落地的輸出。對他來說,更強的大腦與更好的工具並不衝突;相反,工具提高確定性、降低能量消耗,也降低 token 與算力浪費。
而這個「從知到行」的轉折,也直接連到他對理想公司下一步的定位:AI 終端,是承載行動能力的載體。
三、DeepSeek 為何不是你做的?他給的答案是「延長線」
被問到「DeepSeek 為什麼不是你做的」,他的回答很:「我只能做最好的自己。」並補上一句關鍵:每個人與每家公司,都有自己的延長線。 DeepSeek 的延長線從 AI 學術與工程起步,路徑自然不同。
但他對 DeepSeek 的學習非常具體,甚至提煉成「人類最佳實踐」的極簡流程。
構建能力的四步最佳實踐
- 研究:先把問題看懂
- 研發:把能力做出來
- 表達能力:把能力展示清楚,讓人理解
- 形成業務價值:進入市場作戰,讓能力變結果
他坦言,組織最常犯的錯,是跳過研究直接啟動研發;做完也不展示、不進市場驗證,最後把「做出來」誤認成「擁有一切」。
做業務推理的四步最佳實踐
類似 DeepSeek R1 的思路:
- 索引分析(理解需求)
- 確定目標(把方向收斂成可判斷的目標)
- 制定策略並推演執行
- 反思回饋(復盤結果與目標差距)
他認為這套流程「反人性」——因為人性偏好隨心所欲、走捷徑;但卓越的個體與組織,必須能對抗這種惰性。
四、為何理想擁抱 DeepSeek,甚至因此開源 OS?
DeepSeek 的開源,對他們最大的價值是「加速」。他直言:原本理想預期要到年底才能做出滿足需求的語言模型,但 DeepSeek 的徹底開源,讓他們加速了約九個月,省下大量時間與成本,也因此促成一個「情懷式」的回饋——把自研車用作業系統開源。
他強調這不是公司戰略,而是一種感謝:既然因開源獲益,就回饋行業、減少無謂內卷。
五、從端到端進化到 VLA:他們要「造司機」,不是造聊天機器人
在自動駕駛與機器人領域,他把演進分成三階段:
- 規則算法時代:像昆蟲智能,依賴規則與高精地圖,能力小、邊界多
- 端到端 + VLM:像哺乳動物智能,能模仿駕駛行為,但對物理世界理解仍有限
- VLA:走向「人類式」智能——能看(Vision)、能理解(Language/Reasoning)、能行動(Action)
他把 VLA 用白話定義為:「司機大模型」——像人類司機一樣在路上工作。
VLA 如何訓練?三段式路徑
(一)預訓練:學知識
先訓練雲端 32B 的 VL 基座模型,資料包含:
- Vision(3D + 高解析 2D)
- 與交通/駕駛相關的 Language 語料
- VR 聯合語料(把「看到的畫面」與「對世界的理解」綁在一起,例如導航理解)
並把能力蒸餾到端側可跑的模型(他提到約 3.2B、MoE 架構),確保在車端算力下能達到需要的即時性。
(二)後訓練:像駕訓班學開車
模型規模略增(約到 4B),推理鏈不追求超長(延遲不可接受),並加入對未來數秒的 Diffusion 預測(例如 4–8 秒的環境與軌跡想像)。
(三)強化學習:上路磨練
分兩段:
- 人類回饋(RLHF):接管、習慣、社會駕駛共識、安全對齊
- 純 RL:在世界模型生成資料中訓練,目標是「比人類更好」,用舒適度(G 值)、碰撞、交通規則作為回饋訊號
為什麼交通是 VLA 最早落地場?
他認為車的優勢在於:
- 規則清楚
- 自由度較低(相較人形機器人)
- 模仿學習與強化回饋都更明確(接管就是訊號、舒適/合規/碰撞可量化)
因此他相信交通領域會是 VLA 最早收斂、最早走向 L3/L4 的實驗場。
六、世界模型、超級對齊與「黑盒」問題:如何讓司機可控、可驗證?
他提出兩個工程現實:
- 模型是黑盒:要可驗證、可複現
- 安全不是只有不撞:還包含規則、習慣、舒適、可被人信任
因此他們做了兩件事:
- 交通世界模型:像一個可逼真重現的交通世界,用於考試、生成訓練資料,甚至被他視為未來 L4 無人車隊的「運營系統」基礎。
- 超級對齊團隊:他提到百人規模,對齊的概念很像「職業性」:能力越強,越需要更強的職業約束,確保符合人類社會的價值與行為預期。
他甚至用「雇司機」作比喻,給出司機大模型的北極星指標:
- 專業能力(開得好)
- 職業性(安全、舒適、守規範)
- 信任與理解(記憶、默契、溝通效率)
七、戰略的圓心是「規模」:向蘋果學的不是產品,而是能力
談公司戰略時,他不把 AI 當成「出了就改組織」的刺激,而是用一個框架診斷變化:圓心是規模,外圈三個動態變量是:
- 使用者需求
- 技術/產品
- 組織能力
只有當需求變化與技術變化相互咬合,組織才必須跟上;否則「今天出一個就調一次」一定會出問題。
他也解釋為何重新研究蘋果:企業到千億級別後,組織能力很難靠自己發明,必須向更高維度的公司學習。過去他們學豐田、GM、Google OKR、再到華為的 IPD 與治理;下一階段,他認為蘋果在「從單一終端走向多終端、硬體/軟體/服務整合」上,有值得借鏡的能力模型。
而這也回扣到那句新的定位:AI 時代,特別在物理世界,終端的價值可能會強於平台,因為它牽涉生命與財產安全,需要更一致的主體責任與整合能力。
八、組織的「能量」:爭執是更完善的大腦,前提是能量還在
對談最不像技術、卻最像管理核心的部分,是他對「能量」的描述:
- 當人與人之間的能量存在:爭執、討論、吵架會形成更完善的大腦(像 MoE 專家協作)
- 當能量消失:同樣的爭執就會變成內耗
他主張最穩固的能量結構往往是 3 到 7 人:少於 3 人不穩、兩人容易僵,多於 7 人又過於複雜。他也用自己多次創業經驗說明:關鍵時刻能扛住,是因為核心合夥人之間「一致對外、彼此支撐」,既能吵出更好的決策,也能在決策落地時形成更強的心力。
而人與人連結的本質,他濃縮成兩個「在意」:
- 在意使用者(價值觀共識)
- 在意身邊的人(先對人、再做事)
九、人類與 AI:智能會超越,但智慧要靠人類自己練
他不認為現有 Transformer/next-token 架構具備自主意識,甚至覺得這在現階段「相對安全」。但他也提出更深的焦慮:未來 5 到 10 年,AI 的能力大概率會全面超過人類,那人類要做什麼?
他的答案不是比智力,而是提升智慧:智慧更像「處理與萬物的關係」——人與人、人與世界、人與生活的連結。AI 擅長處理複雜資訊、人類能量有限;人類應該把算力用在「熵簡」、用在真正增能量的事情上,而讓 AI 去扛複雜資料與可自動化的行動。
最終,他把 AI 的去向交回人類選擇: AI 會成為生產工具、輔助工具或作惡工具,取決於人類如何使用與如何對齊。
結語:終端、行動、基本功,以及「把能力變成使用者價值」
整場對談其實反覆回到同一個信念:不要迷信捷徑,尤其在 AI 時代。無論是模型、VLA、世界模型、超級對齊、AgentOS,或企業從車走向 AI 終端,他都把成功歸因到「基本功」與「最佳實踐」:先研究、再研發、能展示、能作戰;能吵架但不內耗;能把能力變成真正的使用者價值。
而那句看似宏大的 2030 目標,最終也落回一個很務實的判準:如果 AI 不能幫人省下時間、減少能量消耗、把工作中最重要的 8 小時真正解放出來,那再多模型、再多推理,也只是在增加世界的噪音。