「沒有中間商賺差價」:王冠談 AI 時代的產品、數據、生成系統與內容終局
本文為閱讀張小珺與 ONE2X(1,2X)創始人王冠 3 小時訪談的深度整理。
0. 開場就定調:離職流程、Manus,以及「所有平台都是中間商」
訪談一開始就丟出幾個強烈訊號:
- 王冠自稱是 Moonshot(Kimi 團隊)第一個離職的人,也是「第一個離職創業的人」。他甚至說:公司後來的離職流程,是「從他那個時候開始有的」,之前沒有離職流程。
- 他半玩笑提到:大家都應該「給 Manus 磕一個」,像是某種庇佑——後面他也明講:DeepSeek 重新點燃熱情,但 Manus 對「應用」這件事更本質。
- 張小珺問:「AI 生成系統和現在的 AI 推薦系統,本質區別是什麼?」
王冠一句話:「沒有中間商賺差價。」
接著補充:「其實所有互聯網平台都是中間商。」(推薦、搜尋、電商都算)
這幾乎是整場訪談的總綱:他相信 AI 會把權力從「生產端」→「分配端(平台)」→ 「消費端」繼續推進;分配會被內化甚至不再作為顯性環節存在。
1. ONE2X(1,2X)定位:不是公司,是 AI 時代的「產品工作室」
王冠自我介紹很直接:1,2X 聯合創始人,長期做 AI 產品經理。他們目前的產品是一個 AI 影片生成器 MyDeal(節目口述名)。
他把 1,2X 定位為「AI 時代的產品工作室(studio)」而不是傳統公司,原因有三層:
- 像實驗室:探索性更強,不只以商業最大化為單一目標。
- 以產品質量與效果、興趣驅動:而不只是「做生意」的 KPI 邏輯。
- 每個人都要是超級個體:內部更願意稱為 「AI 全棧工程師」——每個人都有獨一無二的位置,把個人興趣和工作內容結合。
這也連到他後面談組織的核心:用「環境」承載人與人的動機,而不是靠層級去管理。
2. 王冠的職涯:三次 AI 週期,他幾乎都踩在典型位置
他把國內 AI 粗分三個週期(但他本人更偏好用「能否擬合非結構化數據」來切):
2.1 第一階段:大數據+傳統機器學習(10 年代)
他在 百度 做過推薦系統的核心底座之一:
- 給用戶計算非常多維度的標籤(今天叫 User Profile)。
- 基於用戶畫像做差異化定價、補貼等,在當時算行業較領先的做法。
他也提到經典「沃爾瑪啤酒與尿布」的數據分析例子。
2.2 第二階段:CV +深度學習
他做過:
- 演算法開放平台:把各種模型能力用 API 對外提供,讓外界低成本使用大廠模型能力。
- 開源框架:提到百度的 PaddlePaddle(飛槳)。
- 在 曠視 做 AI 演算法/生產力工具:思考怎麼更快更低成本生產算法,也在那時期開始接觸預訓練模型(當時還未普遍叫「大模型」)。
2.3 第三階段:預訓練模型 → 大模型
他回憶 2020 年 5、6 月 GPT-3 的衝擊:
過去他一直在做「讓用戶低門檻獲得某種演算法能力」,但 GPT-3 讓他看到:
- 一個 prompt / few-shot 就能把模型變成翻譯 API、摘要 API 等,幾乎把門檻降到極低。
他後來加入國內非常早期的預訓練 startup:蘭州科技(周明老師,前 MSRA 副院長出來創業)。
當時技術「很不收斂」,社群裡有很多架構探索;模型也不像今天一味比參數量、比訓練量。
他們的商業化路線是:
- 從社群模型做中文復現;
- 做輕量化以降低使用成本;
- 做過文本生成、文圖生成等探索(在 SD / ChatGPT 爆發前就做過),並承擔過一定商業化落地。
ChatGPT 出來後帶來巨大衝擊。於是他在 2023 年初加入 Moonshot,更接近「模型產品經理」:
把模型當產品來 design——design 能力與效果,並確保能訓練出來、且用戶可感知。
3. 他怎麼看 AI 1.0/2.0/3.0:關鍵不是技術名詞,而是「結構化 vs 非結構化」
王冠說他接觸 AI 第十年,最大的變化不是某個模型名字,而是:
- 過去(傳統 ML、CV 深度學習)主要擬合 結構化數據:需要大量細粒度標註(框座標、類別等確定性標籤)。
- 今天的大模型擬合 非結構化數據:更豐富、更連續;語言、圖像、影片都更像連續世界的表達。
只有能擬合非結構化,模型才可能表達連續世界。
他也談到一個「產品經理體感」:歷史上多數 AI PM 都在做中後台工作(數據支持、標註、策略、能力供給),相對無趣;而今天,AI 有機會站到前台,成為獨立產品(他點名 Manus、ChatGPT)。
4. 「模型即產品」時代,產品經理價值更大還更小?
王冠的結論是:更大,且不與「模型即產品」相矛盾。
他借用 System 1 / System 2:
- 模型像 System 1:把大量信息提前壓縮進系統,對輸入做快速本能反應。
- 而產品在 AI 時代扮演兩個關鍵角色:
4.1 角色一:設計 System 1 的能力(可被 design、可被訓練、可被感知)
模型能力由數據決定,數據分布決定效果;因此能力本身值得被設計。
模型產品經理要:
- 設計能力
- 確保可訓出來
- 讓用戶可感知
他特別強調 Evaluation(評測):早期他就認為 PM 應該寫 Eval、定義模型能力;後來 OpenAI、Anthropic 產品負責人談到這點,逐漸成行業共識。
4.2 角色二:釋放 System 1 的價值(System 2/Context)
他把 next token prediction 翻成產品語言:輸出取決於前面有哪些 token。
而 token 來源有兩類:
- 模型內自生 token:例如推理模型把簡單需求展成推理過程,增加有效 token。
- 模型外提供 token(context):workflow、agent 框架、專庫/知識庫,本質是提供更多有效 context。
他提到概念演進:prompt engineering → context engineering。
並指出這更多是產品/業務 know-how 問題,不是純技術高難度問題。
5. 創業前的三次「踩中 OpenAI 迭代線」:Demo 一跑通,就被更強模型吞掉
這段是他決策邏輯的痛點來源。他說自己一直在公司內外做嘗試,不是突然想創業。
5.1 GPT-3 寫作輔助 → ChatGPT 出現
他們做過類 Notion 的寫作輔助:寫作時提供處理/補全。
剛跑通不久,ChatGPT 出現,Jasper、Copy.ai 風向驟變,因為 ChatGPT 內即可完成原本功能。
5.2 Codex:Excel → 自動生成漂亮圖表 → GPT-4 出現
他試圖做模型當時「生成不了」的方向,如 coding。
場景是:輸入 Excel 數據+描述圖表需求,用 codex 生成圖表。
Demo 出來後不久,GPT-4 上線,能更強地寫代碼、寫圖形,等於又踩到迭代線上。
5.3 做 workflow/中間層 → OpenAI Plugin 出現
他們很早用 LangChain,覺得它把事情做得像一門編程語言般複雜,類似當年 TensorFlow 的路。
他們嘗試做更易用的 workflow 中間層:節點、數據源、prompt、串連。
剛做完 demo、甚至融資流程在推,OpenAI Plugin 出現——意味 OpenAI 也在做同樣方向。
5.4 當時放棄創業,轉去 Moonshot 的原因
連踩三次後,他反思出致命問題:
他對「模型能力怎麼來、未來朝哪發展、自己做的產品與模型的距離與方向是否匹配」沒有答案。
這等於在虛無地基上蓋房,對產品極危險。
所以他選擇先去能近距離觀察模型能力的地方:Moonshot。
他是 2023 年初(約 3、4 月)加入,邀請者是旷視同事/搭檔 周星雨。
他還提到一次關鍵飯局:在五道口「龍人居」,周星雨用三小時講「壓縮」概念(全是公式,他聽不懂但大受震撼)。他後來找到 OpenAI 的 Jack Ray 講壓縮的影片,發現觀點高度契合——這成了他真正「一隻腳邁進大模型世界」的入口。
6. 「壓縮即智能」:連續、湧現、幻覺,其實是一回事
主持人問什麼是「壓縮級智能」,王冠說他現在更願稱「語言級智能」。
他的說法是:
- 壓縮本身是一種演算法(把檔案變小)。
- 壓縮的對象是數據;數據是對世界的表達。
- 當表達被壓縮後,原本離散的點形成聯繫,出現「連續性」。這種連續對外呈現就是:智能、湧現、泛化,甚至幻覺(他覺得這些詞其實都在描述壓縮後的現象)。
他用跨任務泛化例子說明連續性:
只訓練「中英翻譯」與「中文摘要」,卻能做「英文摘要」,看起來像學會了未見過的新任務。
語言是壓縮的好載體:表達豐富、訓練成本相對圖片/影片更低,所以先在語言上形成「語言級智能」。
7. Moonshot 的一年:純粹目標+聰明人+自下而上拼圖式協作
他在 Moonshot 待約一年(2023 年初到 2024 年初),沒經歷後來最輝煌階段,自己也的確是最早一批離職者,甚至是第一個離職創業者。
他說那是他職涯體驗最好的地方,原因兩點:
- 目標一致且純粹:當時大家就是「搞出 AGI」,他用《橫空出世》造原子彈的台詞類比:「搞出 AGI,挺直腰桿子」。
- 與聰明人共事更省對齊成本:很多時候不必反覆拉通;大家各自基於理解主動做工作,最後能拼起來,形成自下而上的創意匯集。
他形容那段時間工作狀態「不累、很鬆弛」,因為覺得是在為自己的目標工作,且產出大概率有用。
8. 為何最終離職創業:三個問題想明白了,且相信有理論基礎能做出商業產品
他說自己其實一直在為創業做準備:公司規模越來越小、加入公司距成立越來越近——照這趨勢推演,最後必然創業。
但真正支撐決策的是:他在 Moonshot 期間把三個核心問題想明白了:
- 模型能力來自哪裡?
- 模型未來怎麼發展?
- 你做的事(應用/模型)與未來更通用的基礎模型的關係是什麼?如何保持「安全距離」?
答案收斂到同一個點:這波智能的第一性原理是數據。
9. 「智能的時空觀」:數據決定邊界,算力決定逼近速度,演算法決定湧現幅度
他引用 AI 圈自嘲:「有多少人工,就有多少智能。」並翻譯:人工 = 數據。
典型場景是:算法怎麼調都達不到指標時,最後會叫產品去「再搞點數據」。
為什麼是產品搞數據?因為數據代表對問題的理解;尤其涉及業務 know-how 時,更偏產品問題。技術也能用算力換數據(如 RL),但更適合封閉域、可客觀驗證的問題(代碼、數學)。
他用「圓」的隱喻描述三要素:
- 數據:決定智能邊界(大圓的邊界)
- 算力:逼近邊界的速度
- 演算法:用已有數據能突出去多少,形成新邊界;突出去那部分就是湧現
但他仍強調:三者中 數據更第一性。
10. 由「數據第一性」推演 AI 發展三階段:公域 → Domain → 產品內生(應用公司的機會)
這是他最核心的行業推演。
10.1 第一階段:公域數據(大體已過)
公域數據 = 網路沉澱+歷史資訊化沉澱(你有我也有)。
邊界固定,拼的是誰更快到終點,利好人才密度高、算力足、決策快、組織消耗少的玩家。
他認為這階段不太會有「代差」,只會在不同任務上此消彼長。
他也談中美:差距更多來自先發與服務數據回流;隨著國內更多人用、數據回流,差距會抹平。
10.2 第二階段:你有我沒有的 Domain 數據
Domain 數據利好大廠或資訊化做得好的傳統行業:有場景、渠道、用戶,模型能力開始分化。
他直說:前兩階段都不太是應用層產品創業機會——第一階段更像基座模型戰;第二階段更像大廠/行業巨頭戰。
10.3 第三階段:產品內生數據(應用公司的舞台)
第三份數據是:原本不存在、因為你設計的產品形態才產生的數據。
他用 ChatGPT 舉例:在 ChatGPT 形態之前,幾乎沒有「用對話解決各種奇怪問題」的數據;但產品形態建立後,這份數據開始生成並可訓回系統。
因此他給應用公司的硬核建議是:
做產品第一天就要設計「世界上原本不存在」的新數據,並且這份數據未來能訓回你的系統/模型,才能與通用基座模型保持安全距離。
他也提醒:「數據飛輪」不是把所有數據灌回去就會更好;不篩選可能導致模型趨向用戶平均智能、體感降質。關鍵是要找到對智慧有增量的有效數據(他提到自動駕駛 FSD 可用數據比例會越篩越嚴)。
11. 如何「避開 OpenAI 延長線」:不存在“別人做不了你能做”,差別在目標、起點、速度
張小珺追問:你以前一直被 OpenAI 迭代線碾壓,現在怎麼避?
王冠回答很直白:
- 不存在你能做而別人做不了(不只 OpenAI,任何公司都可能做)。
- 若大廠完全不思考你的方向,反而可能意味方向沒價值。
- 真正差異在三點:
- 目標不同 → 路徑與終點不同
- 起點/位置不同:從「設計新數據」出發 vs 從「做功能解問題」出發
- 速度:小而高人才密度團隊早期更快、自由度更高
他也說:早期產品形態常會收斂(chatbots、coding 的 IDE 形態像 Cursor),但底層做法與目標會導致後續分化加大。
12. 第三份數據的產品其實不多;他用自己案例說清楚:先設計影片 DSL,再建 System 2
他說第三份數據不容易看出來,因為藏在產品背後。
他們做影片生產的第一步不是做影片編輯器,而是:
- 從「影片長什麼樣」與「如何被做出來」的語言體系開始
- 這套語言在他們視野裡此前不存在,是他們設計的 DSL(特定領域語言)
- 它介於自然語言與代碼之間:人未必看懂,但格式固定、可被系統理解
接著才往下搭:
- 數據存儲
- agent / workflow / 工程架構(System 2)
- 以及最前端的介面:他們稱之為 environment(環境),不是單純“軟體”。
12.1 environment 裡人與 AI 都是活動主體,活動會產生可學習數據
他把產品形容成像「標註平台」:
人在做影片時的工作流(鏡頭順序為何 A 不是 B、組合為何如此)會被記錄成數據。
但他也強調:所有 SaaS 都會有 log,關鍵不是“有數據”,而是這份數據能否被學習,且能否篩出有效數據。
因此早期標註更可能由他們內部專家完成(類比 DeepSeek、OpenAI 招學者/老師做標註)。
他甚至說:ChatGPT 也可視為一個環境——既可對外用、也可對內用;他們也是如此。
13. 為什麼選影片:商業、技術封閉域、以及「影片是 AI 時代內容起點」
他回憶 2024 年初創業時,影片模態仍不成熟,多模態也不是主流;成熟度排序大致是文字 > 圖片 > 聲音/音樂 > 影片。
但他仍選影片,三個理由:
- 商業:影片價值高;在美國市場即使 CapCut 營收很大,仍有 20–30 家影片處理 SaaS 能做到 ARR 幾千萬美金,屬於典型「螞蟻工具市場」——單點能力做到很好用就能賺。
- 技術/方法:影片處理可被設計為封閉域(原子能力有限;製作是原子能力按時間排序/組合),適合從 DSL 設計出發。
- 對未來的判斷:互聯網模態演進(文字/圖 → 聲 → 影)源於硬件/流量與人類生產門檻;但 AI 會拉平模態生產門檻,價值最高模態(影片)會更占主導,下一代更高維可能是軟體、遊戲。因此他認為影片是 AI 時代內容起點。
14. 為什麼現在先做工具,不直接做內容/平台:仍在「諾基亞時代」
他認為生成技術是生產力革命,「生成=生產」,因此最先被改造的是生產環節,最直接的產品形態就是工具。
更關鍵的是 timing:影片多模態的 System 1 還在快速變化,遠未穩定。
他提到像 Sora 2、Veo 3(節目口述)只是第一次把影片多個單點任務合到一個模型裡,對標語言模型歷史更像「GPT-2 時刻」,不是多模態的 ChatGPT 時刻。
因此他說:
不要在諾基亞的時代去做 APP。 現在做生產工具、做 System 2 的殼(可薄可厚),等 System 1 能力提升後,殼的價值會被放大(他類比 Cursor 在 Claude 3.5 提升後變得更強)。
15. System 2 的核心:Context is everything / Everything is context
他把應用公司競爭抽象成兩句話:
- Context is everything:當大家用同樣基座模型,產品好壞取決於你在模型之外提供的 context(質量、效率、token 成本)。
- Everything is context:對終極多模態模型而言,文字、音訊、影像都應以 context 形式影響輸出(例如音樂作為影片創作的 context)。
他說 DSL 是 context 的基礎層;agent/workflow/專庫等都是提供有效 token 的不同形式。他也提到:不同 agent 框架 token 消耗不同(如 ReAct 可能非常耗 token);把確定部分提前固定、做好 memory 管理可降 token。
16. 模型公司會做產品、產品公司終將做模型:以 Cursor vs Claude Code 為例
張小珺問到 Cursor 與 Claude Code 的競爭,王冠的核心觀點是:
今天不應再硬分模型公司與應用公司——模型公司都做產品;應用公司也不是單純“殼”,而是「還沒把模型掌握在自己手裡」。
他提出應用公司終將做模型的兩個原因:
- 效果邊界:通用基座模型是 general,垂直場景需求不同;應用公司會越來越多撞到模型能力邊界。
現階段可能做法是:找基座模型廠商,把你的場景變成 eval +種子數據,讓他們把能力訓得更適配你(把模型廠商當你的模型部門)。即便也能給別人用,你仍更懂怎麼用、也更適配你。 - 成本與競爭:現在調用大模型看似划算是對方規模與工程優勢;但當垂直場景足夠大,你會遭遇上下游競爭(模型廠商下場做同類),同時你也需要成本可控與利潤,推動你自建模型能力。
至於最後誰贏,他不給確定答案,說影響因素太多(目標、起點、路徑、人才密度、決策速度、認知差異、甚至組織崩潰/被收購等)。
但他認為 應用公司當下唯一硬優勢是速度:你必須在地圖上比大廠/基座模型更接近目標,並保持或擴大距離差。
17. 2025「Agent 元年」是不是不如預期?他說:路有效,只是各領域進度不同
張小珺覺得 2025 到 11 月仍沒看到爆發。王冠不認同,理由是:
已經有產品證明能賺錢(他提到代碼 agent、Manus、Lovart 等),這說明「agent/workflow 方式切入商業問題能創造價值」是被驗證的。
差別在於:各領域模型 ready 程度不同、know-how 梳理速度不同、System 2 建設進度不同,因此呈現「進水流深」的狀態——不是沒發生,而是節奏不一致、看起來不夠“萬物競發”。
他也舉法律/醫療例子:能賺錢不是因為模型廠商不知道,而是人家 System 2 做得更深(專庫、數據質量高、context 更好)。
18. 他不愛叫「Agent 公司」:Agent 是技術,會被內化;通用 vs 垂直像「千江月」與「萬里天」
他說你不會說「這是移動互聯網視頻 APP」來描述抖音;同理,agent 最終會內化進所有產品,未來不會有人說「XX agent」,而是用場景/產品名來稱呼。
通用 vs 垂直,他用詩比喻:
- 千江有水千江月:垂直解決方案看似局部,但內部其實麻雀雖小五臟俱全(多個 agent、多 tools)。
- 萬里無雲萬里天:真正通用 agent 最後可能只剩「一片天」。
但這只是過渡態:垂直會拓寬邊界,通用也得做深;最終還是回到最朴素的衡量:用戶付出多少成本,得到什麼效果。
19. 什麼是「生成系統」:DSL + Context + Environment(並降低兩種「傷」)
張小珺問他說過的話:「SaaS 公司最終都是生成系統公司」。王冠說這是他們內部從成立第一天就反覆講的詞。 他把生成系統類比推薦系統:推薦是一種方法,可推薦文章/影片/段子;生成系統也是一種方法,可生成很多東西(他們現在做影片,但不排除未來做其他)。 他把生成系統拆成三個模塊(基本就是 System 2):
19.1 DSL:定義這個領域「什麼能被表達」
影片該如何被準確描述?製作方法如何被準確描述?先定義可表達的世界。
19.2 Context:不爭 agent vs workflow,本質都是有效 token
他們不做 agent vs workflow 對立:都在產生有效 context。
而 context 的更高層目的,是降低兩種「傷」:
- 用戶意圖的傷:用戶指令模糊、信息空間巨大;推理模型會用長推理補 context。
- 行動的傷:智能體要 planning、用工具,需要更明確的信息才能可控、準確。
核心是把模糊指令轉成精確行動指令,並讓意圖與行動能良好映射。
19.3 Environment:人與智能體共同活動的「環境」
- GUI 仍存在,但主要使用者可能逐漸不是人,而是智能體;人更多做校驗/微調。
- 這個環境不只記錄 log,而要產生可學習數據。
- 需要有 reward function 才能篩選有效數據。
他用做菜再類比一次:若環境能精確記錄分鐘、動作、油溫、鍋溫,recipe 才能更無損傳遞與複現。
20. 他們做哪種影片:不是物理世界,而是「理念世界」
張小珺問服務人群(B 站 up、YouTuber、導演?)。王冠說不按平台分,而按世界分:
- 物理世界影片:攝影機可拍到的世界,供給已非常豐裕(手機、攝像頭無處不在),短影片大量是物理世界。
- 他們做的是 理念世界影片:不是攝影機能拍到的,來自人的想像、理解、思想、知識的影像化。
例子:把文章做成影片
- 一種是口播(真人出鏡講)
- 另一種是把知識點做成公式、文字動效、數字動效,形成「理念的影片化」
他們內部的願景描述是:
在影片世界裡建「圖書館、歌劇院、大教堂」
對應:知識、藝術、精神相關內容。
而當下平台更像「夜店/多巴胺」娛樂內容(帥哥美女跳舞等)。
張小珺追問「精神類內容商業價值夠嗎」,王冠回答:
- 物理世界供給已充分;理念世界因門檻高仍早期,空間更大
- 生產力提升會催生新內容品類:他舉客戶做潮玩影片,在小紅書把一個品類的 AI 影片內容幾乎包圓,因為成本降下來、效率提高,以前幾千上萬成本的內容才變成一門生意;也提到品牌廣告類內容過去極昂貴,現在更多人有機會用高質感方式表達產品。
21. 產品進度:正式版未上線,但「靜默半成品」已被頭部用戶瘋狂購買與使用
他說正式版產品還未上線;但 5 月把半成品靜默上線後,已出現高商業價值用戶:
- B 站與影片號上有非常大的 AI 內容博主(每條幾十萬到三百萬播放)是他們用戶。
- 當時只能用 Google 帳號、海外付費;對方把能借的 Google 帳號都借遍,每個帳號的積分包都買滿。
- 因為他們當時甚至沒做「流量包/大量購買」功能,用戶把所有帳號買滿仍不夠,才聯繫到他們。
- 目前端到端仍未完全閉環,用戶可能還會去剪映、達芬奇做後處理。
新版本的核心迭代:把他們定義的「完整生成系統」建完整,讓背後 DSL/Context 方案更完善、能力可對外暴露。
22. 信息商品鏈條的終局推演:從供銷社 → 平台中介 → 消費端生成(無限月讀)
他用「軟體—互聯網—AI」三階段看權力轉移:
- 軟體時代像供銷社:你只能用我生產的東西,權力在生產端。
- 互聯網時代權力轉到分配端:電商平台、推薦引擎、搜尋引擎掌控分配。
- AI 應該再往下轉到消費端:消費者告訴系統想要什麼,內容為他生成,個性化更極致。
他用《火影忍者》「無限月讀」做終局比喻:
未來內容可能根據 user profile、環境、甚至此刻精神與生理狀態生成——但他也承認這需要很久。
23. AGI 兩種定義:廣義(知道自己不知道)與狹義(能賺錢、自我強化)
他提出兩種 AGI 定義:
23.1 廣義 AGI:模型知道自己不知道什麼
人知道自己知道/不知道;今天模型很多時候不知道自己是否不知道。
若模型能真正知道自己缺什麼,就能有目標地學習、設計 reward function 自動補全能力——那時即使還沒補全,也可稱 AGI(因為學得會很快)。
但他承認這太抽象、難以評判。
23.2 狹義 AGI:在某個商業領域形成自我優化閉環
在某個有價值的商業領域,模型能自己賺錢/獲得資源(數據、算力),再用資源讓自己更強、賺更多錢,人參與越來越少。
他舉炒股為例:賺錢 → 買卡/電/數據 → 訓練 → 賺更多錢。
他認為這會在很多領域「一點一點」發生,人逐漸退出 loop。
24. 平台會被替代嗎?他說分銷平台會轉向產銷平台:創作者分裂成兩類
張小珺問生成系統是否替代舊平台。
王冠把互聯網平台稱為 分銷平台:掌管分配與消費,並利用權力反向控制生產;在他的描述裡,平台在一定程度上「剝削」生產端,因為創作者成本高、分配不一定有效(同樣內容不同人發量不同,甚至相同條件也可能不同)。
而未來,隨生產端更自動化,雙邊關係可能大變:
生產端可能更集中成為「某個生產平台」的員工/合作方(他用抖音做思想實驗:生產者像公司員工,但需要的人更少)。
他認為仍需要創作者,但會分裂成兩類:
- 金字塔尖創作者(藝術家群體/平台合作方):
有強主觀性,永遠能在工具之上提供增量智慧;系統是放大器,scale 最強的人,把少數人複製成萬份產出。
他類比 OpenAI 每月 200 美金的重度用戶:能把系統用到極致。 - 產銷者(prosumer):消費即生產,生產過程本身就有消費價值(寫作心流、毛筆字、在 Chatbot 做思想實驗產生報告並非為賣,而是自用就有價值)。
但他也指出:影片目前對普通人仍太貴,文字/圖片的產銷已更早發生。
25. 「生成系統 vs 推薦系統」再落一次:沒有推薦,只有 generate;創作者生產的是 recipe
張小珺說生成也像更精準推薦。王冠糾正:
沒有推薦,它只有 generate。你看到的內容是此時此刻為你生成。
那真人創作去哪?
不是主要創作內容,而是創作「方法」:他稱為 taste,或內部叫 recipe(菜譜)。
他承認:若推演到極致,創作 recipe 的人可能很少,且機器學會後人可能退出;但他說這是漫長且不可避免的趨勢,就像互聯網早期的人也沒想到自己的帖子會變成訓練大模型的資料。
26. 他們現階段商業模式與版權:仍是工具付費,版權屬於製作者
張小珺問到生產關係與版權:
- 他們目前仍是「工具」方式收費(積分/token 類),尚未形成新的生產關係。
- 版權屬於製作的人。
27. 「創作平權」的下一步:創作變成表達(文字 → 影片)
他把「創作平權」更具象化為:創作可以變成表達。
他按模態門檻談:
- 語言最低門檻
- 文字全球約 70% 人能讀寫,但仍有很多人無法寫字
- 圖像更難(理念世界更難)
- 音樂更難
- 影片目前最難
當某模態從高門檻創作變成低成本表達,就會出現新產品形態與新商業模式。
他用文字舉例:古代寫字要筆墨紙硯,書很珍貴;當文字變成低成本表達,就有微信。
同理,他希望影片終有一天也能從創作變成人人可用的表達。
他舉婚禮回憶影片:今天新郎做一支回憶影片被視為「用心」,因為門檻仍高;未來應成為隨時可做的表達。
28. AI-native 產品北極星:先商業價值,再看「系統智慧程度」(質量+ token 效率)
他不太喜歡 AI-native 的標籤之爭,因為大家都是 AI 後才做產品;不同產品形態(聚合如 Poe、編輯加工、agent/workflow)都能做出很高 ARR。
但若要說他們自己的北極星:
- 一定要有商業價值
- 用系統智慧程度衡量:
- 內容質量從 60 分到 70 分的提升
- 同質量下 token 越少越「聰明」(他類比:做一道數學題,看一遍就答對 vs 需要長演算、走彎路才答對)
他還提出一個很關鍵的公司判斷:
用少量強用戶創造高營收,比用海量普通用戶創造同營收更好。
因為生成系統的價值在於 scale 最強的人;強用戶也反過來讓系統變更強。
29. AI 時代組織:公司是一個環境,員工是一個智能體;每個人帶自己的 reward function
他把組織問題連回「生成系統」的語言:
產品的智慧程度 ≈ 組織在該問題上的智慧程度 × 轉化率。
要提高轉化率,靠的不是管控,而是每個人帶著自洽目標,與組織目標契合。
他談「異化」:大廠裡意義缺失,人被異化成 KPI 工具人;他們希望意義由個人決定。
因此每個人的 reward function 不是公司制定,而是加入時自帶或在過程中形成;組織要做的是讓它們與公司目標對齊。
他舉例:十一期間有人持續提交代碼、也有人在合併——公司 remote、沒加班要求、甚至你加不加班沒人知道,但大家仍做,因為有人最簡單的 reward 就是「不想公司死掉」。
29.1 團隊規模與 remote
- 現在約 30 人
- 全員 remote;每週有一天線下是員工主動要求
- 人不都在北京,「很多地方都有人」
29.2 remote 的代價:孤獨與信任
他承認 remote 會帶來孤獨與不信任:
線上非同步交付缺少語氣、肢體語言等 context,容易誤解對方敷衍。
但他仍堅持 remote,因為:
- 人不都在北京
- 他們要找的是高度自驅與創造型人才,沒必要用工廠式坐班
- 坐班制度源於工業革命工廠;腦力工作可用更自由的方式
他們內部有一個「溫暖可信計畫」來對抗孤獨與不信任:
用飛書做「公司內部朋友圈」(話題組),大家反而更願意在公司內發生活與長文。
他也說公司層級感不重,甚至沒有管理崗;三位 cofounder 各自扛工作方向:他自己偏模型產品;另兩位分別負責複雜編輯器底層架構、System 2 工程架構。
30. 融資與現金流:先準備 bootstrap;轉機來自資本回暖與 DeepSeek + Manus
他說他們早期很坎坷:2024 年初開始創業,到 2024 年中才把公司成立起來。
融資方面:
- 沒做非常正式、主動的融資
- 早期資本市場差:大模型剛投完、應用公司尚未形成共識
- 所以他們準備 bootstrap:若 bootstrap 可能會先從很小功能點切入先賺錢,而不是用「生成系統」這種更重的方式
轉機:
- 去年下半年資本回暖
- DeepSeek 重新激發市場熱情(開源模型效果好)
- Manus 對應用更本質,讓應用價值被重新看見
他們也在中間持續 deliver milestone:即使正式產品較晚發布,產品發布前已開始賺錢,理念是「先用產品賺到錢」。
他舉自己用產品賺到錢的例子:
去年年初用早期 Medeo 做影片發到影片號,一個多月約 200 多萬播放;他起初不知道能賺錢,後來發現影片號即使不掛廣告也有分成,突然多了幾百塊,才意識到產品真的能賺錢。
團隊怎麼湊齊?他自嘲「傳銷模式」:以一度、二度人脈拉人;很多人都有創業或非常早期公司核心員工經驗。
31. 最後快問快答:白飯、安靜、安全、「一世」是 25–30 年,以及他受影響的文章
31.1 喜歡的食物與地點
- 不喜歡旅遊;喜歡米飯類,甚至白飯:因為兼容性強,任何菜配飯都很有滋味。
- 喜歡安全、安靜的地方。
31.2 「一世」概念
他說「一代/一世」其實很短,約 25–30 年。
因此三十多歲的人可能在做下一代或下一「世」的人要用的產品——聽起來驚悚但正在發生。
31.3 推薦書
- 常讀:《道德經》
- 最近在讀:汪曾祺《慢煮生活》(他欣賞把普通生活寫得津津有味,像白飯一樣)
他也區分老子與莊子:莊子更超脫像鯤鵬「背負蒼天」;老子更入世像蝴蝶穿花,「有刃有餘」地在障礙中順勢而行。
31.4 影響他認知的文章/論文
他說自己非技術出身,不敢評判行業最重要論文,只分享對他影響大的三個:
- “Let’s verify step by step”(2023 年 5 月左右,ilya sutskever 署名之一):過程監督;他抽象出「方法是更高維度的智慧」,像語法與單詞。
- ilya 相關分享:“An Observation of Generalization”(他看不懂公式,但抓到「無監督為何有效」的直覺:從 [X,Y] 中同時學 X→Y 與 Y→X,抽象共性)。
- “Language modeling is compression”:語言建模就是壓縮;對應他「壓縮帶來智能」的框架。
31.5 關鍵下注(bet)
他最後說:不管 AI 或 AGI,都是 long-chain 的事情,所以他 bet China。
結語:他真正想建立的不是「影片工具」,而是一套可自我增強的「生成系統」
把這場訪談壓縮成一句話,並不是「我們做影片生成工具」,而是:
應用公司的長期壁壘不在於今天用了哪個基座模型,而在於能否設計並運行一套生成系統:
以 DSL 定義可學習的新數據、用 context engineering 把意圖與行動的「熵」降下來、在 environment 裡讓人與智能體共同生產可學習的活動數據,並能篩出有效數據把系統越跑越強。
當這套系統成立,平台作為中間商的差價空間會被壓縮,分配會被內化,內容的價值結構也會從注意力走向信任與方法(recipe)。