世界模型(World Model)今年正式從實驗室走進消費端:Google DeepMind 的 Project Genie 在 2026 年 1 月底對美國 AI Ultra 訂戶開放,讓你打一段文字就能生出一個能即時走進去、720p、每秒 24 格的互動 3D 世界。同一時間,Yann LeCun 離開 Meta 創立 AMI Labs、以 30 億歐元估值募得 5 億歐元,賭的也是同一個方向:讓 AI 真正理解物理世界,而不只是預測下一個字。今天就把「世界模型」這件事講清楚。

📖 學(核心)

世界模型的核心,是讓 AI 學會「預測世界接下來會變成什麼樣」,而不只是預測下一個字。 傳統大語言模型(LLM)學的是文字序列的機率分布;世界模型學的是「狀態轉移」——給定目前的畫面與你的動作,下一刻的世界該長什麼樣。它把物理、因果、空間關係內化成一個可以往前推演的內部模擬器,這也是為什麼它能拿來當「可互動的環境」。

Genie 3 的做法是把影片當成一種語言來訓練。 它不是直接吞原始像素,而是先用一個「影片 tokenizer」把每一幀壓成離散的 token,就像 LLM 把文字切成 token 一樣。這讓訓練更有效率,也讓模型學到比像素更高層的場景表徵。架構上它是 transformer 為底、在大規模影片資料上訓練出來的,精神跟 LLM 在文字上做預訓練幾乎一致。

它用「自回歸生成」一格一格畫出世界。 每一幀都是根據最初的提示、加上你當下的操作,逐格預測出來的。關鍵差別在於:過去做互動 3D 要靠寫死的物理引擎與預先搭好的場景;Genie 3 沒有物理引擎,物理、碰撞、動態全是它從影片裡「學」出來、即時推演的。你往前走、東西會被撞倒、水會流動,這些都不是規則寫死,而是模型的預測。

「記憶」與「一致性」是世界模型最難的地方。 當你在生成的世界裡轉身,剛剛走過的地形必須還在、還長一樣——除非有理由改變。這要求模型記得「你身後有什麼」、預測「前方會出現什麼」。Genie 3 的記憶約一分鐘,比 Genie 2 的 10–20 秒大幅提升,但這也是目前的天花板:時間一拉長,世界就會開始「漂移」、細節前後對不上。

世界模型最實在的價值,是當「模擬器」餵給其他 AI 訓練。 Waymo 就用 Genie 3 做了一個 Waymo World Model,專門生成罕見的道路邊界情境(edge case),拿來訓練自駕系統——這些情境在真實世界很難蒐集、又攸關安全。同理,機器人、遊戲 NPC、具身智能的 agent,都可以在生成出來的世界裡「無限練習」,而不必燒真實硬體或現場資料。

世界模型被視為通往更強 AI 的一條主線,但它跟 LLM 是互補而非取代。 LeCun 這派主張:真正的智慧需要理解物理與因果,光靠文字預測補不齊這塊。務實地看,2026 的世界模型還受限於時長、解析度與算力成本;它擅長「短時間、可互動的場景生成」,但要當成穩定的通用模擬器仍有距離。把它當「會生成互動環境的引擎」來理解,比當「AGI 前夜」來理解更貼近現況。

🧠 記

  • 世界模型(World Model):學「狀態轉移」——預測世界下一刻的樣子,而非預測下一個字。
  • Project Genie:Google DeepMind 消費端產品,2026 年 1 月底開放美國 Ultra 訂戶,文字生成可即時走進的 3D 世界。
  • 影片 tokenizer:把每幀壓成離散 token,讓影片像語言一樣被 transformer 學習。
  • 自回歸生成:一格一格預測畫面,物理與動態是「學」出來的,沒有寫死的物理引擎。
  • 一致性與記憶:轉身後場景要不變;Genie 3 記憶約一分鐘,時間拉長會「漂移」。
  • 當模擬器用:Waymo 用它生成自駕 edge case;機器人、agent 可在生成世界裡無限練習。
  • 與 LLM 互補:世界模型補「理解物理/因果」這塊;LeCun 的 AMI Labs 押注這個方向。

✍️ 實踐

  1. 先建立心智模型:花 10 分鐘讀 DeepMind 的 Genie 3 官方介紹,把「LLM 預測文字 / 世界模型預測世界狀態」這組對照記牢,之後看任何相關新聞都能歸位。
  2. 實際體驗一次:若可取得 Project Genie(Ultra 訂戶/美國),用一句提示(例如「a snowy mountain village at dusk」)生成世界,走進去、轉身、觀察它的記憶與一致性在哪一刻開始崩壞。
  3. 辨識三個限制:每看到一個世界模型 demo,主動問自己三題——它能維持多久不漂移?解析度與幀率多少?是即時互動還是離線生成?這三題能快速判斷成熟度。
  4. 連到你的領域:想一個「用生成環境訓練 AI」的應用(自駕、機器人、遊戲測試、教育模擬),寫下你會用世界模型解決哪個「真實資料太貴或太危險」的問題。
  5. 持續追蹤對手:把 Genie、AMI Labs、以及各家世界模型 benchmark 加入追蹤清單,每月比較「記憶時長 / 一致性」的進展,你會很快看出這條路線的斜率。

🔗 延伸學習


💬 想深入?複製下面這段到 AI(ChatGPT、Claude…),再打上你的問題

你是我的「AI」學習教練。我今天在學的主題是「世界模型(World Model)與 Google Genie 3」,重點包括:(1)世界模型學的是「狀態轉移」、預測世界下一刻而非下一個字;(2)Genie 3 用影片 tokenizer + transformer + 自回歸生成,物理是學出來的、沒有寫死引擎;(3)核心難點是記憶與一致性(Genie 3 約一分鐘,時間長會漂移);(4)最實在的用途是當模擬器餵 AI 訓練,例如 Waymo 生成自駕 edge case;(5)它與 LLM 互補、補「理解物理/因果」這塊。請用淺白、可操作的方式回答我接下來的問題,需要時給例子和步驟。我的問題是:

↑ 複製整段貼到 AI,最後接上你的問題即可。