AI · 2026-07-04

世界模型（World Model）今年正式從實驗室走進消費端：Google DeepMind 的 Project Genie 在 2026 年 1 月底對美國 AI Ultra 訂戶開放，讓你打一段文字就能生出一個能即時走進去、720p、每秒 24 格的互動 3D 世界。同一時間，Yann LeCun 離開 Meta 創立 AMI Labs、以 30 億歐元估值募得 5 億歐元，賭的也是同一個方向：讓 AI 真正理解物理世界，而不只是預測下一個字。今天就把「世界模型」這件事講清楚。

📖 學（核心）

世界模型的核心，是讓 AI 學會「預測世界接下來會變成什麼樣」，而不只是預測下一個字。 傳統大語言模型（LLM）學的是文字序列的機率分布；世界模型學的是「狀態轉移」——給定目前的畫面與你的動作，下一刻的世界該長什麼樣。它把物理、因果、空間關係內化成一個可以往前推演的內部模擬器，這也是為什麼它能拿來當「可互動的環境」。

Genie 3 的做法是把影片當成一種語言來訓練。 它不是直接吞原始像素，而是先用一個「影片 tokenizer」把每一幀壓成離散的 token，就像 LLM 把文字切成 token 一樣。這讓訓練更有效率，也讓模型學到比像素更高層的場景表徵。架構上它是 transformer 為底、在大規模影片資料上訓練出來的，精神跟 LLM 在文字上做預訓練幾乎一致。

它用「自回歸生成」一格一格畫出世界。 每一幀都是根據最初的提示、加上你當下的操作，逐格預測出來的。關鍵差別在於：過去做互動 3D 要靠寫死的物理引擎與預先搭好的場景；Genie 3 沒有物理引擎，物理、碰撞、動態全是它從影片裡「學」出來、即時推演的。你往前走、東西會被撞倒、水會流動，這些都不是規則寫死，而是模型的預測。

「記憶」與「一致性」是世界模型最難的地方。 當你在生成的世界裡轉身，剛剛走過的地形必須還在、還長一樣——除非有理由改變。這要求模型記得「你身後有什麼」、預測「前方會出現什麼」。Genie 3 的記憶約一分鐘，比 Genie 2 的 10–20 秒大幅提升，但這也是目前的天花板：時間一拉長，世界就會開始「漂移」、細節前後對不上。

世界模型最實在的價值，是當「模擬器」餵給其他 AI 訓練。 Waymo 就用 Genie 3 做了一個 Waymo World Model，專門生成罕見的道路邊界情境（edge case），拿來訓練自駕系統——這些情境在真實世界很難蒐集、又攸關安全。同理，機器人、遊戲 NPC、具身智能的 agent，都可以在生成出來的世界裡「無限練習」，而不必燒真實硬體或現場資料。

世界模型被視為通往更強 AI 的一條主線，但它跟 LLM 是互補而非取代。 LeCun 這派主張：真正的智慧需要理解物理與因果，光靠文字預測補不齊這塊。務實地看，2026 的世界模型還受限於時長、解析度與算力成本；它擅長「短時間、可互動的場景生成」，但要當成穩定的通用模擬器仍有距離。把它當「會生成互動環境的引擎」來理解，比當「AGI 前夜」來理解更貼近現況。

🧠 記

世界模型（World Model）：學「狀態轉移」——預測世界下一刻的樣子，而非預測下一個字。
Project Genie：Google DeepMind 消費端產品，2026 年 1 月底開放美國 Ultra 訂戶，文字生成可即時走進的 3D 世界。
影片 tokenizer：把每幀壓成離散 token，讓影片像語言一樣被 transformer 學習。
自回歸生成：一格一格預測畫面，物理與動態是「學」出來的，沒有寫死的物理引擎。
一致性與記憶：轉身後場景要不變；Genie 3 記憶約一分鐘，時間拉長會「漂移」。
當模擬器用：Waymo 用它生成自駕 edge case；機器人、agent 可在生成世界裡無限練習。
與 LLM 互補：世界模型補「理解物理／因果」這塊；LeCun 的 AMI Labs 押注這個方向。

✍️ 實踐

先建立心智模型：花 10 分鐘讀 DeepMind 的 Genie 3 官方介紹，把「LLM 預測文字 / 世界模型預測世界狀態」這組對照記牢，之後看任何相關新聞都能歸位。
實際體驗一次：若可取得 Project Genie（Ultra 訂戶／美國），用一句提示（例如「a snowy mountain village at dusk」）生成世界，走進去、轉身、觀察它的記憶與一致性在哪一刻開始崩壞。
辨識三個限制：每看到一個世界模型 demo，主動問自己三題——它能維持多久不漂移？解析度與幀率多少？是即時互動還是離線生成？這三題能快速判斷成熟度。
連到你的領域：想一個「用生成環境訓練 AI」的應用（自駕、機器人、遊戲測試、教育模擬），寫下你會用世界模型解決哪個「真實資料太貴或太危險」的問題。
持續追蹤對手：把 Genie、AMI Labs、以及各家世界模型 benchmark 加入追蹤清單，每月比較「記憶時長 / 一致性」的進展，你會很快看出這條路線的斜率。

🔗 延伸學習

💬 想深入？複製下面這段到 AI（ChatGPT、Claude…），再打上你的問題

你是我的「AI」學習教練。我今天在學的主題是「世界模型（World Model）與 Google Genie 3」，重點包括：（1）世界模型學的是「狀態轉移」、預測世界下一刻而非下一個字；（2）Genie 3 用影片 tokenizer + transformer + 自回歸生成，物理是學出來的、沒有寫死引擎；（3）核心難點是記憶與一致性（Genie 3 約一分鐘，時間長會漂移）；（4）最實在的用途是當模擬器餵 AI 訓練，例如 Waymo 生成自駕 edge case；（5）它與 LLM 互補、補「理解物理／因果」這塊。請用淺白、可操作的方式回答我接下來的問題，需要時給例子和步驟。我的問題是：

↑ 複製整段貼到 AI，最後接上你的問題即可。

我的知識庫

探索

AI · 2026-07-04

📖 學（核心）

🧠 記

✍️ 實踐

🔗 延伸學習

💬 想深入？複製下面這段到 AI（ChatGPT、Claude…），再打上你的問題

反向連結