GAIR Paper 107｜高校聯合騰訊發佈 GameCraft-Bench：AI已能端到端開發遊戲，Claude Opus 四成達到可玩水平

2026年6月26日 03:36

重點摘要

站內 AI 整理稿

Coding Agent 的下一站，是動態交互系統的構建。作者丨GameCraft-Bench Team 過去一年，代碼智能體（Coding Agent）發展迅速。從編寫簡單的單一腳本、修復局部 BUG，到跨文件完成長序開發任務，模型能力正在不斷提升。以“一句話生成遊戲”為代表，AI 正在大幅降低遊戲構建門檻。過去需要開發者熟練掌握引擎架構、手寫邏輯代碼的開發工作，現在可以通過自然語言快速生成原型，甚至生成可運行的遊戲項目。這也讓規模化由 AI 創造交互式體驗變得前所未有地現實。但問題是：這些從零自動生成的遊戲，真的“能玩”嗎？如果生成的代碼只是“看起來邏輯合理”，但在真實的引擎環境中根本跑不起來，或者視覺表現與玩家交互一塌糊塗，那麼在這些只看靜態代碼的基準裡刷出高分的 Agent，就很難真正勝任現實中的遊戲開發場景。香港中文大學（深圳）、深圳河套學院等高校聯合騰訊的最新研究 GameCraft-Bench 正是要解決這個問題：如何構建一個基於真實遊戲引擎、產物完整可運行、且能通過真實玩家多模態交互來驗證的 AI 遊戲生成評測基準。論文鏈接：https://arxiv.org/abs/2606.17861項目主頁：https://tongxuluo.github.io/gamecraft-bench-website評估代碼：https://github.com/tongxuluo/gamecraft-bench01為什麼不直接用現有的評測基準？過去已經提出了一些與遊戲生成相關的評估基準，那我們為什麼還要重新確立一個新的評估基準 GameCraft-Bench 呢？核心原因是：現有的基準很難全面、真實地衡量端到端的可玩性。表. GameCraft-Bench與已有的遊戲生成評估基準的對比。1. 真實引擎的整合難度被低估。像 OpenGame-Bench 主要針對 Web 網頁遊戲，缺乏對真實遊戲引擎（如 Unity、Godot）生態的考察；2. 缺乏端到端的產物完整性。 GameDevBench 確實引入了真實引擎（Godot），但它主要關注基於遊戲的局部代碼修改和確定性測試，而非要求大模型從零交付一個完整的交互式遊戲產物；3. 動態交互的結果很難自動驗證。評估一個遊戲，不能只看代碼有沒有語法錯誤。攝像機偏移對不對？UI 有沒有重疊？按下跳躍鍵后角色是否真的起跳了？這些遊玩過程中的“行動-響應”循環，傳統的靜態代碼測試根本無法捕捉。所以，傳統的評測環境可能適合考察基礎編程能力，卻不適合考察複雜的交互式系統生成。GameCraft-Bench 要解決的，就是如何將遊戲生成的評測拉回到“引擎基礎”、“產物完整性”和“交互驗證”這三個遊戲開發最核心的維度上。02GameCraft-Bench 如何把代碼測試變成真實遊戲評測？GameCraft-Bench 的構建思路可以概括為一句話：先在真實引擎中約束開發規範，再把生成的項目轉化為可運行、可觀察、可驗證的交互環境。圖. GameCraft-Bench 完整的端到端的評估過程。具體來說，GameCraft-Bench 選用了輕量級、節點樹結構清晰、且支持原生 2D 和無頭（headless）模式執行的 Godot 4 引擎作為底層環境。系統會首先向代碼智能體提供一份自然語言遊戲設計文檔（Game Design Document, GDD）。這份文檔相當於遊戲開發的“施工圖”：它會描述核心機制、操控方式、勝利條件以及視覺表現要求。隨後，智能體不能只提交零散的代碼片段，它必須根據說明，自動編寫 GDScript 腳本、配置場景樹（Scene Tree）、掛載美術資產，並最終交付一個包含入口場景和輸入映射的、可直接啟動的完整遊戲項目。GameCraft-Bench 不再“考算法題”，而是在回答一個更重要的問題：AI 到底能不能像人類開發者一樣，駕馭真實的引擎工具？03有了產物還不夠，關鍵是過程能交互、結果能驗證構建出完整的引擎項目只是第一步。對遊戲來說，產物真正有價值，是因為它能承載玩家的操作、記錄系統狀態，並給出實時的視覺反饋。因此，每個由 AI 生成的 Godot 項目都會被自動編譯啟動。GameCraft-Bench 配備了一套基於演示回放（Replay）與多模態模型的自動評測流程：Agent 需要隨遊戲項目一起提交演示軌跡（Demo Trace），記錄一系列鍵盤與鼠標操作（例如：按下“向右”和“跳躍”），用於展示關鍵遊戲功能和場景。評測系統會在全新的遊戲實例中重放這些操作軌跡，自動錄製遊戲運行過程，並從錄製視頻中採樣關鍵畫面作為評測證據。多模態大模型（VLM）作為裁判，根據遊戲設計要求，對回放過程中呈現出的遊戲行為、視覺反饋與狀態變化進行評分，判斷任務是否真正完成。這種設計避免了讓評測器自行探索遊戲玩法，從而將評測重點放在“Agent 是否成功構建並展示了目標遊戲能力”上，而不是“評測器是否能夠發現這些能力”。對於機制驗證任務，系統會檢查角色是否能夠按要求移動、跳躍、攻擊或觸發指定機制；對於表現驗證任務，系統通過回放錄像中的可見證據，判斷血條變化、狀態切換、勝負界面等要求是否得到滿足。表. GameCraft-Bench包含的140個遊戲的家族分佈。基於這套機制，GameCraft-Bench 形成了一套極其硬核的基準：覆蓋 15 個主流遊戲家族（從平臺跳躍、塔防策略到模擬經營等），共計 140 個深度的開發任務。04評估的不僅是機制骨架，還有完整的產物表現很多自動生成的遊戲原型，看起來有代碼、有循環，但對玩家來說根本沒法玩。因為一個真實的遊戲往往不是“按鍵能動”就結束了，而是要提供完整的心流體驗：要有明確的關卡內容、要處理複雜的碰撞判定、要有計分板和 UI 界面，還要有勝利與失敗的狀態流轉。因此，GameCraft-Bench 在構建評測體系時，不會盲目只看核心邏輯，而是將評估維度精細化：核心機制（Core Mechanics）：角色移動、物理碰撞、核心動作是否符合預期？內容深度（Content Depth）：遊戲是否有足夠的關卡元素？敵人生成是否合理？難度曲線是否存在？反饋與可讀性（Functional Visuals）：遊戲在遊玩過程中的可讀性與即時視覺反饋是否完備（如可讀的遊戲狀態、警告提示、任務目標以及在 1280×720 分辨率下的 UI 穩定性）？美術與呈現（Art and Presentation）：動畫是否流暢播放？視覺特效（如受擊特效）是否完整？UI 畫面是否風格一致且美觀？這些維度並不是通用打分項，而是會結合具體遊戲任務映射到對應的由人類專家標註的細粒度 Rubric 上進行評估。評測關注的不是“某個遊戲像不像另一類遊戲”，而是“它是否實現了自己設計文檔中承諾的玩法與體驗”。為了進一步驗證這套自動評測體系本身的可靠性，在基準構建完成後，團隊又專門對 Judge 的穩定性與一致性進行了分析。在固定遊戲項目、軌跡、視頻與 Rubric 的條件下，多次評測結果波動極小；而在引入人工評測進行校準後，Judge 與人工評測對比整體一致，僅在內容豐富度與表現質量上略偏寬鬆。這說明該 Judge 並非隨機主觀判斷，而是能夠穩定反映遊戲實際完成度。05真實評測揭示的殘酷真相：前沿模型在遊戲生成上依舊薄弱把評測標準拉到如此真實的維度後，前沿模型的真實表現到底怎麼樣？測試結果揭開了冰冷的現實：端到端複雜交互系統的生成，遠未被解決。即使是當前最頂尖的代碼智能體，在這個基準上的總分也往往難以突破及格線。總分普遍未達及格線，端到端交互生成遠未解決。數據清晰地表明，即使是當前處於第一梯隊的最頂尖智能體組合（Opus-4.7 high），其系統生成的綜合總分也僅為 41.46% ；緊隨其後的 GPT-5.5 high 評分為 39.49% 。絕大多數模型的總分均在 40% 以下。這直接用數據揭示了在面對複雜的端到端閉環系統構建時，現有前沿模型的技術瓶頸。核心機制與後續系統擴展表現出嚴重的“數據疲軟”。對比各項細分指標可以發現，模型在“核心機制（Mechanics）”上的得分率是全場最高的，例如 Opus-4.7 high 和 GPT-5.5 high 分別能夠達到 55.34% 和 54.36% 。然而，一旦涉及到系統的深度擴展與綜合表現，數據便出現明顯下跌 — 在“內容深度（Depth）”維度上，兩者的得分分別降至 39.48% 和 38.61% ；在“藝術表現（Art）”上，更是進一步走低至 36.86% 和 32.94% 。這意味著模型僅能勉強寫出基礎的代碼邏輯框架，卻極度缺乏將系統做深、做完整的交付能力。06典型模型行為診斷：Kimi-K2.6 與 MiMo-V2.5-Pro對開發鏈路中工具調用序列的量化統計表明，代碼智能體的工具使用偏好直接決定了系統級任務的收斂效率。Kimi-K2.6 的視覺反饋閉環與 MiMo-V2.5-Pro 的重度執行形成了鮮明對照：高效的視覺反饋閉環（Kimi-K2.6）圖. Kimi-K2.6 在 Strategy-Skirmish 上的視覺反饋過程。數據特徵：在 140 項任務中，Kimi-K2.6 表現出極強的動態視覺自檢傾向，平均每項任務調用“渲染屏幕檢查工具”（Rendered-screen inspections）達 21.41 次（中位數 19 次），僅有 4 項任務完全未調用該工具。行為模式：在 Strategy-Skirmish 實驗中，它通過高頻的渲染畫面回讀，成功將畫面轉化為有效的調試信號。這使其精準定位了代碼編譯正常但實際運行錯位的邏輯缺陷（如單位放置偏離、狀態指示丟失），並逆向校正了網格系統與回合指示器佈局。這種模式實現了視覺感知引導的精準迭代，有效擺脫了一次性代碼合成的隨機性。低效的終端調試泥潭（MiMo-V2.5-Pro）圖. MiMo-V2.5-Pro 在 140 個任務中的工具使用情況。左圖：得分與工具調用總次數之間的關係。右圖：工具調用類型的總體構成。數據特徵：MiMo-V2.5-Pro 表現為典型的“前置代碼堆砌、後置重度執行”模式。在其全部工具調用中，Shell 命令行執行（Bash）佔比高達 56.3% ，而代碼閱讀與編輯（Read + Edit）僅佔 16.5% 。統計表明，其工具調用總量與最終交付得分幾近無關聯（相關係數 r = +0.016）。行為模式：MiMo 傾向於在缺少運行驗證前快速生成全量文件，導致後續階段陷入冗長的命令行修補路徑中。在 5 個零分任務中，MiMo 雖然順利通過了工程編譯（Valid Build），卻由於將海量算力耗費在局部的 Bash 調試中，最終漏掉了閉環評測所必需的交互軌跡文件（Demo Traces）交付。這用失敗實驗證明了單純堆砌命令行執行量無法確保全局任務的有效收斂。07寫在最後：Coding Agent 的下一站，是動態交互系統的構建作為通向完全自主 AI 遊戲生成的第一步，GameCraft-Bench 依然有它的邊界（例如目前聚焦 2D 引擎，且裁判機制尚未接入音頻多模態評估）。但它指明瞭一個不可逆轉的趨勢：Coding Agent 的競爭，正在從“模型能不能把代碼寫對”，走向“模型能不能交付一個真正可運行、可交互、體驗連貫的軟件系統”。傳統的代碼評測（如 LeetCode 題目補全）最容易規模化，但與真實軟件工程存在巨大鴻溝；而直接評測真實遊戲產物足夠硬核，卻需要極高的多模態驗證和引擎打通成本。GameCraft-Bench 試圖走在這條難而正確的路上：從自然語言的 GDD 出發，約束在真實的 Godot 引擎中開發，再把最終產物轉化為可運行、可輸入、可多模態驗證的動態環境。所以，GameCraft-Bench 真正回答的不是“哪個模型寫腳本更快”，而是：當大模型試圖接管複雜軟件開發的全流程時，我們如何系統性地檢驗它們是否真的理解了“人機交互”的本質？AI 編程時代，模型會越來越強。但能讓模型真正走向工業級落地、甚至有一天獨立創造出 3A 大作的，可能正是這些不再妥協於靜態代碼、敢於直面引擎真實運行和多模態交互的殘酷世界。上車，帶你看遍全球 AI 頂會精華可獨家暢覽：專家演講PPT大會報告全文熱門論文解讀學術新星訪談掃描上方二維碼關注雷峰網學術專區。

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

GPT設計GPT

這篇消息聚焦「GPT設計GPT」。原始導語提到：如果說英偉達賣鏟子，那麼OpenAI想擁有礦山。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

AIBase生成式AI

蘋果 Xcode 26.6 正式發佈，編程助手迎來“谷歌 Gemini”強力外援

蘋果Xcode 26.6 正式發佈，編程助手新增 Google Gemini 支持，開發者可在 Anthropic Claude Agents 和 OpenAI Codex 之外多一個 AI 輔助選項。該版本集成 Swift 6.3.3，並同步更新 iOS、iPadOS、tvOS、watchOS、visionOS 及 macOS 26.5 全平臺 SDK。

22 分鐘前8200閱讀分析

AIBase生成式AI

國產大模型再進化：Kimi 瞄準全球頂尖梯隊，下一代 K3 蓄勢待發

月之暗面在亞馬遜雲科技峰會上公佈Kimi最新進展：海外付費用戶及API收入增長400%，覆蓋全球200多個國家和地區，業務涉足互聯網、金融、製造、教育、醫療等行業。公司強調將堅持研發優先戰略。

51 分鐘前5900閱讀分析

雷峰網生成式AI

豆包推出專業版，能成為你的「工作搭子」嗎？

你熟悉的豆包，變了。6月24日，豆包發佈基於最新豆包2.1系列大模型的豆包專業版。過去大家用 AI，常見姿勢是：問問題、寫文案、改稿子、做總結、生成圖片。AI 給一段答案，後面的複製、整理、排版、填表、做 PPT、搭網頁，還是自己來。豆包專業版想往前多走一步，讓 AI 從對話框裡走出來，進入真實複雜工作任務。專業版新增 Agent 驅動的辦公任務模式，它不是簡單把免費版的額度放大，也不只是把模型換成更強版本，而是想真正幫到職場人士。這一模式搭載豆包 2.1 Pro，可以將找資料、寫文檔、做報告等工作任務一網打盡。當然，免費用戶的日常使用不受影響，也可以在一定額度內體驗搭載豆包 2.1 turbo 的辦公任務模式。目前看來，豆包付費訂閱的檔位，也遠低於海外主流大模型，價格還算良心。換句話說，豆包並沒有把原來的免費體驗直接收窄，而是在免費能力之上，劃出一個更偏生產力、更偏高頻重度使用的專業層。專業版到底“專業”在哪裡過去一年，大模型產品的競爭，很大程度上圍繞“誰回答得更好”展開。模型能不能寫出更自然的文案，能不能更準確地總結網頁，能不能更好地理解圖片、寫代碼，是用戶最直觀的評價標準。但專業用戶在真實工作裡遇到的問題，往往不是“問一個問題，得到一段答案”這麼簡單。做一份行業調研，要搜索資料、篩選來源、組織結構、生成文檔，最好還能繼續改；做一個活動頁面，不能只給出代碼片段，還要能創建頁面、修改樣式、部署預覽，甚至連接後端數據庫。豆包專業版主打的辦公任務模式，正是試圖把這些分散步驟串起來。在辦公任務模式下，豆包支持理解工作目標、自主拆解任務，並調用本地電腦/瀏覽器操作、網站生成、Office/飛書集成、Skill 技能、定時任務等能力，幫助用戶完成軟件開發、數據分析、專業設計、流程自動化、金融分析等工作。這意味著產品形態發生了變化。普通對話模式裡，AI 更像一個“答題者”；辦公任務模

3 小時前閱讀分析

雷峰網生成式AI

元點Zeroth迎來拉美首秀全球首款自主回充機器人掀起全球具身新熱潮

從巴西展會走向全球家庭元點Zeroth持續引領全球具身智能落地應用2026年6月22日，巴西聖保羅——當消費級機器人逐步從實驗室走向真實家庭，具身智能產業正在進入全球化落地的關鍵階段。全球具身智能全棧品牌元點Zeroth正式亮相拉丁美洲規模最大、影響力最強的消費電子展會 Eletrolar Show 2026，首次向拉美市場展示其面向未來家庭生活打造的完整消費級具身智能產品矩陣。此次亮相不僅標誌著元點Zeroth全球化佈局的重要一步，也意味著具身智能正在從“功能設備”向“家庭智能體”加速演進。元點Zeroth 創始人兼 CEO 郭人傑表示：“在 Zeroth，我們的使命是引領具身智能的全球創新與應用。拉丁美洲市場正處於變革前夜，擁有巨大的技術潛力，能夠顯著提升人們的日常生活質量。通過讓先進技術變得更易獲取、更易使用，我們希望賦能整個地區的社區，重新定義未來人們如何藉助具身 AI 生活與工作。”本次參展，元點Zeroth 以前沿具身智能全棧產品矩陣首次進入拉美市場，展示其在家庭服務機器人、移動智能助手、核心執行器等領域的最新突破，標誌著其全球化佈局邁出關鍵一步。M1家庭人形機器人：全球首款“自主回充”的家庭人形機器人本次展會最受關注的產品，是元點Zeroth最新發布的家庭人形機器人 M1。M1專為家庭環境設計，機身高度約50cm，是一款面向真實生活場景的具身智能家庭終端。M1實現了全球首個家庭人形機器人的自主能源閉環能力這一重大突破。當電量不足時，M1能夠自主完成移動、路徑規劃，並通過小車完成自動回充過程，從而減少對人工充電與外部幹預的依賴。這一能力使機器人從“需要照顧的設備”，首次邁向“具備自維護能力的智能體”。無論是面對多孩家庭還是老年獨居場景，M1的多模態感知與持續學習的能力，使其可在日常生活中承擔包括生活提醒、基礎陪伴、家庭節奏協助以及個性化互動等多種角色，使其逐步

4 小時前閱讀分析

雷峰網生成式AI

ICML 2026 | 面向視覺語言模型的語義魯棒性認證

原文作者：公眾號“專知”原文鏈接：https://mp.weixin.qq.com/s/8GZParVJfj9fBuflTFTzlA 雷峰網轉載ICML 2026 | 面向視覺語言模型的語義魯棒性認證：用文本提示刻畫可證的語義變化區間論文題目：Semantic Robustness Certification for Vision-Language Models論文鏈接：https://arxiv.org/abs/2606.18839論文作者：Peiyu Yang、Paul Montague、Feng Liu、Andrew C. Cullen、Amardeep Kaur、Christopher Leckie、Sarah M. Erfani論文機構：The University of Melbourne、Defence Science and Technology Group代碼地址：https://github.com/ypeiyu/vlm-semantic-cert視覺語言模型（VLM）已經成為開放詞表識別、圖文檢索、檢測、分割和視覺問答等任務的基礎組件。但在真實應用中，輸入圖像經常發生語義層面的變化：物體形狀變了、尺寸變了、風格變了、背景變了、視角變了、光照變了。傳統魯棒性認證多關注像素擾動、幾何變換或生成模型潛空間變化，很難直接回答一個更貼近日常部署的問題：當圖像沿著某個“語義方向”變化時，VLM 的預測在多大範圍內保持不變？這篇 ICML 2026 論文提出了一個新的語義魯棒性認證框架。核心想法非常漂亮：利用 VLM 的開放詞表能力，把文本提示作為語義代理，用一對 source/target prompt 在圖文共享嵌入空間中定義語義變化方向；再利用 VLM 分類器決策邊界的閉式幾何結構，精確計算預測類別保持不變的 semantic extent interval。

5 小時前閱讀分析

相關文章

GPT設計GPT

蘋果 Xcode 26.6 正式發佈，編程助手迎來“谷歌 Gemini”強力外援

國產大模型再進化：Kimi 瞄準全球頂尖梯隊，下一代 K3 蓄勢待發

豆包推出專業版，能成為你的「工作搭子」嗎？

元點Zeroth迎來拉美首秀 全球首款自主回充機器人掀起全球具身新熱潮

ICML 2026 | 面向視覺語言模型的語義魯棒性認證

元點Zeroth迎來拉美首秀全球首款自主回充機器人掀起全球具身新熱潮