首個長程Doc2Repo訓練集，代碼Agent不止修bug，開始造倉庫

2026年6月25日 16:47

重點摘要

DeNovoSWE是一個用於訓練代碼智能體從零生成完整倉庫的數據集，包含4818個真實任務實例。它通過結構化文檔和嚴格驗證機制，幫助智能體掌握複雜系統構建能力，而不僅僅是修復代碼。這為代碼智能體邁向更高階的軟件工程任務提供了關鍵支持。

站內 AI 整理稿

近年來，代碼智慧體的發展多聚焦於缺陷修復，但隨著軟體工程複雜度提升，業界開始探索如何讓智慧體從零開始構建完整系統。36氪報導的首個長程Doc2Repo訓練集DeNovoSWE，正是此趨勢下的關鍵突破。該數據集專注於訓練代碼智慧體，使其能夠根據結構化文檔直接生成完整的軟體倉庫，而非僅止於修補既有代碼片段。這項創新不僅推動了智慧體能力的質變，也為軟體開發自動化開闢新路徑。透過4818個真實任務實例的支撐，DeNovoSWE試圖教會智慧體理解複雜規格、設計系統架構，並產出可運行的完整專案，從而實現從被動修復到主動創造的根本轉變。

DeNovoSWE數據集的核心價值，在於其「長程Doc2Repo」的設計理念。傳統代碼生成任務通常以函數級別或檔案級別為目標，但真實軟體開發涉及多層次決策，包括目錄結構配置、依賴管理與模組間通訊。該數據集的任務實例涵蓋從簡易工具到多模塊應用的廣泛情境，要求智慧體在數千行代碼的規模上保持一致與協調。這使得訓練過程不僅檢驗智慧體的編碼能力，更考驗其規劃與系統性思考。透過結構化文檔作為輸入，智慧體必須解析模糊或隱含的需求，並轉化為具體實現步驟，這對理解自然語言與程式語言之間的映射構成嚴峻挑戰。

數據集的建構過程強調真實性與多樣性，4818個實例來自開

原始來源：36氪 ↗

查看原始來源

量子位電腦視覺

4秒出百萬面！突破千萬面精度+12K高清貼圖，手握數億的3D生成公司下一局怎麼打？

這篇消息聚焦「4秒出百萬面！突破千萬面精度+12K高清貼圖，手握數億的3D生成公司下一局怎麼打？」。原始導語提到：3D生成領域的Anthropic 從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

IT之家電腦視覺

消息稱商湯科技正研發新圖像模型：代號 U1 Pro，內部稱對標 OpenAI

這篇消息聚焦「消息稱商湯科技正研發新圖像模型：代號 U1 Pro，內部稱對標 OpenAI」。原始導語提到：目前，該模型在內部代號為“U1 Pro”，由商湯研究院推進研發，屬於商湯日日新模型家族成員。預計今年 7 月該模型將啟動內部邀請測試，並向客戶提供服務。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析