首個長程Doc2Repo訓練集,代碼Agent不止修bug,開始造倉庫

重點摘要
DeNovoSWE是一個用於訓練代碼智能體從零生成完整倉庫的數據集,包含4818個真實任務實例。它通過結構化文檔和嚴格驗證機制,幫助智能體掌握複雜系統構建能力,而不僅僅是修復代碼。這為代碼智能體邁向更高階的軟件工程任務提供了關鍵支持。
近年來,代碼智慧體的發展多聚焦於缺陷修復,但隨著軟體工程複雜度提升,業界開始探索如何讓智慧體從零開始構建完整系統。36氪報導的首個長程Doc2Repo訓練集DeNovoSWE,正是此趨勢下的關鍵突破。該數據集專注於訓練代碼智慧體,使其能夠根據結構化文檔直接生成完整的軟體倉庫,而非僅止於修補既有代碼片段。這項創新不僅推動了智慧體能力的質變,也為軟體開發自動化開闢新路徑。透過4818個真實任務實例的支撐,DeNovoSWE試圖教會智慧體理解複雜規格、設計系統架構,並產出可運行的完整專案,從而實現從被動修復到主動創造的根本轉變。
DeNovoSWE數據集的核心價值,在於其「長程Doc2Repo」的設計理念。傳統代碼生成任務通常以函數級別或檔案級別為目標,但真實軟體開發涉及多層次決策,包括目錄結構配置、依賴管理與模組間通訊。該數據集的任務實例涵蓋從簡易工具到多模塊應用的廣泛情境,要求智慧體在數千行代碼的規模上保持一致與協調。這使得訓練過程不僅檢驗智慧體的編碼能力,更考驗其規劃與系統性思考。透過結構化文檔作為輸入,智慧體必須解析模糊或隱含的需求,並轉化為具體實現步驟,這對理解自然語言與程式語言之間的映射構成嚴峻挑戰。
數據集的建構過程強調真實性與多樣性,4818個實例來自開
Related
相關文章

4秒出百萬面!突破千萬面精度+12K高清貼圖,手握數億的3D生成公司下一局怎麼打?
這篇消息聚焦「4秒出百萬面!突破千萬面精度+12K高清貼圖,手握數億的3D生成公司下一局怎麼打?」。原始導語提到:3D生成領域的Anthropic 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

消息稱商湯科技正研發新圖像模型:代號 U1 Pro,內部稱對標 OpenAI
這篇消息聚焦「消息稱商湯科技正研發新圖像模型:代號 U1 Pro,內部稱對標 OpenAI」。原始導語提到:目前,該模型在內部代號為“U1 Pro”,由商湯研究院推進研發,屬於商湯日日新模型家族成員。預計今年 7 月該模型將啟動內部邀請測試,並向客戶提供服務。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

百度開源 Unlimited OCR 模型:基於 DeepSeek OCR,解析文檔告別 AI 越生成越慢
百度於 6 月 22 日開源推出 Unlimited OCR 模型,總參數量 30 億,推理時僅激活 5 億參數,目標解決在解析長文檔時,端到端 OCR 模型越生成越慢的問題。

AI軟遞歸自我提升,Hassabis夜不能寐:人類已至奇點山腳
這篇消息聚焦「AI軟遞歸自我提升,Hassabis夜不能寐:人類已至奇點山腳」。原始導語提到:軟遞歸自我提升已實現,哈薩比斯夜不能寐! 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
AI 框選即問!谷歌 Chrome 149 攜手 Gemini 3.5 Flash 升級截屏交互
Chrome 149 原生集成 Gemini 3.5 Flash 模型,帶來“從屏幕選擇”功能,用戶可直接框選網頁局部內容與 AI 即時對話,無需全局上傳或切換工具,大幅提升瀏覽場景下的 AI 交互效率與精準度。
打破多模型切換壁壘!谷歌將“電腦操作”原生塞進 Gemini 3.5 Flash
谷歌DeepMind將原生計算機使用能力集成到Gemini 3.5 Flash模型,開發者現可用單一模型構建能跨瀏覽器、手機和桌面自主看屏操作的AI智能體,無需再在不同模型間切換傳遞上下文,簡化了跨平臺長任務執行。