上海交大等團隊推出 SWE-Explore 基準測試，揭示 AI 編碼智能體行級定位缺陷

2026年6月15日 03:007000 次瀏覽

重點摘要

上海交通大學參與的國際團隊發佈新基準測試工具SWE-Explore，將代碼搜索與修復階段解耦評估，首次量化AI編碼智能體在“行級精度”上的短板。該工具打破傳統僅依賴“最終修復率”的單一模式，提供衡量上游搜索質量的新標準，推動AI軟件工程評測向更深層次發展。

站內 AI 整理稿

### 重點整理：SWE-Explore 如何揭開 AI 編碼智能體的真實瓶頸

上海交通大學參與的國際研究團隊近日發表了一項名為 **SWE-Explore** 的全新基準測試工具，旨在突破現有 AI 編碼智能體評測的盲區。傳統評測往往只關注「最終修復率」，也就是 AI 能否成功修正程式碼錯誤，卻忽略了從發現問題到修正之間的關鍵環節——**問題定位的精準度**。SWE-Explore 首次將「代碼搜索」與「修復執行」兩個階段解耦，並特別著重於衡量 AI 在「行級精度」上的表現，也就是能否準確指出錯誤發生的具體程式碼行數。這項工具不僅提供了更細緻的評估維度，也明確揭示了當前模型在定位缺陷時常見的失準現象。

### 背景脈絡：為何傳統評測方式已不足以反映真實能力？

過去幾年，各大研究團隊與科技公司陸續推出多款 AI 編碼智能體，這些模型能夠根據問題描述自動生成修補程式，並在特定基準測試中達到不錯的成功率。然而，這類評測多半只計算最終修復是否通過測試案例，卻沒有深入探討 AI 在搜索階段的行為。事實上，許多「成功修復」的案例可能仰賴於運氣，例如模型雖然鎖定了錯誤的區塊，卻因恰好在正確附近修改而過關。這種「黑箱式評分」容易高估 AI 的實戰能力，尤其在複雜的真實場景中，程式碼的錯誤往往散布多處，若無法精準定位，修復的上限就大受限制。

### SWE-Explore 的創新設計：從「結果導向」轉向「過程透明」

SWE-Explore 的核心突破在於，它不再只問「修好了沒」，而是追問「你找到了對的位置嗎？」。該工具將搜尋階段單獨拿出來評估，要求 AI 不只給出修補方案，還必須先標記出與錯誤相關的檔案、函式，甚至精確到第幾行。透過這種方式，研究人員可以量化模型的「行級定位準確率」，以及它在搜索過程中是否浪費時間在無關區塊上。這項設計讓開發者得以辨識出，某些看似高效的智能體可能只是在修復階段僥倖過關，而真正具備理解程式碼邏輯的模型才會在定位測試中脫穎而出。

### 可能影響：推動 AI 軟體工程評測邁向更深層次

這項研究的直接影響，是為 AI 編碼領域提供一套更嚴格的篩選標準。未來研究團隊在開發新模型時，不能再只追求最終修復率，還必須同時優化搜索階段的效率與準確性。對於已部署 AI 編碼工具的企業而言，SWE-Explore 的結果也提醒他們：若缺乏精準定位能力，自動化修復的可靠性將大打折扣，錯誤可能從一處被誤移到另一處，反而增加維護成本。此外，學術界可藉此工具更系統性地分析不同模型在搜尋策略上的差異，進而設計更具適應性的演算法。

### 讀者可關注的後續發展

隨著 SWE-Explore 的發布，接下來值得觀察的面向包括：第一，該基準是否會整合更多真實世界專案的程式碼庫，增加評估場景的多樣性；第二，是否會有團隊開發出針對「行級搜索」做優化的新型架構，例如強化注意力機制或結合靜態分析工具；第三，此研究也可能促使其他實驗室跟進發布類似評測框架，形成一套互補的標準。對於關注 AI 自動化開發的讀者而言，可以密切追蹤上海交大團隊後續論文是否公開 SWE-Explore 的測試組件或數據，以便自行驗證模型能力。

### 結語：精準定位才是 AI 編碼落地的關鍵拼圖

SWE-Explore 的誕生，標誌著 AI 編碼評測從「只要能修好就給過」的粗放時代，邁向「必須知道錯在哪裡」的精細階段。雖然目前的測試結果顯示多數模型在行級定位上仍有明顯缺陷，但這也恰恰指出了下一代 AI 編碼智能體的進化方向——唯有提升對程式碼位置的敏感度，才能在真實開發環境中勝任除錯助手。從長期來看，這類基準測試將扮演矯正器角色，引導整個產業不再專注於表面數據，而是回歸到解決問題的本質。

原始來源：AIBase ↗

查看原始來源

鈦媒體AI工具與產品

Token成本算盤打響，Seedance開始駛向“五環外”

這篇消息聚焦「Token成本算盤打響，Seedance開始駛向“五環外”」。原始導語提到：視頻AI的決勝場，不在模型本身。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

IT之家AI工具與產品

Pixel 10 手機用戶反饋谷歌 AI“搶鏡”問題，Gmail 無法正常回復郵件

科技媒體 Android Authority 昨日（6 月 18 日）發佈博文，報道稱 Pixel 10 系列手機遭遇 AI“搶鏡”問題，用戶在 Gmail 回覆郵件時無法彈出輸入法鍵盤，優先顯示 Help me write 功能。

1 小時前閱讀分析

IT之家AI工具與產品

DeepSeek 識圖模式正式上線 App 和網頁端

DeepSeek 多模態研究員 Xiaokang Chen 今日表示，DeepSeek 的識圖模式已在網頁和 App 端正式上線。IT之家測試，目前 DeepSeek 的 App 端識圖模式依然提示“圖片理解功能內測中”，網頁端沒有這項提示。

19 小時前閱讀分析

IT之家AI工具與產品

微信、豆包之後，消息稱阿里將推“千問輸入法”

千問團隊將推出名為“千問輸入法”的獨立 App，與 PC 端的千問語音輸入法有一定區別，AI 功能、鍵盤會更貼合手機端操作，填補千問在移動端 AI 輸入法賽道的空白，產品已開發完成，擇日上線各大應用商店。

1 天前閱讀分析

AIBaseAI工具與產品

Kimi Work 迎重大升級：推出“目標模式”並打通外部應用插件

月之暗面旗下 Kimi 電腦客戶端近日煥新升級，為 Kimi Work（Beta 版）引入兩項重磅新特性：目標模式實現連續自主工作 24 小時，插件中心正式對接多家主流辦公軟件，提升工作流效率。為加速用戶深度體驗，官方同步推出限時優惠，2026 年 6 月全月，使用 Work 模式的會員額度消耗直接打 5 折，帶來實惠。

1 天前8300閱讀分析

AIBaseAI工具與產品

網易雲音樂旗下AI情感陪伴App“妙時”宣佈7月14日停運

網易雲音樂旗下“妙時”（含AI奇遇）AI情感陪伴應用發佈停運公告，將於7月14日0時全面停止服務。客服迴應屬正常業務調整，不影響其他產品。目前已停止新用戶註冊和充值，用戶可在8月14日前申請退還剩餘代幣和會員費，並導出AI戀人聊天記錄。

1 天前9400閱讀分析

相關文章

Token成本算盤打響，Seedance開始駛向“五環外”

Pixel 10 手機用戶反饋谷歌 AI“搶鏡”問題，Gmail 無法正常回復郵件

DeepSeek 識圖模式正式上線 App 和網頁端

微信、豆包之後，消息稱阿里將推“千問輸入法”

Kimi Work 迎重大升級：推出“目標模式”並打通外部應用插件

網易雲音樂旗下AI情感陪伴App“妙時”宣佈7月14日停運