阿里又發了款智能體模型：11小時造出學英語App，還能看懂地鐵線路圖

2026年6月2日 07:46

重點摘要

站內 AI 整理稿

智東西作者 | 楊京麗編輯 | 李水青智東西6月2日消息，今天，阿里通義千問發佈多模態智能體模型Qwen3.7-Plus。相比傳統“看圖說話”式多模態模型，Qwen3.7-Plus在識別圖像的基礎上，進一步打通界面感知、工具調用、代碼生成和任務交付，讓AI從“讀懂世界”，走向“動手完成任務”。智東西第一時間體驗並結合官方案例發現，Qwen3.7-Plus在視覺推理、圖片搜索、工具調用等方面展現出不少亮點。不過實測中，複雜頁面仍會出現圖片文字亂碼、交互失效、3D預覽黑屏等問題，最終結果仍需要人工檢查和調試。此前，5月20日，阿里發佈Qwen3.7系列旗艦模型Qwen3.7-Max。在第三方機構Artificial Analysis公佈的全球大模型總榜中，Qwen3.7-Max的Artificial Analysis Intelligence Index目前得分為57，與GPT-5.5(medium)、Claude Opus 4.7(max)、Gemini 3.1 Pro Preview等海外模型分數接近，領先Kimi K2.6、Mimo-V2.5-Pro等國產模型，位列國產模型第一。 ▲Artificial Analysis全球大模型榜單（圖源：Artificial Analysis）今天發佈的Qwen3.7-Plus補齊Qwen3.7系列的視覺識別能力，現已在阿里雲百鍊平臺上線，支持OpenAI兼容API與Anthropic協議。開發者可以直接調用API完成多模態交互、智能體任務和視覺編程等場景，也可以通過Claude Code、OpenClaw或Qwen Code直接調用，無需修改原有Prompt或工具鏈。同時，Qwen Studio也已開放Qwen3.7-Plus在線體驗。 API地址： https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3.7-plus?serviceSite=asia-pacific-china Qwen Studio體驗地址： https://chat.qwen.ai/?models=qwen3.7-plus 一、融合視覺、語言和Agent能力，多項測試得分超GPT-5.4和Gemini 3.1 Pro Qwen3.7-Plus是在Qwen3.7文本與Agent能力基礎上，進一步融合視覺與語言能力形成的多模態智能體模型。 Qwen3.7-Plus不僅能看懂圖形界面、文檔和真實場景，還能直接上手操作，調用命令行、自主編寫代碼、驗證運行結果。另外，千問還將GUI操作、CLI調用、代碼生成和自我驗證放進同一個智能體循環中，形成“看、想、寫、做、驗”的端到端閉環。基準測試中，Qwen3.7-Plus在多模態推理、視覺Agent與編程以及通用視覺理解方面都有不錯的表現。 ▲Qwen3.7-Plus在12項核心基準測試中的綜合表現（圖源：通義實驗室）在多模態推理方面，Qwen3.7-Plus在BabyVision中得分70.4/64.7，領先Gemini 3.1 Pro的55.9和GPT-5.4（xhigh）的53.1；MathVision得分90.3，與GPT-5.4（xhigh）的91分得分接近，高於Gemini-3.1 Pro的87.4和Qwen3.6-Plus的88.0。在視覺Agent與編程方面，Qwen3.7-Plus在ScreenSpot Pro中得分79.0，超過GPT-5.4（xhigh）的67.4、Gemini 3.1 Pro的68.1；AndroidWorld得分81.0，高於Gemini-3.1 Pro的70.7。在通用視覺理解方面，Qwen3.7-Plus在RealWorldQA中得分86.9，高於Qwen3.6-Plus的85.4和GPT-5.4（xhigh）的83.8；OCR-Bench-V2英文和中文測試分別取得70.7和67.1，說明其在開放世界視覺問答、真實場景解析和OCR能力上具備優勢。智東西第一時間體驗了Qwen3.7-Plus的網頁生成和視覺編程能力。我們先讓Qwen3.7-Plus完成一個防曬產品網頁前端設計。模型生成的頁面結構較完整，包含產品介紹、核心優勢、明星產品等模塊，也生成了配套產品圖片。不過體驗中我們也發現，生成圖片中的部分文字出現亂碼，頁面交互功能未能正常使用，說明其在靜態頁面搭建上完成度較高，但圖片中文字渲染和前端交互細節仍需人工調試。 ▲Qwen3.7-Plus生成的網頁後面，我們又讓Qwen3.7-Plus生成“騎自行車的鵜鶘”3D像素藝術作品。我們先使用快速模式，比較有意思的是，Qwen3.7-Plus沒有一開始直接生成HTML代碼，而是先生成了一張圖片，畫面中已經呈現出鵜鶘騎車、樹木、道路和春日場景等元素。隨後，模型補充生成了HTML代碼。不過在預覽時，頁面中只有標題和黑色畫布，3D主體未能正常渲染。 ▲快速模式下，Qwen3.7-Plus的3D鵜鶘任務執行情況任務失敗後，我們改用思考模式重新生成同一任務，效果明顯更穩定。5分鐘後，Qwen3.7-Plus按照要求生成可運行的HTML，畫面中可以看到夜空背景、像素化鵜鶘、自行車、草地平臺和動態氛圍效果，可以拖拽旋轉。相比快速模式，思考模式下的代碼完整性和可預覽效果更好，已經能生成一個可運行、可交互的網頁作品。 ▲快速模式下，Qwen3.7-Plus生成的3D像素藝術作品整體看，Qwen3.7-Plus在視覺創意轉代碼方面具備較強可用性，但複雜前端和3D場景仍存在一定不穩定性，需要通過思考模式、多輪迭代或人工修正來提升交付質量。二、穩定運行11小時寫完App，還能復刻macOS Stocks應用為了驗證Qwen3.7-Plus的實際落地能力，通義千問基於該模型構建了智能體系統Hybrid-Agent，並讓其獨立完成一款類似多鄰國、百詞斬的英語單詞學習App的完整研發流程。官方測試中，Hybrid-Agent連續穩定運行超過11小時，累計生成代碼超10000行，觸發工具調用超1000次。整個流程覆蓋需求文檔生成、代碼編寫、自動部署、測試用例創建、GUI自動化測試、多場景並行測試、產品說明更新和版本迭代等環節。 ▲Qwen3.7-Plus設計的英語單詞學習App（圖源：通義實驗室）最終，Qwen3.7-Plus完成了App的全流程設計，具備單詞本、單詞消消樂、每日單詞背誦、限時挑戰等功能，用戶可以根據需求設置每日速記目標，提醒時間等。整個App的設計均由Qwen3.7-Plus獨立完成，體現出模型在真實任務場景下，具備成熟的編程能力、工具調用能力和視覺設計能力。在桌面應用場景中，千問官方讓Qwen3.7-Plus復刻macOS原生Stocks股市應用。復刻過程中，Qwen3.7-Plus能夠自主交互原生應用，理解其UI佈局和功能細節，再基於交互記錄生成SwiftUI源碼，並接入LongBridge真實行情API獲取實時市場數據，系統能夠自動完成編譯構建，並復刻應用。 ▲模型自主復刻App（圖源：通義實驗室） Qwen3.7-Plus自主執行了10項功能驗證測試，包括實時行情加載、股票選擇與切換、多週期視圖切換、搜索過濾、詳細數據面板展示等，最終全部通過。交付結果復現了原生Stocks的暗色主題、分欄佈局、實時行情數據和完整交互體驗。案例充分展示出，多模態智能體在觀察真實軟件、理解交互邏輯、生成應用代碼、驗證功能結果等方面，具備不錯的遷移能力。三、找不同、查病害、畫路線，看完圖還能搜索、執行視覺能力上，Qwen3.7-Plus不僅能識別圖像，看完圖像後，還能繼續解決問題。在找不同、華容道、迷宮、拼圖等需要推理的視覺任務中，Qwen3.7-Plus會先提取圖像中的幾何結構與空間約束，將視覺問題轉化為可計算邏輯，隨後調用代碼解釋器，編寫並執行求解程序，形成視覺感知、空間建模、代碼求解和結果校驗的自動化流程。在官方的找不同案例中，Qwen3.7-Plus能夠加載圖片，調整大小匹配左右兩張圖片，並形成不同點地圖，後續進行思考分析。通過代碼解釋器，仔細核對座標及圖像，在差異圖中標註差異中心點，經過多次比對與反覆思考，最終找出5處不同點，準確完成找不同任務。 ▲Qwen3.7-Plus完成找不同任務（圖源：通義實驗室）在搜索增強視覺問答場景中，當問題超出圖像本身，Qwen3.7-Plus可以從單圖、多圖或視頻中提取關鍵實體與上下文線索，再聯網檢索外部知識，將視覺證據與實時信息交叉驗證。這一能力適用於多類開放世界問題，例如識別陌生地標、追溯事件背景、分析複雜商品參數等。針對判斷植物疾病的案例，Qwen3.7-Plus先觀察葉片上的棕褐色斑塊、黃化區域和病斑邊緣形態，初步分析其可能對應的病害類型。隨後，模型調用網頁搜索，查找相似圖片和相關資料，並把搜索結果與圖片中的細節進行對照。經過7次檢索後，Qwen3.7-Plus綜合圖像觀察、搜索資料和特徵對比，給出最終判斷，並整理成表格，列出病斑顏色、紋理、形狀和葉片變化等關鍵信息。 ▲Qwen3.7-Plus判斷植物疾病（圖源：通義實驗室）此外，Qwen3.7-Plus還可以把視覺輸入直接轉化為代碼。對於圖標、插畫、動效或網頁參考圖，模型可以把畫面中的形狀、顏色、佈局關係轉成SVG或前端代碼。 ▲Qwen3.7-Plus根據參考圖復刻並輸出代碼（圖源：通義實驗室）在網頁設計場景中，Qwen3.7-Plus可基於參考圖、視頻素材或設計意圖，組織頁面佈局、編寫前端代碼、處理交互動效，並調用工具補全缺失素材，從而生成可以運行的交互式網頁原型。 ▲Qwen3.7-Plus設計的網頁（圖源：通義實驗室）在更接近真實場景的任務中，Qwen3.7-Plus也能處理複雜圖表。以地鐵線路圖為例，模型可以在密集交錯的線路中定位起點和終點，識別不同線路的顏色和換乘關係，並規劃出完整路線。它會沿線路逐站追蹤，在需要換乘的位置切換線路，最終給出從出發站到目的站的完整乘車路徑。 ▲Qwen3.7-Plus根據新加坡地鐵線路圖規劃路線（圖源：通義實驗室）四、瀏覽器智能助手可自動比價下單，完成網頁多步操作除上述能力外，通義還基於Qwen3.7-Plus構建了瀏覽器智能助手，並通過Qwen for Chrome插件提供體驗。用戶安裝插件後，可以在瀏覽器側邊欄中直接與Qwen對話，授權後切換至Agent模式。在該模式下，Qwen可以感知當前網頁內容、理解任務意圖、規劃操作步驟，並在真實瀏覽器環境中自動執行點擊、輸入、跳轉、配置和驗證，完成頁面感知、任務規劃、GUI自動化執行的閉環。在ECS採購自動化案例中，面對非技術用戶提出的“採購一臺最便宜的雲服務器”需求，Agent會登錄雲控制台，自動比價、選型、配置鏡像與安全組並確認訂單。遇到缺貨或價格波動時，模型會調整策略，直到任務完成。 ▲瀏覽器智能助手根據用戶需求購買服務器（圖源：通義實驗室）結語：多模態模型逐步勝任真實任務場景從上述案例中，可以看出Qwen3.7-Plus具備較強的視覺理解、編程、任務執行等能力。多模態模型具備識別圖像、理解視頻、回答問題的能力，同時還能夠繼續完成操作應用、調用工具、生成代碼和驗證結果等後續步驟。這也意味著，多模態模型的競爭重點正在從“看得準”轉向“做得成”。對於開發者和企業來說，真正重要的是，模型能夠在真實工具鏈和業務流程中持續執行，並交付一個可運行、可驗證的結果。隨著模型同時具備視覺理解、工具調用、代碼生成和自我驗證能力，AI能承擔的工作將逐步進入軟件開發、辦公自動化、瀏覽器操作、數據處理等更具體的執行場景。

原始來源：智東西 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

18 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析