阿里又發了款智能體模型:11小時造出學英語App,還能看懂地鐵線路圖
重點摘要
智東西 作者 | 楊京麗 編輯 | 李水青 智東西6月2日消息,今天,阿里通義千問發佈多模態智能體模型Qwen3.7-Plus。相比傳統“看圖說話”式多模態模型,Qwen3.7-Plus在識別圖像的基礎上,進一步打通界面感知、工具調用、代碼生成和任務交付,讓AI從“讀懂世界”,走向“動手完成任務”。 智東西第一時間體驗並結合官方案例發現,Qwen3.7-Plus在視覺推理、圖片搜索、工具調用等方面展現出不少亮點。不過實測中,複雜頁面仍會出現圖片文字亂碼、交互失效、3D預覽黑屏等問題,最終結果仍需要人工檢查和調試。 此前,5月20日,阿里發佈Qwen3.7系列旗艦模型Qwen3.7-Max。在第三方機構Artificial Analysis公佈的全球大模型總榜中,Qwen3.7-Max的Artificial Analysis Intelligence Index目前得分為57,與GPT-5.5(medium)、Claude Opus 4.7(max)、Gemini 3.1 Pro Preview等海外模型分數接近,領先Kimi K2.6、Mimo-V2.5-Pro等國產模型,位列國產模型第一。 ▲Artificial Analysis全球大模型榜單(圖源:Artificial Analysis) 今天發佈的Qwen3.7-Plus補齊Qwen3.7系列的視覺識別能力,現已在阿里雲百鍊平臺上線,支持OpenAI兼容API與Anthropic協議。開發者可以直接調用API完成多模態交互、智能體任務和視覺編程等場景,也可以通過Claude Code、OpenClaw或Qwen Code直接調用,無需修改原有Prompt或工具鏈。同時,Qwen Studio也已開放Qwen3.7-Plus在線體驗。 API地址: https://bailian.console.aliyun.com/
智東西 作者 | 楊京麗 編輯 | 李水青 智東西6月2日消息,今天,阿里通義千問發佈多模態智能體模型Qwen3.7-Plus。相比傳統“看圖說話”式多模態模型,Qwen3.7-Plus在識別圖像的基礎上,進一步打通界面感知、工具調用、代碼生成和任務交付,讓AI從“讀懂世界”,走向“動手完成任務”。 智東西第一時間體驗並結合官方案例發現,Qwen3.7-Plus在視覺推理、圖片搜索、工具調用等方面展現出不少亮點。不過實測中,複雜頁面仍會出現圖片文字亂碼、交互失效、3D預覽黑屏等問題,最終結果仍需要人工檢查和調試。 此前,5月20日,阿里發佈Qwen3.7系列旗艦模型Qwen3.7-Max。在第三方機構Artificial Analysis公佈的全球大模型總榜中,Qwen3.7-Max的Artificial Analysis Intelligence Index目前得分為57,與GPT-5.5(medium)、Claude Opus 4.7(max)、Gemini 3.1 Pro Preview等海外模型分數接近,領先Kimi K2.6、Mimo-V2.5-Pro等國產模型,位列國產模型第一。 ▲Artificial Analysis全球大模型榜單(圖源:Artificial Analysis) 今天發佈的Qwen3.7-Plus補齊Qwen3.7系列的視覺識別能力,現已在阿里雲百鍊平臺上線,支持OpenAI兼容API與Anthropic協議。開發者可以直接調用API完成多模態交互、智能體任務和視覺編程等場景,也可以通過Claude Code、OpenClaw或Qwen Code直接調用,無需修改原有Prompt或工具鏈。同時,Qwen Studio也已開放Qwen3.7-Plus在線體驗。 API地址: https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3.7-plus?serviceSite=asia-pacific-china Qwen Studio體驗地址: https://chat.qwen.ai/?models=qwen3.7-plus 一、融合視覺、語言和Agent能力,多項測試得分超GPT-5.4和Gemini 3.1 Pro Qwen3.7-Plus是在Qwen3.7文本與Agent能力基礎上,進一步融合視覺與語言能力形成的多模態智能體模型。 Qwen3.7-Plus不僅能看懂圖形界面、文檔和真實場景,還能直接上手操作,調用命令行、自主編寫代碼、驗證運行結果。另外,千問還將GUI操作、CLI調用、代碼生成和自我驗證放進同一個智能體循環中,形成“看、想、寫、做、驗”的端到端閉環。 基準測試中,Qwen3.7-Plus在多模態推理、視覺Agent與編程以及通用視覺理解方面都有不錯的表現。 ▲Qwen3.7-Plus在12項核心基準測試中的綜合表現(圖源:通義實驗室) 在多模態推理方面,Qwen3.7-Plus在BabyVision中得分70.4/64.7,領先Gemini 3.1 Pro的55.9和GPT-5.4(xhigh)的53.1;MathVision得分90.3,與GPT-5.4(xhigh)的91分得分接近,高於Gemini-3.1 Pro的87.4和Qwen3.6-Plus的88.0。 在視覺Agent與編程方面,Qwen3.7-Plus在ScreenSpot Pro中得分79.0,超過GPT-5.4(xhigh)的67.4、Gemini 3.1 Pro的68.1;AndroidWorld得分81.0,高於Gemini-3.1 Pro的70.7。 在通用視覺理解方面,Qwen3.7-Plus在RealWorldQA中得分86.9,高於Qwen3.6-Plus的85.4和GPT-5.4(xhigh)的83.8;OCR-Bench-V2英文和中文測試分別取得70.7和67.1,說明其在開放世界視覺問答、真實場景解析和OCR能力上具備優勢。 智東西第一時間體驗了Qwen3.7-Plus的網頁生成和視覺編程能力。 我們先讓Qwen3.7-Plus完成一個防曬產品網頁前端設計。模型生成的頁面結構較完整,包含產品介紹、核心優勢、明星產品等模塊,也生成了配套產品圖片。不過體驗中我們也發現,生成圖片中的部分文字出現亂碼,頁面交互功能未能正常使用,說明其在靜態頁面搭建上完成度較高,但圖片中文字渲染和前端交互細節仍需人工調試。 ▲Qwen3.7-Plus生成的網頁 後面,我們又讓Qwen3.7-Plus生成“騎自行車的鵜鶘”3D像素藝術作品。我們先使用快速模式,比較有意思的是,Qwen3.7-Plus沒有一開始直接生成HTML代碼,而是先生成了一張圖片,畫面中已經呈現出鵜鶘騎車、樹木、道路和春日場景等元素。隨後,模型補充生成了HTML代碼。不過在預覽時,頁面中只有標題和黑色畫布,3D主體未能正常渲染。 ▲快速模式下,Qwen3.7-Plus的3D鵜鶘任務執行情況 任務失敗後,我們改用思考模式重新生成同一任務,效果明顯更穩定。5分鐘後,Qwen3.7-Plus按照要求生成可運行的HTML,畫面中可以看到夜空背景、像素化鵜鶘、自行車、草地平臺和動態氛圍效果,可以拖拽旋轉。相比快速模式,思考模式下的代碼完整性和可預覽效果更好,已經能生成一個可運行、可交互的網頁作品。 ▲快速模式下,Qwen3.7-Plus生成的3D像素藝術作品 整體看,Qwen3.7-Plus在視覺創意轉代碼方面具備較強可用性,但複雜前端和3D場景仍存在一定不穩定性,需要通過思考模式、多輪迭代或人工修正來提升交付質量。 二、穩定運行11小時寫完App,還能復刻macOS Stocks應用 為了驗證Qwen3.7-Plus的實際落地能力,通義千問基於該模型構建了智能體系統Hybrid-Agent,並讓其獨立完成一款類似多鄰國、百詞斬的英語單詞學習App的完整研發流程。 官方測試中,Hybrid-Agent連續穩定運行超過11小時,累計生成代碼超10000行,觸發工具調用超1000次。整個流程覆蓋需求文檔生成、代碼編寫、自動部署、測試用例創建、GUI自動化測試、多場景並行測試、產品說明更新和版本迭代等環節。 ▲Qwen3.7-Plus設計的英語單詞學習App(圖源:通義實驗室) 最終,Qwen3.7-Plus完成了App的全流程設計,具備單詞本、單詞消消樂、每日單詞背誦、限時挑戰等功能,用戶可以根據需求設置每日速記目標,提醒時間等。整個App的設計均由Qwen3.7-Plus獨立完成,體現出模型在真實任務場景下,具備成熟的編程能力、工具調用能力和視覺設計能力。 在桌面應用場景中,千問官方讓Qwen3.7-Plus復刻macOS原生Stocks股市應用。 復刻過程中,Qwen3.7-Plus能夠自主交互原生應用,理解其UI佈局和功能細節,再基於交互記錄生成SwiftUI源碼,並接入LongBridge真實行情API獲取實時市場數據,系統能夠自動完成編譯構建,並復刻應用。 ▲模型自主復刻App(圖源:通義實驗室) Qwen3.7-Plus自主執行了10項功能驗證測試,包括實時行情加載、股票選擇與切換、多週期視圖切換、搜索過濾、詳細數據面板展示等,最終全部通過。交付結果復現了原生Stocks的暗色主題、分欄佈局、實時行情數據和完整交互體驗。案例充分展示出,多模態智能體在觀察真實軟件、理解交互邏輯、生成應用代碼、驗證功能結果等方面,具備不錯的遷移能力。 三、找不同、查病害、畫路線,看完圖還能搜索、執行 視覺能力上,Qwen3.7-Plus不僅能識別圖像,看完圖像後,還能繼續解決問題。 在找不同、華容道、迷宮、拼圖等需要推理的視覺任務中,Qwen3.7-Plus會先提取圖像中的幾何結構與空間約束,將視覺問題轉化為可計算邏輯,隨後調用代碼解釋器,編寫並執行求解程序,形成視覺感知、空間建模、代碼求解和結果校驗的自動化流程。 在官方的找不同案例中,Qwen3.7-Plus能夠加載圖片,調整大小匹配左右兩張圖片,並形成不同點地圖,後續進行思考分析。通過代碼解釋器,仔細核對座標及圖像,在差異圖中標註差異中心點,經過多次比對與反覆思考,最終找出5處不同點,準確完成找不同任務。 ▲Qwen3.7-Plus完成找不同任務(圖源:通義實驗室) 在搜索增強視覺問答場景中,當問題超出圖像本身,Qwen3.7-Plus可以從單圖、多圖或視頻中提取關鍵實體與上下文線索,再聯網檢索外部知識,將視覺證據與實時信息交叉驗證。這一能力適用於多類開放世界問題,例如識別陌生地標、追溯事件背景、分析複雜商品參數等。 針對判斷植物疾病的案例,Qwen3.7-Plus先觀察葉片上的棕褐色斑塊、黃化區域和病斑邊緣形態,初步分析其可能對應的病害類型。 隨後,模型調用網頁搜索,查找相似圖片和相關資料,並把搜索結果與圖片中的細節進行對照。經過7次檢索後,Qwen3.7-Plus綜合圖像觀察、搜索資料和特徵對比,給出最終判斷,並整理成表格,列出病斑顏色、紋理、形狀和葉片變化等關鍵信息。 ▲Qwen3.7-Plus判斷植物疾病(圖源:通義實驗室) 此外,Qwen3.7-Plus還可以把視覺輸入直接轉化為代碼。對於圖標、插畫、動效或網頁參考圖,模型可以把畫面中的形狀、顏色、佈局關係轉成SVG或前端代碼。 ▲Qwen3.7-Plus根據參考圖復刻並輸出代碼(圖源:通義實驗室) 在網頁設計場景中,Qwen3.7-Plus可基於參考圖、視頻素材或設計意圖,組織頁面佈局、編寫前端代碼、處理交互動效,並調用工具補全缺失素材,從而生成可以運行的交互式網頁原型。 ▲Qwen3.7-Plus設計的網頁(圖源:通義實驗室) 在更接近真實場景的任務中,Qwen3.7-Plus也能處理複雜圖表。以地鐵線路圖為例,模型可以在密集交錯的線路中定位起點和終點,識別不同線路的顏色和換乘關係,並規劃出完整路線。它會沿線路逐站追蹤,在需要換乘的位置切換線路,最終給出從出發站到目的站的完整乘車路徑。 ▲Qwen3.7-Plus根據新加坡地鐵線路圖規劃路線(圖源:通義實驗室) 四、瀏覽器智能助手可自動比價下單,完成網頁多步操作 除上述能力外,通義還基於Qwen3.7-Plus構建了瀏覽器智能助手,並通過Qwen for Chrome插件提供體驗。 用戶安裝插件後,可以在瀏覽器側邊欄中直接與Qwen對話,授權後切換至Agent模式。在該模式下,Qwen可以感知當前網頁內容、理解任務意圖、規劃操作步驟,並在真實瀏覽器環境中自動執行點擊、輸入、跳轉、配置和驗證,完成頁面感知、任務規劃、GUI自動化執行的閉環。 在ECS採購自動化案例中,面對非技術用戶提出的“採購一臺最便宜的雲服務器”需求,Agent會登錄雲控制台,自動比價、選型、配置鏡像與安全組並確認訂單。遇到缺貨或價格波動時,模型會調整策略,直到任務完成。 ▲瀏覽器智能助手根據用戶需求購買服務器(圖源:通義實驗室) 結語:多模態模型逐步勝任真實任務場景 從上述案例中,可以看出Qwen3.7-Plus具備較強的視覺理解、編程、任務執行等能力。多模態模型具備識別圖像、理解視頻、回答問題的能力,同時還能夠繼續完成操作應用、調用工具、生成代碼和驗證結果等後續步驟。 這也意味著,多模態模型的競爭重點正在從“看得準”轉向“做得成”。對於開發者和企業來說,真正重要的是,模型能夠在真實工具鏈和業務流程中持續執行,並交付一個可運行、可驗證的結果。隨著模型同時具備視覺理解、工具調用、代碼生成和自我驗證能力,AI能承擔的工作將逐步進入軟件開發、辦公自動化、瀏覽器操作、數據處理等更具體的執行場景。
Related
相關文章

Edge AI Daily 早報(6月19日)
AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

今天起,Claude Design要把設計師和程序員變成同一種人了
猝不及防!Anthropic深夜甩出Claude Design大更新,設計系統一鍵導入,代碼雙向同步,9大平臺一鍵導出。Anthropic設計師親自下場錄屏:AI跑了八輪自查,才敢把設計稿給你看。

OpenAI 成為 Rust 基金會白金會員,合計贊助 60 萬美元
OpenAI 正式成為 Rust 基金會白金會員,將提供總計 60 萬美元資金,用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

Claude Design 上線首周用戶破百萬,和 Claude Code 共享 AI 配額
Anthropic 今天(6 月 18 日)發佈公告,在宣佈 Claude Design 上線首周用戶規模突破 100 萬後,進一步強化和 Claude Code 的雙向聯動,實現從設計到編程的無縫工作流。
谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元
智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

微軟,考慮接入DeepSeek
這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。