Step 3.7 Flash 重磅發佈：Agent 效率新時代真正到來

2026年5月29日 08:0110000 次瀏覽

重點摘要

今日，開源模型Step3.7Flash正式發佈，以Apache2.0協議開放權重，直擊Agent時代效率、可靠性與多模態執行等核心痛點。在多項基準測試中表現突出：ClawEval-1.1獲67.1分排名第一，SimpleVQA Search得79.2分居首，SWE-PRO以56.3分位列第二，V* Python得分高達95.3，展現了在Agent任務、代碼生成及視覺執行等領域的實戰能力。

站內 AI 整理稿

### Step 3.7 Flash 開源發布：Agent 效率與多模態執行邁入新局

開源 AI 模型市場再度迎來重要動態。今日，Step 3.7 Flash 正式以 Apache 2.0 協議開放權重，這不僅延續了開源社群對透明與協作的追求，更將焦點對準當前 AI 落地最迫切的 Agent 應用場景。這款模型的發布，試圖在效率、可靠性與多模態執行之間取得平衡，為開發者提供一個兼具成本與效能的實戰選項。

### 重點整理：基準測試成績搶眼，三項領域奪冠或名列前茅

根據官方公布的數據，Step 3.7 Flash 在多項專業基準測試中表現突出。在針對代理任務的 ClawEval-1.1 評測中，它以 67.1 分奪下第一，擊敗同類模型；在 SimpleVQA Search 這類依賴多模態理解的題庫中，更以 79.2 分居首。程式碼生成方面，SWE-PRO 評測拿到 56.3 分，位列第二；而在視覺執行的 V* Python 測試中，則獲得 95.3 的高分。這些數字顯示，該模型在 Agent 任務、程式碼生成與視覺執行三個維度皆具備競賽級實力。

### 背景脈絡：Agent 時代的效率與可靠性痛點

隨著 AI 從單一對話走向自主執行任務的 Agent 時代，傳統模型常面臨回應速度慢、任務拆解不穩定、多模態整合困難等瓶頸。尤其當 Agent 需要串聯工具、呼叫 API 或讀取圖形介面時，模型的反應延遲與錯誤率往往成為商業應用的硬傷。Step 3.7 Flash 的開發團隊正是瞄準這三大痛點，以 Apache 2.0 這項對商用友好的授權方式推出，降低企業導入與修改的門檻，也讓學術研究單位能自由複現與改進。

### 可能影響：開發者與企業的實戰效率將顯著提升

對於專注於自動化流程、智能客服或自動程式修復的開發者而言，Step 3.7 Flash 的發布意味著更低的延遲與更高的任務完成率。ClawEval 與 SWE-PRO 的高分分別代表模型在「工具調用」與「軟體工程」領域的可靠度大幅提升，這能直接加速開發者建構自主除錯、自動生成測試案例等流程。同時，多模態能力（如 V* Python 評測所代表的圖形解析加程式碼生成）讓模型能處理複雜的視覺推理任務，例如從網頁截圖直接生成對應程式碼，有望解鎖更多自動化應用。

### 可能影響：開源生態的競爭與合作新契機

當前開源模型陣營百花齊放，Step 3.7 Flash 的加入可能催化幾個現象。首先，Apache 2.0 協議降低了商業風險，讓中小型新創能直接基於該模型打造專屬 Agent 產品，不必擔心授權陷阱。其次，其多模態執行能力與程式碼生成成績，可能促使其他開源團隊在類似維度加速迭代，或選擇與之整合，形成更完整的工具鏈。對大型企業而言，也可作為私有部署的候選方案，在成本與效能間取得平衡。

### 讀者可關注的後續：實際落地與社群回饋

面對這則消息，讀者接下來可留意幾個方向。第一，該模型的實際安裝與使用門檻：開源權重雖已釋出，但推理效率與硬體需求將直接影響普及速度。第二，社群在 GitHub 或 Hugging Face 上如何評價其穩定度與真實場景表現，尤其是與同級模型（如 Qwen 或 Llama 系列的簡化版）的對比。第三，開發團隊後續是否會推出微調指南或專用工具鏈，讓 Agent 開發者能更快地將模型整合進既有系統。

原始來源：AIBase ↗

查看原始來源

TechWebAI Agent

網易有道全面向AI轉型全場景Agent矩陣亮相圖博會

{"id":"39ef5947-b77a-4904-bf03-ff6264f08dc4","object":"response","model":"deepseek-v4-flash","output":[],"stop_reason":"max_output_tokens","usage":{"input_tokens":154,"output_tokens":200,"total_tokens":354}}

剛剛閱讀分析

Hugging Face BlogAI Agent

MosaicLeaks: Can your research agent keep a secret?

Back to Articles MosaicLeaks: Can your research agent keep a secret? Enterprise Article Published June 18, 2026 Upvote - Alexander Gurung agurung Follow ServiceNow Rafael Pardinas rafapi-snow Follow ServiceNow TL;DR Deep research agents increasingly combine private local documents with external tools like web retrieval, creating a privacy risk: an agent's external queries may leak sensitive information. MosaicLeaks proposes a new deep-research task with multi-hop questions that interleave public and private information. Across the models we tested, agents frequently leaked private information, and training only for task performance made it worse. We propose a mosaic-leakage-aware RL training method, Privacy-Aware Deep Research (PA-DR), which raises strict chain success (the share of chains

16 小時前閱讀分析