Mistral AI Releases Leanstral 1.5: An Apache-2.0 Lean 4 Code Agent Model Solving 587 of 672 PutnamBench Problems

2026年7月3日 22:20

重點摘要

Mistral AI 正式釋出 Leanstral 1.5，這是一款專為 Lean 4 證明助手打造的程式碼代理模型，採用 Apache 2.0 開源授權。該模型使用混合專家架構，總參數 119B，每次激活 6.5B，支援 256K 上下文長度與多模態輸入。在基準測試中，Leanstral 1.5 在 miniF2F 上達到 100% 準確率，解決了 PutnamBench 672 題中的 587 題，並在 FATE-H、FATE-X 及 FLTEval 上創下新紀錄，以不到七分之一的成本超越 Opus 4.6。

站內 AI 整理稿

Mistral AI 今日正式釋出 Leanstral 1.5，這是一款專為 Lean 4 證明助手打造的程式碼代理模型。該模型不僅以 Apache 2.0 授權開放權重，還同步上線了免費的 API 端點 leanstral-1-5。Leanstral 1.5 是先前 Leanstral-2603 的升級版本，屬於 Mistral Small 4 系列，目標鎖定自動定理證明與證明工程領域。 Leanstral 1.5 採用混合專家（MoE）架構，總共擁有 128 個專家子網路，但每次處理每個 token 僅啟動其中 4 個，因此總參數量雖達 119B，實際激活參數僅 6.5B，大幅降低運算成本。模型支援 256k token 的上下文長度，可接受文字與圖像輸入，輸出則為純文字。訓練過程分為三個階段：中期訓練、監督式微調，以及基於 CISPO 的強化學習。在強化學習階段，Mistral 設計了兩種環境：多輪環境中，模型需針對定理提出證明並根據 Lean 編譯器反饋反覆修正；程式碼代理環境則讓模型直接在原始檔案系統中編輯檔案、執行 bash 指令，並透過 Lean 語言伺服器即時獲取目標、錯誤與型別資訊，甚至能進行上下文壓縮以處理長時間任務。在基準測試方面，Leanstral 1.5 表現亮眼。它在 miniF2F 驗證集與測試集上均達到 100% 的飽和成績；在 PutnamBench 上成功解決 672 題中的 587 題；在 FATE-H 與 FATE-X 代數基準上分別創下 87% 與 34% 的新最佳紀錄。針對 FLTEval（取自費馬最後定理儲存庫的真實 pull request），模型的 pass@1 從 21.9 提升至 28.9，pass@8 則從 31.9 躍升至 43.2，超越 Opus 4.6 的 39.6，且成本僅為其七分之一。成本效益是 Leanstral 1.5 的另一大亮點。在 PutnamBench 上，每個問題的運算成本約為 4 美元，遠低於 Seed-Prover 1.5 high 設定下每個問題約 300 美元以上的花費（後者每個問題需耗費 10 個 H20 天）。與其他模型如 Goedel-Architect、AxProverBase 及 Aleph Prover（每個問題約 54 至 68 美元）相比，Leanstral 1.5 在性價比上具明顯優勢。模型還展現了測試時擴展的特性：提高每次嘗試的 token 預算，能顯著提升 PutnamBench 的 pass@8 成績——從 50k token 時的 44 題，一路攀升至 4M token 時的 587 題。除了數學證明，Leanstral 1.5 在程式碼驗證上也展現實用價值。Mistral 團隊公開了兩個案例：其一，模型成功證明了一個真實 AVL 樹實作的 O(log n) 時間複雜度，該證明使用結構歸納與 TimeM monad，總共耗費超過 270 萬個 token，歷經 22 次上下文壓縮；其二，透過自動化流程將 Rust 程式碼轉譯為 Lean，Leanstral 推斷使用者意圖並生成正確性屬性，在 57 個開源儲存庫中標記出 47 個違反屬性的案例與 11 個真實 bug，其中 5 個是先前未在 GitHub 上回報的漏洞，例如 datrs/varinteger 中 zigzag 解碼的 sign 函式在輸入 Std.U64.MAX 時會因溢位導致崩潰或資料損毀。這些案例顯示，開發團隊可直接利用 Leanstral 1.5 在儲存庫內完成部分證明、自動生成函式的正確性屬性，或透過證明與反證推斷的不變量來壓力測試 Rust 程式碼。

原始來源：MarkTechPost AI ↗

查看原始來源

36氪模型更新

Claude Fable 5，名存實亡

assistant: 根據提供的內容，這似乎是一則關於AI模型服務的報導或評論。摘要如下：Claude的Fable 5模型在更新後性能大幅下滑，跑分結果出現斷崖式下跌。官方文檔揭露，用戶在付費使用Fable 5的過程中，實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。</think>Claude的Fable 5模型在更新後性能大幅下滑，跑分結果出現斷崖式下跌。官方文檔揭露，用戶在付費使用Fable 5的過程中，實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。

5 小時前閱讀分析

AIBase模型更新

廣告治理迎來“視覺進化”：巨量引擎發佈 Mamoda 2.5 版本，實現視頻全形態覆蓋

巨量引擎發佈自研廣告治理大模型Mamoda 2.5，實現內容安全風控技術升級。該模型從1.0僅能識別基礎違規文本起步，經持續迭代，能力邊界不斷擴展，為數字化廣告生態的違規內容高效精準識別與治理提供更強支撐。

13 小時前9800閱讀分析

雷峰網模型更新

AI基礎設施的下一個千億市場，為何藏在網絡裡？

過去六年，國產GPU公司一路站上AI風口，估值不斷刷新，DPU卻被忽略了。這並不符合產業現實。2020年英偉達完成收購Mellanox後，就已經明確了“GPU+CPU+DPU”的三芯戰略。過去幾年，英偉達也持續強化網絡能力，黃仁勳在2026年CES展示“六芯組合”時，其中四款都與網絡相關。一個越來越清晰的趨勢開始浮出水面：AI基礎設施的瓶頸，正在從算力本身轉向網絡與調度。

17 小時前閱讀分析

何夕2077模型更新

克勞德模型推理成本熱議

克勞德模型推理成本熱議。評測平臺發現 Opus 的性價比再次顯現。它在長任務中 �� 性能和使用價格雙優。新模型 Sonnet 5 步驟繁多導致成本飆升。用戶可訪問討論專區獲取對比詳情。專家 (:з選) 更加推薦開發者選用經典版本。

1 天前閱讀分析

MarkTechPost AI模型更新

Google Health API 有了 CLI：ghealth 是專為 Fitbit 資料設計的開源工具

Google Health API 是 Fitbit Web API 的官方後繼者，它鎖定 Google Health API v4，並讓開發者遷移至 Google OAuth 2.0。現在，一款名為 ghealth 的開源 CLI 命令列工具將該 API 包裝起來，適用於終端機與 AI 代理。該工具是單一的 Go 二進位檔，採用 Apache 2.0 授權。它將 40 種經過驗證的資料類型以結構化 JSON 形式呈現，讓你能將睡眠、心率與步數資料直接導入代理的上下文。什麼是 ghealth？ghealth 是 Google Health API v4 的包裝工具。你可以透過 go build -o ghealth . 從原始碼建置，產出一個自包含的二進位檔。該工具明確以代理為優先，每個指令都會回傳形狀穩定的簡化 JSON。此外，它還提供確定性錯誤碼、--dry-run 旗標與 --raw 旗標。

1 天前閱讀分析

AIBase模型更新

孫天祥入職百度出任基礎模型研發部負責人，並進入模型委員會

孫天祥加入百度任基礎模型研發部負責人，進入模型委員會。百度已將大模型研發拆分為基礎模型部與應用模型部，前者專註文心基礎模型攻堅。此舉強化組織與人才佈局，加速技術迭代。

1 天前4700閱讀分析

相關文章