消耗1830億token，Meta用AI把數學教材翻譯成了一個超大Lean庫

2026年5月29日 15:22

重點摘要

Meta 近日開源一項大規模「數學形式化」工程，運用大型語言模型消耗1830億個token，將大量數學教材自動翻譯成 Lean 語言的證明程式碼，成為迄今最大的自動數學形式化資料庫。這項計畫由 Meta AI 團隊主導，旨在解決傳統手動驗證定理耗時費力的瓶頸，展現 AI 在數學研究與教學上的潛力。該資料庫已開源，預計將降低形式化驗證門檻，並可作為訓練推理型 AI 的寶貴資源。

站內 AI 整理稿

### 消耗1830億token，Meta用AI把數學教材翻譯成了一個超大Lean庫

Meta 近日開源了一項堪稱「數學形式化」領域最大規模的自動化工程——他們運用大型語言模型，消耗了高達1830億個token，將大量數學教材與文獻轉換為 Lean 語言的證明程式碼。這項計畫不僅展現了 AI 在協助數學研究與教學上的潛力，也為未來自動化推理系統提供了前所未有的資料基礎。

#### 重點整理：史上最大自動數學形式化資料庫

這項由 Meta AI 團隊主導的工程，核心目標是將人類書寫的數學教材，自動轉譯成 Lean 這種互動式定理證明器的形式化語言。Lean 本身就是一種用來驗證數學定理正確性的程式語言，過去使用者必須手動撰寫證明腳本，耗費大量人力與時間。Meta 利用自家訓練的語言模型，一口氣處理了龐大的數學文本，最終產出數十萬條經過驗證的定理與證明，形成當前規模最大的自動數學形式化工廠。

#### 背景脈絡：為什麼需要「數學形式化」？

數學形式化的概念存在已久，目的是將數學推理轉為可被電腦嚴格檢查的邏輯步驟。Lean、Coq、Isabelle 等工具正是為此而生。然而，過去將現有教科書或論文中的數學證明「翻譯」成形式化語言，往往需要專家花費數小時甚至數天來處理一個定理。Meta 這次嘗試用 AI 大規模自動化，正是要解決這個瓶頸。他們選用的模型經過特別調整，能理解數學符號、推導邏輯與語句結構，即使遇到未見過的命題，也能生成相對應的 Lean 程式碼。

#### 可能影響：數學研究、教育與 AI 驗證的三重衝擊

這項開源計畫的問世，將在多個層面產生深遠影響。首先，對數學研究者而言，一個大型的 Lean 資料庫能大幅降低形式化驗證的門檻，未來將更多定理導入 Lean 中，有助於開發新的證明技巧，甚至發現既有證明中的隱含假設或錯誤。其次，在教育領域，這些形式化的教材可作為互動式學習工具，讓學生實際操作證明步驟，加深對數學概念的理解。最後，對 AI 本身而言，這批高品質的結構化數學知識，可作為訓練「推理型」AI 的寶貴資料，推動邏輯推論與數學能力更上一層樓。

#### 讀者可關注的後續發展

目前 Meta 已將這個資料庫與相關模型開源，學術界與業界皆可自由下載使用。接下來值得關注的重點包括：第一，這些自動生成的 Lean 證明是否完全正確？是否還有未通過驗證的疏漏？第二，該技術能否延伸到物理、計算機科學等同樣需要嚴謹推理的領域？第三，隨著 token 消耗量達到千億級別，未來模型是否還需更大的計算資源，或者可透過更輕量的架構達到相同效果？台灣的數學教育與 AI 研究社群，也可思考如何借鏡此方法，發展本土的數學形式化教材與驗證工具。

總而言之，Meta 這項「用 AI 翻譯數學」的計畫，不僅是技術上的突破，更可能改變未來我們學習與驗證數學的方式。在自動定理證明與大型語言模型兩條技術路線交會的當下，這一步或許只是開端，卻已為數學與 AI 的深度結合寫下重要篇章。

原始來源：36氪 ↗

查看原始來源

鈦媒體AI應用場景

AI預測不了“佛得角”

AI預測模型在世界盃足球賽預測中集體失準，特別是對非洲隊伍「佛得角」的表現完全錯估，凸顯大模型在面臨動態不確定性與非主流聯賽數據不足時的脆弱性。這場預測翻車事件引發外界對AI可信度的質疑，也促使科技公司反思如何修正模型，導入即時動態資訊以提升預測準確度。

剛剛閱讀分析

智東西AI應用場景

智能家居終於“智能”了！有記憶、能認人的“賈維斯”，小米先交卷了

{"id":"bfc7e789-db52-4597-89dc-85a30161bd27","object":"response","model":"deepseek-v4-flash","output":[],"stop_reason":"max_output_tokens","usage":{"input_tokens":158,"output_tokens":1400,"total_to...

剛剛閱讀分析