消耗1830億token,Meta用AI把數學教材翻譯成了一個超大Lean庫

重點摘要
Meta 近日開源一項大規模「數學形式化」工程,運用大型語言模型消耗1830億個token,將大量數學教材自動翻譯成 Lean 語言的證明程式碼,成為迄今最大的自動數學形式化資料庫。這項計畫由 Meta AI 團隊主導,旨在解決傳統手動驗證定理耗時費力的瓶頸,展現 AI 在數學研究與教學上的潛力。該資料庫已開源,預計將降低形式化驗證門檻,並可作為訓練推理型 AI 的寶貴資源。
### 消耗1830億token,Meta用AI把數學教材翻譯成了一個超大Lean庫
Meta 近日開源了一項堪稱「數學形式化」領域最大規模的自動化工程——他們運用大型語言模型,消耗了高達1830億個token,將大量數學教材與文獻轉換為 Lean 語言的證明程式碼。這項計畫不僅展現了 AI 在協助數學研究與教學上的潛力,也為未來自動化推理系統提供了前所未有的資料基礎。
#### 重點整理:史上最大自動數學形式化資料庫
這項由 Meta AI 團隊主導的工程,核心目標是將人類書寫的數學教材,自動轉譯成 Lean 這種互動式定理證明器的形式化語言。Lean 本身就是一種用來驗證數學定理正確性的程式語言,過去使用者必須手動撰寫證明腳本,耗費大量人力與時間。Meta 利用自家訓練的語言模型,一口氣處理了龐大的數學文本,最終產出數十萬條經過驗證的定理與證明,形成當前規模最大的自動數學形式化工廠。
#### 背景脈絡:為什麼需要「數學形式化」?
數學形式化的概念存在已久,目的是將數學推理轉為可被電腦嚴格檢查的邏輯步驟。Lean、Coq、Isabelle 等工具正是為此而生。然而,過去將現有教科書或論文中的數學證明「翻譯」成形式化語言,往往需要專家花費數小時甚至數天來處理一個定理。Meta 這次嘗試用 AI 大規模自動化,正是要解決這個瓶頸。他們選用的模型經過特別調整,能理解數學符號、推導邏輯與語句結構,即使遇到未見過的命題,也能生成相對應的 Lean 程式碼。
#### 可能影響:數學研究、教育與 AI 驗證的三重衝擊
這項開源計畫的問世,將在多個層面產生深遠影響。首先,對數學研究者而言,一個大型的 Lean 資料庫能大幅降低形式化驗證的門檻,未來將更多定理導入 Lean 中,有助於開發新的證明技巧,甚至發現既有證明中的隱含假設或錯誤。其次,在教育領域,這些形式化的教材可作為互動式學習工具,讓學生實際操作證明步驟,加深對數學概念的理解。最後,對 AI 本身而言,這批高品質的結構化數學知識,可作為訓練「推理型」AI 的寶貴資料,推動邏輯推論與數學能力更上一層樓。
#### 讀者可關注的後續發展
目前 Meta 已將這個資料庫與相關模型開源,學術界與業界皆可自由下載使用。接下來值得關注的重點包括:第一,這些自動生成的 Lean 證明是否完全正確?是否還有未通過驗證的疏漏?第二,該技術能否延伸到物理、計算機科學等同樣需要嚴謹推理的領域?第三,隨著 token 消耗量達到千億級別,未來模型是否還需更大的計算資源,或者可透過更輕量的架構達到相同效果?台灣的數學教育與 AI 研究社群,也可思考如何借鏡此方法,發展本土的數學形式化教材與驗證工具。
總而言之,Meta 這項「用 AI 翻譯數學」的計畫,不僅是技術上的突破,更可能改變未來我們學習與驗證數學的方式。在自動定理證明與大型語言模型兩條技術路線交會的當下,這一步或許只是開端,卻已為數學與 AI 的深度結合寫下重要篇章。
Related
相關文章

AI預測不了“佛得角”
AI預測模型在世界盃足球賽預測中集體失準,特別是對非洲隊伍「佛得角」的表現完全錯估,凸顯大模型在面臨動態不確定性與非主流聯賽數據不足時的脆弱性。這場預測翻車事件引發外界對AI可信度的質疑,也促使科技公司反思如何修正模型,導入即時動態資訊以提升預測準確度。

智能家居終於“智能”了!有記憶、能認人的“賈維斯”,小米先交卷了
{"id":"bfc7e789-db52-4597-89dc-85a30161bd27","object":"response","model":"deepseek-v4-flash","output":[],"stop_reason":"max_output_tokens","usage":{"input_tokens":158,"output_tokens":1400,"total_to...

AI 讓獨立遊戲更容易做出來,也更容易死在 Steam 裡
AI 降低了獨立遊戲的生產門檻,也放大了 Steam 供給過剩和玩家信任危機。獨立遊戲的競爭,正在從“能不能做出來”,轉向“能不能被看見、被相信、被持續選擇”。當工具讓內容越來越容易生成,真正稀缺的反而是人的表達、真實反饋、發行篩選與社區信任。

全球首個 AI 藝術博物館:谷歌協力打造,生成 12 億像素超現實畫面
谷歌昨日(6 月 18 日)發佈博文,宣佈攜手藝術家 Refik Anadol,在洛杉磯打造全球首個 AI 藝術博物館 Dataland,將於明日(6 月 20 日)開館。

八部門聯合發文力推“人工智能 + 消費”,擴大 AI 手機電腦及智能網聯汽車消費
商務部等八部門聯合印發《關於加快“人工智能 + 消費”發展的實施意見》,提出 5 方面 17 條舉措,旨在擴大智能產品消費、賦能服務消費、創新消費場景。政策將推動人工智能與消費深度融合,促進 AI 進千家萬戶。#人工智能消費新政##AI 手機電腦##智能網聯汽車#

魔法原子牽手萬機易租,全棧產品入駐2.0平臺共建租賃生態
這篇消息聚焦「魔法原子牽手萬機易租,全棧產品入駐2.0平臺共建租賃生態」。原始導語提到:全系產品入駐萬機易租2.0 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。