陶哲軒First Proof二期結果出爐，最低8美元1題，AI燒出7道論文級解法

2026年6月11日 21:42

重點摘要

這篇消息聚焦「陶哲軒First Proof二期結果出爐，最低8美元1題，AI燒出7道論文級解法」。原始導語提到：新增雙盲同行評議機制從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

### 陶哲軒 First Proof 二期結果出爐：AI 以極低成本產出七道論文級解法

數學界近期迎來一項令人矚目的進展：由知名數學家陶哲軒主導的「First Proof」專案第二期結果正式公布。根據公開資訊，該計畫成功號召社群以極低預算——最低僅需 8 美元一題——讓人工智慧模型產出七道達到論文發表水準的數學解法。這項成果不僅展現了 AI 在數學推理領域的潛力，也為學術出版與同行評議機制帶來新的討論方向。

「First Proof」專案的核心目標是測試 AI 能否在有限的人類引導下，獨立完成具備學術價值的數學證明。第一期成果已證明 AI 可協助破解部分中階難題，而二期則進一步擴大範圍，讓參與者以「外包」形式提交題目，並由 AI 模型嘗試生成完整解法。值得注意的是，這些解法經過人類審查後，竟有七篇被認定達到可投稿期刊的品質，背後的總成本卻不到一杯高級咖啡的價格。

在機制的設計上，二期專案特別新增了「雙盲同行評議」流程。這意味著無論是 AI 生成的解法，還是人類參與者的評審意見，都會在去識別化的狀態下進行審閱，以降低偏見並確保評分客觀。此舉意在模擬真實學術環境的審查標準，同時也測試 AI 能否通過這套嚴格的把關。結果顯示，部分 AI 解法不僅邏輯嚴謹，甚至提出人類未預期到的證法路徑，凸顯出機器在結構化推理上的優勢。

背景脈絡方面，這項計畫其實呼應了近年學術界對 AI 輔助研究的矛盾心態。一方面，AI 能大幅降低重複性計算與假設檢驗的時間成本；另一方面，學術界對於 AI 是否會稀釋原創性、甚至引發抄襲爭議保持警覺。陶哲軒透過「First Proof」專案試圖建立一個典範：讓 AI 擔任「協作工具」而非「取代者」，同時透過公開透明的評議機制，保留人類對研究品質的最終裁量權。

從可能影響來看，這項結果對數學與電腦科學領域至少帶來三層啟示。第一，學術出版的「單位成本」可能出現革命性下降——若 AI 能以 8 美元處理一道難題，未來期刊的審稿週期與投稿門檻將重新定義。第二，雙盲評議的導入有助於緩解當前數學界「審稿人難尋」的困境，因為 AI 可在人類監督下先行過濾低品質稿件。第三，這也引發一個倫理問題：若 AI 解法與人類論文結構雷同，誰該被列為作者？學術貢獻的歸屬權將成為下一個必須釐清的課題。

對讀者而言，後續可關注幾個發展方向。首先是「First Proof」專案是否會開放第三期，並進一步提高題目難度，例如挑戰數學界懸而未決的猜想。其次是學術期刊的編輯方針——是否會開始接受 AI 為共同作者，或要求研究者揭露 AI 的具體使用程度。最後，隨著雙盲評議機制的驗證成功，其他學科（如物理、生物資訊）或許也會跟進類似模式，讓 AI 從「輔助計算」走向「協同推理」。

總體而言，陶哲軒團隊的這項實驗向我們展示了：當人類智慧與機器推理以低成本、高效率結合時，學術創新的邊界可能比想像中更加寬廣。而最低 8 美元一題的門檻，也讓更多非頂尖機構的數學愛好者，有機會參與到前沿難題的破解之中。這不僅是技術的勝利，更是開放科學精神的具體實踐。

原始來源：36氪 ↗

查看原始來源

量子位研究與前沿

GPT發AI原創新成果了

這篇消息聚焦「GPT發AI原創新成果了」。原始導語提到：AI實現藥物全自動研發，還遠嗎？從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪研究與前沿

AI越強，越要“殺死”過去的自己

這篇消息聚焦「AI越強，越要“殺死”過去的自己」。原始導語提到：人類需要實現思維模式的轉變。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 小時前閱讀分析

MarkTechPost AI研究與前沿

Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks

In this tutorial, we implement an end-to-end workflow for Salesforce CodeGen. We load a CodeGen model from Hugging Face, prepare it for code generation, and use it to generate Python functions from natural-language prompts. We then move beyond basic inference by adding function extraction, syntax checking, static safety checks, unit-test-based validation, best-of-N candidate reranking, multi-step program synthesis, prompt-style experimentation, benchmark visualization, and artifact export. Through this workflow, we learn how CodeGen can be used not only as a code completion model but also as part of a structured code-generation pipeline that evaluates, filters, and organizes generated solutions. Loading the Salesforce CodeGen Model from Hugging Face Copy CodeCopiedUse a different Browserim

7 小時前閱讀分析

36氪研究與前沿

Transformer之父離開谷歌，奧特曼等了他十年

這篇消息聚焦「Transformer之父離開谷歌，奧特曼等了他十年」。原始導語提到：27億美元也沒能留住，Noam Shazeer追尋下一代架構。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

15 小時前閱讀分析

36氪研究與前沿

Dario訪談首曝：Mythos被稱為“超級武器”

這篇消息聚焦「Dario訪談首曝：Mythos被稱為“超級武器”」。原始導語提到：在這場69分鐘完整訪談裡，Dario Amodei 說人類真正面對的不是某個突然降臨的奇點，而是一條已經開始垂直起飛的指數曲線。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

19 小時前閱讀分析

鈦媒體研究與前沿

用結構替代數據，因果世界模型如何重塑具身智能大腦

這篇消息聚焦「用結構替代數據，因果世界模型如何重塑具身智能大腦」。原始導語提到：因果世界模型需要一個標誌性的時刻來證明自己。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

19 小時前閱讀分析

相關文章

GPT發AI原創新成果了

AI越強，越要“殺死”過去的自己

Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks

Transformer之父離開谷歌，奧特曼等了他十年

Dario訪談首曝：Mythos被稱為“超級武器”

用結構替代數據，因果世界模型如何重塑具身智能大腦