Karpathy 65 行文檔狂砍 17.6 萬星,阻止 Coding 犯大錯只需這四點
重點摘要
在 Github 上把 Anthropic 官方文檔甩在身後,怪不得 Dario 要把他招回去。 作者丨樊天驕、鄭佳美 編輯丨鄭佳美 一份只有 65 行的 Markdown 文件,剛剛成為 GitHub 歷史上最被討論的 AI 工程實踐——而它沒有寫一行可執行代碼。這就是 2026 年 4 月開始刷屏的 andrej-karpathy-skills 項目:累計 17.6 萬顆星,單文件、零邏輯,卻在同一個月裡把 Anthropic 官方的 anthropics/skills 倉庫(15.1 萬星)甩在身後。兩件事疊在一起看,AI 編程的競爭焦點正在發生一次清晰的位移——從"模型能不能寫",轉向"模型在沒人盯著時,能不能不寫錯"。01想讓 AI 更聰明,就要約束它的行為Karpathy 那條原話被開發者社區反覆傳閱:模型會代你做錯誤假設,然後不假思索地執行;它們喜歡把代碼和 API 搞複雜,堆抽象,不清理死代碼;它們有時會改動或刪除自己理解不足的代碼和註釋,即使這些內容與任務無關。雷峰網這段吐槽戳中了 LLM 編碼代理最普遍、卻最少被正面討論的失敗模式——不是"不會寫",而是"亂寫"。已經使用過 CLAUDE.md 的開發者們表示:裝上這份規則後,AI 編碼任務通過率從 65% 提升到 94%。這個數字沒有權威基準背書,但之所以能流傳,是因為它對應的是開發者每天都在經歷的真實落差。把"65% → 94%"的邏輯拆開看,本質上是三類系統性錯誤被顯式壓制了。第一類是誤解需求。AI 編程代理最常見的失敗不是不會寫代碼,而是"自行補全模糊需求"。模型收到"修一下登錄邏輯"這類指令時,會默認一系列產品假設——前端怎麼傳參、用戶態怎麼校驗、錯誤如何降級——然後把這些假設當成既定事實去實現。因此,CLAUDE.md 第一條原則要求"遇到歧義必須先問、先呈現權衡",硬切斷了這種傾向。模型從"
在 Github 上把 Anthropic 官方文檔甩在身後,怪不得 Dario 要把他招回去。 作者丨樊天驕、鄭佳美 編輯丨鄭佳美 一份只有 65 行的 Markdown 文件,剛剛成為 GitHub 歷史上最被討論的 AI 工程實踐——而它沒有寫一行可執行代碼。這就是 2026 年 4 月開始刷屏的 andrej-karpathy-skills 項目:累計 17.6 萬顆星,單文件、零邏輯,卻在同一個月裡把 Anthropic 官方的 anthropics/skills 倉庫(15.1 萬星)甩在身後。兩件事疊在一起看,AI 編程的競爭焦點正在發生一次清晰的位移——從"模型能不能寫",轉向"模型在沒人盯著時,能不能不寫錯"。01想讓 AI 更聰明,就要約束它的行為Karpathy 那條原話被開發者社區反覆傳閱:模型會代你做錯誤假設,然後不假思索地執行;它們喜歡把代碼和 API 搞複雜,堆抽象,不清理死代碼;它們有時會改動或刪除自己理解不足的代碼和註釋,即使這些內容與任務無關。雷峰網這段吐槽戳中了 LLM 編碼代理最普遍、卻最少被正面討論的失敗模式——不是"不會寫",而是"亂寫"。已經使用過 CLAUDE.md 的開發者們表示:裝上這份規則後,AI 編碼任務通過率從 65% 提升到 94%。這個數字沒有權威基準背書,但之所以能流傳,是因為它對應的是開發者每天都在經歷的真實落差。把"65% → 94%"的邏輯拆開看,本質上是三類系統性錯誤被顯式壓制了。第一類是誤解需求。AI 編程代理最常見的失敗不是不會寫代碼,而是"自行補全模糊需求"。模型收到"修一下登錄邏輯"這類指令時,會默認一系列產品假設——前端怎麼傳參、用戶態怎麼校驗、錯誤如何降級——然後把這些假設當成既定事實去實現。因此,CLAUDE.md 第一條原則要求"遇到歧義必須先問、先呈現權衡",硬切斷了這種傾向。模型從"先動手再猜"變成"先彙報再請求授權"。雷峰網第二類是過度工程化。LLM 訓練數據中高質量代碼的密度極高,模型生成時傾向於堆疊抽象層、分層設計、泛化模式——本來 100 行能搞定的事情,往往被擴成 1000 行的臃腫架構。對此,Karpathy 自己的吐槽是"100 行能搞定的非要寫 1000 行"。而 "簡潔優先"原則把"50 行能寫完,絕不寫 200 行"寫進規則,等於給模型的"完美主義衝動"裝了一個剎車。第三類是修改擴散。沒有邊界約束時,AI 容易順手 reformat 相鄰代碼、改動理解不足的模塊、引入隱性副作用。Karpathy 稱之為"作為副作用修改或刪除了與任務無關的代碼和註釋"。"外科手術式修改"原則要求"每一行改動都能追溯到原始需求",本質上是降低編輯自由度——一個能寫出 1000 行代碼的模型,被規則強制只能寫 50 行,效果反而更好。這三條之外,文件裡還有第四條原則:目標驅動執行。它要求 AI 在寫代碼前先把"修復 Bug"翻譯成"先寫一個能復現 Bug 的測試,再讓測試通過"——即把模糊的命令轉換成可驗證的成功標準。LLM 圍繞明確目標的循環能力極強,但前提是要給它清晰的成功判定。而這份規則讓 AI 不再"我說我改好了",而是"測試證明我已經改好了"。把四條原則合在一起看,文件解決的不是"AI 寫不好代碼"的問題,而是"AI 太容易自作主張"的問題。它的設計目標不是讓模型更聰明,而是讓模型在每個關鍵節點停下來確認、剋制、剋制、再剋制。同時 CLAUDE.md 也讓 AI 編程的"行為約束"第一次有了一個低成本、可分發、可審計的載體——一個普通開發者用 curl 命令兩分鐘就能裝上,但所有 AI 代理都會照著執行。因此,CLAUDE.md 登上 GitHub 榜首的真正原因,不在 prompt 寫得多漂亮,而在於它把AI 編程的不確定性從"模型能力"問題,轉化成了"工程設計"問題——而後者,是開發者可以親手解決的。02為什麼是 65 行,而不是 200 行CLAUDE.md 的風潮很快席捲了 GitHub,衍生出一批同方向的探索項目。其中開發者 VoidLight00 的思路值得專門拿出來:一個能讓 AI 自動優化 AI 規則的系統。他的實現路徑帶著鮮明的工程思維:先在 eval.json 中定義一套斷言測試集,用來量化評估規則文件的實際效果;再讓系統進入"修改規則 — 重跑測評"的循環,如果本輪評分有提升就保留變更,沒有增益就回滾到上一版本。整套流程相當於把原本靠人工反覆打磨的提示詞優化工作,轉化成了類似代碼自動化測試的標準化流程。更有意思的是一組對照實驗:有開發者試著把 Karpathy 這份規則擴充到 200 行,結果 AI 生成的代碼質量非但沒提升,反而出現了下滑。背後的邏輯並不複雜。當規則文件越寫越長,真正關鍵的約束會淹沒在冗餘的描述裡。大模型固然能處理長上下文,但不代表它能在每一次生成中穩定識別並貫徹所有細則。規則文件的有效性,取決於模型在還沒忘之前讀到核心約束的概率。這也解釋了為什麼 Karpathy 那份文件從一開始就走極簡路線——四條原則、幾十行、沒有任何具體技術棧要求。它把工程紀律壓縮到了 AI 最容易穩定執行的篇幅裡。當 65 行就能解決核心問題,200 行的邊際收益大概率是負的。工程意義上的"短而精",在 AI 編程時代有了新的具體含義:它不是文字上的剋制,而是與模型注意力機制的精確對齊。規則寫在模型能穩定看見的位置,寫在它願意照做的篇幅裡,寫在它最不容易讀到一半就走神的長度內。03AI 編程下半場:稀缺的不是模型,是約束設計把這件事放回 LLM 工程化的整體脈絡看,它指向了一個更清晰的分層。第一層是 Prompt Engineering。關注點在"讓模型聽懂指令"。這一層在過去兩年裡被研究得最透,天花板也最明顯——提示詞寫得再精妙,模型行為的不穩定性依然存在,因為提示詞是"軟"的,模型可以選擇不聽。第二層是 Workflow Engineering。關注點在"讓模型按步驟做事"。把任務拆成多步、引入 ReAct、引入反思機制,讓模型有能力處理長鏈任務。這一層顯著提升了單任務成功率,但仍然無法約束"模型在某個步驟上的越界行為"——工作流規定了"先做什麼後做什麼",卻沒有規定"什麼不能做"。第三層是 Agent Governance。關注點在"讓模型只能在邊界內做事"。這一層的設計對象不是"任務",而是"模型本身的行為約束系統"——包括規則文件、沙箱、審批、審計、迴歸測試。這些文件本質上是"投影"——它們從同一個規則源編譯出來,分發給不同的 AI 代理。比如 AGENTS.md 寫給機器,README.md 寫給人,二者刻意分離。雷峰網CLAUDE.md 遵循的正是這第三層原則。而它之所以被反覆傳閱,本質上是開發者社區用腳投票,對"約束設計"這件事的集體確認。當模型能力已經足以完成寫代碼這件事之後,下一個真正稀缺的能力不是怎麼讓模型更聰明,而是"怎麼讓模型在不被盯著的時候也能做對"。這也是為什麼那段被無數開發者轉發的吐槽能產生這麼大的共鳴——或許當 AI 開始承擔真正的工程任務時,它需要的不是更多能力,而是一份它必須遵守的行為契約。上車,帶你看遍全球 AI 頂會精華可獨家暢覽:專家演講PPT大會報告全文熱門論文解讀學術新星訪談掃描上方二維碼或點擊「閱讀原文」關注專區。
Related
相關文章

GPT5.6慘遭切腦,Fable 5迴歸要變弱雞版?
這篇消息聚焦「GPT5.6慘遭切腦,Fable 5迴歸要變弱雞版?」。原始導語提到:美國AI,「閉關鎖國」? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Anthropic最新報告摸透全球打工人:凌晨5點求睡眠,晚6點問菜譜
這篇消息聚焦「Anthropic最新報告摸透全球打工人:凌晨5點求睡眠,晚6點問菜譜」。原始導語提到:白天,Claude是高薪打工人的生產力引擎;深夜,它成了唯一知道你還醒著的那個。一份報告,意外照出了幾百萬人藏起來的24小時。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

獨家|獲超億美元融資,Sand.ai 曹越:為什麼視頻是通往世界模型最重要的路徑
這篇消息聚焦「獨家|獲超億美元融資,Sand.ai 曹越:為什麼視頻是通往世界模型最重要的路徑」。原始導語提到:“每一代模型,我們都在押注一個非共識。” 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發
這篇消息聚焦「北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發」。原始導語提到:北京太空算力創新中心採用“公司 + 聯盟”雙輪驅動模式,運營主體為北京天算星聯科技有限公司。創新中心承擔四類核心職能。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
讓AI自己修服務器?先過了這場“火線測試”再說
智東西 作者 | 陳駿達 編輯 | 漠影 隨著大模型能力持續提升,智能體正從聊天、寫作等輔助場景走向軟件開發、網絡管理和基礎設施運維等生產環節。尤其在AI基礎設施領域,面對龐大的GPU集群和複雜架構,越來越多企業開始嘗試讓智能體承擔故障排查、告警分析和資源管理等工作,以提升運維效率並降低人力成本。 然而,運維場景對智能體構成了空前挑戰。AI算力集群運維橫跨GPU硬件、網絡通信、分佈式存儲、容器編排、訓練框架等多個技術棧,問題現象往往模糊、不完整甚至相互矛盾,智能體需要在開放環境中主動探索、反覆驗證,自行界定問題並尋求解決路徑。 要提升智能體在此類複雜場景的綜合能力,一套與之匹配的評測基準不可或缺。但當前行業恰恰缺乏對這種多步推理、開放決策過程的系統化評估能力,導致運維智能體研發長期“無標可依”,進展評估與方向校準均缺乏牽引。 正是在這樣的背景下,中國信息通信研究院開源了全球首個面向AI Infra運維場景的智能體評測基準——AISHPerf-智算運維智能體評測基準,國內頭部AI原生基礎設施企業無問芯穹重點參與技術建設。 這套基準源自百億條真實運維數據,不再只關注“會不會回答問題”,而是聚焦智能體“能不能解決問題”,為運維智能體能力評估提供了一套貼近真實生產環境的參考標準。 一、百億條運維數據,煉出103道“考題” 任何評測體系的價值,最終都建立在數據質量之上。對於運維智能體而言尤其如此。因為真實世界中的故障往往具有高度隨機性和複雜性,許多問題並不存在標準答案,甚至需要跨越多個技術棧進行聯合分析。如果評測數據脫離真實生產環境,即使得到再高的測試分數,也很難證明智能體具備實際應用價值。 無問芯穹之所以能夠重點參與這一評測基準的技術建設,與其在AI基礎設施領域的長期實踐密切相關。根據披露的信息,其早在2025年便已將運維智能體應用到實際訓練推理業務中,並取得明顯成效。工單平均處理
OceanBase發佈AI數據庫三件套,TOC最高降50%,螞蟻、靈光都在用
智東西 作者 | 王涵 編輯 | 雲鵬 智東西6月29日報道,今天,OceanBase發佈湖庫一體AI數據庫產品OceanBase Lakebase,該產品面向Agent應用,原生支持多模態數據管理。 “數據湖”是一種集中式存儲架構,可以存儲結構化、半結構化、非結構化等不同類型的數據。Lakebase融合了“數據湖”架構的開放性和“數據庫”架構的功能性,讓結構化數據、非結構化數據和向量數據能夠在統一架構中被管理、加工、檢索和調用。 基於此,OceanBase還發布了數據生產、治理和服務工作臺OceanBase DataStudio,以及面向經營分析和業務決策的數據智能Agent OceanBase DataPilot兩個產品。 OceanBase DataStudio覆蓋數據接入、數據加工、任務編排、語義建模、數據治理到Agent協作等環節,幫助企業把分散的數據資產轉化為可管理、可理解、可調用的數據服務。 OceanBase DataPilot作為統一的企業業務智能入口,讓業務人員可以通過自然語言完成分析報告、數據看板和可信答案生成,把過去依賴專業數據團隊完成的分析流程,轉化為可交互、可追問、可複用的智能決策能力。 智東西等媒體與OceanBase CEO楊冰、CTO楊傳輝,進行了面對面的交流。 楊冰認為,AI正在改變數據的管理方式,數據使用者和數據形態都發生了變化。數據使用者的改變帶來了三大挑戰:VibeCoding帶來了海量Agent應用;Agent開始執行生產任務;Agent長期運行的正確性和自我進化。數據形態改變,則為非結構化數據成為可計算資產、數據要主動流轉、數據要理解任務。 兩者作用疊加,OceanBase給出判斷:在AI時代,數據庫應該是湖庫一體的。 OceanBase內部的AI轉型也在進行中。楊冰透露,OceanBase已將內核團隊分為“一體化數據庫”和“A