拖更三年萬字長文，前OpenAI安全VP翁荔拆解Scaling Laws：你的模型可能喂錯了數據

2026年6月26日 07:01

重點摘要

翁荔迴歸萬字長文《Scaling Laws， Carefully》拆解大模型規模定律，直指行業共識可能寫反：從Kaplan到Chinchilla，主流數據配比未必最優。文章細究算力、模型大小與數據量的權衡，暗示數百億美元押注的路徑或需徹底反思，引發從業者重新審視預訓練配方的有效性。

站內 AI 整理稿

翁荔，这位前OpenAI安全副總裁，近日攜一篇拖更三年的萬字長文《Scaling Laws, Carefully》強勢回歸，直擊大模型領域最核心的信仰：規模定律（Scaling Laws）。文章不僅回顧了從Kaplan到Chinchilla的經典結論，更大膽指出行業共識的數據配比可能從根本上就搞反了。這一論點猶如投入平靜湖面的巨石，瞬間引發業界對數百億美元預訓練投資路徑的集體反思，也讓眾人重新審視那些被奉為圭臬的計算公式是否真的牢不可破。

長期以來，OpenAI在2020年提出的Kaplan Scaling Laws奠定了「大力出奇蹟」的基調：模型越大，需要的數據和算力就越多，三者之間存在某種近似冪律的黃金比例。然而，後來DeepMind的Chinchilla研究卻給出了截然不同的結論——在同樣算力預算下，更大的模型不如更多的數據來得有效，於是業界迅速轉向「數據至死」的策略，追求超量級語料庫來餵養模型。翁荔的文章恰恰戳破了這個看似圓融的敘事：當我們機械地遵循這些法則時，可能忽略了數據內部結構、分佈與重複使用的邊際效應，導致資源大幅錯配。

翁荔的核心論斷在於「數據配比」的導向可能被寫反了。傳統思維聚焦於模型參數量與數據量的簡單平滑曲線，卻未深究不同類型、不同品質的數據在同一套損失函數下的相互干擾。她認為，從Kaplan到Chinchilla的過渡並非線性改進，而是一個從「算力主導」到「數據主導」的極端擺盪，兩種範式下的「最優」配比實際上都隱含了對數據語義空間維度的簡化假設。一旦這些假設在真實場景中不成立——比如低品質數據稀釋了高品質特徵——那麼算力、模型大小與數據量之間的權衡就會完全變形。

文中進一步細究了算力在不同階段邊際回報遞減的規律。翁荔暗示，當前數百億美元的軍備競賽可能正沿著一條被誤導的捷徑狂奔：企業為了湊齊更龐大的資料集，不惜降低數據標杆，導致模型學到的多是統計上的平庸關聯，而非真正的推理能力。Chinchilla雖然提倡更多數據，但並未告訴我們何種數據以及如何排序。當數據重複利用達到某個閾值，收益便急遽衰減，這意味著單純增加 Token 數並非永續策略，尤其對高質量語料稀缺的非英語語言更是致命。

這番警告直指預訓練配方（Pre-training Recipe）的有效性。目前主流做法依賴於

原始來源：AIBase ↗

查看原始來源

量子位研究與前沿

谷歌「推理之王」也跑路Meta了，當年還是李飛飛挖來的

這篇消息聚焦「谷歌「推理之王」也跑路Meta了，當年還是李飛飛挖來的」。原始導語提到：Coding為王從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪研究與前沿

95後博士投身世界模型，臉譜心智融資數千萬元

這篇消息聚焦「95後博士投身世界模型，臉譜心智融資數千萬元」。原始導語提到：星連資本、360出手。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

TechWeb研究與前沿

工信部指導發佈《AI 眼鏡可信視界自律公約》：不得超範圍收集獲取用戶個人信息

中國信通院 6 月 25 日宣佈，在工業和信息化部信息通信管理局的指導下，中國信息通信研究院泰爾終端實驗室聯合深圳市 AI 眼鏡產業聯盟研究起草了《AI 眼鏡可信視界自律公約》（以下簡稱《公約》），得到產業鏈上下游企業的積極響應。

剛剛閱讀分析

36氪研究與前沿

阿里練操作，Momenta 開真車，英偉達搭片場：三個"世界模型"根本不是一回事

這篇消息聚焦「阿里練操作，Momenta 開真車，英偉達搭片場：三個"世界模型"根本不是一回事」。原始導語提到：同名不同命：三家世界模型各玩各的從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

雷峰網研究與前沿

【ICML 2026】刷新高光譜圖像恢復任務SOTA!DAMP：面向高光譜影像恢復的退化感知度量提示框架

現有的統一高光譜圖像恢復方法還存在不少缺點：如果用顯式退化先驗，很難適配真實場景裡的未知退化；採用黑盒隱式表徵的話，又容易過擬合訓練數據的分佈，對於未見退化的泛化效果不好，光譜保真度也普遍偏低。針對這一問題，文中提出了一個可解釋的空間-光譜度量，得到連續的退化提示，然後再搭配上退化自適應專家混合結構，以度量作為路由動態激活對應的專用專家，最終只用單個模型就能夠滿足多種不同退化類型的情況。從實驗結果來看，該方法在5類常規恢復任務上達到了SOTA水平，而在運動模糊、泊松去噪這類訓練中沒出現過的任務上，零樣本表現也很突出，同時計算開銷比大多數同類方法更低。論文題目：Degradation-Aware Metric Prompting for Hyperspectral Image Restoration中文題目：面向高光譜圖像恢復的退化感知度量提示方法論文鏈接：https://arxiv.org/abs/2512.20251代碼鏈接：https://github.com/MiliLab/DAMP論文作者：Binfeng Wang, Di Wang, Haonan Guo†, Ying Fu†, Jing Zhang†（†為通訊）作者單位：北京理工大學計算機科學與技術學院、北京中關村學院、武漢大學計算機學院發表年份：ICML 2026論文引言高光譜圖像能夠捕捉數百個連續波段的光譜信息，是精準農業、環境監測、地物分類、變化檢測等空天領域應用的重要數據基礎。但受到成像硬件條件和物理環境的雙重幹擾，實際採集到的高光譜圖像往往存在低信噪比、運動模糊、波段缺失等多種退化問題，會大幅降低光譜特徵的判別能力，對下游任務的性能發揮造成不利影響。早期的高光譜恢復方法大多是針對特定任務設計的，只能處理單一類型的退化，很難應對真實場景裡混合、未知的退化模式。受自然圖像恢復領域提示學習思路的啟發，近些年已

2 小時前閱讀分析

雷峰網研究與前沿

ICML 2026 REViT 發佈 | 這可能是這個 Transformer 時代，CNN最後的體面

原文作者：公眾號“集智實驗室”原文鏈接：https://mp.weixin.qq.com/s/A55BBhD3e_s3VVC7mw1JNw雷峰網轉載你是否有過這樣的經歷：在醫療影像分析中，僅僅因為細胞切片旋轉了一個角度，AI診斷模型就給出了截然不同的判斷？在自動駕駛場景裡，攝像頭角度稍有傾斜，目標檢測就開始漏檢誤報？這背後是傳統視覺模型的核心痛點——它們對物體的旋轉、翻轉等空間變換過於敏感。雖然旋轉變換等變網絡（Equivariant Networks）早在CNN時代就被提出，但當主流模型轉向視覺Transformer（ViT）時，實現這種“等變性”卻變得異常棘手。因為Transformer賴以成名的“位置編碼”，恰恰成了破壞旋轉對稱性的元兇。今天我們要深挖的這篇文章，提出了一種極簡卻極為優雅的方案——不需要複雜的位置編碼，直接利用卷積投影和群自注意力機制，讓ViT天然具備旋轉反射等變性（Roto-reflection Equivariance）。這不僅砍掉了傳統方法中繁瑣的相對位置編碼，還在多個數據集上碾壓了前輩方法。讓我們一探究竟。核心痛點：位置編碼的“緊箍咒”要理解這項工作的價值，我們得先回到Transformer的基本原理。自注意力機制（Self-Attention）本質上是“排列等變”的——它把輸入token當成一個無序的集合。對於處理圖像來說，這無異於災難：模型會完全忽略像素的空間位置關係。於是，位置編碼（Position Encoding）應運而生。絕對位置編碼給每個位置一個唯一ID，但這破壞了平移等變性；相對位置編碼（RPE）通過編碼位置間的差異來保持平移等變，看似完美，卻帶來了計算複雜度的飆升——每一層、每個注意力頭都要額外計算RPE，讓模型變得臃腫。更棘手的是，為了在自注意力中引入旋轉等變性，現有的群等變方法（如G-SA）不得不進一步疊加複雜的旋轉群編碼

6 小時前閱讀分析

相關文章

谷歌「推理之王」也跑路Meta了，當年還是李飛飛挖來的

95後博士投身世界模型，臉譜心智融資數千萬元

工信部指導發佈《AI 眼鏡可信視界自律公約》：不得超範圍收集獲取用戶個人信息

阿里練操作，Momenta 開真車，英偉達搭片場：三個"世界模型"根本不是一回事

【ICML 2026】刷新高光譜圖像恢復任務SOTA!DAMP：面向高光譜影像恢復的退化感知度量提示框架

ICML 2026 REViT 發佈 | 這可能是這個 Transformer 時代，CNN最後的體面