多篇成果入選,快手邀您共赴ICML 2026!
重點摘要
原文作者:公眾號快手官方原文鏈接:https://mp.weixin.qq.com/s/mUmIq5h1qq5Ig_2FMjycUQ雷峰網轉載在ICML 2026國際頂級學術會議上,快手技術團隊多篇論文成功入選,其中1篇入選“spotlight papers”展示,研究覆蓋大語言模型、強化學習、信息檢索、計算機視覺等關鍵方向——它們讓AI更智能、更可控、更可解釋,也幫助我們從數據中挖掘更本質的規律。ICML 2026(The 43rd International Conference on Machine Learning),是機器學習領域歷史最悠久、最具影響力的頂級國際學術會議之一,與NeurIPS、ICLR並稱為機器學習"三大頂會"。該會議被中國計算機學會(CCF)推薦為A類會議,在Google Scholar Metrics中h5指數高達272,位居工程與計算機科學領域前列,本屆會議投稿量達23,918篇,整體錄用率約26.6%。會議將於7月6日至7月11日在韓國首爾COEX會展中心舉行,快手技術團隊將赴首爾現場參會,展位號【B101】,打卡快手展位,參與現場互動,領取快手技術周邊!以下為部分論文解讀:01MetaphorVU: Towards Metaphorical Video Understanding(Spotlight)論文地址:https://openreview.net/forum?id=yKcBAJMPXZ項目地址:https://github.com/icip-cas/MetaphorVU論文簡介:隱喻視頻是傳達複雜思想的一種常用手段,但其理解門檻較高,通常要求觀看者擁有較強的認知能力。然而,目前缺乏對隱喻視頻理解的系統性研究,這不僅限制了多模態大語言模型(MLLMs)在現實世界中的應用能力,也阻礙了對其高階認知能力的全面評估。為彌補這一空白,我們提
原文作者:公眾號快手官方原文鏈接:https://mp.weixin.qq.com/s/mUmIq5h1qq5Ig_2FMjycUQ雷峰網轉載在ICML 2026國際頂級學術會議上,快手技術團隊多篇論文成功入選,其中1篇入選“spotlight papers”展示,研究覆蓋大語言模型、強化學習、信息檢索、計算機視覺等關鍵方向——它們讓AI更智能、更可控、更可解釋,也幫助我們從數據中挖掘更本質的規律。ICML 2026(The 43rd International Conference on Machine Learning),是機器學習領域歷史最悠久、最具影響力的頂級國際學術會議之一,與NeurIPS、ICLR並稱為機器學習"三大頂會"。該會議被中國計算機學會(CCF)推薦為A類會議,在Google Scholar Metrics中h5指數高達272,位居工程與計算機科學領域前列,本屆會議投稿量達23,918篇,整體錄用率約26.6%。會議將於7月6日至7月11日在韓國首爾COEX會展中心舉行,快手技術團隊將赴首爾現場參會,展位號【B101】,打卡快手展位,參與現場互動,領取快手技術周邊!以下為部分論文解讀:01MetaphorVU: Towards Metaphorical Video Understanding(Spotlight)論文地址:https://openreview.net/forum?id=yKcBAJMPXZ項目地址:https://github.com/icip-cas/MetaphorVU論文簡介:隱喻視頻是傳達複雜思想的一種常用手段,但其理解門檻較高,通常要求觀看者擁有較強的認知能力。然而,目前缺乏對隱喻視頻理解的系統性研究,這不僅限制了多模態大語言模型(MLLMs)在現實世界中的應用能力,也阻礙了對其高階認知能力的全面評估。為彌補這一空白,我們提出了MetaphorVU-Bench,這是首個專門面向隱喻視頻理解的系統性、綜合性基準。通過實驗,我們發現當前的多模態大語言模型在準確理解隱喻視頻方面仍然表現不佳,與人類水平存在顯著差距,其主要原因在於跨域映射能力存在缺陷。受這一發現啟發,我們構建了一個隱喻知識圖譜,用於增強映射能力,並提出了MetaphorBoost,一種推理階段的增強框架,能夠帶來穩定的性能提升。我們的基準、分析和方法為未來提升多模態大語言模型能力的研究提供了有價值的見解和基礎。02Causal Discovery for Irregularly Time Series with Consistency Guarantees論文地址:https://openreview.net/forum?id=y5GiPedJPV論文簡介:本文研究了不規則採樣時間序列中的因果發現問題。這是金融、醫療和氣候科學等風險敏感領域中的一個關鍵挑戰,因為缺失數據和不一致的採樣頻率會扭曲真實的因果機制。其主要難點在於缺失數據插補與因果結構恢復之間存在相互依賴關係:插補誤差和結構學習誤差會相互強化,從而導致得到不準確的因果圖。現有方法通常採用“先插補、後發現”的兩階段策略,或者通過神經表示學習聯合優化數據插補與因果發現,但缺乏顯式機制來保證二者之間的相互一致性。為了解決這一問題,我們提出了ReTimeCausal,一個基於EM(期望最大化)算法的框架。該框架通過在數據插補與結構學習之間交替優化,在整個優化過程中持續促進結構一致性。我們的框架在結構恢復方面提供了理論一致性保證,並將經典理論結果擴展到了不規則採樣和高缺失率的場景。ReTimeCausal結合了基於核函數的稀疏迴歸與結構約束,通過交替更新補全數據和因果圖的方式進行優化。實驗結果表明,在具有挑戰性的不規則採樣和缺失數據環境下,ReTimeCausal相較於現有方法表現更加有效。03Coloring the Noise: Adversarial Sobolev Alignment for Faithful Image Super Resolution論文地址:https://arxiv.org/abs/2605.23264項目地址:https://github.com/wafer-bob/ASASR論文簡介:圖像超分辨率(SR)中的生成先驗往往會損害忠實的圖像復原效果,我們將這一侷限性歸因於各向同性目標函數與自然圖像內在流形之間存在的根本性頻譜錯位。儘管直接偏好優化(DPO)提供了一條對齊的路徑,但其對頻譜平坦的高斯噪聲的依賴,使其無法區分真實的高頻細節與幻覺偽影。為彌合這一幾何鴻溝,我們提出了ASASR,一個具有理論基礎的框架,通過對噪聲轉移核進行顯式著色以模擬自然頻譜衰減,將生成流重新構建於Sobolev誘導的黎曼幾何之中。為驅動這一幾何對齊,我們引入了一個基於Riesz表示定理的參數化對抗模塊,該模塊能夠合成等價於最壞情況Sobolev梯度的定向負樣本,從而引導優化沿合理結構失真的切空間方向進行。大量實驗表明,ASASR在主流生成式基線方法中表現最優,尤其在保持頻譜一致性與結構保真度方面具有顯著優勢,提供了一種能夠有效抑制偽影的魯棒解決方案。04Large-Scale Notification Dispatch with Bundle Treatments and Multi-Outcome Uplift Optimization論文地址:https://icml.cc/virtual/2026/poster/65977論文簡介:大規模用戶增長場景中的通知分發(PUSH)是一個高度複雜的決策問題,涉及推送時機、呈現樣式、多目標結果與平臺多約束之間的權衡。本文將其形式轉化為一個面向時機和樣式組合干預(bundle treatment)的帶約束優化問題,目標是在平臺級預算和用戶級配額約束下,最大化日活躍用戶數(DAU)的增量收益。該問題的核心難點在於兩方面:一是bundle粒度下的多維、小效應uplift估計極易被噪聲淹沒,二是億級用戶與海量候選處置帶來的大規模約束求解開銷。為此,我們提出BUOPLR——一種將uplift估計與帶約束決策顯式解耦的兩階段通知分發方法。第一階段中,BUOPLR通過一個能夠同時刻畫跨干預(cross-treatment)與跨結果(cross-outcome)依賴關係的網絡結構,學習bundle級別的多目標小效應uplift;第二階段中,BUOPLR通過對決策空間的剪枝先壓縮可行域,再針對少量全局約束施加拉格朗日鬆弛,從而以可擴展的方式完成大規模分配。離在線實驗表明,BUOPLR在多項關鍵指標上優於當前最先進的方法,目前,BUOPLR已全量部署於快手PMOS系統中。05Learning to Rank by Directly Optimizing Full-Order Probabilities論文地址:https://openreview.net/forum?id=fch6yT64ZH項目地址:https://github.com/tyxaaron/FOB論文簡介:學習排序可以建模為排列空間上的概率問題,其目標是估計觀測到的項目全序(total ordering)的似然性。該形式化自然涉及形如P(z1≤⋯≤zn) 的全序概率,但由於排列空間隨列表大小呈階乘級增長,這類概率的精確計算與優化是難以處理的。本文提出全序下界(Full-Order Bound, FOB),這是一個關於觀測排序概率的可處理下界;該下界由一組可分解到各項目上的排序約束構造而成,既保留了全序結構,又具有順序反轉不變性。在對數凹潛密度假設下,該下界導出了一個關於潛在切點的凸內收緊問題,我們通過安全區域梯度上升(SRGA)過程在訓練中高效求解。在合成排序任務和大規模學習排序基準上的實驗表明,FOB能夠提升全列表排序指標,並在NDCG上保持競爭力,其可選的指標對齊變體還能進一步恢復NDCG增益。06OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search論文地址:https://icml.cc/virtual/2026/poster/64836項目地址:https://github.com/benchen4395/onesearch-family論文簡介:傳統電商搜索系統採用多階段級聯架構,存在計算碎片化和各階段優化目標衝突等問題,從根本上限制了其性能上限。我們提出OneSearch——首個在工業界落地部署的端到端生成式電商搜索框架,包含三項核心創新:(1)關鍵詞增強的層次化量化編碼,在保持query-商品強相關性約束的同時,保留層次語義和商品的獨特屬性;(2)多視角用戶行為序列注入,構建行為驅動的用戶ID,並同時融合顯式短期序列與隱式長期序列;(3)偏好感知獎勵系統,結合多階段監督微調與自適應獎勵加權排序,以捕捉細粒度用戶偏好。大量離線評測驗證了該框架的卓越性能,線上A/B實驗取得了具有統計顯著性的提升:商品點擊率(CTR)提升+1.67%,買家數提升+2.40%,訂單量提升+3.22%。OneSearch 將運營支出降低75.40%,將模型算力利用率(MFU)從3.26%提升至27.32%,並已在快手多個搜索場景中成功上線,每日服務數百萬用戶。07Phase-Aware Mixture of Experts for Agentic Reinforcement Learning論文地址:https://arxiv.org/pdf/2602.17038項目地址:https://github.com/YsTvT/PA-MoE論文簡介:強化學習(RL)賦予了大語言模型智能體解決複雜任務的強大能力。但現有強化學習方法通常僅採用單一策略網絡,會引發簡單偏置問題:簡單任務佔用絕大部分模型參數、主導梯度更新,致使模型沒有充足算力承接複雜任務。一種可行的改進思路是在策略網絡中引入混合專家(MoE)架構,該架構能夠讓不同專家參數專攻不同任務,避免簡單任務獨佔全部參數資源。不過,傳統混合專家架構存在一項關鍵缺陷:採用令牌級路由機制,路由模塊會為每個令牌單獨分配專屬專家,破壞了時序階段內的連貫特徵模式,將同階段特徵零散分配至不同專家,最終削弱專家的專項專精能力。本文提出面向階段感知的混合專家架構(PA-MoE):該方法搭載輕量化階段路由器,無需預先定義階段類別,可直接依託強化學習優化目標自主學習隱式階段劃分邊界;隨後由階段路由器將時序上屬於同一階段的特徵統一分配至同一個專家,保障各專家沉澱對應階段的專屬能力。實驗結果驗證了所提PA-MoE方法的有效性。08SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning論文地址:https://arxiv.org/pdf/2602.07458項目地址:https://lorangan-ddup.github.io/SpatialReward論文簡介:儘管在線強化學習(Online RL)為指令引導圖像編輯提供了強大的對齊範式,但現有獎勵模型普遍受制於一個關鍵感知瓶頸——"注意力坍塌"(Attention Collapse):模型忽視跨圖像比較,無法捕獲像素級細節,導致評分失準,嚴重影響RL優化效果。為彌補這一感知鴻溝,我們提出了SpatialReward,首個將顯式空間推理融入生成式逐點評估的圖像編輯獎勵框架。具體而言,SpatialReward包含:(1)一種"Think-with-Boxes"核心機制,通過預測編輯區域的空間座標並以交錯token形式注入推理鏈,將語義判斷錨定至像素級證據,強制執行精確的跨圖像交叉驗證;(2)一條空間先驗引導的數據構建流水線,結合專家路由標註與閉環一致性驗證,構建出包含26萬條高質量空間感知推理軌跡的SpatialReward-260k數據集;(3)一種SFT+GRPO兩階段訓練策略,先建立空間推理基礎能力,再以Gemini作為在線督導對難樣本強化對齊。我們還發布了MultiEditReward-Bench,涵蓋15種精細編輯子任務與1,800個人工標註樣本,專門考驗獎勵模型在複雜多約束場景下的空間驗證能力。在三項基準上的廣泛實驗表明,SpatialReward達到了最先進的性能:在EditReward-Bench和MMRB2上較生成式基線分別提升+11.3%和+9.1%,超越所有專有閉源評估器。作為下游Online RL信號,將OmniGen2在GEdit-Bench上的得分提升+0.90,是GPT-4.1所帶來增益(+0.45)的近兩倍,同時實現1.5倍推理加速。09SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models論文地址:https://arxiv.org/abs/2511.05459項目地址:https://huggingface.co/datasets/Kwaipilot/SWE-Compass論文簡介:現有Agentic Coding評測基準(如HumanEval、SWE-bench)普遍存在任務覆蓋窄、語言偏見強、與真實開發流程嚴重脫節等侷限,導致無法準確評估模型在工業級軟件工程中的實際能力。為彌補這一評估鴻溝,我們提出了SWE-Compass,一個全面、統一且生產對齊的代碼智能評估框架。具體而言,SWE-Compass包含:(1)一個覆蓋8種任務類型、8類編程場景和10種編程語言的三維評估矩陣,從錯誤修復、功能實現到性能優化,完整刻畫真實開發全生命週期;(2)一套嚴格的五階段數據構建流水線,從海量GitHub Pull Request中挖掘、人工標註並雙重審核,精選出2000個高保真實例;(3)一個統一的智能體評測協議,在SWE-Agent與Claude Code兩種代表性智能體框架下,對10款主流大模型展開系統實證。實驗揭示了三個關鍵發現:模型在功能實現與性能優化等複雜任務上能力驟降、同一模型在不同智能體框架下表現迥異(框架-模型混淆效應),以及在Rust等新興語言上存在顯著多語言魯棒性鴻溝。10VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos論文地址:https://arxiv.org/pdf/2602.07801項目地址:https://liuwq-bit.github.io/VideoTemp-o3論文簡介:儘管視頻大語言模型在長視頻理解中取得了顯著進展,但均勻幀採樣策略仍普遍遺漏關鍵視覺證據,而近期"思考與視頻"範式雖引入定位-裁剪-回答流水線,卻面臨工作流複雜、定位精度不足、流程剛性等瓶頸。為此,我們提出VideoTemp-o3,一個將視頻問答與時序定位統一於單一模型的Agentic框架,支持按需視頻裁剪與多輪定位迭代精化。具體而言,VideoTemp-o3包含:(1)冷啟動SFT配合統一掩碼機制,精準施加多輪訓練信號並屏蔽早期粗定位噪聲;(2)懲罰感知的IoU強化學習獎勵體系,有效抑制獎勵作弊,提升定位精度與回答準確率;(3)基於Gemini-2.5-Pro的多輪數據構建流水線,通過閉環一致性驗證生成高質量長視頻有根據的QA數據。我們還發布了VideoTemp-Bench,覆蓋四個視頻時長段共1,200條樣本,系統評估模型的時序定位與理解能力。廣泛實驗表明,VideoTemp-o3在長視頻理解(VideoMME +2.4%、LVBench +1.7%)、時序定位(Charades-STA mIoU 57.8%)及視頻有根據問答(NextGQA mIoU 33.4%)三項任務上均達到最先進性能。11Weights to Code: Extracting Interpretable Algorithms from the Discrete Transformer論文地址:https://arxiv.org/abs/2601.05770論文簡介:本文提出了一種面向算法提取與可解釋性的Discrete Transformer架構,旨在從訓練好的Transformer權重中直接恢復可執行、可讀的算法程序。針對標準Transformer內部表示容易出現特徵糾纏和疊加、難以進行符號化解析的問題,作者通過離散化殘差流、數值注意力模塊和數值MLP模塊,將信息路由與算術計算顯式分離,並結合溫度退火、假設檢驗和符號迴歸,從模型中提取出Python形式的程序。實驗表明,該方法在多類算法推理任務上能夠達到接近或匹配RNN-based MIPS方法的提取性能,並進一步支持包含連續變量的動力學任務;同時,論文還展示了該架構可通過歸納偏置控制提取出的算法形式,為Transformer可解釋性和神經網絡程序合成提供了一個更可控、更透明的研究框架。快手以開放連接學術與產業,讓技術不止於研究,更在真實場景中生長進化。更多技術探索和突破,敬請關注!
Related
相關文章

GPT5.6慘遭切腦,Fable 5迴歸要變弱雞版?
這篇消息聚焦「GPT5.6慘遭切腦,Fable 5迴歸要變弱雞版?」。原始導語提到:美國AI,「閉關鎖國」? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Anthropic最新報告摸透全球打工人:凌晨5點求睡眠,晚6點問菜譜
這篇消息聚焦「Anthropic最新報告摸透全球打工人:凌晨5點求睡眠,晚6點問菜譜」。原始導語提到:白天,Claude是高薪打工人的生產力引擎;深夜,它成了唯一知道你還醒著的那個。一份報告,意外照出了幾百萬人藏起來的24小時。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

獨家|獲超億美元融資,Sand.ai 曹越:為什麼視頻是通往世界模型最重要的路徑
這篇消息聚焦「獨家|獲超億美元融資,Sand.ai 曹越:為什麼視頻是通往世界模型最重要的路徑」。原始導語提到:“每一代模型,我們都在押注一個非共識。” 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發
這篇消息聚焦「北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發」。原始導語提到:北京太空算力創新中心採用“公司 + 聯盟”雙輪驅動模式,運營主體為北京天算星聯科技有限公司。創新中心承擔四類核心職能。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
讓AI自己修服務器?先過了這場“火線測試”再說
智東西 作者 | 陳駿達 編輯 | 漠影 隨著大模型能力持續提升,智能體正從聊天、寫作等輔助場景走向軟件開發、網絡管理和基礎設施運維等生產環節。尤其在AI基礎設施領域,面對龐大的GPU集群和複雜架構,越來越多企業開始嘗試讓智能體承擔故障排查、告警分析和資源管理等工作,以提升運維效率並降低人力成本。 然而,運維場景對智能體構成了空前挑戰。AI算力集群運維橫跨GPU硬件、網絡通信、分佈式存儲、容器編排、訓練框架等多個技術棧,問題現象往往模糊、不完整甚至相互矛盾,智能體需要在開放環境中主動探索、反覆驗證,自行界定問題並尋求解決路徑。 要提升智能體在此類複雜場景的綜合能力,一套與之匹配的評測基準不可或缺。但當前行業恰恰缺乏對這種多步推理、開放決策過程的系統化評估能力,導致運維智能體研發長期“無標可依”,進展評估與方向校準均缺乏牽引。 正是在這樣的背景下,中國信息通信研究院開源了全球首個面向AI Infra運維場景的智能體評測基準——AISHPerf-智算運維智能體評測基準,國內頭部AI原生基礎設施企業無問芯穹重點參與技術建設。 這套基準源自百億條真實運維數據,不再只關注“會不會回答問題”,而是聚焦智能體“能不能解決問題”,為運維智能體能力評估提供了一套貼近真實生產環境的參考標準。 一、百億條運維數據,煉出103道“考題” 任何評測體系的價值,最終都建立在數據質量之上。對於運維智能體而言尤其如此。因為真實世界中的故障往往具有高度隨機性和複雜性,許多問題並不存在標準答案,甚至需要跨越多個技術棧進行聯合分析。如果評測數據脫離真實生產環境,即使得到再高的測試分數,也很難證明智能體具備實際應用價值。 無問芯穹之所以能夠重點參與這一評測基準的技術建設,與其在AI基礎設施領域的長期實踐密切相關。根據披露的信息,其早在2025年便已將運維智能體應用到實際訓練推理業務中,並取得明顯成效。工單平均處理
OceanBase發佈AI數據庫三件套,TOC最高降50%,螞蟻、靈光都在用
智東西 作者 | 王涵 編輯 | 雲鵬 智東西6月29日報道,今天,OceanBase發佈湖庫一體AI數據庫產品OceanBase Lakebase,該產品面向Agent應用,原生支持多模態數據管理。 “數據湖”是一種集中式存儲架構,可以存儲結構化、半結構化、非結構化等不同類型的數據。Lakebase融合了“數據湖”架構的開放性和“數據庫”架構的功能性,讓結構化數據、非結構化數據和向量數據能夠在統一架構中被管理、加工、檢索和調用。 基於此,OceanBase還發布了數據生產、治理和服務工作臺OceanBase DataStudio,以及面向經營分析和業務決策的數據智能Agent OceanBase DataPilot兩個產品。 OceanBase DataStudio覆蓋數據接入、數據加工、任務編排、語義建模、數據治理到Agent協作等環節,幫助企業把分散的數據資產轉化為可管理、可理解、可調用的數據服務。 OceanBase DataPilot作為統一的企業業務智能入口,讓業務人員可以通過自然語言完成分析報告、數據看板和可信答案生成,把過去依賴專業數據團隊完成的分析流程,轉化為可交互、可追問、可複用的智能決策能力。 智東西等媒體與OceanBase CEO楊冰、CTO楊傳輝,進行了面對面的交流。 楊冰認為,AI正在改變數據的管理方式,數據使用者和數據形態都發生了變化。數據使用者的改變帶來了三大挑戰:VibeCoding帶來了海量Agent應用;Agent開始執行生產任務;Agent長期運行的正確性和自我進化。數據形態改變,則為非結構化數據成為可計算資產、數據要主動流轉、數據要理解任務。 兩者作用疊加,OceanBase給出判斷:在AI時代,數據庫應該是湖庫一體的。 OceanBase內部的AI轉型也在進行中。楊冰透露,OceanBase已將內核團隊分為“一體化數據庫”和“A