雷峰網生成式AI

港中文(深圳)人工智能學院:荊炳義、尹峰、賀品嘉教授團隊的6篇論文被ICML 2026接收

2026年6月16日 07:25

重點摘要

原文作者:公眾號“香港中文大學深圳人工智能學院”原文鏈接:https://mp.weixin.qq.com/s/5EiYIXjB9mPusjCEvdr7xA近日,香港中文大學(深圳)人工智能學院荊炳義、尹峰教授和數據科學學院、人工智能學院雙聘助理教授賀品嘉教授團隊的6篇論文被機器學習領域頂級會議ICML 2026接收。 國際機器學習大會ICML(International Conference on Machine Learning)是人工智能與機器學習領域的國際頂級學術會議。作為中國計算機學會(CCF)推薦的A類頂會,它與NeurIPS、ICLR並列為機器學習領域的“三大頂會”。ICML 2026將於2026年7月6日至11日在韓國首爾舉辦,會議將圍繞深度學習、計算機視覺、自然語言處理等前沿方向展開交流研討,匯聚全球AI學術精英與前沿科研成果。 論文簡介 01 RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models論文鏈接:https://arxiv.org/abs/2603.06616論文作者:Sai HAO, Hao ZENG, Hongxin WEI, Bingyi JING(共同通訊作者) 研究背景與動機 在多模型系統中,不同大語言模型往往因訓練數據、模型架構等不同,而在不同領域中表現出互補的能力。因此,如何為每個問題選擇合適模型,是平衡性能與推理成本的核心挑戰。現有的路由方法通常只選擇單一模型,容易因預測排名與真實性能不匹配而產生誤路由錯誤。此外,現有方法缺乏對誤路由風險的嚴格統計控制,難以在安全關鍵場景中可靠部署。因此,亟需一種能夠在控制風險的同時,最小化推理成本的路由框架。 核心方法與貢獻 本文提出RACER(Risk-Aware Calibrated Efficien

站內 AI 整理稿

原文作者:公眾號“香港中文大學深圳人工智能學院”原文鏈接:https://mp.weixin.qq.com/s/5EiYIXjB9mPusjCEvdr7xA近日,香港中文大學(深圳)人工智能學院荊炳義、尹峰教授和數據科學學院、人工智能學院雙聘助理教授賀品嘉教授團隊的6篇論文被機器學習領域頂級會議ICML 2026接收。 國際機器學習大會ICML(International Conference on Machine Learning)是人工智能與機器學習領域的國際頂級學術會議。作為中國計算機學會(CCF)推薦的A類頂會,它與NeurIPS、ICLR並列為機器學習領域的“三大頂會”。ICML 2026將於2026年7月6日至11日在韓國首爾舉辦,會議將圍繞深度學習、計算機視覺、自然語言處理等前沿方向展開交流研討,匯聚全球AI學術精英與前沿科研成果。 論文簡介 01 RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models論文鏈接:https://arxiv.org/abs/2603.06616論文作者:Sai HAO, Hao ZENG, Hongxin WEI, Bingyi JING(共同通訊作者) 研究背景與動機 在多模型系統中,不同大語言模型往往因訓練數據、模型架構等不同,而在不同領域中表現出互補的能力。因此,如何為每個問題選擇合適模型,是平衡性能與推理成本的核心挑戰。現有的路由方法通常只選擇單一模型,容易因預測排名與真實性能不匹配而產生誤路由錯誤。此外,現有方法缺乏對誤路由風險的嚴格統計控制,難以在安全關鍵場景中可靠部署。因此,亟需一種能夠在控制風險的同時,最小化推理成本的路由框架。 核心方法與貢獻 本文提出RACER(Risk-Aware Calibrated Efficient Routing),一種即插即用、模型無關的後處理路由範式。RACER 將多模型路由問題形式化為 α-有效最優路由(α-VOR)問題,目標是在保證誤路由風險低於用戶指定水平 α 的前提下,最小化期望調用的模型數量。該方法通過校準數據集確定數據依賴的閾值,將原始路由分數轉化為具有風險控制保證的集合預測。理論方面,RACER提供了嚴格的分佈無關保證,證明其在未見查詢上的風險控制滿足用戶指定水平,並給出了匹配的風險下界。實驗表明,RACER在多個基準上實現了穩定的風險控制。相比單模型選擇和單一最優模型,RACER通過自適應選擇模型集合提升了下游準確性;相比全模型聚合,RACER在保持較高準確性的同時,最多可減少58.6%的模型調用次數。 02 Anytime Safe PAC Efficient Reasoning 論文鏈接:https://chengyaoyu1.github.io/files/B_PAC_Reasoning.pdf論文作者:Chengyao YU, Hao ZENG, Youxin ZHU, Jianguo HUANG, Huajun ZENG, Bingyi JING(通訊作者) 研究背景與動機 大語言推理模型(LRM)在複雜推理任務上表現出色,但存在“過度思考”現象——即使對簡單問題也會生成過長的推理鏈,導致高計算成本和延遲。現有的選擇性推理方法通過將簡單查詢路由到非推理模型來提升效率,但其決策規則往往是啟發式的,缺乏對性能損失的嚴格統計控制。更關鍵的是,在線場景中性能損失僅在調用推理模型時才可觀測(部分反饋),且數據可能存在非平穩性。因此,亟需一種能夠在在線、部分反饋、非平穩數據環境下,實時保證性能損失可控的高效推理方法。 核心方法與貢獻 本文提出 B-PAC Reasoning(Betting Probably Approximately Correct Reasoning),一種基於賭博理論的在線高效推理方法。該方法利用逆傾向評分(IPS)構建潛在風險估計量,並構造具有賭博解釋的檢驗超鞅,結合固定序列檢驗來動態更新路由閾值。當非推理模型的不確定性分數低於閾值時,系統以高概率直接採用其輸出;否則調用推理模型以保證可靠性。理論方面,B-PAC Reasoning在獨立同分布和非平穩數據下均實現了任意時點有效的性能損失控制,並證明了所提出的自適應賭博策略具有對數遺憾。實驗表明,該方法在保證性能損失低於用戶指定水平的同時,在評測數據集上最多可將推理模型調用比例降低81.01%。 作者簡介 論文一 01郝賽 Sai HAO郝賽,南方科技大學2023級在讀博士生,導師為荊炳義教授。主要研究方向為大模型的可靠性,高效大模型推理,統計機器學習。 02曾浩 Hao ZENG曾浩,博士畢業於廈門大學統計學專業。曾任新加坡國立大學統計與數據科學系訪問學者,現為南方科技大學—新加坡國立大學聯合項目博士後。研究方向主要包括無分佈預測推斷、高維統計與統計機器學習理論,並關注其在大語言模型、人工智能、空間統計、計量經濟學與生物統計等領域的應用。 03魏鴻鑫 Hongxin WEI魏鴻鑫,南方科技大學統計與數據科學系助理教授,博士畢業於新加坡南洋理工大學,曾在美國威斯康辛大學麥迪遜分校進行研究訪問。他主要研究可信機器學習,及其在數據優化與隱私中的應用,致力於使機器學習模型能夠準確表達預測中的不確定性,為可信推斷與高效訓練提供原則指導。他近年已在國際頂級會議和期刊發表論文57篇, 其中在CCF-A類會議及期刊上以第一作者或通訊作者發表29篇。其受邀擔任 ICML、NeurIPS、ICLR 等國際機器學習會議領域主席,以及 JASA、JMLR、TPAMI、IJCV等頂級期刊審稿人。 論文二 01餘成耀 Chengyao YU餘成耀,南方科技大學統計與數據科學系一年級碩士在讀,導師為荊炳義教授。主要研究方向為Trustworthy AI,Efficient AI,發展不同應用場景下的多重檢驗方法,以及發展靈活、數值驅動的統計推斷方法。 02曾浩 Hao ZENG曾浩,博士畢業於廈門大學統計學專業。曾任新加坡國立大學統計與數據科學系訪問學者,現為南方科技大學—新加坡國立大學聯合項目博士後。研究方向主要包括無分佈預測推斷、高維統計與統計機器學習理論,並關注其在大語言模型、人工智能、空間統計、計量經濟學與生物統計等領域的應用。 *通訊作者:荊炳義 Bing-Yi JING荊炳義,港中大(深圳)人工智能學院校長永平講座教授、副院長(學院發展與學生事務),國家自然科學獎二等獎獲得者,教育部高等學校自然科學獎二等獎獲得者。美國統計學會會士(ASA Fellow),數理統計學會會士(IMS Fellow),國際統計學會當選會士(ISI Elected Member),中國現場統計學會多元分析委員會理事長。先後擔任多個國際學術期刊副主編。研究興趣包括人工智能、數據科學、計量經濟、網絡數據、生物信息、概率統計等。在概率統計、機器學習、人工智能等方向頂級期刊及頂級會議上發表論文140餘篇,包括AoS、JRSS-B、JASA、Biometrika、AoP、JoE、JMLR、NeurIPS、ICLR等。此外,他與產業界具有豐富的合作經驗,曾榮獲華為火花獎和華為優秀合作成果獎。 03 MIMOMamba: From Scalar Duality to Matrix-Valued Attention 論文鏈接:https://openreview.net/forum?id=UmQ07sj13y論文作者:Yanbo LI, Richard Cornelius SUWANDI, Feng YIN(通訊作者), Yiyong SUN, Wei HUANG, Wenqiang PU 研究背景 現代序列建模面臨表達能力與計算效率之間的根本性矛盾。Transformer的自注意力機制具有強大表達能力,但計算複雜度隨序列長度呈二次方增長;以 Mamba為代表的結構化狀態空間模型(SSM)雖提供了線性時間替代方案,但現有SSM架構均將時序建模與跨通道交互解耦為獨立階段,無法聯合建模時變的跨通道依賴關係,在物理仿真、多變量時序預測、空間智能等關鍵應用中構成結構性瓶頸。(圖1:MIMOMamba從遞推狀態空間模型到矩陣值注意力的對偶視角) 核心方法與貢獻 本論文提出MIMOMamba,通過矩陣多項式參數化(Matrix Polynomial Parameterization)將狀態空間對偶性從標量約束推廣至完整的多輸入多輸出(MIMO)設置,在單一選擇性遞推中聯合建模時序與跨通道交互,同時保持線性時間效率。主要貢獻包括:1. 建立矩陣值結構化注意力機制。注意力圖中每個元素為 D×D 矩陣,可描述時間步間的跨通道線性變換,在注意力內部直接實現特徵混合。2. 矩陣多項式參數化保證交換性。將狀態矩陣構造為共享基底矩陣的多項式,從代數性質出發嚴格保證對偶性成立所需的交換性,並證明該參數化在交換子空間中理論完備。3. 顯著提升參數效率。共享代數基底將核心參數複雜度從 Transformer 的約 3D² 降至約 D²,有效減少約三分之二的參數量。4. 多頭MIMO架構保持線性時間訓練。通過直和代數框架實例化多個並行頭,學習不同動力學模式,保留線性時間並行訓練與高效推理的雙重計算模式。 實驗結果 SSP 物理預測基準:MIMOMamba 以約 35k 參數(Transformer 的 1/3)達到最優預測精度(RMSE = 0.687),超越 Gated DeltaNet(0.699)、Mamba-3(0.715)及 Transformer(0.749)等所有基線。效率與可擴展性:推理內存隨序列長度線性增長(Transformer 增長約200倍);訓練吞吐量比 Mamba-2 快 1.5–1.6 倍。 論文意義 MIMOMamba 從代數第一性原理出發,解決了將狀態空間對偶性推廣至多維交互系統的根本性理論難題,將計算效率所需的交換性與建模能力所需的跨通道耦合統一在同一代數框架中,為高效序列建模提供了兼具理論優雅性與實際可行性的新路徑。 04 Romberg-Extrapolated Zeroth-Order Gradient Estimator: Higher-Order Bias Reduction with Preserved Leading Directional Variance 論文鏈接:https://openreview.net/forum?id=FiuJVpxuSX論文作者:Hongcheng DONG, Wenqiang PU, Licheng ZHAO, Rui ZHOU, Feng YIN(通訊作者) 研究背景與動機 在現代機器學習與系統優化中,常面臨因梯度計算昂貴或不可得而需要僅通過函數值查詢來估計梯度的情形。標準梯度估計存在偏差和方差制約,現有改進方法或是降低偏差但方差顯著增加,或是降低方差但偏差不變。針對這一問題,我們提出Romberg-ZOGE,通過在多尺度上分別構造兩點估計再結合Romberg外推加權組合,系統性降低偏差,且保持方差不增。(圖表1:Romberg-ZOGE在多項式函數上的偏差和方差驗證) 理論分析 理論上,本文證明Romberg-ZOGE可在不增加主導方向方差的同時實現高階偏差縮減。對於確定性函數查詢,Romberg-ZOGE在多個半徑上構造兩點估計並加權組合,抵消前個偶數階截斷誤差項,將偏差由 降至 。同時,由於各半徑共享同一隨機擾動方向,其主導方向方差與標準兩點估計器保持一致。進一步地,本文將分析擴展到ZO-SGD,並討論兩類隨機函數查詢設定。在獨立噪聲設定下,Romberg外推可能放大查詢噪聲,但通過合理選擇平滑半徑和外推階數,仍可達到不劣於標準兩點 baseline 的迭代複雜度。在共享噪聲設定下,同次梯度估計中的多個查詢共享隨機樣本,噪聲可在差分與外推中相互抵消,從而避免額外噪聲放大,並同樣保持不劣於 baseline 的收斂複雜度。 實驗結果 實驗部分從合成函數、無線網絡優化和大語言模型黑箱調優三個場景驗證了Romberg-ZOGE的有效性。在合成函數實驗中,當取時,Romberg-ZOGE的偏差呈現接近的下降趨勢,明顯優於標準兩點估計器的;同時,方差實驗表明,只有在共享同一個隨機方向時,Romberg-ZOGE 才能保持與標準兩點估計器相近的主導方差。在進一步的優化實驗中,Romberg-ZOGE在相同函數查詢預算下收斂更快、更穩定;在無線網絡參數優化任務中取得更高的平滑分位數頻譜效率目標值;在 OPT-1.3B的 SST-2 黑箱prompt tuning任務中,也取得最低訓練損失以及最高驗證和測試準確率,說明該方法不僅具有理論優勢,也能在實際黑箱優化任務中帶來穩定收益。 作者簡介 論文三 01李彥伯 Yanbo LI 香港中文大學(深圳)2023級在讀博士生,導師為尹峰教授。2023年本科畢業於四川大學數學系。主要研究方向為狀態空間模型及其在大語言模型中的應用。 02Richard Cornelius SUWANDIRichard Cornelius SUWANDI於2023年在香港中文大學(深圳)獲得統計學學士學位(一等榮譽)。他目前是香港中文大學(深圳)的博士研究生,師從尹峰教授和張縱輝教授。他的研究方向包括貝葉斯優化、概率機器學習以及大語言模型。他曾獲IEEE信號處理學會(SPS)獎學金、廣東省政府來粵留學生獎學金及深圳大運留學基金會資助。 論文四 01董洪成 Hongcheng DONG董洪成,香港中文大學(深圳)23級在讀博士生,導師為尹峰教授和蒲文強教授。本科及碩士分別畢業於中國礦業大學(北京)中國科學院數學與系統科學研究院。主要研究方向為零階及一階優化算法及其在信號處理等領域的應用。 02蒲文強 Wenqiang PU蒲文強,現任深圳市大數據研究院研究科學家,併兼任香港中文大學(深圳)理工學院客座助理教授。他於2018年獲得西安電子科技大學電子工程專業博士學位,師從劉宏偉教授與羅智泉教授,主攻信號處理與優化方向。2015年至2018年間,他在香港中文大學(深圳)擔任訪問博士生,並於2019年至2020年在該校從事博士後研究工作。 *通訊作者:尹峰 Feng YIN尹峰於2014年獲得德國達姆施塔特工業大學博士學位,於2016年6月加入港中大(深圳),現任人工智能學院副教授、助理院長(教育)。他的主要研究方向為統計信號處理、貝葉斯機器學習、與傳感器信息融合。他已主持和參與了多個國家、省、市科技項目,包括主持和參與國家自然科學基金各級項目、省級團隊、廣東省重點實驗室等;此外,他還與華為公司在人工智能驅動的智能系統等前沿方向上保持密切合作,已出色完成多個項目,獲得2022年度華為公司價值火花獎。 截至目前,他已發表國際頂級期刊長文40餘篇,旗艦會議論文50餘篇,申請/授權中國專利20餘項,另有授權美國專利1項,南非專利1項。 他目前是IEEE Senior Member,IEEE機器學習與信號處理技術委員會(SPS MLSP TC)核心成員,自2019年起擔任愛思唯爾出版社旗下的信號處理期刊(JCR-Q1)副主編,自2023年以來擔任信號處理頂級期刊IEEE Transactions on Signal Processing (JCR-Q1)副主編。 05 Semantic Router: On the Feasibility of Hijacking MLLMs via a Single Adversarial Perturbation 論文鏈接:https://arxiv.org/abs/2511.20002論文作者:Changyue LI, Jiaying LI, Youliang YUAN, Jiaming HE, Zhicong HUANG, Pinjia HE(通訊作者) 研究背景與動機 多模態大模型容易受到圖像劫持攻擊的影響,這類攻擊通過在圖像上添加對抗擾動,迫使模型輸出攻擊者預先設置的內容。然而,現有的圖像劫持攻擊只能使模型遵循單一固定的輸出模式,這種攻擊模式缺乏靈活性,不能反映真實場景中的安全威脅。因此本文希望探索一個全新的安全問題:是否有可能構造一個通用對抗擾動,使模型根據不同圖像的視覺語義,分別生成不同的、攻擊者預定義的內容? 核心方法與貢獻 本文提出了SAUP(Semantic-Aware Universal Perturbation),一種新型的語義感知通用對抗擾動。該擾動如同一個“語義路由器”,能夠根據輸入圖像的視覺語義,迫使模型生成不同的目標輸出,並且能夠良好地泛化到未見過的圖像上。例如,通過在鏡頭上附加該擾動,可以在機器人觀察到刀具時觸發“抓取”指令,而當人類隨後進入畫面時則觸發危險的“投擲”動作。本文在理論層面從幾何視角分析了該攻擊的可行性條件,並提出了相應的優化算法來有效求解SAUP。同時,論文標註了新的細粒度語義數據集,為該方向進一步補充了評估基準。在多個代表性模型上的實驗驗證了這一語義感知攻擊的可行性:即使是在同時攻擊五個目標時,平均攻擊成功率也能達到69.66%。 06 SWE-ABS: Adversarial Benchmark Strengthening Exposes Inflated Success Rates on Test-based Benchmark 論文鏈接:https://arxiv.org/abs/2603.00520論文作者:Boxi YU, Yang CAO, Yuzhong ZHANG, Liting LIN, Junjielong XU, Zhiqing ZHONG, Qinghua XU, Guancheng WANG, Jialun CAO, Shing-Chi CHEUNG, Pinjia HE (通訊作者),Lionel BRIAND 研究背景與動機 可靠的評測是衡量機器學習進展的基石,而基準是否具備足夠的判別力,即能否在接納正確方案的同時剔除錯誤方案,則顯得尤為關鍵。然而,以SWE-Bench為代表的主流軟件工程智能體基準存在系統性隱患:其測試用例多源自真實倉庫的開發拉取請求(PR),初衷僅是驗證某個特定補丁能否通過預設測試,而非區分潛在的正確與錯誤方案。這一目標錯位導致兩類缺陷:測試未觸及補丁所影響代碼的"覆蓋盲區",以及只檢查表層行為、不驗證深層語義的"語義盲點"。這意味著基準的高分被高估,需要一種能主動暴露並修補測試弱點、恢復評測判別力的方法。 核心方法與貢獻 本文提出SWE-ABS,一種對抗式基準強化框架,通過兩階段流水線主動"攻擊"測試套件以暴露弱點、再加以強化。第一階段(覆蓋驅動增強)利用程序切片定位補丁相關代碼區域並生成測試覆蓋未觸及的分支。第二階段(變異驅動對抗強化)針對語義盲點,合成"貌似正確、實則錯誤"的變異補丁,識別能逃過現有測試的變異並反向生成對抗測試將其拒絕,類比安全測試中的紅藍攻防。實驗表明,SWE-ABS在 SWE-Bench Verified(500 實例)上強化了 50.2% 的實例,較此前最優方法 UTBoost(2%)提升 25.1 倍;拒絕19.78%此前被接受的補丁,使榜首智能體成功率從 78.8

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

3 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

23 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 天前