雷峰網生成式AI

深圳市大數據研究院4項科研成果被ICML 2026錄用

2026年6月16日 07:08

重點摘要

原文作者:公眾號“深圳市大數據研究院”原文鏈接:https://mp.weixin.qq.com/s/ex36drATo7qIy_MwFFp5hA近日,深圳市大數據研究院四項科研成果同時發表於第43屆國際機器學習大會(International Conference on Machine Learning, ICML)。會議介紹國際機器學習大會(International Conference on Machine Learning, ICML)是人工智能領域頂級學術會議,為中國計算機學會(CCF)推薦的A類國際學術會議,與NeurIPS、ICLR通常並稱為機器學習領域的三大頂級會議。ICML長期關注機器學習基礎理論、深度學習、強化學習、優化方法、概率建模、可信機器學習、機器學習系統,以及機器學習在計算機視覺、計算生物學、語音識別和機器人等領域的應用。公開數據顯示,ICML 2026共收到23,918篇有效投稿/進入評審的投稿,錄用率約為26.6%。論文簡介AdaMeZO: Adam-style Zeroth-Order Optimizer for LLM Fine-tuning Without Maintaining the MomentsAdaMeZO:無需保存動量矩的 Adam 風格零階大語言模型微調優化器關鍵詞大語言模型微調、零階優化、優化器、內存效率摘要:大語言模型微調是提升模型在特定下游任務中表現的重要手段,但傳統基於反向傳播的一階優化方法需要計算並存儲梯度,顯著增加顯存開銷,限制了大模型在資源受限設備上的部署與應用。已有零階優化方法 MeZO 僅依賴前向傳播即可完成微調,大幅降低了顯存需求,但其更新方式類似隨機梯度下降,難以感知不同參數維度上的損失曲率差異,導致收斂速度較慢。與此同時,直接引入Adam 等自適應優化器雖然能夠利用一階與二階矩估計提升收斂效率,但

站內 AI 整理稿

原文作者:公眾號“深圳市大數據研究院”原文鏈接:https://mp.weixin.qq.com/s/ex36drATo7qIy_MwFFp5hA近日,深圳市大數據研究院四項科研成果同時發表於第43屆國際機器學習大會(International Conference on Machine Learning, ICML)。會議介紹國際機器學習大會(International Conference on Machine Learning, ICML)是人工智能領域頂級學術會議,為中國計算機學會(CCF)推薦的A類國際學術會議,與NeurIPS、ICLR通常並稱為機器學習領域的三大頂級會議。ICML長期關注機器學習基礎理論、深度學習、強化學習、優化方法、概率建模、可信機器學習、機器學習系統,以及機器學習在計算機視覺、計算生物學、語音識別和機器人等領域的應用。公開數據顯示,ICML 2026共收到23,918篇有效投稿/進入評審的投稿,錄用率約為26.6%。論文簡介AdaMeZO: Adam-style Zeroth-Order Optimizer for LLM Fine-tuning Without Maintaining the MomentsAdaMeZO:無需保存動量矩的 Adam 風格零階大語言模型微調優化器關鍵詞大語言模型微調、零階優化、優化器、內存效率摘要:大語言模型微調是提升模型在特定下游任務中表現的重要手段,但傳統基於反向傳播的一階優化方法需要計算並存儲梯度,顯著增加顯存開銷,限制了大模型在資源受限設備上的部署與應用。已有零階優化方法 MeZO 僅依賴前向傳播即可完成微調,大幅降低了顯存需求,但其更新方式類似隨機梯度下降,難以感知不同參數維度上的損失曲率差異,導致收斂速度較慢。與此同時,直接引入Adam 等自適應優化器雖然能夠利用一階與二階矩估計提升收斂效率,但直接引入會額外存儲與模型參數同規模的動量信息,從而削弱零階優化的內存優勢。針對上述問題,論文提出 Adam 風格零階優化器 AdaMeZO。該方法通過截斷歷史梯度構造近似的一階與二階矩估計,並結合更細粒度的偽隨機數生成器狀態緩存機制,在需要更新參數時按塊原地重建歷史隨機方向,而無需在顯存中長期維護完整動量向量。由此,AdaMeZO 在保留 MeZO 低顯存優勢的同時,引入類似 Adam 的自適應預條件更新能力,使模型能夠更有效地適應複雜損失函數景觀中的不同曲率區域。理論分析表明,在非凸優化假設下,AdaMeZO 能夠以O(1/√T)的速度收斂到平穩點附近。實驗在 RoBERTa、OPT、LLaMA 等模型及多類自然語言處理任務上驗證了方法有效性。結果顯示,AdaMeZO 在多個任務中優於 MeZO 和相關強基線,並在達到相同終止損失時最多減少約 70% 的前向傳播次數;實測額外顯存僅約 7%,顯著低於需要顯式存儲矩估計的方法(額外顯存約50-100%)。該工作為低顯存開銷大語言模型高效微調提供了一種新的優化方法。圖1:圖AdaMeZO 與 MeZO 在 SST-2 任務上的損失曲線對比。AdaMeZO 在 RoBERTa-large、OPT-1.3B 和 LLaMA-3B 上達到 MeZO 終止損失時,分別減少 69.75%、70.48% 和 70.90% 的前向傳播。圖2:AdaMeZO 的分塊矩估計機制。與基於 seed 的整體隨機流控制相比,基於 PRNG 狀態緩存的分塊控制可在計算並釋放一、二階矩後進入下一參數塊,從而減少額外顯存。論文第一作者蔡智捷與共同第一作者陳浩瀧為深圳市大數據研究院-香港中文大學(深圳)聯合培養博士生、香港中文大學(深圳)理工學院博士生,通訊作者為深圳市大數據研究院研究員朱光旭博士。Romberg-Extrapolated Zeroth-Order Gradient Estimator: Higher-Order Bias Reduction with Preserved Leading Directional VarianceRomberg 外推零階梯度估計器:保留主導方向方差的高階偏差減少關鍵詞零階優化、梯度估計、龍貝格外推摘要:在現代學習與優化中,常因梯度計算昂貴或不可得,需僅通過函數值查詢估計梯度。標準梯度估計存在偏差-方差制約,現有改進方法難以兼顧兩者優化。為此,本文提出Romberg-ZOGE方法,通過多尺度兩點估計結合Romberg外推,在降低偏差的同時保持方差不增。理論上,Romberg-ZOGE可實現高階偏差縮減且不增加主導方差。對確定性函數評估,其在多個半徑上構造兩點估計並加權,將偏差從O(r2) 降至 O(r2R+2),且主導方向方差與標準兩點估計器一致。針對ZO-SGD的隨機函數查詢,同次梯度估計的多查詢共享隨機樣本,噪聲可在差分與外推中抵消,避免額外放大,收斂複雜度不劣於基線。實驗覆蓋三類場景:合成函數實驗中,R=2時偏差呈接近O(r6)下降,遠優於標準兩點估計器的O(r2),且主導方差與基線相近;優化實驗中,相同查詢預算下收斂更快更穩定;無線網絡優化任務中,提升了平滑分位數頻譜效率目標值;OPT-1.3B的SST-2黑箱prompt tuning任務中,取得最低訓練損失及最高驗證、測試準確率。結果表明,Romberg-ZOGE兼具理論優勢與實際黑箱優化的穩定收益。圖3:圖AdaMeZO 與 MeZO 在 SST-2 任務上的損失曲線對比。AdaMeZO 在 RoBERTa-large、OPT-1.3B 和 LLaMA-3B 上達到 MeZO 終止損失時,分別減少 69.75%、70.48% 和 70.90% 的前向傳播。論文第一作者董洪成為深圳市大數據研究院-香港中文大學(深圳)聯合培養博士生,通訊作者為深圳市大數據研究院副研究員蒲文強博士,共同作者為深圳市大數據研究院副研究員趙立成博士、周睿博士,香港中文大學(深圳)人工智能學院尹峰教授。Think in Cloud, Look at Edges: Semantic-Driven Query Decomposition for Efficient Video Reasoning雲端思考,邊端觀察:面向高效視頻推理的語義驅動查詢分解關鍵詞長視頻理解、邊雲協同、語義驅動查詢分解、關鍵幀選擇、多模態大模型摘要:長視頻理解面臨帶寬、時延與精度矛盾:純雲端方案能力強但上傳成本高,純邊緣方案響應快但推理能力有限。本文發現,現有邊雲協同方法常將複雜問題壓縮為單一語義向量進行相似度檢索,容易產生“語義淹沒”,使邏輯上關鍵但不突出的證據被顯著視覺線索覆蓋。為此,本文提出 SCOPE 框架,採用“雲端思考、邊緣觀察”的範式:雲端大模型將用戶問題分解為帶依賴關係和重要性權重的 DAG 觀測計劃,邊緣側據此進行預算分配、並行語義匹配與關鍵幀選擇,上傳高價值證據幀。Video-MME 和 LongVideoBench 實驗表明,SCOPE 在嚴格幀預算下穩定優於 Uniform、Top-K、AKS 等基線;在 16 幀設置下達到與純雲端相同的 66.04% 準確率,並將端到端時延由 154.22 秒降至 23.94 秒,降低約 85%。該研究為資源受限場景中的長視頻高效推理提供了可部署的邊雲協同新範式。圖4:SCOPE總體框架。雲端大模型先生成結構化觀測計劃,邊緣側依據計劃完成預算感知關鍵幀選擇,並將證據幀上傳雲端進行深度推理。本文第一作者為深圳市大數據研究院訪問博士Jackie Zou,第二作者為深圳市大數據研究院-香港中文大學(深圳)聯合培養博士生、香港中文大學(深圳)理工學院博士生蔡智捷,通訊作者為香港中文大學(深圳)數據科學學院助理教授餘旻晨博士,深圳市大數據研究院研究員朱光旭博士。MIMOMamba: From Scalar Duality to Matrix-Valued AttentionMIMOMamba:從標量對偶到矩陣值注意力關鍵詞狀態空間模型(SSM)、循環神經網絡(RNN)、結構化矩陣、線性注意力機制摘要:現代序列建模需兼顧表達能力與效率。Transformer自注意力能力強,但複雜度隨序列長度二次增長;Mamba等結構化狀態空間模型雖具線性效率,卻常將時序建模與跨通道交互分離,難以刻畫時變耦合。本文提出MIMOMamba,通過矩陣多項式參數化將狀態空間對偶性推廣至多輸入多輸出(MIMO)設置,在單一選擇性遞推中聯合建模時間依賴與跨通道交互,並保持線性效率。該方法將注意力元素由標量擴展為D×D矩陣,實現矩陣值結構化注意力;同時藉助共享代數基底保證交換性、降低參數冗餘,使核心參數複雜度由Transformer約3D²降至約D²。實驗表明,MIMOMamba在SSP物理預測基準上以約35k參數取得最優精度(RMSE=0.687),優於多種先進基線;推理內存線性增長,訓練吞吐量較Mamba-2提升1.5–1.6倍,為高效序列建模提供了新的理論與方法支撐。圖5:MIMOMamba 從遞推狀態空間模型到矩陣值注意力的對偶視角本文第一作者為深圳市大數據研究院訪問博士生、香港中文大學(深圳)博士生李彥伯,第二作者為香港中文大學(深圳)博士生Richard Cornelius SUWANDI,通訊作者為香港中文大學(深圳)人工智能學院尹峰教授,共同作者為香港中文大學(深圳)博士生孫藝勇、中國海洋大學黃威教授、深圳市大數據研究院副研究員蒲文強博士。雷峰網

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

3 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

23 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前