雷峰網生成式AI

滴滴多篇論文入選 ICML2026,值得一讀!

2026年6月16日 03:07

重點摘要

原文作者:公眾號“滴滴技術”原文鏈接:https://mp.weixin.qq.com/s/cBQnS-ThQgLLc12flLW8ug近日,機器學習與人工智能領域國際頂會 ICML 2026 錄用結果正式揭曉,滴滴共有五篇高質量學術成果被大會收錄。本次中稿論文分別來自滴滴L Lab團隊、滴滴網約車交易市場技術團隊,與中山大學、香港科技大學(廣州)、北京大學、上海財經大學等高校聯合研發完成。未來,滴滴將繼續深耕業務場景,讓前沿探索與產業需求相互激發,與學界攜手推動更多技術成果落地。國際機器學習大會(International Conference on Machine Learning,簡稱 ICML)是機器學習領域最具影響力的頂級學術會議之一,同時也是中國計算機學會(CCF)推薦的 A 類國際學術會議。第 43 屆 ICML 會議將於 2026 年 7 月 6 日-11 日在韓國首爾舉行。本屆 ICML 會議共收到 23918 份提交論文,其中 6352 篇論文被錄用,526 篇被選為 Spotlight Paper。中稿論文如下(*排名不分先後):論文一:UltraHorizon: Benchmarking LLM-Agent Capabilities in Ultra Long-Horizon Scenarios作者: Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, WenJie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen研究團隊:滴滴 L-Lab

站內 AI 整理稿

原文作者:公眾號“滴滴技術”原文鏈接:https://mp.weixin.qq.com/s/cBQnS-ThQgLLc12flLW8ug近日,機器學習與人工智能領域國際頂會 ICML 2026 錄用結果正式揭曉,滴滴共有五篇高質量學術成果被大會收錄。本次中稿論文分別來自滴滴L Lab團隊、滴滴網約車交易市場技術團隊,與中山大學、香港科技大學(廣州)、北京大學、上海財經大學等高校聯合研發完成。未來,滴滴將繼續深耕業務場景,讓前沿探索與產業需求相互激發,與學界攜手推動更多技術成果落地。國際機器學習大會(International Conference on Machine Learning,簡稱 ICML)是機器學習領域最具影響力的頂級學術會議之一,同時也是中國計算機學會(CCF)推薦的 A 類國際學術會議。第 43 屆 ICML 會議將於 2026 年 7 月 6 日-11 日在韓國首爾舉行。本屆 ICML 會議共收到 23918 份提交論文,其中 6352 篇論文被錄用,526 篇被選為 Spotlight Paper。中稿論文如下(*排名不分先後):論文一:UltraHorizon: Benchmarking LLM-Agent Capabilities in Ultra Long-Horizon Scenarios作者: Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, WenJie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen研究團隊:滴滴 L-Lab × 中山大學研究方向:大模型智能體評估基準 / 長週期(Long-Horizon)任務推理、規劃與工具使用論文下載鏈接:https://arxiv.org/pdf/2509.21766論文介紹:現有的自主智能體評估未能涵蓋現實世界中那些需要持續推理、記憶管理和工具調用的長週期且部分可觀察的複雜任務。為了填補這一空白,我們提出了一個全新的跨環境探索基準測試,其特點是具有極長的智能體交互軌跡、極高的Token消耗量和頻繁的工具調用。廣泛的實驗表明,當前最先進的智能體在這些任務中表現遠不如人類,且無法通過簡單的擴大規模來提升,其失敗的主要原因在於上下文鎖定(in-context locking)和基礎能力的缺失。論文二:Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution作者:Hongze Mi, Yibo Feng, WenJie Lu, Song Cao, Jinyuan Li, Yanming Li, Xuelin Zhang, Haotian Luo, Songyang Peng, He Cui, Tengfei Tian, Jun Fang, Hua Chai, Naiqiang Tan研究團隊:滴滴 L-Lab研究方向:多模態大模型(MLLM)智能體 / GUI 自動化 / 自進化記憶系統論文下載鏈接:https://arxiv.org/pdf/2601.22528論文介紹:為了克服多模態大語言模型(MLLM)在複雜GUI自動化中的記憶與上下文限制,我們提出了達爾文記憶系統(DMS),該自進化架構利用效用驅動的“自然選擇”機制來動態分解任務並淘汰次優策略。通過將記憶構建為一個不斷進化的生態系統,DMS在無需任何額外訓練的情況下,顯著提升了MLLM智能體的任務成功率、執行穩定性與效率。論文三:HTAC: Hierarchical Task-Aware Composition for Continual Offline Reinforcement Learning作者:Qiyang Zhou,Ruihang Xu,Peng Wang,Wenjie Lu,Xiaochun Cao,Naiqiang Tan,Li Shen研究團隊:滴滴 L-Lab × 中山大學研究方向:持續離線強化學習(Continual Offline RL) / 跨任務知識遷移與隔離 / 層次化任務表示論文介紹:為了克服持續離線強化學習(CORL)在任務異質性下的知識複用與隔離難題,我們提出了層次化任務感知組合方法(HTAC),該方法通過雙層任務編碼與軟組合機制,將任務解耦為域級與任務級嵌入,並藉助按需創建的專家網絡與注意力式知識整合實現參數高效的知識隔離與複用。在離線持續世界基準上,HTAC兼顧了可塑性與穩定性,顯著提升了智能體的跨任務泛化與知識遷移能力。論文四:Agent-Omit: Adaptive Context Omission for Efficient LLM Agents作者:Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu研究團隊:滴滴 L-Lab × 香港科技大學(廣州)研究方向:大語言模型智能體論文下載鏈接:https://arxiv.org/pdf/2602.04284v2 論文介紹:本文提出Agent-Omit框架,用於提升大語言模型智能體在多輪交互中的執行效率。現有方法通常對思考過程與環境觀察進行統一壓縮,未考慮不同交互輪次的效用差異。本文通過定量分析證實,智能體在交互中間輪次產生的思考與觀察信息存在大量冗餘,可在不降低任務效果的前提下安全省略。Agent-Omit 採用兩階段訓練:先基於冷啟動數據微調,讓模型掌握省略行為規範;再通過省略感知的智能體強化學習,結合雙採樣機制與專屬獎勵,實現自適應省略冗餘內容。理論分析表明,該省略策略的偏差受 KL 散度上界約束。在五大智能體基準測試中,Agent-Omit-8B 性能比肩前沿大模型,且顯著降低 token 開銷,實現效果與效率的最優平衡。論文五:Feasible Fusion: Constrained Joint Estimation under Structural Non-Overlap(結構性重疊缺失下帶約束的聯合估計範式)作者:Yuxi Du, Zhiheng Zhang, Haoxuan Li, Cong Fang, Jixing Xu, Zhen Peng, Jiecheng Guo研究團隊:滴滴網約車交易市場技術 × 北京大學、上海財經大學研究方向:因果推斷論文下載鏈接:https://arxiv.org/pdf/2602.22612論文介紹:現代大規模營銷場景中因果推斷正面臨日益嚴峻的挑戰,這些挑戰包括高維協變量(high-dimensional covariates)、多值處理(multi-valued)、大規模觀察性數據,以及由於成本約束而數量有限的隨機對照試驗樣本。本文對由處理機制誘發的結構性非重疊進行了形式化刻畫,並證明:在這一情形下,常用的加權融合方法在理論上無法滿足隨機化識別約束。為應對這一問題,本文提出了一種受約束的聯合估計框架:在最小化觀察數據風險的同時,通過正交的實驗矩條件來保證因果有效性。進一步地,我們表明,結構性非重疊會在原始協變量空間中對矩約束的施加構成一種可行性障礙。在方法上,本文推導出一種帶懲罰項的原始—對偶算法,用於聯合學習表徵與預測器,並將誤差分解為重疊恢復誤差、矩違背誤差以及統計誤差三部分。大量合成實驗表明,該方法在不同程度的非重疊情形下均表現出穩健性能。與此同時,在一個滴滴大規模網約車應用場景中的實驗進一步顯示,本文方法相較於現有基線方法取得了顯著提升,其效果可與使用顯著更多 RCT 數據訓練得到的模型相仿。雷峰網

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

2 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

22 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

22 小時前