ICML 2026 | 面向視覺語言模型的語義魯棒性認證
重點摘要
原文作者:公眾號“專知”原文鏈接:https://mp.weixin.qq.com/s/8GZParVJfj9fBuflTFTzlA 雷峰網轉載ICML 2026 | 面向視覺語言模型的語義魯棒性認證:用文本提示刻畫可證的語義變化區間論文題目:Semantic Robustness Certification for Vision-Language Models論文鏈接:https://arxiv.org/abs/2606.18839論文作者:Peiyu Yang、Paul Montague、Feng Liu、Andrew C. Cullen、Amardeep Kaur、Christopher Leckie、Sarah M. Erfani論文機構:The University of Melbourne、Defence Science and Technology Group代碼地址:https://github.com/ypeiyu/vlm-semantic-cert視覺語言模型(VLM)已經成為開放詞表識別、圖文檢索、檢測、分割和視覺問答等任務的基礎組件。但在真實應用中,輸入圖像經常發生語義層面的變化:物體形狀變了、尺寸變了、風格變了、背景變了、視角變了、光照變了。傳統魯棒性認證多關注像素擾動、幾何變換或生成模型潛空間變化,很難直接回答一個更貼近日常部署的問題:當圖像沿著某個“語義方向”變化時,VLM 的預測在多大範圍內保持不變?這篇 ICML 2026 論文提出了一個新的語義魯棒性認證框架。核心想法非常漂亮:利用 VLM 的開放詞表能力,把文本提示作為語義代理,用一對 source/target prompt 在圖文共享嵌入空間中定義語義變化方向;再利用 VLM 分類器決策邊界的閉式幾何結構,精確計算預測類別保持不變的 semantic extent interval。
原文作者:公眾號“專知”原文鏈接:https://mp.weixin.qq.com/s/8GZParVJfj9fBuflTFTzlA 雷峰網轉載ICML 2026 | 面向視覺語言模型的語義魯棒性認證:用文本提示刻畫可證的語義變化區間論文題目:Semantic Robustness Certification for Vision-Language Models論文鏈接:https://arxiv.org/abs/2606.18839論文作者:Peiyu Yang、Paul Montague、Feng Liu、Andrew C. Cullen、Amardeep Kaur、Christopher Leckie、Sarah M. Erfani論文機構:The University of Melbourne、Defence Science and Technology Group代碼地址:https://github.com/ypeiyu/vlm-semantic-cert視覺語言模型(VLM)已經成為開放詞表識別、圖文檢索、檢測、分割和視覺問答等任務的基礎組件。但在真實應用中,輸入圖像經常發生語義層面的變化:物體形狀變了、尺寸變了、風格變了、背景變了、視角變了、光照變了。傳統魯棒性認證多關注像素擾動、幾何變換或生成模型潛空間變化,很難直接回答一個更貼近日常部署的問題:當圖像沿著某個“語義方向”變化時,VLM 的預測在多大範圍內保持不變?這篇 ICML 2026 論文提出了一個新的語義魯棒性認證框架。核心想法非常漂亮:利用 VLM 的開放詞表能力,把文本提示作為語義代理,用一對 source/target prompt 在圖文共享嵌入空間中定義語義變化方向;再利用 VLM 分類器決策邊界的閉式幾何結構,精確計算預測類別保持不變的 semantic extent interval。換句話說,模型不僅判斷“這個圖像是什麼”,還可以被認證為“當它朝某個語義屬性變化到什麼程度之前,預測仍然不會變”。1. 研究背景:魯棒性認證為什麼需要進入語義層魯棒性認證的目標,是給出模型預測在一組允許輸入變化下不變的保證。經典工作通常圍繞像素級擾動,例如 Lp ball 內的對抗擾動;也有工作處理旋轉、平移等幾何變換;近年還有方法在生成模型潛空間中做 semantic transformation certification。這些方向各有侷限。像素級擾動能描述 worst-case 局部變化,卻難以表達“更圓”“更暗”“更像素描風”“換成桌面背景”等語義變化。幾何變換有明確閉式參數,但覆蓋範圍有限。生成模型潛空間可以表達更復雜語義,但通常需要針對每種語義變化準備足夠數據並訓練或使用相應生成模型,實際部署成本較高。VLM 提供了一個新機會:圖像和文本被映射到同一個單位球嵌入空間,分類通常通過圖像 embedding 與類別文本 embedding 的餘弦相似度完成。這意味著文本 prompt 本身可以作為語義錨點。作者正是從這裡切入,將“語義變化”轉化為嵌入空間中由文本 embedding 張成的二維子空間上的連續變換。圖中,輸入圖像是 gyoza。若目標語義是 triangular,隨著語義 extent 增大,模型預測在 0 到 0.77 區間內仍為 Gyoza,超過後會翻轉到 Samosa;若目標語義是 on a plate,則整個區間內預測仍保持 Gyoza。這種區間化輸出比單點預測更有診斷價值。2. 相關工作:本文和已有認證方法的差異論文把相關工作放在三條線索中。第一是 VLM 魯棒性。已有研究關注分佈偏移、對抗攻擊、多模態安全、魯棒優化、蒸餾和解釋方法,但多數是在觀測到變化後分析或提升模型表現,並沒有給出閉式的 prediction-invariant interval。第二是魯棒性認證。隨機平滑、PixelDP 等概率方法給出置信意義下的認證;DeepPoly、CROWN、PRIMA 等抽象解釋或 convex relaxation 方法給出 sound 但可能保守的保證;ReluVal、branch-and-bound 等 complete verifier 追求精確性。這些方法大多面向像素擾動或神經網絡內部結構,不適合直接描述開放詞表語義變化。第三是輸入變換建模。DeepG、GeoRobust 等關注閉式幾何變換,ApproxLine、GCERT 等利用生成模型潛空間做語義變化認證。本文與它們的關鍵不同在於:不需要為每個語義變化額外訓練生成模型,而是藉助 VLM 自身的文本-圖像嵌入幾何,用 prompt 直接指定語義方向。3. 問題定義:在 VLM 嵌入空間中認證語義 extent論文考慮雙編碼器 VLM。圖像 x 經視覺編碼器得到單位 embedding z,類別 prompt 經文本編碼器得到單位 embedding uc,分類規則是選擇與 z 內積最大的類別文本 embedding。由於 embedding 都在單位球上,內積等價於餘弦相似度。作者希望定義一個語義變換 γ(φ),其中 φ 是 semantic extent,表示圖像從 source semantic a 向 target semantic a' 變化的強度。認證目標是:給定 extent 範圍,判斷 VLM 預測在哪些子區間保持不變,在哪些點發生類別翻轉。這種表述有兩個要點:語義變化不是直接在像素空間做,而是在 VLM 共享嵌入空間做。語義方向不是人工手寫公式,而是由文本 prompt 的 embedding 指定。因此,問題從“如何生成所有可能語義變化圖像”變成“如何在 VLM 嵌入幾何中沿語義方向移動,並精確分析分類邊界”。4. 方法:文本代理、語義平面與閉式決策邊界論文方法分三步:先證明/利用嵌入空間中的結構化語義,再構造語義變換,最後做區間認證。首先,作者使用一對文本 prompt 表示 source semantic 和 target semantic。例如 source 是 “a photo of a gyoza”,target 可以是 “a photo of triangular gyoza”。對應文本 embedding ua 與 ua' 張成一個二維 semantic plane。圖像 embedding z 被分解為兩部分:位於該平面內的 z∥,以及與該平面正交的 z⊥。語義變換隻改變平面內分量的方向,不改變正交分量。這樣做的直覺是:ua 與 ua' 所定義的平面負責描述目標語義變化,而 z⊥ 保留與這對語義無關的剩餘信息。其次,作者定義 semantic extent φ。φ 控制 z∥ 在 source-target 語義平面中的角度位置。起點對應 source semantic,終點對應 target semantic。實際應用中,target extent 可以通過兩種方式確定:Text-specified:直接用 target prompt embedding 作為終點語義。Image-specified:如果有目標語義參考圖像,則用參考圖像 embedding 投影來確定終點。最後是 certification。VLM 分類器的決策邊界由類別文本 embedding 的 pairwise bisector 決定,也就是 Voronoi decision regions。把語義變換 γ(φ) 代入類別 margin 後,類別切換點可以寫成 φ 的閉式方程。收集所有可能類別對的切換點並排序,就可以把 extent 區間切成若干 prediction-invariant intervals,每個區間都有確定預測類別。這就是本文最核心的技術貢獻:不是採樣很多語義變化圖像再觀察模型是否翻轉,而是在 embedding space 中解析地找出預測保持不變的區間。5. 實驗:語義變化、證書邊界與真實數據論文在 CLIP ViT-B/32 上實驗,並覆蓋生成數據與真實數據。作者關注三個問題:構造出的 semantic transformation 是否與目標語義一致?認證區間是否能正確對應預測變化?在真實數據集上是否比基線更穩定?首先是定性結果。作者用顏色、形狀、材質、風格、紋理、背景、視角、光照等 descriptor 構造目標語義,觀察證書區間如何變化。這些例子展示了方法的可解釋性:wallflower 在 red flower、spiral flower、front-view flower 等方向上會出現不同類別邊界;beagle 在 pointy dog、gray dog、close-up photo 等語義變化下也有不同的穩定區間。證書不只是一個標量 robustness score,而是沿語義方向展開的預測軌跡。論文還將 semantic descriptors 按屬性類型分組,覆蓋 color、shape、material、style、texture、background、viewpoint、illumination 等變化。然後是證書邊界評估。作者引入 misalignment budget δ,模擬視覺與文本 embedding 之間可能存在的跨模態不對齊。結果顯示,隨著 δ 增大,stable coverage 會下降,這是預期現象;但 empirical invariance 和 conditional invariance 仍保持較高,說明證書邊界整體偏保守但可靠。在合成語義變化實驗中,作者使用多模態 LLM 生成逐漸變化的圖像序列,覆蓋 OxfordPets、Flowers102、Food101 等數據集,並比較 ExactLine、文本指定變換 T-Spec 與圖像指定變換 I-Spec 的 mean absolute discrepancy。數值越低,表示構造的變換與參考語義變化越一致。在真實數據上,論文使用 DTD、FGVCAircraft、Caltech101、StanfordCars、Flowers102、OxfordPets、Food101、UCF101 等 8 個圖像識別數據集。由於真實圖像序列往往不能完全隔離目標語義,作者用 VLM 按 prompt similarity 對圖像排序,構造近似的真實語義變化序列。整體上,本文方法在合成和真實數據上都比 ExactLine 更穩定地對齊語義變化。I-Spec 通常更強,因為它使用目標語義參考圖像;T-Spec 更輕量,因為只需要文本 prompt,就能指定開放詞表語義。6. 討論:證書的用途與邊界本文的證書有幾個實際用途。第一,可用於魯棒性審計。開發者可以指定“顏色變暗”“背景變成街道”“視角變為 close-up”等語義方向,檢查 VLM 在多大 extent 內預測穩定。第二,可用於 failure mode 診斷。證書區間短,說明模型對該語義方向敏感;類別翻轉點可以揭示模型把哪些屬性當作決策依據。第三,可用於 prompt learning 或 prompt engineering。不同 prompt 定義的語義方向可能產生不同穩定區間,證書長度可以作為選擇 prompt 的參考標準。第四,可用於下游圖像文本檢索、檢測和分割等任務,因為這些任務往往復用同一個 image-text scoring mechanism。不過,作者也強調了兩個限制。一是證書依賴文本代理質量以及圖像/文本 embedding 對齊程度。論文通過 bounded misalignment 顯式建模這部分不確定性,但如果跨模態 gap 很大,證書會變得保守。二是真實世界語義變化很難完全隔離。真實序列中可能混入非目標因素,例如改變背景時也改變了物體姿態或光照。因此,證書不應被解釋為任意現實變換下的安全保證,而是對 prompt 指定語義方向和給定 misalignment 假設下的穩定性刻畫。7. 小結《Semantic Robustness Certification for Vision-Language Models》提出了一個面向 VLM 的語義級魯棒性認證框架。它把文本 prompt 作為 semantic proxy,在 VLM 嵌入空間中定義可參數化的語義變換,並利用分類決策邊界的閉式幾何結構,計算預測保持不變的 semantic extent intervals。這項工作的關鍵意義在於,它把魯棒性認證從像素擾動和少數幾何變換推進到開放詞表語義變化:不需要為每個語義訓練生成模型,也不需要額外標註數據,就能用文本描述目標語義並獲得可解釋的穩定區間。對未來 VLM 部署而言,這類方法可以作為模型審計、語義漂移監控、prompt 選擇和失敗模式分析的基礎工具。它提醒我們:一個視覺語言模型是否可靠,不僅要看靜態 benchmark 分數,還要看它在語義連續變化過程中,預測邊界究竟在哪裡。專知便捷查看,訪問下面網址或點擊最底端“閱讀原文”https://www.zhuanzhiai.com/vip/0d5fcc77a2b211dd82e3b9ea483758a8更多AI資料教程請上專知網站 www.zhuanzhiai.com點擊“閱讀原文”
Related
相關文章
豆包推出專業版,能成為你的「工作搭子」嗎?
你熟悉的豆包,變了。6月24日,豆包發佈基於最新豆包2.1系列大模型的豆包專業版。過去大家用 AI,常見姿勢是:問問題、寫文案、改稿子、做總結、生成圖片。AI 給一段答案,後面的複製、整理、排版、填表、做 PPT、搭網頁,還是自己來。豆包專業版想往前多走一步,讓 AI 從對話框裡走出來,進入真實複雜工作任務。專業版新增 Agent 驅動的辦公任務模式,它不是簡單把免費版的額度放大,也不只是把模型換成更強版本,而是想真正幫到職場人士。這一模式搭載豆包 2.1 Pro,可以將找資料、寫文檔、做報告等工作任務一網打盡。當然,免費用戶的日常使用不受影響,也可以在一定額度內體驗搭載豆包 2.1 turbo 的辦公任務模式。目前看來,豆包付費訂閱的檔位,也遠低於海外主流大模型,價格還算良心。換句話說,豆包並沒有把原來的免費體驗直接收窄,而是在免費能力之上,劃出一個更偏生產力、更偏高頻重度使用的專業層。專業版到底“專業”在哪裡過去一年,大模型產品的競爭,很大程度上圍繞“誰回答得更好”展開。模型能不能寫出更自然的文案,能不能更準確地總結網頁,能不能更好地理解圖片、寫代碼,是用戶最直觀的評價標準。但專業用戶在真實工作裡遇到的問題,往往不是“問一個問題,得到一段答案”這麼簡單。做一份行業調研,要搜索資料、篩選來源、組織結構、生成文檔,最好還能繼續改;做一個活動頁面,不能只給出代碼片段,還要能創建頁面、修改樣式、部署預覽,甚至連接後端數據庫。豆包專業版主打的辦公任務模式,正是試圖把這些分散步驟串起來。在辦公任務模式下,豆包支持理解工作目標、自主拆解任務,並調用本地電腦/瀏覽器操作、網站生成、Office/飛書集成、Skill 技能、定時任務等能力,幫助用戶完成軟件開發、數據分析、專業設計、流程自動化、金融分析等工作。這意味著產品形態發生了變化。普通對話模式裡,AI 更像一個“答題者”;辦公任務模
GAIR Paper 107|高校聯合騰訊發佈 GameCraft-Bench:AI已能端到端開發遊戲,Claude Opus 四成達到可玩水平
Coding Agent 的下一站,是動態交互系統的構建。 作者丨GameCraft-Bench Team 過去一年,代碼智能體(Coding Agent)發展迅速。從編寫簡單的單一腳本、修復局部 BUG,到跨文件完成長序開發任務,模型能力正在不斷提升。以“一句話生成遊戲”為代表,AI 正在大幅降低遊戲構建門檻。過去需要開發者熟練掌握引擎架構、手寫邏輯代碼的開發工作,現在可以通過自然語言快速生成原型,甚至生成可運行的遊戲項目。這也讓規模化由 AI 創造交互式體驗變得前所未有地現實。但問題是:這些從零自動生成的遊戲,真的“能玩”嗎?如果生成的代碼只是“看起來邏輯合理”,但在真實的引擎環境中根本跑不起來,或者視覺表現與玩家交互一塌糊塗,那麼在這些只看靜態代碼的基準裡刷出高分的 Agent,就很難真正勝任現實中的遊戲開發場景。香港中文大學(深圳)、深圳河套學院等高校聯合騰訊的最新研究 GameCraft-Bench 正是要解決這個問題:如何構建一個基於真實遊戲引擎、產物完整可運行、且能通過真實玩家多模態交互來驗證的 AI 遊戲生成評測基準。論文鏈接:https://arxiv.org/abs/2606.17861項目主頁:https://tongxuluo.github.io/gamecraft-bench-website評估代碼:https://github.com/tongxuluo/gamecraft-bench01為什麼不直接用現有的評測基準?過去已經提出了一些與遊戲生成相關的評估基準,那我們為什麼還要重新確立一個新的評估基準 GameCraft-Bench 呢?核心原因是:現有的基準很難全面、真實地衡量端到端的可玩性。表. GameCraft-Bench與已有的遊戲生成評估基準的對比。1. 真實引擎的整合難度被低估。 像 OpenGame-Bench 主要針對 Web
元點Zeroth迎來拉美首秀 全球首款自主回充機器人掀起全球具身新熱潮
從巴西展會走向全球家庭 元點Zeroth持續引領全球具身智能落地應用2026年6月22日,巴西聖保羅——當消費級機器人逐步從實驗室走向真實家庭,具身智能產業正在進入全球化落地的關鍵階段。全球具身智能全棧品牌元點Zeroth正式亮相拉丁美洲規模最大、影響力最強的消費電子展會 Eletrolar Show 2026,首次向拉美市場展示其面向未來家庭生活打造的完整消費級具身智能產品矩陣。此次亮相不僅標誌著元點Zeroth全球化佈局的重要一步,也意味著具身智能正在從“功能設備”向“家庭智能體”加速演進。元點Zeroth 創始人兼 CEO 郭人傑表示:“在 Zeroth,我們的使命是引領具身智能的全球創新與應用。拉丁美洲市場正處於變革前夜,擁有巨大的技術潛力,能夠顯著提升人們的日常生活質量。通過讓先進技術變得更易獲取、更易使用,我們希望賦能整個地區的社區,重新定義未來人們如何藉助具身 AI 生活與工作。”本次參展,元點Zeroth 以前沿具身智能全棧產品矩陣首次進入拉美市場,展示其在家庭服務機器人、移動智能助手、核心執行器等領域的最新突破,標誌著其全球化佈局邁出關鍵一步。M1家庭人形機器人:全球首款“自主回充”的家庭人形機器人本次展會最受關注的產品,是元點Zeroth最新發布的家庭人形機器人 M1。M1專為家庭環境設計,機身高度約50cm,是一款面向真實生活場景的具身智能家庭終端。M1實現了全球首個家庭人形機器人的自主能源閉環能力這一重大突破。當電量不足時,M1能夠自主完成移動、路徑規劃,並通過小車完成自動回充過程,從而減少對人工充電與外部幹預的依賴。這一能力使機器人從“需要照顧的設備”,首次邁向“具備自維護能力的智能體”。無論是面對多孩家庭還是老年獨居場景,M1的多模態感知與持續學習的能力,使其可在日常生活中承擔包括生活提醒、基礎陪伴、家庭節奏協助以及個性化互動等多種角色,使其逐步
AI生成的圖片正在反向對齊人類的審美?ICML 2026觀點論文Spotlight
原文作者:公眾號“機器之心”原文鏈接:https://mp.weixin.qq.com/s/JJMSTq6O-QLy9FO-Os6SMAUBC 和 Weathon Software 的研究提出,圖像的美學對齊正在削弱藝術表達。論文標題:Position: Universal Aesthetic Alignment Narrows Artistic Expression作者: 郭聞起,錢青雲,Khalad Hasan,Shan Du論文地址:https://arxiv.org/abs/2512.11883代碼和數據(已開源):https://github.com/weathon/icml2026_position展覽網站:https://weathon.github.io/icml2026_position/ICML Event Page:https://icml.cc/virtual/2026/poster/67242本文第一作者郭聞起是 University of British Columbia(UBC)的計算機系碩士生,主攻 AI 生成模型的安全和隱私問題。他和共同作者錢青雲(法學系畢業生,UBC 計算機系本科在讀)一起提出了對 AI 模型普遍追求單一價值對齊的擔憂。此前兩人曾批判模型在醫學方向過度謹慎的情況。本文主要討論圖像生成模型在美學對齊中對藝術表達的限制問題。本文的指導教授是 UBC 的 Khalad Hasan,主攻人機交互方向,以及 Shan Du,主要研究計算機視覺和計算機圖形學。該論文在 ICML 上的海報:一定程度上擺脫了傳統學術海報的風格束縛。當「更好看」成為默認目標AI 圖片生成模型最開始只能生成 8 根手指、扭曲面部等不符合正常生理結構的圖片,而現在已經進化到了可以生成正常、符合人類生理結構的圖片。在解決了此類圖像生成的正確性問題後,AI 開發
AI賽道上演“極速追趕”:谷歌重組代碼團隊,強化Gemini底層基本功
谷歌“AI代碼突擊隊”成立不足兩月即重組,DeepMind團隊職責從編碼工具與智能代理優化擴展至模型“中期訓練”,即預訓練後、指令對齊與微調前的關鍵階段,旨在縮小與Anthropic在生成式AI編程領域的差距。
