【ICML 2026】基於響應自舉的LVLM安全微調框架 BYORn
重點摘要
原文作者:公眾號“學術摘星人的每日籤”原文鏈接:https://mp.weixin.qq.com/s/JoWhUDPK4mfIqLNBKP0wyA 雷峰網轉載眾所周知,Supervised Fine-Tuning (SFT) 是讓多模態大模型聽懂人話、對齊人類意圖的關鍵步驟。但在享受指令微調帶來的紅利時,你有沒有想過:如果微調數據被“投毒”了怎麼辦? 近期研究表明,LVLMs 在 SFT 階段極易遭受後門攻擊(Backdoor Attacks)。攻擊者只需在訓練集的圖片或指令中混入微小的觸發器(Trigger),就能讓模型在特定場景下瞬間“失智”,輸出惡意的預設回覆。面對這種開放式生成場景下的暗箭,傳統的防禦手段幾乎全軍覆沒。今天為大家拆解的這篇 ICML 2026 新文 BYORn (Bootstrap Your Own Responses),就巧妙地利用了模型自身的“直覺”,提出了一種無需清洗數據就能直接在毒化數據集上練就“百毒不侵”之軀的防禦框架。1. 論文名片論文標題:BYORn: Bootstrap Your Own Responses to Defend Large Vision-Language Models Against Backdoor Attacks (基於響應自舉抵禦大視覺語言模型後門攻擊)收錄會議:ICML 2026一句話省流:這篇論文提出了一種針對 LVLMs SFT 階段的後門防禦框架,通過檢測並用模型動態生成的“乾淨響應”替換掉語義不符的“毒化響應”,成功打破了後門觸發器與惡意輸出之間的綁定,在幾乎不損失模型泛化性能的前提下,將多種後門攻擊的成功率降至接近 0%。2. 核心痛點 (Motivation)問題的公式化定義在理想狀態下,標準的 SFT 本質上是一個風險最小化問題,我們希望最小化無偏的風險估計:其中, 是圖片, 是指令文本, 是乾淨
原文作者:公眾號“學術摘星人的每日籤”原文鏈接:https://mp.weixin.qq.com/s/JoWhUDPK4mfIqLNBKP0wyA 雷峰網轉載眾所周知,Supervised Fine-Tuning (SFT) 是讓多模態大模型聽懂人話、對齊人類意圖的關鍵步驟。但在享受指令微調帶來的紅利時,你有沒有想過:如果微調數據被“投毒”了怎麼辦? 近期研究表明,LVLMs 在 SFT 階段極易遭受後門攻擊(Backdoor Attacks)。攻擊者只需在訓練集的圖片或指令中混入微小的觸發器(Trigger),就能讓模型在特定場景下瞬間“失智”,輸出惡意的預設回覆。面對這種開放式生成場景下的暗箭,傳統的防禦手段幾乎全軍覆沒。今天為大家拆解的這篇 ICML 2026 新文 BYORn (Bootstrap Your Own Responses),就巧妙地利用了模型自身的“直覺”,提出了一種無需清洗數據就能直接在毒化數據集上練就“百毒不侵”之軀的防禦框架。1. 論文名片論文標題:BYORn: Bootstrap Your Own Responses to Defend Large Vision-Language Models Against Backdoor Attacks (基於響應自舉抵禦大視覺語言模型後門攻擊)收錄會議:ICML 2026一句話省流:這篇論文提出了一種針對 LVLMs SFT 階段的後門防禦框架,通過檢測並用模型動態生成的“乾淨響應”替換掉語義不符的“毒化響應”,成功打破了後門觸發器與惡意輸出之間的綁定,在幾乎不損失模型泛化性能的前提下,將多種後門攻擊的成功率降至接近 0%。2. 核心痛點 (Motivation)問題的公式化定義在理想狀態下,標準的 SFT 本質上是一個風險最小化問題,我們希望最小化無偏的風險估計:其中, 是圖片, 是指令文本, 是乾淨的輸出目標。然而,在現實的對抗場景中,我們拿到的往往是一個被投毒的數據集 。其中有 比例的數據被攻擊者動了手腳,植入了 Trigger,並且對應的響應 被篡改為了惡意目標。如果在這種數據上直接優化負對數似然,模型就會精準地學到 Trigger 和惡意響應之間的映射關係。過去的方法(Baseline)存在什麼問題?閉集假設失效:傳統的圖像後門防禦往往基於分類任務的閉集假設,而 LVLMs 面對的是開放式文本生成(Open-ended Generation),老方法根本不適用。單模態防禦的侷限:現有的針對大語言模型的防禦(如 ONION)通常只能處理文本層面的 Trigger;而關注視覺的防禦(如 BYE)遇到全局視覺 Trigger 時又會失效。它們都嚴重依賴於對 Trigger 模式的具體假設。為什麼在 LVLMs 場景下極難防禦?多模態指令微調的數據包含文本和圖像交織的複雜語義空間。攻擊者可以把 Trigger 藏在圖片的隨機噪聲裡,或者藏在提問的一個不起眼的亂碼單詞中。要想在不知道攻擊模式的情況下進行普適性防禦,無異於大海撈針。3. 核心方法 (Methodology)作者的破局點非常直觀且巧妙:再狡猾的後門,它的惡意響應和輸入本身也是不搭調的。 比如,圖片明明是一隻狗在滑板上,惡意的 Target 卻非要逼模型回答“圖片裡是一個香蕉”。這種語義失調,逃不過預訓練基座模型的“火眼金睛”。創新模塊一:後門探測器 (Backdoor Detector)作者定義了一個基於生成困惑度的檢測分數:利用預訓練參數 ,計算目標響應 的困惑度。因為惡意響應往往與圖文上下文毫無邏輯關聯,它的 分數會顯著偏高。通過設定一個分位數閾值 ,我們可以識別出高度疑似毒化的樣本(指示變量 )。創新模塊二:響應自舉與動態替換 (Bootstrap Your Own Responses)如果直接把可疑樣本扔掉(作者稱之為 BYORn-F 基線),模型性能會受損。因此,BYORn 框架引入了一個平滑演進的模型副本(即參數的指數移動平均 )。 在訓練時,對於檢測為乾淨的樣本,用原有的 計算 Loss;對於被判定為毒化的樣本,不再使用數據集中自帶的惡毒答案,而是讓 現場動態生成一個替代響應 ,並用這個生成的 來做反向傳播。由此,得到全新的目標函數:理論證明:為什麼這樣練有效?作者並非只是憑經驗拍腦袋,而是提供了堅實的理論支撐。通過結合 Donsker-Varadhan 上界和 Hoeffding 引理,作者在論文中嚴密推導證明了:優化這個引入了潛變量的 目標,在數學上完全等價於在不可見的“真實幹淨數據分佈”上最小化群體風險(Population Risk)上界的經驗估計。這也就解釋了為什麼用自己生成的偽標籤去學,不僅成功破壞了 Trigger 的關聯,還能反向促進模型在主任務上的泛化。4. ? 實驗亮點 (Experiments)作者在 LLaVA、Qwen-VL、InternVL 等多個當紅模型上,橫跨圖像描述(Image Captioning)、找不同(Spot the Difference)和視覺問答(VQA)三大任務進行了測試。全面碾壓 Baseline:面對 BadNets、Blend、DualKey 和 VL-Trojan 四種花式攻擊,相比於沒有防禦的 SFT(ASR 動輒高達 90%+),BYORn 將攻擊成功率(ASR)平均降低了 40個百分點,在許多設定下甚至把 ASR 壓到了極其完美的 0%。無損(甚至增強)的泛化能力:在防禦後門的同時,BYORn 在 CIDEr 和 SPICE 這些衡量模型回覆質量的 Benchmark 上,甚至比用乾淨數據訓練的原始 SFT 還要高一丟丟(因為 EMA 生成機制帶來了一定的正則化效應)。硬剛自適應攻擊:為了挑戰極限,作者甚至設計了一種語義對齊的自適應後門攻擊(比如在圖裡真畫個香蕉,試圖騙過困惑度檢測器)。但反直覺的是,BYORn 依然堅如磐石,因為“強行拼接的語義”依舊會在模型底層的概率分佈中留下蛛絲馬跡。5. 摘星人思考 (Key Takeaway)這篇論文在思路上有一種“以子之矛攻子之盾”的美感,它告訴我們:多模態大模型本身的常識儲備,就是最好的安全防火牆。模型架構與訓練目標:將 EMA 引入文本自迴歸生成不僅是知識蒸餾的常規操作,用在解耦對抗關聯上更是奇效。但這也帶來了一個工程問題:自迴歸採樣非常耗時。作者非常機智地採用了 Poison-aware minibatching(感知毒化的微批次構建),將乾淨樣本和可疑樣本物理隔離在不同的 Batch 裡,極大緩解了 GPU 之間的通信瓶頸,是一招非常優雅的工程妥協。數據與侷限性:該方法強烈依賴於預訓練基座(Pretrained VLM)是“純潔”的。如果攻擊者財大氣粗,早在海量無監督預訓練階段就進行了投毒(Pre-training Backdoor),那麼用來計算困惑度分數的打分器本身就壞了,BYORn 可能就會漏報。這為未來的研究指出了明確的方向。
Related
相關文章

北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發
這篇消息聚焦「北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發」。原始導語提到:北京太空算力創新中心採用“公司 + 聯盟”雙輪驅動模式,運營主體為北京天算星聯科技有限公司。創新中心承擔四類核心職能。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

曝中國移動設立 Token 辦公室,集團領導掛帥督戰
這篇消息聚焦「曝中國移動設立 Token 辦公室,集團領導掛帥督戰」。原始導語提到:業內人士透露,繼在集團層面設立數智事業部、算力辦之後,中國移動於近日設立 Token 辦公室。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
半數用戶解放雙手:Anthropic調查顯示AI已能承擔過半工作
Anthropic調查顯示,AI正深度滲透職場:近半Claude用戶認為AI可獨立完成半數以上日常工作,33%用戶估計替代比例為30%~60%,14%認為達60%~90%,更有4%稱幾乎全面接管。這凸顯大模型已從輔助走向核心生產力,重塑工作模式。
AI大模型狂飆的代價:蘋果用戶或為硬件全面漲價買單
AI技術爆發推高供應鏈成本,蘋果近期調價實為轉嫁壓力,消費者恐成最終承擔者。儘管過去兩年曾推出Mac mini等低價產品,但面對華爾街對利潤率的嚴苛要求與運營成本飆升,蘋果的價格策略正從“普惠”轉向“求利”,高性價比時代或將終結。
AI 技術 | ICML論文盛宴、多模態代碼綜述、共失效天花板理論
原文作者:公眾號“發光植物群”原文鏈接:https://mp.weixin.qq.com/s/DPQEzhf6Ez6DIl_zq4dAlQ雷峰網轉載前沿技術英偉達NitroGen獲CVPR 2026最佳論文榮譽提名英偉達(NVIDIA)憑藉圖像生成新範式 NitroGen 獲得CVPR 2026最佳論文榮譽提名(Best Paper Honorable Mention),延續了英偉達在CVPR的強勢表現。NitroGen聚焦於高效圖像生成,在生成質量和計算效率之間取得突破性平衡,代表了計算機視覺從"感知"到"生成"的範式遷移主線。【生成式AI】【計算機視覺】來源:雷峰網 CVPR 2026閉幕報道PhysInOne發佈:視覺物理ImageNet時刻CVPR 2026上發佈的 PhysInOne 數據集被稱為"視覺物理的ImageNet時刻"——包含200萬個視頻、15萬+動態3D場景、覆蓋71種物理現象(力學、光學、流體、磁學),並提供完整的2D/3D/4D/文本標註。該數據集為世界模型和具身AI研究奠定了此前缺失的數據基礎設施。CVPR 2026數據顯示VLA論文數量增長5倍、世界模型論文增長3倍。【具身智能】【世界模型】來源:https://x.com/boyang_vLAR/status/2063676557223514490[1]?學術論文多模態代碼智能全景綜述:Beyond NL2CodearXiv:2606.15932(2026-06-26發表)——來自多機構合作團隊。論文提出多模態代碼智能(Multimodal Code Intelligence) 的系統性綜述框架,覆蓋GUI界面、科學可視化、結構化圖形三大域,並將代碼扮演的角色區分為渲染產物、可編輯符號結構、科學表徵、中間推理軌跡、可執行策略/工具接口五種形態。論文認為未來研究應向多信號驗證、多狀態驗證、跨
馬斯克披露 Grok 4.5 進展:SpaceX 與特斯拉率先開啟內部“練兵”
近日馬斯克在社交平臺宣佈,新一代大語言模型Grok 4.5已在SpaceX和特斯拉啟動內部私測,從實驗室邁向複雜工業場景。該模型以1.5萬億參數V9架構為基座,引入AI編程工具Cursor進行補充訓練,以增強邏輯推理能力,推動AI在航天與汽車領域實際部署。