【ICML 2026】基於響應自舉的LVLM安全微調框架 BYORn

2026年6月29日 02:22

重點摘要

站內 AI 整理稿

原文作者：公眾號“學術摘星人的每日籤”原文鏈接：https://mp.weixin.qq.com/s/JoWhUDPK4mfIqLNBKP0wyA 雷峰網轉載眾所周知，Supervised Fine-Tuning (SFT) 是讓多模態大模型聽懂人話、對齊人類意圖的關鍵步驟。但在享受指令微調帶來的紅利時，你有沒有想過：如果微調數據被“投毒”了怎麼辦？近期研究表明，LVLMs 在 SFT 階段極易遭受後門攻擊（Backdoor Attacks）。攻擊者只需在訓練集的圖片或指令中混入微小的觸發器（Trigger），就能讓模型在特定場景下瞬間“失智”，輸出惡意的預設回覆。面對這種開放式生成場景下的暗箭，傳統的防禦手段幾乎全軍覆沒。今天為大家拆解的這篇 ICML 2026 新文 BYORn (Bootstrap Your Own Responses)，就巧妙地利用了模型自身的“直覺”，提出了一種無需清洗數據就能直接在毒化數據集上練就“百毒不侵”之軀的防禦框架。1. 論文名片論文標題：BYORn: Bootstrap Your Own Responses to Defend Large Vision-Language Models Against Backdoor Attacks (基於響應自舉抵禦大視覺語言模型後門攻擊)收錄會議：ICML 2026一句話省流：這篇論文提出了一種針對 LVLMs SFT 階段的後門防禦框架，通過檢測並用模型動態生成的“乾淨響應”替換掉語義不符的“毒化響應”，成功打破了後門觸發器與惡意輸出之間的綁定，在幾乎不損失模型泛化性能的前提下，將多種後門攻擊的成功率降至接近 0%。2. 核心痛點 (Motivation)問題的公式化定義在理想狀態下，標準的 SFT 本質上是一個風險最小化問題，我們希望最小化無偏的風險估計：其中，是圖片，是指令文本，是乾淨的輸出目標。然而，在現實的對抗場景中，我們拿到的往往是一個被投毒的數據集。其中有比例的數據被攻擊者動了手腳，植入了 Trigger，並且對應的響應被篡改為了惡意目標。如果在這種數據上直接優化負對數似然，模型就會精準地學到 Trigger 和惡意響應之間的映射關係。過去的方法（Baseline）存在什麼問題？閉集假設失效：傳統的圖像後門防禦往往基於分類任務的閉集假設，而 LVLMs 面對的是開放式文本生成（Open-ended Generation），老方法根本不適用。單模態防禦的侷限：現有的針對大語言模型的防禦（如 ONION）通常只能處理文本層面的 Trigger；而關注視覺的防禦（如 BYE）遇到全局視覺 Trigger 時又會失效。它們都嚴重依賴於對 Trigger 模式的具體假設。為什麼在 LVLMs 場景下極難防禦？多模態指令微調的數據包含文本和圖像交織的複雜語義空間。攻擊者可以把 Trigger 藏在圖片的隨機噪聲裡，或者藏在提問的一個不起眼的亂碼單詞中。要想在不知道攻擊模式的情況下進行普適性防禦，無異於大海撈針。3. 核心方法 (Methodology)作者的破局點非常直觀且巧妙：再狡猾的後門，它的惡意響應和輸入本身也是不搭調的。比如，圖片明明是一隻狗在滑板上，惡意的 Target 卻非要逼模型回答“圖片裡是一個香蕉”。這種語義失調，逃不過預訓練基座模型的“火眼金睛”。創新模塊一：後門探測器 (Backdoor Detector)作者定義了一個基於生成困惑度的檢測分數：利用預訓練參數，計算目標響應的困惑度。因為惡意響應往往與圖文上下文毫無邏輯關聯，它的分數會顯著偏高。通過設定一個分位數閾值，我們可以識別出高度疑似毒化的樣本（指示變量）。創新模塊二：響應自舉與動態替換 (Bootstrap Your Own Responses)如果直接把可疑樣本扔掉（作者稱之為 BYORn-F 基線），模型性能會受損。因此，BYORn 框架引入了一個平滑演進的模型副本（即參數的指數移動平均）。在訓練時，對於檢測為乾淨的樣本，用原有的計算 Loss；對於被判定為毒化的樣本，不再使用數據集中自帶的惡毒答案，而是讓現場動態生成一個替代響應，並用這個生成的來做反向傳播。由此，得到全新的目標函數：理論證明：為什麼這樣練有效？作者並非只是憑經驗拍腦袋，而是提供了堅實的理論支撐。通過結合 Donsker-Varadhan 上界和 Hoeffding 引理，作者在論文中嚴密推導證明了：優化這個引入了潛變量的目標，在數學上完全等價於在不可見的“真實幹淨數據分佈”上最小化群體風險（Population Risk）上界的經驗估計。這也就解釋了為什麼用自己生成的偽標籤去學，不僅成功破壞了 Trigger 的關聯，還能反向促進模型在主任務上的泛化。4. ? 實驗亮點 (Experiments)作者在 LLaVA、Qwen-VL、InternVL 等多個當紅模型上，橫跨圖像描述（Image Captioning）、找不同（Spot the Difference）和視覺問答（VQA）三大任務進行了測試。全面碾壓 Baseline：面對 BadNets、Blend、DualKey 和 VL-Trojan 四種花式攻擊，相比於沒有防禦的 SFT（ASR 動輒高達 90%+），BYORn 將攻擊成功率（ASR）平均降低了 40個百分點，在許多設定下甚至把 ASR 壓到了極其完美的 0%。無損（甚至增強）的泛化能力：在防禦後門的同時，BYORn 在 CIDEr 和 SPICE 這些衡量模型回覆質量的 Benchmark 上，甚至比用乾淨數據訓練的原始 SFT 還要高一丟丟（因為 EMA 生成機制帶來了一定的正則化效應）。硬剛自適應攻擊：為了挑戰極限，作者甚至設計了一種語義對齊的自適應後門攻擊（比如在圖裡真畫個香蕉，試圖騙過困惑度檢測器）。但反直覺的是，BYORn 依然堅如磐石，因為“強行拼接的語義”依舊會在模型底層的概率分佈中留下蛛絲馬跡。5. 摘星人思考 (Key Takeaway)這篇論文在思路上有一種“以子之矛攻子之盾”的美感，它告訴我們：多模態大模型本身的常識儲備，就是最好的安全防火牆。模型架構與訓練目標：將 EMA 引入文本自迴歸生成不僅是知識蒸餾的常規操作，用在解耦對抗關聯上更是奇效。但這也帶來了一個工程問題：自迴歸採樣非常耗時。作者非常機智地採用了 Poison-aware minibatching（感知毒化的微批次構建），將乾淨樣本和可疑樣本物理隔離在不同的 Batch 裡，極大緩解了 GPU 之間的通信瓶頸，是一招非常優雅的工程妥協。數據與侷限性：該方法強烈依賴於預訓練基座（Pretrained VLM）是“純潔”的。如果攻擊者財大氣粗，早在海量無監督預訓練階段就進行了投毒（Pre-training Backdoor），那麼用來計算困惑度分數的打分器本身就壞了，BYORn 可能就會漏報。這為未來的研究指出了明確的方向。

原始來源：雷峰網 ↗

查看原始來源

IT之家生成式AI

北京太空算力創新中心揭牌成立，統籌組織星載 AI 芯片、太空大模型等聯合研發

這篇消息聚焦「北京太空算力創新中心揭牌成立，統籌組織星載 AI 芯片、太空大模型等聯合研發」。原始導語提到：北京太空算力創新中心採用“公司 + 聯盟”雙輪驅動模式，運營主體為北京天算星聯科技有限公司。創新中心承擔四類核心職能。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

IT之家生成式AI

曝中國移動設立 Token 辦公室，集團領導掛帥督戰

這篇消息聚焦「曝中國移動設立 Token 辦公室，集團領導掛帥督戰」。原始導語提到：業內人士透露，繼在集團層面設立數智事業部、算力辦之後，中國移動於近日設立 Token 辦公室。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

AIBase生成式AI

半數用戶解放雙手：Anthropic調查顯示AI已能承擔過半工作

Anthropic調查顯示，AI正深度滲透職場：近半Claude用戶認為AI可獨立完成半數以上日常工作，33%用戶估計替代比例為30%~60%，14%認為達60%~90%，更有4%稱幾乎全面接管。這凸顯大模型已從輔助走向核心生產力，重塑工作模式。

2 小時前7800閱讀分析

AIBase生成式AI

AI大模型狂飆的代價：蘋果用戶或為硬件全面漲價買單

AI技術爆發推高供應鏈成本，蘋果近期調價實為轉嫁壓力，消費者恐成最終承擔者。儘管過去兩年曾推出Mac mini等低價產品，但面對華爾街對利潤率的嚴苛要求與運營成本飆升，蘋果的價格策略正從“普惠”轉向“求利”，高性價比時代或將終結。

3 小時前7000閱讀分析

雷峰網生成式AI

AI 技術 | ICML論文盛宴、多模態代碼綜述、共失效天花板理論

原文作者：公眾號“發光植物群”原文鏈接：https://mp.weixin.qq.com/s/DPQEzhf6Ez6DIl_zq4dAlQ雷峰網轉載前沿技術英偉達NitroGen獲CVPR 2026最佳論文榮譽提名英偉達（NVIDIA）憑藉圖像生成新範式 NitroGen 獲得CVPR 2026最佳論文榮譽提名（Best Paper Honorable Mention），延續了英偉達在CVPR的強勢表現。NitroGen聚焦於高效圖像生成，在生成質量和計算效率之間取得突破性平衡，代表了計算機視覺從"感知"到"生成"的範式遷移主線。【生成式AI】【計算機視覺】來源：雷峰網 CVPR 2026閉幕報道PhysInOne發佈：視覺物理ImageNet時刻CVPR 2026上發佈的 PhysInOne 數據集被稱為"視覺物理的ImageNet時刻"——包含200萬個視頻、15萬+動態3D場景、覆蓋71種物理現象（力學、光學、流體、磁學），並提供完整的2D/3D/4D/文本標註。該數據集為世界模型和具身AI研究奠定了此前缺失的數據基礎設施。CVPR 2026數據顯示VLA論文數量增長5倍、世界模型論文增長3倍。【具身智能】【世界模型】來源：https://x.com/boyang_vLAR/status/2063676557223514490[1]?學術論文多模態代碼智能全景綜述：Beyond NL2CodearXiv:2606.15932（2026-06-26發表）——來自多機構合作團隊。論文提出多模態代碼智能（Multimodal Code Intelligence）的系統性綜述框架，覆蓋GUI界面、科學可視化、結構化圖形三大域，並將代碼扮演的角色區分為渲染產物、可編輯符號結構、科學表徵、中間推理軌跡、可執行策略/工具接口五種形態。論文認為未來研究應向多信號驗證、多狀態驗證、跨

3 小時前閱讀分析

AIBase生成式AI

馬斯克披露 Grok 4.5 進展：SpaceX 與特斯拉率先開啟內部“練兵”

近日馬斯克在社交平臺宣佈，新一代大語言模型Grok 4.5已在SpaceX和特斯拉啟動內部私測，從實驗室邁向複雜工業場景。該模型以1.5萬億參數V9架構為基座，引入AI編程工具Cursor進行補充訓練，以增強邏輯推理能力，推動AI在航天與汽車領域實際部署。

4 小時前5900閱讀分析

相關文章

北京太空算力創新中心揭牌成立，統籌組織星載 AI 芯片、太空大模型等聯合研發

曝中國移動設立 Token 辦公室，集團領導掛帥督戰

半數用戶解放雙手：Anthropic調查顯示AI已能承擔過半工作

AI大模型狂飆的代價：蘋果用戶或為硬件全面漲價買單

AI 技術 | ICML論文盛宴、多模態代碼綜述、共失效天花板理論

馬斯克披露 Grok 4.5 進展：SpaceX 與特斯拉率先開啟內部“練兵”