雷峰網生成式AI

中科大&智象未來:強模型打底、輕模型精修,重塑視頻超分體驗丨CVPR 2026

2026年6月12日 06:28

重點摘要

PS-SR:兼顧速度、細節與穩定性,讓低清畫面更可信。 作者丨鄭佳美 編輯丨馬曉寧 在生成式 AI 進入視頻生產鏈之後,視頻增強正在從後期修補工具,變成內容生產、內容分發和機器視覺理解中的基礎能力。現實需求已經不只是讓畫面變清楚,而是要在電商直播中看清商品質感,在工業巡檢中識別裂紋和儀表讀數,在遠程協作中保留設計細節,在文博數字化中儘量還原影像紋理。隨著 4K 級高清內容逐漸成為視頻平臺、智能電視、大屏顯示和專業製作流程中的常見需求,低清素材如何被穩定放大到更高分辨率,同時保留紋理、邊緣和運動連續性,也成為視頻增強技術必須面對的問題。難點在於,視頻增強不能只追求銳度。傳統單步模型速度快,但細節往往保守;多步擴散模型細節豐富,但推理成本高,難以大規模落地。更復雜的是,視頻不是單張圖片,每一幀清楚還不夠,幀與幀之間還要穩定,否則就會出現閃爍、跳動和細節漂移。在這樣的背景下,中國科學技術大學與智象未來研究團隊提出了《PS-SR: Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion》。這項研究沒有簡單地在單步和多步之間二選一,而是讓強大的 base model 先恢復整體結構,再讓輕量 draft model 補充細節,並通過頻域更新約束生成範圍,讓模型儘量增強紋理而不改寫主體內容。它真正回應的問題是:當視頻增強進入大規模應用時,系統能不能既足夠快,又足夠穩,還能生成可信細節。PS-SR 探索的偽單步擴散路徑,為高質量視頻增強提供了一種更接近實際部署的方案,也為內容平臺、智能視覺系統和生成式視頻工具提供了新的技術參考。項目地址:https://waq2001.github.io/PS-SR-page/01像單步一樣快,像多步一樣細實驗結果方面,PS-SR 在畫質、速度、穩定性三方面較均衡,核心優勢是

站內 AI 整理稿

PS-SR:兼顧速度、細節與穩定性,讓低清畫面更可信。 作者丨鄭佳美 編輯丨馬曉寧 在生成式 AI 進入視頻生產鏈之後,視頻增強正在從後期修補工具,變成內容生產、內容分發和機器視覺理解中的基礎能力。現實需求已經不只是讓畫面變清楚,而是要在電商直播中看清商品質感,在工業巡檢中識別裂紋和儀表讀數,在遠程協作中保留設計細節,在文博數字化中儘量還原影像紋理。隨著 4K 級高清內容逐漸成為視頻平臺、智能電視、大屏顯示和專業製作流程中的常見需求,低清素材如何被穩定放大到更高分辨率,同時保留紋理、邊緣和運動連續性,也成為視頻增強技術必須面對的問題。難點在於,視頻增強不能只追求銳度。傳統單步模型速度快,但細節往往保守;多步擴散模型細節豐富,但推理成本高,難以大規模落地。更復雜的是,視頻不是單張圖片,每一幀清楚還不夠,幀與幀之間還要穩定,否則就會出現閃爍、跳動和細節漂移。在這樣的背景下,中國科學技術大學與智象未來研究團隊提出了《PS-SR: Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion》。這項研究沒有簡單地在單步和多步之間二選一,而是讓強大的 base model 先恢復整體結構,再讓輕量 draft model 補充細節,並通過頻域更新約束生成範圍,讓模型儘量增強紋理而不改寫主體內容。它真正回應的問題是:當視頻增強進入大規模應用時,系統能不能既足夠快,又足夠穩,還能生成可信細節。PS-SR 探索的偽單步擴散路徑,為高質量視頻增強提供了一種更接近實際部署的方案,也為內容平臺、智能視覺系統和生成式視頻工具提供了新的技術參考。項目地址:https://waq2001.github.io/PS-SR-page/01像單步一樣快,像多步一樣細實驗結果方面,PS-SR 在畫質、速度、穩定性三方面較均衡,核心優勢是接近單步模型的速度,同時具備多步擴散模型級別的細節表現,主要提升體現在紋理更清楚、結構更穩定、幀間抖動更少,適用場景包括合成退化視頻和真實互聯網低質視頻與其他方法相比,PS-SR 相比 STAR、SeedVR 速度明顯更快,相比 DLoRAL、SeedVR2、DOVE 細節更自然、結構偏移更少。重建質量表現上,UDM10、SPMCS、YouHQ40 的整體重建指標靠前,結構一致性較強,低頻內容保留較好,輸入視頻主體信息變化較小,高質量輸出更接近真實高清視頻。雷峰網真實視頻表現上,VideoLQ 是無高清參考的真實低質視頻,PS-SR 在人臉區域能讓五官邊緣更穩定、細節不過度扭曲。時間一致性表現上,PS-SR 的幀間連續性優於對比方法,視頻閃爍減少,局部紋理跳動減少,運動區域更平滑,播放觀感更穩定,關鍵原因是基礎視頻擴散模型中的 motion prior 被保留。主觀評價結果顯示,參與者更傾向選擇 PS-SR,偏好原因是清晰度、自然感、連續性綜合更好,視覺優勢不是單純銳化,而是結構保真 + 細節增強,用戶感知重點集中在人臉自然度、物體邊緣、視頻流暢度。消融實驗結果顯示,去掉 VSD 後生成質量下降,畫面細節不夠豐富,去掉對抗損失後真實感下降,紋理表現變弱,去掉像素監督後局部區域還原能力下降,去掉頻域更新後細節可能更“銳”,但結構更容易偏移,完整 PS-SR 在細節、穩定性、輸入一致性之間更平衡。雷峰網速度結果顯示,PS-SR 採用 1 次 base model 推理 + 3 次 draft model 細化,推理耗時接近單步方法,計算開銷明顯低於多步擴散方法,實用價值是更適合實際視頻增強部署。參數分析結果顯示,採樣步數較少時結構保真更強,但細節不足。採樣步數較多時細節更豐富,但內容偏移風險增加,最終設置為 T = 4,細化強度較低時畫面穩定,但不夠清晰,細化強度較高時畫面更銳,但可能改變結構,最終設置為 α = 0.6,draft model 剪枝過少時速度提升有限,draft model 剪枝過多時細節生成能力不足,最終設置為剪掉 20 個 DiT block。這些結果也解釋了 PS-SR 為什麼採用“強模型打底,輕模型精修”的設計:它不是單純增加推理步驟來換取畫質,也不是為了速度壓縮到只剩一次生成,而是在結構恢復、細節補充和計算成本之間尋找平衡。下面進一步拆解研究團隊如何搭建和驗證這一流程。02強模型打底,輕模型精修整體來看,研究的實驗目的包括驗證 PS-SR 的視頻超分能力,驗證“偽單步”框架的速度優勢,驗證多步細化帶來的細節提升,驗證頻域更新對結構穩定性的作用,驗證真實低質視頻中的泛化能力。數據準備階段使用 YouHQ 高質量視頻片段作為訓練數據,通過 RealESRGAN 退化流程構造低質輸入,合成測試集包括 UDM10、SPMCS、YouHQ40,真實測試集為 VideoLQ,數據覆蓋人物、車輛、動物、街景、互聯網低質視頻。輸入處理階段以低質量視頻作為輸入,通過 VAE encoder 編碼,進入 latent space 表示空間,目的在於降低視頻處理成本,便於擴散模型生成。base model 階段的模型來源是 Wan2.1 視頻擴散基礎模型,微調方式為 LoRA,主要任務是一次性恢復全局結構,重點內容包括畫面佈局、主體形狀、低頻語義信息,執行次數只執行 1 次,設計目的在於避免大模型多步推理造成高成本。base model 訓練包括 latent space 訓練、VSD 約束、對抗訓練、pixel space 微調和 patch 訓練,其中 latent space 訓練用於學習低質視頻到高質視頻的整體映射,VSD 約束用於讓單步輸出接近多步擴散模型的質量分佈,對抗訓練用於增強視覺真實感,pixel space 微調用於提升局部區域質量,patch 訓練通過隨機裁剪局部區域減少顯存壓力。訓練目標是全局結構準確 + 局部細節清晰;draft model 階段的模型來源是 base model 的輕量剪枝版本,結構變化是移除部分 DiT block,主要任務是後續高頻細節補充,重點內容包括邊緣、紋理、局部清晰度,執行次數為多次輕量細化,設計目的在於用較小計算量模擬多步擴散的細節生成能力。draft model 特徵增強階段將 base model 特徵傳遞給 draft model,融合方式為對應層特徵拼接,後續處理通過 FC layer 恢復維度,作用是讓輕量模型獲得強模型的表達信息,好處是剪枝後仍保持細節生成能力。draft model 訓練以中間 latent 狀態作為輸入,輸出細化方向,訓練損失為 L2 loss + pixel loss,不使用 VSD 以減少訓練複雜度,不使用對抗損失以避免過度追求分佈對齊,訓練重點是高頻細節恢復。頻域更新規則相當於給細節增強加了一道邊界。模型會先在像素空間中把畫面從 RGB 轉到 YUV,並重點處理亮度信息:上一輪結果中的整體結構和低頻內容被保留下來,當前 draft model 預測出的高頻紋理則被補充進去。這樣做的好處是,模型不是重新改寫整幅畫面,而是在原有結構上增加細節,從而減少語義漂移,讓紋理更豐富,同時讓主體形狀保持穩定。完整推理流程依次為低質視頻輸入、VAE 編碼、base model 單步恢復、draft model 第 1 次細化、頻域更新、draft model 第 2 次細化、頻域更新、draft model 第 3 次細化、頻域更新、VAE 解碼、高質量視頻輸出。對比實驗設置包括多步擴散方法 STAR、SeedVR,單步擴散方法 DLoRAL、SeedVR2、DOVE,對比維度包括畫質、細節、結構一致性、時間穩定性、速度,對比方式包括量化指標 + 視覺案例 + 人工評價。評價內容包括重建類指標用於判斷結構是否接近 GT,感知類指標用於判斷畫面是否自然、清晰,無參考指標用於判斷真實視頻中的視覺質量,時間一致性指標用於判斷幀間是否穩定,主觀評價用於判斷人眼觀看偏好。分析實驗包括模塊消融、步數分析、剪枝分析、強度分析和長視頻討論,其中模塊消融分析 VSD、對抗損失、像素監督、頻域更新,步數分析不同 T 的效果,剪枝分析不同 draft model 規模,強度分析不同 α 的細節增強程度,長視頻討論重疊切片與融合策略。03從看清視頻,到看懂世界總的來說,這項研究更重要的價值不只是提出一種視頻超分方法,而是回應了普通人日常觀看視頻時最直接的痛點,也就是低清、模糊、壓縮嚴重、細節丟失和播放不穩定。偽單步框架的意義在於它並不是真正只做 1 步,而是讓視覺體驗和速度體驗接近單步,同時在內部保留輕量多步細化,大模型負責關鍵一步,小模型負責後續修補,從而降低計算量,並保留細節生成能力。base model 的意義在於提供全局結構基礎,保證主體形狀不亂,保證語義內容不偏,保證低頻信息穩定,相當於先把整體輪廓建立準確。draft model 的意義在於以低成本補充細節,模擬多步擴散的細化過程,提升邊緣、紋理、局部清晰度,避免每一步都使用大模型,相當於在穩定輪廓上繼續補充紋理。頻域更新的意義在於把結構和細節分開處理,低頻負責整體內容,高頻負責紋理細節,只更新高頻可以減少內容改寫,保留低頻可以增強輸入輸出一致性,關鍵價值是防止越修越偏。對畫質提升來說,PS-SR 能讓細節增強更自然,人臉區域更可信,物體邊緣更清楚,背景紋理更豐富,畫面不容易假銳化,結果更接近真實高清視頻。對視頻穩定性來說,它提升的不只是單幀清晰度,還能減少幀間閃爍,讓運動變化更平滑,讓觀看體驗更舒服,這一點對真實視頻應用尤其重要。從效率的角度來看,大模型只運行關鍵一步,輕量模型承擔重複細化,推理速度接近單步方法,計算成本遠低於完整多步擴散,更利於部署在視頻增強系統中。實際應用上,這項研究可用於互聯網低清視頻增強、老視頻修復、短視頻平臺畫質提升、監控視頻清晰化、壓縮視頻修復和長視頻分段增強。對後續研究來說,強模型 + 輕模型協作範式、頻域約束生成思路可以遷移到視頻去噪、去模糊、去壓縮偽影,也能啟發其他生成任務中的低成本多步細化,對實時高保真視頻生成具有參考價值。總體來看,研究形成了一個面向視頻超分的效率質量折中方案,一個減少擴散模型推理成本的結構設計,一個控制語義漂移的頻域細化機制,以及一個更接近實際部署需求的視頻增強框架。去哪看 CVPR 核心【演講/論文】詳解?為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整乾貨,雷峰網已全面上線【CVPR 2026 深度專區】。專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。掃描下方二維碼,或點擊「閱讀原文」關注專區。與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

3 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

23 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 天前