廢片也能變大片，北大開源首個「美學照片重構」模型

2026年6月8日 15:41

重點摘要

北京大學提出「美學照片重構」任務，並開源相關數據集與 AesFormer 模型，讓一般廢片也能轉變為具美感的圖片。此模型專注於提升照片的視覺吸引力，為影像處理領域帶來創新。

站內 AI 整理稿

### 北大開創「美學照片重構」任務，讓平凡照片也能變身大片

北京大學研究團隊近期提出了全新的「美學照片重構」任務，並同步開源了專用數據集與名為 AesFormer 的模型。這項技術打破了過去 AI 修圖僅停留在「修復瑕疵」或「提升解析度」的框架，轉而專注於從美學角度重新組織畫面——例如調整構圖、強化光影、平衡色彩，讓原本平淡無奇的照片焕然一新。這項成果一經發布，立刻在攝影與 AI 社群引發熱烈討論，許多人認為它可能顛覆傳統後製流程。

### 什麼是「美學照片重構」？與傳統修圖有何不同？

傳統的影像增強任務（如去噪、超解析度）主要追求「還原真實」，目標是讓照片更接近理想的光學品質。但「美學照片重構」追求的卻是「主觀美感」：它不要求忠於原圖，而是允許模型根據人類審美偏好，對照片進行大膽的重新設計。例如，一張構圖歪斜、曝光不足的「廢片」，經過模型處理後，可能自動裁切出黃金比例、拉亮暗部並加入柔和的氛圍感。這項任務的核心，在於讓 AI 理解「什麼是好看的照片」，而不只是「什麼是清晰的照片」。

### 北大團隊的關鍵貢獻：AesFormer 模型與專屬數據集

為了推動這個新領域，北大團隊不僅定義了任務，還建構了第一個大規模美學重構數據集，收錄了成千上萬組「原始照片 vs 美學增強後的照片」配對樣本。基於這個數據集，他們訓練出 AesFormer 模型——這是一種結合 Transformer 架構的深度學習模型，能夠同時分析全局構圖與局部細節。據團隊表示，AesFormer 在保留主體辨識度的前提下，能顯著提升照片的視覺吸引力，且處理速度足以應用於即時場景。

### 背景脈絡：從「技術修復」走向「創作輔助」

這項研究的誕生，並非憑空出現。近年來，生成式 AI（如 Stable Diffusion、Midjourney）已展現出驚人的影像創作能力，但它們往往需要使用者下達精確的文字指令，且輸出的隨機性高。而北大的方向則更偏向「自動化美學優化」：使用者只需上傳一張照片，模型便會自行判斷如何調整才能讓它更具視覺衝擊力。這背後反映了 AI 影像處理從「被動修復」到「主動創作」的趨勢轉變。

### 可能影響：攝影小白也能輕鬆產出專業級作品

對一般用戶來說，這項技術最大的意義在於大幅降低了後製門檻。過去要成為優秀的攝影師，必須花費大量時間學習構圖理論、色彩學與修圖軟體操作；而有了 AesFormer 這類模型，任何人用手機隨手拍的「廢片」，都能自動被重構成接近專業水準的「大片」。這對社群媒體內容創作者、電商賣家以及旅遊愛好者尤其受用——他們不再需要聘請專業修圖師，就能快速提升視覺內容的質感。

### 可能影響：推動 AI 審美標準的建立與爭議

然而，這項技術也引發了潛在的討論：當機器開始主導「什麼是美」，人類的審美是否會因此被窄化？不同文化背景對美的定義不盡相同，北大團隊的數據集若主要來自中國或歐美樣本，是否可能造成風格上的偏見？此外，過度依賴 AI 重構，也可能讓創作者喪失對畫面掌控的練習機會。這些議題需要後續研究與社會對話來平衡。

### 讀者可關注的後續：開原始碼與實際應用測試

目前北大團隊已將 AesFormer 模型與數據集開源，開發者與研究者可以在 GitHub 等平台取得相關程式碼。對於一般讀者，可以留意後續是否有第三方將其包裝成 App 或修圖插件，讓大眾直接體驗「一鍵變大片」的效果。此外，下一階段的突破可能包括：支援影片動態美學重構、加入使用者自訂風格參數，或與手機相機即時預覽功能整合。這些發展都值得攝影愛好者與 AI 應用開發者持續追蹤。

### 結語：AI 讓「平凡」與「驚艷」的界線變得模糊

北大團隊的這項開創性研究，再次證明 AI 不僅能理解世界，還能主動定義世界的「美」。當我們隨手拍下的風景、食物或街角，都能透過演算法蛻變成令人驚嘆的影像，「廢片」這個詞或許終將成為歷史。當然，技術的成熟仍需要時間，但可以確定的是，人機協作創作的時代，已經悄然來臨。

原始來源：36氪 ↗

查看原始來源

量子位電腦視覺

ABot-Earth0.5登頂Hugging Face論文三榜第一，獲國際圖形學權威陳寶權好評

這篇消息聚焦「ABot-Earth0.5登頂Hugging Face論文三榜第一，獲國際圖形學權威陳寶權好評」。原始導語提到：能夠直接導入Unity、Unreal Engine等主流引擎進行交互開發從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

17 小時前閱讀分析

IT之家電腦視覺

AMD：RX 7000 顯卡上基於 INT8 的 FSR 超分辨率 4.1 質量齊平 FP8 版本

AMD 宣布 RX 7000 系列顯卡採用 INT8 指令集的 FSR 超解析度 4.1 版本，畫質可與 FP8 版本並駕齊驅。至於 RDNA 2 架構的 RX 6000 系列，因需仰賴傳統流處理器運算，技術支援推出時間將會延後。

3 天前閱讀分析

36氪電腦視覺

劍橋大學等提出面向對地觀測任務的像素級基礎模型，在多項任務中精度達SOTA

這篇消息聚焦「劍橋大學等提出面向對地觀測任務的像素級基礎模型，在多項任務中精度達SOTA」。原始導語提到：在低標註與稀疏數據下展現優勢從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 週前閱讀分析

AIBase電腦視覺

亞馬遜深耕視覺搜索：AI 重塑網購導航與拼貼式購物體驗

亞馬遜近期升級其購物應用，強化視覺搜索和智能交互能力，幫助消費者在海量商品中高效鎖定目標。這得益於對視覺識別技術的持續投入，2024年推出的Amazon Lens功能允許用戶通過圖片搜索，並結合文本進一步精準篩選商品。

1 週前6000閱讀分析

36氪電腦視覺

深度估計準確率衝上0.9，Meta提出VLM³，論證視覺模型天生會學3D，以Qwen3-VL-4B為基礎實現多任務的統一建模

這篇消息聚焦「深度估計準確率衝上0.9，Meta提出VLM³，論證視覺模型天生會學3D，以Qwen3-VL-4B為基礎實現多任務的統一建模」。原始導語提到：在多項任務中媲美甚至超越專家視覺模型從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 週前閱讀分析

IT之家電腦視覺

全球首個：高德發佈 3D 原生城市世界模型 ABot-Earth0.5，單圖 10 分鐘重建 3D 城市

該模型已建成覆蓋 190 多個國家的全球最廣 3D 地圖，輸出素材可直接導入主流遊戲引擎。其製圖成本僅為傳統 1%，效率提升約千倍，有望為具身智能、低空經濟及應急救援提供基礎支撐。#高德地圖# #3D 建模#

1 週前閱讀分析

相關文章

ABot-Earth0.5登頂Hugging Face論文三榜第一，獲國際圖形學權威陳寶權好評

AMD：RX 7000 顯卡上基於 INT8 的 FSR 超分辨率 4.1 質量齊平 FP8 版本

劍橋大學等提出面向對地觀測任務的像素級基礎模型，在多項任務中精度達SOTA

亞馬遜深耕視覺搜索：AI 重塑網購導航與拼貼式購物體驗

深度估計準確率衝上0.9，Meta提出VLM³，論證視覺模型天生會學3D，以Qwen3-VL-4B為基礎實現多任務的統一建模

全球首個：高德發佈 3D 原生城市世界模型 ABot-Earth0.5，單圖 10 分鐘重建 3D 城市