又一大廠殺入AI視頻生成！5分鐘敘事角色不崩，聲音不亂，秒出片

2026年6月5日 09:54

重點摘要

站內 AI 整理稿

智東西作者 | 李水青編輯 | 漠影 AI視頻賽道，突然殺出了一匹意料之外的黑馬。智東西6月5日報道，6月3日，京東首次開源長音視頻生成框架JoyAI-Echo。它直擊長視頻生成中的角色一致性、聲音穩定性和生成速度三大核心難題，一舉在多個核心指標上超越行業標杆模型。 ▲JoyAI-Echo在Hugging Face的頁面截圖根據公開評測結果，JoyAI-Echo在跨鏡頭一致性、語音準確率、用戶偏好等關鍵指標上均取得領先表現，與業內主流長視頻生成模型相比優勢明顯，出道即躋身全球第一梯隊。 2026年的AI視頻賽道，競爭已進入白熱化階段。OpenAI的Sora在3月官宣關停，給行業留出空間，各路玩家正圍繞多鏡頭敘事、物理模擬、4K畫質等維度激烈角逐。就在這個關鍵節點，強勢入局的京東一上來就瞄準了行業難啃的硬骨頭——分鐘級長視頻的連貫生成，無疑為行業再添一把火。 AI視頻的“開盲盒”時代，真的要結束了。 GitHub地址： https://github.com/jd-opensource/JoyAI-Echo Hugging Face地址： https://huggingface.co/jdopensource/JoyAI-Echo 項目主頁： https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/ 一、出道即衝進第一梯隊：JoyAI-Echo有多強？京東此次開源的JoyAI-Echo，到底有多強？我們可以先看一組硬核數據。研究團隊構建了一個極為嚴苛的評測集：100個獨立故事劇本，總計3000個分鏡，每個故事平均30個鏡頭，涵蓋原創角色與IP角色、動畫與真人實拍等多種複雜場景。在這樣的“統考”中，JoyAI-Echo在跨鏡頭一致性、角色人臉+人體一致性、人聲音色一致性、美學畫質、成像清晰度、文本一致性等指標上全面領跑。尤其值得關注的是語音準確率，飆升至0.8646，達到行業領先水平，這意味著以往AI視頻中“口型對不上、臺詞胡編”的痛點被大幅緩解。在用戶盲測中，JoyAI-Echo的音頻質量偏好高達81.7%，提示詞遵循偏好達到80.6%，視覺美學偏好63.6%，IP角色一致性偏好59.4%，各項指標均獲得用戶高度認可。 ▲JoyAI-Echo的盲測優於同行標杆技術參數之外，更讓人印象深刻的是JoyAI-Echo的生成案例。在京東官方展示的《居家一日》案例中，長達近5分鐘的敘事裡，男主角的外貌特徵、面部細節、說話音色始終保持穩定，觀眾不會產生“這是另一個人”的出戲感。 ▲JoyAI-Echo生成的視頻另一個案例《極限拉力》則展現了高速運動場景下的穩定性。賽車飛馳時，賽道環境、車身塗裝等細節沒有出現扭曲或閃爍。在多角色、多道具的複雜敘事場景中，JoyAI-Echo也能保持角色長相、服裝、道具和環境的持續穩定。 ▲JoyAI-Echo生成的視頻再看看巫師城堡、倉庫對峙等複雜敘事場景，在這些多角色、多道具、多環境的長鏡頭序列中，JoyAI-Echo生成視頻沒有出現“換裝”“變臉”“道具丟失”等常見問題。 ▲JoyAI-Echo生成的視頻這些案例有力證明，JoyAI-Echo是一個能夠駕馭複雜敘事、理解物理世界、真正具備生產能力的創作工具。二、長視頻為什麼難？四項創新破解行業“不可能三角” 為什麼長視頻生成如此之難？核心在於一個“不可能三角”：長時長、高一致性、快速度，三者似乎總是無法兼得。當視頻拉長到分鐘級，誤差會像滾雪球一樣累積。同一個角色，上一個鏡頭和下一個鏡頭長得不一樣；說話人的音色忽高忽低，甚至突然變聲。渲染速度慢如蝸牛，等幾分鐘才能出結果；修改成本高，哪怕只改一點點也要從頭到尾重新生成整個視頻。這些問題都導致AI長視頻長期停留在“玩具”階段，很難真正投入生產使用。 JoyAI-Echo用四項實打實的技術創新，逐一擊破這些痛點。 1、角色總變臉：跨模態音視頻記憶庫行業長期難以解決“上一鏡頭和下一鏡頭不是同一個人”的問題。根本原因在於，傳統模型在逐鏡生成時，缺乏對歷史生成內容的顯式記憶機制，每次生成都像“失憶”一樣重新開始。 JoyAI-Echo的破局之道是“跨模態音視頻記憶庫”。框架內置了一個專門的記憶庫，能夠持續保存並精準調用角色的視覺特徵和聽覺特徵。在長達5分鐘的多鏡頭生成中，這個記憶庫就像導演手中的“角色檔案”，每次調用都能保證輸出的一致性，從而解決了“同一個人演著演變成另一個人”的尷尬。 ▲JoyAI-Echo跨模態音視頻記憶庫機制 2、生成太慢：記憶驅動後訓練，速度提升7.5倍長視頻生成往往意味著巨大的推理成本。JoyAI-Echo創新性地設計了三段式後訓練流水線：基於記憶的有監督微調（SFT）→ 跨模態人類反饋強化學習（RLHF）→ 基於記憶的分佈匹配蒸餾（DMD）。其中DMD技術尤為關鍵，它像一個高效的“知識壓縮器”，讓輕量級的“學生模型”學習原複雜“教師模型”的生成路徑。最終，這項技術將多步擴散師生蒸餾壓縮為8步快速推理模型，為JoyAI-Echo帶來了約7.5倍的推理速度提升，從而讓長視頻生成從“等半天”變成“秒出片”。 3、修改成本高：Director Agent導演智能體傳統視頻模型工作流為輸入提示詞，一次性出結果，讓創作者陷入“抽卡”困境。如果生成不滿意只能重來，修改一個鏡頭就要重跑整條視頻。 JoyAI-Echo引入Director Agent導演智能體，這也是最令人驚喜的交互功能。你可以用自然語言告訴它你的需求，比如“把第三場戲的咖啡館背景換成圖書館”。它會自動理解並執行：拆解需求形成劇本和分鏡，調用模型生成視頻，檢查生成結果。它只重新生成有問題的局部鏡頭，整條視頻不用重來。該智能體將長視頻生成劃分為規劃、生成、評審三個階段。智能體管控兩類記憶：固定記憶從角色參考圖/參考音頻/開篇鏡頭提取，全片鎖定人物外貌音色基準；動態記憶根據劇情語義篩選關聯歷史鏡頭，避免無關素材幹擾。修改後的內容存入歷史庫，後續鏡頭自動讀取新版畫面特徵，保障劇情連貫。 ▲導演智能體工作流程概述 4、高清輸出難：輕量化實時超分原生720p生成視頻時序連貫但細節不足。為了滿足專業生產需求，JoyAI-Echo配套了一個專門的實時超分模塊，在幾乎不增加延遲的情況下，將原生720p的視頻實時提升至最高1472×2560的高清分辨率。該模塊基於87.6萬條1080P~4K高質量音視頻片段訓練，通過DMD蒸餾得到單步極速學生模型，在流式生成的延遲約束下兼顧畫面清晰度。總的來說，JoyAI-Echo首次一站式同時實現遠距離跨模態一致性、分鐘級視頻實時生成、對話式交互編輯、高清畫質輸出四大能力，四項性能互不妥協，開創交互式視頻生成全新範式。三、AI視頻進入長視頻時代：哪些行業將率先受益？長視頻生成的重要意義，並不只是讓視頻變得更長，還讓AI首次具備了持續敘事能力。但當角色、場景、對白需要跨越幾十個鏡頭持續存在時，生成難度會指數級上升。一旦角色一致性、音色穩定性和生成效率問題得到改善，長視頻生成的應用空間將迅速打開。以JoyAI-Echo為代表的長視頻生成模型框架，至少有望為以下五大應用場景帶來新的可能性： 1、虛擬動漫與故事創作：創作者可以像導演一樣，用自然語言指揮AI生成連貫的動漫劇集或繪本視頻，角色形象和聲音全程統一，無需逐幀手繪。 2、數字人直播與短劇生產：數字人主播可以在長達數分鐘的直播或短劇中保持音色、口型、表情的高度一致，大幅提升觀眾沉浸感。 3、品牌營銷內容快速迭代：營銷團隊只需修改臺詞或局部鏡頭，即可生成多條不同版本的品牌故事視頻，實現秒級改片、分鐘級上新。 4、影視前期預演與分鏡製作：導演可以用JoyAI-Echo快速生成分鏡預覽視頻，提前驗證鏡頭語言和敘事節奏，大幅降低實拍試錯成本。 5、互動教育課件與遊戲劇情動畫：教育機構和遊戲開發者可以動態生成連貫的劇情動畫，根據用戶的選擇實時調整後續內容，實現個性化敘事。更重要的是，京東選擇將代碼與模型權重全部開源。全球開發者都可以基於JoyAI-Echo進行二次開發、微調和研究，推動長視頻生成從單一模型競爭走向產業生態競爭。中小團隊和個人創作者可以直接使用這一世界級水平的模型，AI視頻創作的“平民化”時代或將真正到來。從京東的這次開源動作來看，落點不只是技術榜單的排名，更是未來AI內容生產基礎設施的話語權。誰能成為全球開發者手裡最順手的視頻生產工具，誰就有望佔據未來智能化數字內容生態網絡的主導地位。結語：開源即格局，打開視頻生成新局面 JoyAI-Echo的開源發佈，不僅標誌著京東在長視頻生成領域進入全球第一梯隊，更用實打實的技術手段為長視頻生成的“不可能三角”交出了一份極具工程參考價值的答卷。當AI長視頻不再受制於換臉、失音和漫長的渲染等待，當創作者可以像和導演聊天一樣，用自然語言隨時微調、重繪局部分鏡，高一致性、高畫質、可交互的“長視頻時代”便不再遙不可及。目前，JoyAI-Echo的項目主頁與GitHub倉庫均已正式向全球開發者敞開大門。這場視頻生成範式革命，才剛剛拉開序幕。

原始來源：智東西 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

2 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

15 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

18 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

19 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

22 小時前閱讀分析