智東西生成式AI

又一大廠殺入AI視頻生成!5分鐘敘事角色不崩,聲音不亂,秒出片

2026年6月5日 09:54

重點摘要

智東西 作者 | 李水青 編輯 | 漠影 AI視頻賽道,突然殺出了一匹意料之外的黑馬。 智東西6月5日報道,6月3日,京東首次開源長音視頻生成框架JoyAI-Echo。它直擊長視頻生成中的角色一致性、聲音穩定性和生成速度三大核心難題,一舉在多個核心指標上超越行業標杆模型。 ▲JoyAI-Echo在Hugging Face的頁面截圖 根據公開評測結果,JoyAI-Echo在跨鏡頭一致性、語音準確率、用戶偏好等關鍵指標上均取得領先表現,與業內主流長視頻生成模型相比優勢明顯,出道即躋身全球第一梯隊。 2026年的AI視頻賽道,競爭已進入白熱化階段。OpenAI的Sora在3月官宣關停,給行業留出空間,各路玩家正圍繞多鏡頭敘事、物理模擬、4K畫質等維度激烈角逐。 就在這個關鍵節點,強勢入局的京東一上來就瞄準了行業難啃的硬骨頭——分鐘級長視頻的連貫生成,無疑為行業再添一把火。 AI視頻的“開盲盒”時代,真的要結束了。 GitHub地址: https://github.com/jd-opensource/JoyAI-Echo Hugging Face地址: https://huggingface.co/jdopensource/JoyAI-Echo 項目主頁: https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/ 一、出道即衝進第一梯隊:JoyAI-Echo有多強? 京東此次開源的JoyAI-Echo,到底有多強? 我們可以先看一組硬核數據。 研究團隊構建了一個極為嚴苛的評測集:100個獨立故事劇本,總計3000個分鏡,每個故事平均30個鏡頭,涵蓋原創角色與IP角色、動畫與真人實拍等多種複雜場景。 在這樣的“統考”中,JoyAI-Echo在跨鏡頭一致性、角色人臉+人體一致性、人聲音色一致性、美學畫質

站內 AI 整理稿

智東西 作者 | 李水青 編輯 | 漠影 AI視頻賽道,突然殺出了一匹意料之外的黑馬。 智東西6月5日報道,6月3日,京東首次開源長音視頻生成框架JoyAI-Echo。它直擊長視頻生成中的角色一致性、聲音穩定性和生成速度三大核心難題,一舉在多個核心指標上超越行業標杆模型。 ▲JoyAI-Echo在Hugging Face的頁面截圖 根據公開評測結果,JoyAI-Echo在跨鏡頭一致性、語音準確率、用戶偏好等關鍵指標上均取得領先表現,與業內主流長視頻生成模型相比優勢明顯,出道即躋身全球第一梯隊。 2026年的AI視頻賽道,競爭已進入白熱化階段。OpenAI的Sora在3月官宣關停,給行業留出空間,各路玩家正圍繞多鏡頭敘事、物理模擬、4K畫質等維度激烈角逐。 就在這個關鍵節點,強勢入局的京東一上來就瞄準了行業難啃的硬骨頭——分鐘級長視頻的連貫生成,無疑為行業再添一把火。 AI視頻的“開盲盒”時代,真的要結束了。 GitHub地址: https://github.com/jd-opensource/JoyAI-Echo Hugging Face地址: https://huggingface.co/jdopensource/JoyAI-Echo 項目主頁: https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/ 一、出道即衝進第一梯隊:JoyAI-Echo有多強? 京東此次開源的JoyAI-Echo,到底有多強? 我們可以先看一組硬核數據。 研究團隊構建了一個極為嚴苛的評測集:100個獨立故事劇本,總計3000個分鏡,每個故事平均30個鏡頭,涵蓋原創角色與IP角色、動畫與真人實拍等多種複雜場景。 在這樣的“統考”中,JoyAI-Echo在跨鏡頭一致性、角色人臉+人體一致性、人聲音色一致性、美學畫質、成像清晰度、文本一致性等指標上全面領跑。 尤其值得關注的是語音準確率,飆升至0.8646,達到行業領先水平,這意味著以往AI視頻中“口型對不上、臺詞胡編”的痛點被大幅緩解。 在用戶盲測中,JoyAI-Echo的音頻質量偏好高達81.7%,提示詞遵循偏好達到80.6%,視覺美學偏好63.6%,IP角色一致性偏好59.4%,各項指標均獲得用戶高度認可。 ▲JoyAI-Echo的盲測優於同行標杆 技術參數之外,更讓人印象深刻的是JoyAI-Echo的生成案例。 在京東官方展示的《居家一日》案例中,長達近5分鐘的敘事裡,男主角的外貌特徵、面部細節、說話音色始終保持穩定,觀眾不會產生“這是另一個人”的出戲感。 ▲JoyAI-Echo生成的視頻 另一個案例《極限拉力》則展現了高速運動場景下的穩定性。賽車飛馳時,賽道環境、車身塗裝等細節沒有出現扭曲或閃爍。在多角色、多道具的複雜敘事場景中,JoyAI-Echo也能保持角色長相、服裝、道具和環境的持續穩定。 ▲JoyAI-Echo生成的視頻 再看看巫師城堡、倉庫對峙等複雜敘事場景,在這些多角色、多道具、多環境的長鏡頭序列中,JoyAI-Echo生成視頻沒有出現“換裝”“變臉”“道具丟失”等常見問題。 ▲JoyAI-Echo生成的視頻 這些案例有力證明,JoyAI-Echo是一個能夠駕馭複雜敘事、理解物理世界、真正具備生產能力的創作工具。 二、長視頻為什麼難?四項創新破解行業“不可能三角” 為什麼長視頻生成如此之難?核心在於一個“不可能三角”:長時長、高一致性、快速度,三者似乎總是無法兼得。 當視頻拉長到分鐘級,誤差會像滾雪球一樣累積。同一個角色,上一個鏡頭和下一個鏡頭長得不一樣;說話人的音色忽高忽低,甚至突然變聲。渲染速度慢如蝸牛,等幾分鐘才能出結果;修改成本高,哪怕只改一點點也要從頭到尾重新生成整個視頻。 這些問題都導致AI長視頻長期停留在“玩具”階段,很難真正投入生產使用。 JoyAI-Echo用四項實打實的技術創新,逐一擊破這些痛點。 1、角色總變臉:跨模態音視頻記憶庫 行業長期難以解決“上一鏡頭和下一鏡頭不是同一個人”的問題。根本原因在於,傳統模型在逐鏡生成時,缺乏對歷史生成內容的顯式記憶機制,每次生成都像“失憶”一樣重新開始。 JoyAI-Echo的破局之道是“跨模態音視頻記憶庫”。框架內置了一個專門的記憶庫,能夠持續保存並精準調用角色的視覺特徵和聽覺特徵。在長達5分鐘的多鏡頭生成中,這個記憶庫就像導演手中的“角色檔案”,每次調用都能保證輸出的一致性,從而解決了“同一個人演著演變成另一個人”的尷尬。 ▲JoyAI-Echo跨模態音視頻記憶庫機制 2、生成太慢:記憶驅動後訓練,速度提升7.5倍 長視頻生成往往意味著巨大的推理成本。JoyAI-Echo創新性地設計了三段式後訓練流水線:基於記憶的有監督微調(SFT)→ 跨模態人類反饋強化學習(RLHF)→ 基於記憶的分佈匹配蒸餾(DMD)。 其中DMD技術尤為關鍵,它像一個高效的“知識壓縮器”,讓輕量級的“學生模型”學習原複雜“教師模型”的生成路徑。最終,這項技術將多步擴散師生蒸餾壓縮為8步快速推理模型,為JoyAI-Echo帶來了約7.5倍的推理速度提升,從而讓長視頻生成從“等半天”變成“秒出片”。 3、修改成本高:Director Agent導演智能體 傳統視頻模型工作流為輸入提示詞,一次性出結果,讓創作者陷入“抽卡”困境。如果生成不滿意只能重來,修改一個鏡頭就要重跑整條視頻。 JoyAI-Echo引入Director Agent導演智能體,這也是最令人驚喜的交互功能。你可以用自然語言告訴它你的需求,比如“把第三場戲的咖啡館背景換成圖書館”。它會自動理解並執行:拆解需求形成劇本和分鏡,調用模型生成視頻,檢查生成結果。它只重新生成有問題的局部鏡頭,整條視頻不用重來。 該智能體將長視頻生成劃分為規劃、生成、評審三個階段。智能體管控兩類記憶:固定記憶從角色參考圖/參考音頻/開篇鏡頭提取,全片鎖定人物外貌音色基準;動態記憶根據劇情語義篩選關聯歷史鏡頭,避免無關素材幹擾。修改後的內容存入歷史庫,後續鏡頭自動讀取新版畫面特徵,保障劇情連貫。 ▲導演智能體工作流程概述 4、高清輸出難:輕量化實時超分 原生720p生成視頻時序連貫但細節不足。為了滿足專業生產需求,JoyAI-Echo配套了一個專門的實時超分模塊,在幾乎不增加延遲的情況下,將原生720p的視頻實時提升至最高1472×2560的高清分辨率。 該模塊基於87.6萬條1080P~4K高質量音視頻片段訓練,通過DMD蒸餾得到單步極速學生模型,在流式生成的延遲約束下兼顧畫面清晰度。 總的來說,JoyAI-Echo首次一站式同時實現遠距離跨模態一致性、分鐘級視頻實時生成、對話式交互編輯、高清畫質輸出四大能力,四項性能互不妥協,開創交互式視頻生成全新範式。 三、AI視頻進入長視頻時代:哪些行業將率先受益? 長視頻生成的重要意義,並不只是讓視頻變得更長,還讓AI首次具備了持續敘事能力。 但當角色、場景、對白需要跨越幾十個鏡頭持續存在時,生成難度會指數級上升。一旦角色一致性、音色穩定性和生成效率問題得到改善,長視頻生成的應用空間將迅速打開。 以JoyAI-Echo為代表的長視頻生成模型框架,至少有望為以下五大應用場景帶來新的可能性: 1、虛擬動漫與故事創作:創作者可以像導演一樣,用自然語言指揮AI生成連貫的動漫劇集或繪本視頻,角色形象和聲音全程統一,無需逐幀手繪。 2、數字人直播與短劇生產:數字人主播可以在長達數分鐘的直播或短劇中保持音色、口型、表情的高度一致,大幅提升觀眾沉浸感。 3、品牌營銷內容快速迭代:營銷團隊只需修改臺詞或局部鏡頭,即可生成多條不同版本的品牌故事視頻,實現秒級改片、分鐘級上新。 4、影視前期預演與分鏡製作:導演可以用JoyAI-Echo快速生成分鏡預覽視頻,提前驗證鏡頭語言和敘事節奏,大幅降低實拍試錯成本。 5、互動教育課件與遊戲劇情動畫:教育機構和遊戲開發者可以動態生成連貫的劇情動畫,根據用戶的選擇實時調整後續內容,實現個性化敘事。 更重要的是,京東選擇將代碼與模型權重全部開源。 全球開發者都可以基於JoyAI-Echo進行二次開發、微調和研究,推動長視頻生成從單一模型競爭走向產業生態競爭。中小團隊和個人創作者可以直接使用這一世界級水平的模型,AI視頻創作的“平民化”時代或將真正到來。 從京東的這次開源動作來看,落點不只是技術榜單的排名,更是未來AI內容生產基礎設施的話語權。誰能成為全球開發者手裡最順手的視頻生產工具,誰就有望佔據未來智能化數字內容生態網絡的主導地位。 結語:開源即格局,打開視頻生成新局面 JoyAI-Echo的開源發佈,不僅標誌著京東在長視頻生成領域進入全球第一梯隊,更用實打實的技術手段為長視頻生成的“不可能三角”交出了一份極具工程參考價值的答卷。 當AI長視頻不再受制於換臉、失音和漫長的渲染等待,當創作者可以像和導演聊天一樣,用自然語言隨時微調、重繪局部分鏡,高一致性、高畫質、可交互的“長視頻時代”便不再遙不可及。 目前,JoyAI-Echo的項目主頁與GitHub倉庫均已正式向全球開發者敞開大門。這場視頻生成範式革命,才剛剛拉開序幕。

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

2 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

22 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

22 小時前