網易有道首發14語種零口音語音克隆模型，無需參考文本即可復刻任意音色

2026年6月23日 05:57

重點摘要

站內 AI 整理稿

當前，人工智能作為培育新質生產力的核心引擎，已上升為國家戰略層面。國務院《關於深入實施“人工智能+”行動的意見》明確提出，要加快AI核心技術自主創新、降低產業落地門檻、構建開放共享的國產AI生態，推動人工智能與千行百業深度融合。在這一戰略背景下，網易有道正式推出“子曰4.0”大模型體系TTS語音合成引擎——Confucius4-TTS，並已面向全球用戶開放。近日，該引擎憑藉全球首個不依賴參考文本即可實現14語種無口音跨語種語音克隆的開創性突破引發行業高度關注，為數字人、跨境傳播、智能教育等產業提供國產化、低成本語音克隆功能。重磅開源發佈，完整模型權重本地可部署Confucius4-TTS採用1.3B參數高性能語音模型，開放行業領先的零樣本語音克隆、跨語種無痕音色遷移、情感復刻能力，採用寬鬆友好的Apache開源協議，面向全球創作者、開發者開放完整模型權重與配套工具鏈。開發者可完整下載54G資源包，本地離線部署運行，配套開源龍蝦智能體工具鏈，商用無限制。圖 1 TTS模型開源地址：https://github.com/netease-youdao/Confucius4-TTS三大技術突破，重新定義開源TTS天花板突破一：3秒極速克隆，零樣本即可復刻原聲Confucius4-TTS實現了真正的零樣本語音克隆能力。用戶僅需3秒即可完成音頻克隆，克隆音色與原聲相似度超過85%，克隆任務準確度高達97%。相較於初代EmotiVoice僅支持訓練集內音色的侷限，Confucius4-TTS實現了“無口語零樣本復刻”的跨越式升級。突破二：14種語言跨語種互通，徹底告別“中式口音”Confucius4-TTS全面支持中、英、日、韓、德、法、西、印尼、意、泰、葡、俄、馬來、越南語等14種語言的自然流利表達。其最大亮點在於解決了語音合成領域長期存在的跨語種口音痛點——用戶上傳中文音頻，AI即可用該音色流利說出日語、英語等外語，發音地道自然。技術博主@XAMTO_AI評價：“你拿中文聲音去講日語，聽著就像地道的日本人在說話，徹底告別了‘外國人在那兒硬凹’的尷尬。”突破三：音頻Prompt情感克隆，語調韻律精準遷移區別於初代EmotiVoice僅支持“happy/sad/angry”等離散文本標籤的粗放式情感控制，Confucius4-TTS創新性地支持音頻Prompt情感克隆遷移。系統可自動提取參考音頻中的情感標籤，精準復刻其語調、韻律，支持跨語種無損遷移——“只要生氣地說一句話，合成出來的外語也是生氣的語氣。”全棧技術架構升級，從“傳統聲碼器”到“大模型驅動”Confucius4-TTS在底層架構上實現了全面革新。相較於初代EmotiVoice採用傳統HiFi-GAN聲碼器和Speaker ID查表的方案，Confucius4-TTS引入了GPT式語義大模型作為主幹，搭配基於SSL預訓練特徵和ECAPA-TDNN的可學習說話人編碼器，並採用Flow Matching流匹配生成框架實現高保真、高自然度的語音合成。語音克隆方面，EmotiVoice不支持克隆功能，而Confucius4-TTS不僅只需3秒音頻即可完成克隆，而且無需參考文本。社區反響熱烈，開發者實測驗證自開源以來，Confucius4-TTS迅速獲得開發者社區的積極反饋。技術博主@dsd2077在實測使用日語人聲的參考音頻生成中文語音，表示雖無法 100% 復刻細微音色，但整體聽感自然流暢，無生硬外語口音。另一位技術博主@XAMTO_AI評價道：“這回是真開源——人家給的是真權重而不是隻給API，整整54個G直接讓你下，還能本地跑。做口播配音數字人，省錢又好用。”圖2 技術博主@dsd2077實測反饋圖3 技術博主@XAMTO_AI實測反饋圖4 AI博主劉聰NLP測評Confucius4-TTS的低門檻語音克隆和情感合成能力，可廣泛應用於多語種內容創作、數字人配音、跨語言教學以及本地化運營等多種場景。網易有道表示，希望通過全量開源Confucius4-TTS，降低語音克隆和情感合成的門檻，期待社區探索出更多有趣、有用的新玩法。（雷峰網雷峰網雷峰網）

原始來源：雷峰網 ↗

查看原始來源

IT之家生成式AI

KTV 頻現 AI 魔改 MV：畫面與歌曲毫不相干，消費者可投訴

AI MV 到底來自何處？某大型連鎖量販式 KTV 董事長唐先生表示，KTV 播放的 MV，大多是由點歌設備廠家打包提供的，之所以出現 AI MV，可能有兩種情況。

剛剛閱讀分析

量子位生成式AI

可口可樂的世界盃TVC，居然是prompt生成的

這篇消息聚焦「可口可樂的世界盃TVC，居然是prompt生成的」。原始導語提到：24小時在線，2秒回話，陪你聊球從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪生成式AI

戰勝Mythos 5，OpenAI安全專用GPT-5.5-Cyber完全體來了

這篇消息聚焦「戰勝Mythos 5，OpenAI安全專用GPT-5.5-Cyber完全體來了」。原始導語提到：網友並不買賬：你倒是發GPT-5.6啊從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪生成式AI

尷尬了，OpenAI剛派GPT-5.5-Cyber修補地球，Codex卻爆出致命bug

今天，OpenAI祭出滿血GPT-5.5-Cyber，要給全世界的開源代碼修漏洞。結果話音剛落，Codex被扒出史詩級bug：一年狂寫640TB，能把SSD直接寫廢。

剛剛閱讀分析

AIBase生成式AI

影眸科技獲數億元新一輪融資，發佈千萬面級3D大模型Rodin Gen-2.5

影眸科技完成數億元融資，凱輝基金、上海國投先導領投。資金用於3D大模型研發與全球商業化，加速遊戲、電商等場景落地。核心產品Hyper3D升級，海外收入佔比80%，服務字節跳動、Unity等客戶。

1 小時前閱讀分析

AIBase生成式AI

豆包視頻生成大模型 Seedance 2.5 亮相，將於 7 月初正式發佈

{"id":"64b3b70a-fc58-47da-a595-1037623caeaf","object":"response","model":"deepseek-v4-flash","output":[],"stop_reason":"max_output_tokens","usage":{"input_tokens":157,"output_tokens":200,"total_tokens":357,"input_tokens_details":{"cached_tokens":128}}}

2 小時前3600閱讀分析

相關文章

KTV 頻現 AI 魔改 MV：畫面與歌曲毫不相干，消費者可投訴

可口可樂的世界盃TVC，居然是prompt生成的

戰勝Mythos 5，OpenAI安全專用GPT-5.5-Cyber完全體來了

尷尬了，OpenAI剛派GPT-5.5-Cyber修補地球，Codex卻爆出致命bug

影眸科技獲數億元新一輪融資，發佈千萬面級3D大模型Rodin Gen-2.5

豆包視頻生成大模型 Seedance 2.5 亮相，將於 7 月初正式發佈