雷峰網生成式AI

網易有道首發14語種零口音語音克隆模型,無需參考文本即可復刻任意音色

2026年6月23日 05:57

重點摘要

當前,人工智能作為培育新質生產力的核心引擎,已上升為國家戰略層面。國務院《關於深入實施“人工智能+”行動的意見》明確提出,要加快AI核心技術自主創新、降低產業落地門檻、構建開放共享的國產AI生態,推動人工智能與千行百業深度融合。在這一戰略背景下,網易有道正式推出“子曰4.0”大模型體系TTS語音合成引擎——Confucius4-TTS,並已面向全球用戶開放。近日,該引擎憑藉全球首個不依賴參考文本即可實現14語種無口音跨語種語音克隆的開創性突破引發行業高度關注,為數字人、跨境傳播、智能教育等產業提供國產化、低成本語音克隆功能。重磅開源發佈,完整模型權重本地可部署Confucius4-TTS採用1.3B參數高性能語音模型,開放行業領先的零樣本語音克隆、跨語種無痕音色遷移、情感復刻能力,採用寬鬆友好的Apache開源協議,面向全球創作者、開發者開放完整模型權重與配套工具鏈。開發者可完整下載54G資源包,本地離線部署運行,配套開源龍蝦智能體工具鏈,商用無限制。圖 1 TTS模型開源地址:https://github.com/netease-youdao/Confucius4-TTS三大技術突破,重新定義開源TTS天花板突破一:3秒極速克隆,零樣本即可復刻原聲Confucius4-TTS實現了真正的零樣本語音克隆能力。用戶僅需3秒即可完成音頻克隆,克隆音色與原聲相似度超過85%,克隆任務準確度高達97%。相較於初代EmotiVoice僅支持訓練集內音色的侷限,Confucius4-TTS實現了“無口語零樣本復刻”的跨越式升級。突破二:14種語言跨語種互通,徹底告別“中式口音”Confucius4-TTS全面支持中、英、日、韓、德、法、西、印尼、意、泰、葡、俄、馬來、越南語等14種語言的自然流利表達。其最大亮點在於解決了語音合成領域長期存在的跨語種口音痛點——用戶上傳中文音頻,AI即可

站內 AI 整理稿

當前,人工智能作為培育新質生產力的核心引擎,已上升為國家戰略層面。國務院《關於深入實施“人工智能+”行動的意見》明確提出,要加快AI核心技術自主創新、降低產業落地門檻、構建開放共享的國產AI生態,推動人工智能與千行百業深度融合。在這一戰略背景下,網易有道正式推出“子曰4.0”大模型體系TTS語音合成引擎——Confucius4-TTS,並已面向全球用戶開放。近日,該引擎憑藉全球首個不依賴參考文本即可實現14語種無口音跨語種語音克隆的開創性突破引發行業高度關注,為數字人、跨境傳播、智能教育等產業提供國產化、低成本語音克隆功能。重磅開源發佈,完整模型權重本地可部署Confucius4-TTS採用1.3B參數高性能語音模型,開放行業領先的零樣本語音克隆、跨語種無痕音色遷移、情感復刻能力,採用寬鬆友好的Apache開源協議,面向全球創作者、開發者開放完整模型權重與配套工具鏈。開發者可完整下載54G資源包,本地離線部署運行,配套開源龍蝦智能體工具鏈,商用無限制。圖 1 TTS模型開源地址:https://github.com/netease-youdao/Confucius4-TTS三大技術突破,重新定義開源TTS天花板突破一:3秒極速克隆,零樣本即可復刻原聲Confucius4-TTS實現了真正的零樣本語音克隆能力。用戶僅需3秒即可完成音頻克隆,克隆音色與原聲相似度超過85%,克隆任務準確度高達97%。相較於初代EmotiVoice僅支持訓練集內音色的侷限,Confucius4-TTS實現了“無口語零樣本復刻”的跨越式升級。突破二:14種語言跨語種互通,徹底告別“中式口音”Confucius4-TTS全面支持中、英、日、韓、德、法、西、印尼、意、泰、葡、俄、馬來、越南語等14種語言的自然流利表達。其最大亮點在於解決了語音合成領域長期存在的跨語種口音痛點——用戶上傳中文音頻,AI即可用該音色流利說出日語、英語等外語,發音地道自然。技術博主@XAMTO_AI評價:“你拿中文聲音去講日語,聽著就像地道的日本人在說話,徹底告別了‘外國人在那兒硬凹’的尷尬。”突破三:音頻Prompt情感克隆,語調韻律精準遷移區別於初代EmotiVoice僅支持“happy/sad/angry”等離散文本標籤的粗放式情感控制,Confucius4-TTS創新性地支持音頻Prompt情感克隆遷移。系統可自動提取參考音頻中的情感標籤,精準復刻其語調、韻律,支持跨語種無損遷移——“只要生氣地說一句話,合成出來的外語也是生氣的語氣。”全棧技術架構升級,從“傳統聲碼器”到“大模型驅動”Confucius4-TTS在底層架構上實現了全面革新。相較於初代EmotiVoice採用傳統HiFi-GAN聲碼器和Speaker ID查表的方案,Confucius4-TTS引入了GPT式語義大模型作為主幹,搭配基於SSL預訓練特徵和ECAPA-TDNN的可學習說話人編碼器,並採用Flow Matching流匹配生成框架實現高保真、高自然度的語音合成。語音克隆方面,EmotiVoice不支持克隆功能,而Confucius4-TTS不僅只需3秒音頻即可完成克隆,而且無需參考文本。社區反響熱烈,開發者實測驗證自開源以來,Confucius4-TTS迅速獲得開發者社區的積極反饋。技術博主@dsd2077在實測使用日語人聲的參考音頻生成中文語音,表示雖無法 100% 復刻細微音色,但整體聽感自然流暢,無生硬外語口音。另一位技術博主@XAMTO_AI評價道:“這回是真開源——人家給的是真權重而不是隻給API,整整54個G直接讓你下,還能本地跑。做口播配音數字人,省錢又好用。”圖2 技術博主@dsd2077實測反饋圖3 技術博主@XAMTO_AI實測反饋圖4 AI博主劉聰NLP測評Confucius4-TTS的低門檻語音克隆和情感合成能力,可廣泛應用於多語種內容創作、數字人配音、跨語言教學以及本地化運營等多種場景。網易有道表示,希望通過全量開源Confucius4-TTS,降低語音克隆和情感合成的門檻,期待社區探索出更多有趣、有用的新玩法。(雷峰網雷峰網雷峰網)

Related

相關文章

量子位生成式AI

可口可樂的世界盃TVC,居然是prompt生成的

這篇消息聚焦「可口可樂的世界盃TVC,居然是prompt生成的」。原始導語提到:24小時在線,2秒回話,陪你聊球 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛

戰勝Mythos 5,OpenAI安全專用GPT-5.5-Cyber完全體來了

這篇消息聚焦「戰勝Mythos 5,OpenAI安全專用GPT-5.5-Cyber完全體來了」。原始導語提到:網友並不買賬:你倒是發GPT-5.6啊 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛