IT之家生成式AI

火山引擎發佈豆包音頻生成模型 1.0,支持多模態參考生成與長時音色一致性

2026年6月24日 09:39
火山引擎發佈豆包音頻生成模型 1.0,支持多模態參考生成與長時音色一致性

重點摘要

火山引擎正式推出豆包音頻生成模型 1.0,首次支持文本、音頻等多模態參考生成,能端到端產出完整敘事音頻。模型在長時生成中保持多角色音色高度一致,大幅減少後期工作,即將上線剪映、即夢等產品。#豆包音頻模型##AI 音頻生成#

站內 AI 整理稿

### 火山引擎推出豆包音頻生成模型 1.0:多模態參考與長時角色一致性成亮點

近日,火山引擎正式發表了旗下「豆包音頻生成模型 1.0」,這款模型首次支援結合文本與音訊等多模態進行參考生成,能夠端到端地產出完整的敘事音頻。不同於過去僅能根據文字轉語音的簡易工具,豆包 1.0 特別強調在長時間生成過程中,維持多個角色音色的高度一致性,大幅降低後期編輯的人工調整需求。此模型預計將陸續整合至剪映、即夢等熱門影音創作平台,為內容創作者帶來更流暢的配音工作流程。

#### 重點整理:多模態參考與端到端敘事能力

這款模型的核心亮點在於「多模態參考生成」與「長時音色一致性」。所謂多模態參考,是指使用者不僅可以輸入文字腳本,還能上傳一段既有音檔作為風格或音色的參考,讓模型同時理解文字語意與聲音特徵,進而生成符合需求的音頻。此外,模型能一次處理較長的敘事內容,並在整個段落中維持不同角色的音色穩定,不會出現前後音質或語氣跳脫的問題。這項特性對需要多角色對話的劇情、有聲書或 Podcast 製作來說,無疑是一大助力。

#### 背景脈絡:AI 音頻生成從「聲音複製」邁向「角色演出」

過去幾年,AI 語音合成技術已從單純的「文字轉語音」進展到「聲音複製」與「情感表達」,但大多仍停留在單一音色的穩定輸出。若要同時處理多個角色,往往需要逐句指定不同音色,並在後製環節手動調整一致性,流程繁瑣且耗時。火山引擎此次推出的豆包音頻生成模型,正是瞄準這個痛點,嘗試以端到端的生成方式,讓 AI 直接掌握敘事結構與角色分配。這也反映了 AI 模型在理解語境與角色邏輯上的進步,不只是「讀稿機器」,而是能參與創作演出。

#### 可能影響:減少後期工作,加速內容生產

對於影音創作者、遊戲配音團隊、以及有聲書製作者而言,這項技術的最大價值在於「減少後期編輯負擔」。傳統配音流程中,同一位配音員需要分飾多角時,往往得切換不同音域或靠後製調音;而使用多個配音員則涉及協調與成本。豆包 1.0 的長時一致性可讓創作者一次產出接近成品的效果,縮短從腳本到音檔的週期。加上它即將整合至剪映與即夢等工具,意味著一般使用者不需要複雜的程式操作,就能在熟悉的編輯介面中直接套用 AI 配音功能,大幅降低專業門檻。

#### 讀者可關注的後續:上線時間與應用場景

目前官方尚未公布具體上線時程,但已明確指出模型會陸續整合至剪映、即夢等產品。建議有興趣的創作者可以留意這幾款 App 的更新日誌,特別是剪映近期頻繁加入 AI 功能,很可能在下一波版本中就有「豆包音頻」的選項。此外,可以關注火山引擎的開發者平台是否會提供 API 介接,讓專業應用或客製化工具也能呼叫這項模型。後續也可觀察模型能否支援語音語調的細部調整、以及是否開放自訂角色音色參數,這些都將影響它在專業領域的實用性。

#### 結語:AI 音頻生成進入「劇本級」創意時代

豆包音頻生成模型 1.0 的問世,象徵 AI 不再只是輔助朗讀文字,而是開始理解敘事中的角色關係與節奏。多模態參考讓作品能忠於原始素材的風格,長時一致性則確保聽感流暢無破綻。對於內容創作者來說,這意味著過去需要耗費大量人力的配音與後製環節,將

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月24日)

OpenAI發佈GPT-5.5-Cyber網絡安全專用模型並聯合發起Patch the Planet開源漏洞修復行動,Google正式推出Interactions API將AI開發範式從模型調用轉向Agent管理。歐盟升級對Meta的兒童上癮指控,理論罰款上限達120億美元,同時發佈技術主權一攬子方案應對美國雲佔據70%歐洲市場的現實。

剛剛
智東西生成式AI

對話亞馬遜雲科技全球VP:企業Agent落地的坑怎麼填

智東西 作者 | ZeR0 編輯 | 漠影 智東西6月24日報道,在昨日舉行的亞馬遜雲科技中國峰會期間,亞馬遜雲科技全球數據庫服務副總裁Ganapathy “G2” Krishnamoorthy與智東西等媒體進行深入交流。G2告訴智東西,亞馬遜雲科技已廣泛地使用其AI編程工具Kiro來構建新功能。 “對我們而言,安全始終是重中之重,因此我們在內部利用了許多這類工具來提升自身的安全與開發能力。”G2談道,“我們的一大優勢在於為構建者打造工具,而亞馬遜雲科技內部就擁有大量的雲原生構建者,這給我們提供了極其豐富的反饋。” 針對開發者應如何搭配選用Kiro、Claude Code等編程工具的問題,亞馬遜雲科技提供有各種工具,除了已被廣泛採用的Kiro外,也將OpenAI Codex和Claude Code提供給了開發者使用。其持續集成與持續部署(CI/CD)基礎設施能夠支持所有這些不同的工具。 “我們會從不同工具的實際運行中汲取經驗,從而為客戶提供最佳的開發體驗。”G2說。 對於許多企業來說,將Agent引入企業真實場景中併產生價值,難點不在模型本身,而在於如何構建起工具連接、權限管控、可觀測性、治理審計體系,把模型能力穩定、安全、可治理地接入真實的業務系統。 會上,小鵬集團、月之暗面、影石、獵豹移動等中國合作伙伴各自分享瞭如何使用亞馬遜雲科技的產品來為優化其業務。這些產品均來自亞馬遜雲科技構建的全棧Agentic AI技術,覆蓋從AI基礎設施、模型、數據與知識、Agentic AI平臺到Agent應用。 G2在與媒體交流時進一步分享道,為了讓構建的各大系統協同工作,亞馬遜雲科技投入了很大的精力:Amazon Bedrock團隊會確保每一個接入的模型都得到極致優化,AgentCore內部也支持Strands Agents等多種不同的Agent框架,以確保當這些框架、Amazon B

43 分鐘前

AI 郵件服務商 Superhuman 宣佈收購 AI 檢測初創公司 GPTZero

AI郵件服務商Superhuman收購了AI檢測初創公司GPTZero,後者源於普林斯頓大學畢業生Edward Tian的畢業論文項目,由他與CTO Alex Cui共同創立。此次收購旨在整合技術,強化平臺內置檢測能力,可識別並抵禦AI生成的低質代碼,同時輔助用戶調整文本,使其更具人類寫作特徵。具體交易條款未予披露。

2 小時前7900

字節掀桌,豆包2.1成本暴砍80%,編程追平Claude Opus 4.7

這篇消息聚焦「字節掀桌,豆包2.1成本暴砍80%,編程追平Claude Opus 4.7」。原始導語提到:字節多模態、視頻、圖像、音頻模型齊亮相。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

7 小時前