係乜嘢?
VibeVoice 係 Microsoft 開發嘅開源前沿語音 AI 項目,專為構建下一代語音介面而設,現已累積 45,720 顆星,成為語音 AI 領域最受矚目嘅开源項目之一。
由微軟研究院(Microsoft Research)打造,採用 MIT License,語言以 Python 為主,為開發者提供完整嘅語音識別(ASR)、語音合成(TTS)同埋實時語音處理能力。
三大核心模型
VibeVoice-ASR(語音識別)
長上下文語音識別模型,具備以下能力:
- 單次處理長達 60 分鐘音頻
- 64K token 上下文窗口
- 支援 50+ 種語言
- 說話者自動區分
- 時間戳精確標注
- 自定義熱詞(Hotwords)識別
VibeVoice-TTS(語音合成)
高質量語音生成模型,最大特點:
- 單次生成可達 90 分鐘
- 支援最多 4 個說話者同時對話
- 自然對話節奏、停頓、語氣模擬
- 跨語言語音合成
- 甚至支援唱歌
VibeVoice-Realtime(實時語音合成)
專為低延遲場景設計:
- 音頻輸出延遲僅 ~300ms
- 流式文本輸入實時生成
- 支援 9 種語言(德、法、意、日、韓、荷、波、葡、西)
- 11 種英語風格
- 適合語音助手、無障礙朗讀、即時翻譯
核心技術:7.5Hz 連續分詞器
VibeVoice 嘅突破性創新在於極低幀率連續語音分詞器,運行在 7.5Hz,僅為傳統方案嘅十分之一,實現 3200 倍音頻壓縮率。
架構原理:
- 輸入:24kHz 原始音頻
- 聲學分詞器(σ-VAE 結構):3200:1 壓縮
- 語義分詞器:通過語音識別代理任務訓練,保留對話語義
- LLM(Qwen2.5):理解語義和對話結構
- Diffusion Head:生成高保真音頻細節
極低計算量之餘,依然保持高質量音頻輸出。
技術規格
| 模型 | 參數 | 上下文窗口 | 單次最長音頻 | 延遲 |
|---|---|---|---|---|
| VibeVoice-ASR | 7B | 64K tokens | 60 分鐘 | — |
| VibeVoice-TTS | 1.5B | 64K tokens | 90 分鐘 | — |
| VibeVoice-Realtime | 0.5B | ~10 分鐘 | 連續流式 | ~300ms |
點樣試用?
語音識別(ASR):
實時語音合成(Realtime TTS):
GitHub 主頁:
風險提示
⚠️ 深度偽造風險
VibeVoice 官方明確警告:高質量合成語音可能被濫用於冒充、欺詐或散播虛假信息。
使用時請確保:
VibeVoice 官方明確警告:高質量合成語音可能被濫用於冒充、欺詐或散播虛假信息。
使用時請確保:
- 音頻內容真實可信
- 獲得說話者明確同意
- 不用於誤導性內容