係乜嘢?
VibeVoice 係 Microsoft 開發嘅開源語音 AI 模型家族,包含語音識別(ASR)和語音合成(TTS)兩大核心能力。
43,719 顆星,每日增長 173 顆,由微軟研究院(Microsoft Research)打造,2025 年 8 月首發,三個月內突破 4 萬顆星,係語音 AI 領域最受關注嘅开源項目之一。
三個模型:各有本領
VibeVoice-ASR(語音識別)— 7B 參數
一次過處理 60 分鐘音頻,64K token 上下文窗口,50+ 種語言。
唔只係普通轉錄,佢會同時告訴你:
- 誰(說話者區分)
- 幾時(時間戳)
- 講咩(內容)
支援自定義熱詞(Hotwords),專業術語、人名都可以精準辨認。
最新:2026 年 3 月已整合入 Hugging Face Transformers 庫。
VibeVoice-TTS(語音合成)— 1.5B 參數
可生成長達 90 分鐘、最多 4 個說話者嘅連貫對話音頻。
呢個係最令人印象深刻嘅模型——可以做到:
- 4 個不同音色嘅說話者自然輪流對話
- 模仿真實對話節奏、停頓、語氣
- 跨語言生成
- 甚至唱歌
⚠️ 注意:代碼已於 2025 年 9 月從 GitHub 移除,原因係避免被用於深度偽造(deepfake)。但模型權重仍可從 Hugging Face 下載使用。
VibeVoice-Realtime(實時合成)— 0.5B 參數
首個音輸出延遲得 ~300ms,接近真實對話速度。
支援流式文本輸入,打字過程中語音就已經開始生成,適合:
- 實時語音助手
- 無障礙朗讀
- 直播即時翻譯
目前支援 9 種語言(德、法、意、日、韓、荷、波、葡、西)+ 11 種英語風格。
核心技術創新:7.5Hz 連續分詞器
VibeVoice 嘅突破性創新在於極低幀率連續語音分詞器,運行在 7.5Hz(傳統方案嘅十分之一),實現 3200 倍壓縮率。
原理:
- 輸入:24kHz 原始音頻
- 壓縮:3200:1(聲學分詞器,基於 σ-VAE 結構)
- 語義分詞器:通過語音識別代理任務訓練,保留對話語義
- LLM(Qwen2.5)負責理解語義和對話結構
- Diffusion Head 負責生成高保真音頻細節
結果:極低計算量 + 極高音頻質量。
技術規格
| 模型 | 參數 | 上下文 | 單次最長音頻 | 延遲 |
|---|---|---|---|---|
| VibeVoice-ASR | 7B | 64K tokens | 60 分鐘 | — |
| VibeVoice-TTS | 1.5B | 64K tokens | 90 分鐘 | — |
| VibeVoice-Realtime | 0.5B | ~10 分鐘 | 連續流式 | ~300ms |
點樣試用?
ASR(語音轉文字):
Realtime TTS(實時語音合成):
風險提示
⚠️ 深度偽造風險
VibeVoice 官方明確警告:高質量合成語音可能被濫用於冒充、欺詐或散播虛假信息。
使用時請確保:
VibeVoice 官方明確警告:高質量合成語音可能被濫用於冒充、欺詐或散播虛假信息。
使用時請確保:
- 音頻內容真實可信
- 獲得說話者同意
- 不用於誤導性內容