← 返回首頁

係乜嘢?

VibeVoice 係 Microsoft 開發嘅開源語音 AI 模型家族,包含語音識別(ASR)和語音合成(TTS)兩大核心能力。

43,719 顆星,每日增長 173 顆,由微軟研究院(Microsoft Research)打造,2025 年 8 月首發,三個月內突破 4 萬顆星,係語音 AI 領域最受關注嘅开源項目之一。

三個模型:各有本領

VibeVoice-ASR(語音識別)— 7B 參數

一次過處理 60 分鐘音頻,64K token 上下文窗口,50+ 種語言。

唔只係普通轉錄,佢會同時告訴你:

支援自定義熱詞(Hotwords),專業術語、人名都可以精準辨認。

最新:2026 年 3 月已整合入 Hugging Face Transformers 庫。

VibeVoice-TTS(語音合成)— 1.5B 參數

可生成長達 90 分鐘最多 4 個說話者嘅連貫對話音頻。

呢個係最令人印象深刻嘅模型——可以做到:

⚠️ 注意:代碼已於 2025 年 9 月從 GitHub 移除,原因係避免被用於深度偽造(deepfake)。但模型權重仍可從 Hugging Face 下載使用。

VibeVoice-Realtime(實時合成)— 0.5B 參數

首個音輸出延遲得 ~300ms,接近真實對話速度。

支援流式文本輸入,打字過程中語音就已經開始生成,適合:

目前支援 9 種語言(德、法、意、日、韓、荷、波、葡、西)+ 11 種英語風格。

核心技術創新:7.5Hz 連續分詞器

VibeVoice 嘅突破性創新在於極低幀率連續語音分詞器,運行在 7.5Hz(傳統方案嘅十分之一),實現 3200 倍壓縮率

原理:

結果:極低計算量 + 極高音頻質量。

技術規格

模型參數上下文單次最長音頻延遲
VibeVoice-ASR7B64K tokens60 分鐘
VibeVoice-TTS1.5B64K tokens90 分鐘
VibeVoice-Realtime0.5B~10 分鐘連續流式~300ms

點樣試用?

ASR(語音轉文字):

Realtime TTS(實時語音合成):

風險提示

⚠️ 深度偽造風險
VibeVoice 官方明確警告:高質量合成語音可能被濫用於冒充、欺詐或散播虛假信息。

使用時請確保:
  • 音頻內容真實可信
  • 獲得說話者同意
  • 不用於誤導性內容