Microsoft VibeVoice — 開源語音 AI 的里程碑

係乜嘢？

VibeVoice 係 Microsoft 開發嘅開源語音 AI 模型家族，包含語音識別（ASR）和語音合成（TTS）兩大核心能力。

43,719 顆星，每日增長 173 顆，由微軟研究院（Microsoft Research）打造，2025 年 8 月首發，三個月內突破 4 萬顆星，係語音 AI 領域最受關注嘅开源項目之一。

一次過處理 60 分鐘音頻，64K token 上下文窗口，50+ 種語言。

唔只係普通轉錄，佢會同時告訴你：

支援自定義熱詞（Hotwords），專業術語、人名都可以精準辨認。

最新：2026 年 3 月已整合入 Hugging Face Transformers 庫。

可生成長達 90 分鐘、最多 4 個說話者嘅連貫對話音頻。

呢個係最令人印象深刻嘅模型——可以做到：

⚠️ 注意：代碼已於 2025 年 9 月從 GitHub 移除，原因係避免被用於深度偽造（deepfake）。但模型權重仍可從 Hugging Face 下載使用。

首個音輸出延遲得 ~300ms，接近真實對話速度。

支援流式文本輸入，打字過程中語音就已經開始生成，適合：

目前支援 9 種語言（德、法、意、日、韓、荷、波、葡、西）+ 11 種英語風格。

VibeVoice 嘅突破性創新在於極低幀率連續語音分詞器，運行在 7.5Hz（傳統方案嘅十分之一），實現 3200 倍壓縮率。

原理：

結果：極低計算量 + 極高音頻質量。

模型	參數	上下文	單次最長音頻	延遲
VibeVoice-ASR	7B	64K tokens	60 分鐘	—
VibeVoice-TTS	1.5B	64K tokens	90 分鐘	—
VibeVoice-Realtime	0.5B	~10 分鐘	連續流式	~300ms

ASR（語音轉文字）：

Realtime TTS（實時語音合成）：

⚠️ 深度偽造風險
VibeVoice 官方明確警告：高質量合成語音可能被濫用於冒充、欺詐或散播虛假信息。

使用時請確保：