Vibe Voice AI：Microsoft 開源前沿語音 AI 工具，45K Stars 的下一代語音介面 |

係乜嘢？

VibeVoice 係 Microsoft 開發嘅開源前沿語音 AI 項目，專為構建下一代語音介面而設，現已累積 45,720 顆星，成為語音 AI 領域最受矚目嘅开源項目之一。

由微軟研究院（Microsoft Research）打造，採用 MIT License，語言以 Python 為主，為開發者提供完整嘅語音識別（ASR）、語音合成（TTS）同埋實時語音處理能力。

長上下文語音識別模型，具備以下能力：

高質量語音生成模型，最大特點：

專為低延遲場景設計：

VibeVoice 嘅突破性創新在於極低幀率連續語音分詞器，運行在 7.5Hz，僅為傳統方案嘅十分之一，實現 3200 倍音頻壓縮率。

架構原理：

極低計算量之餘，依然保持高質量音頻輸出。

模型	參數	上下文窗口	單次最長音頻	延遲
VibeVoice-ASR	7B	64K tokens	60 分鐘	—
VibeVoice-TTS	1.5B	64K tokens	90 分鐘	—
VibeVoice-Realtime	0.5B	~10 分鐘	連續流式	~300ms

語音識別（ASR）：

實時語音合成（Realtime TTS）：

GitHub 主頁：

⚠️ 深度偽造風險
VibeVoice 官方明確警告：高質量合成語音可能被濫用於冒充、欺詐或散播虛假信息。

使用時請確保：