模型概述
Qwen3.5-Omni 是阿里雲通義千問團隊推出的最新旗艦多模態模型,支援文字、圖片、音頻、音影片理解,具備 256K 超長上下文窗口,並原生支援代理行為(Agentic Capabilities)。
這是 Qwen-Omni 系列的重大升級,模型規模擴展至數百億參數,在多個基準測試中達到了音頻和音影片理解的 SOTA 水準。
核心能力
- 原生多模態:統一架構處理文字、圖片、音頻、音影片。
- 超長上下文:256K tokens,支援長篇內容處理。
- 代理能力:支援 WebSearch、FunctionCall、語音生成。
- 音影片 Vibe Coding:根據音影片指令直接生成可執行代碼。
- 即時語音交互:支援語義打斷、語速控制、情緒調節。
- 語音克隆:從用戶提供的音頻樣本中學習聲音特徵。
效能對比
| 規格 | Qwen3.5-Omni | Qwen3-Omni | 競爭對手 |
|---|---|---|---|
| 上下文窗口 | 256K | 128K | 128K |
| 音頻理解 | SOTA | 優秀 | 良好 |
| 音影片理解 | SOTA | 優秀 | 一般 |
定價資訊
API 即將開放