告別“翻譯腔”:Gemini 3.5 實時語音翻譯模型正式發佈

2026年6月10日 02:027400 次瀏覽

重點摘要

谷歌發佈Gemini 3.5 Live Translate音頻模型,通過實時語音到語音技術實現跨語言溝通突破,已集成至Google AI Studio、翻譯和Meet等產品。其核心創新在於追求翻譯“自然度”,摒棄傳統輪流式翻譯模式,旨在打破語言溝通的地理與文化障礙。

站內 AI 整理稿

### 告別「翻譯腔」:Gemini 3.5 即時語音翻譯模型登場

谷歌日前正式發表了新一代的 Gemini 3.5 Live Translate 音頻模型,這是一款專為即時語音轉語音設計的翻譯技術。不同於過去常見的機器翻譯那種生硬、延遲的「翻譯腔」,這款模型主打「自然度」,希望讓跨語言對話變得像日常交談一樣流暢。根據官方資訊,該技術已逐步整合到 Google AI Studio、Google 翻譯以及 Google Meet 等產品中,意味著使用者很快就能在會議、通話或一般翻譯場景中體驗到更接近真人雙向溝通的即時翻譯。

### 重點整理:即時、自然、無縫整合

Gemini 3.5 Live Translate 的核心特點在於「即時語音到語音」的處理能力。傳統的語音翻譯通常先將語音轉成文字,翻譯後再合成語音,過程中有明顯的停頓與輪流式發言限制。谷歌這次試圖跳脫這種模式,直接對語音信號進行端到端的處理,不僅大幅降低延遲,也保留了語調、節奏與情感線索,使翻譯結果聽起來更加自然。目前這項功能已經內建在 Google 自家的開發工具與常用服務中,預料將率先應用於多語會議翻譯與即時字幕生成。

### 背景脈絡:從「輪流翻譯」到「並行溝通」

過去十年,機器翻譯技術從統計模型進展到神經網路,準確率顯著提升,但「輪流式」的翻譯模式始終是體驗瓶頸——一個人說完後必須等待翻譯,對話節奏被打斷,聽者也很難感受到原始發言的情緒。谷歌這次的突破,可以視為其長期在大型語言模型與多模態 AI 研究上的累積結果。Gemini 3.5 系列原本就以多模態能力著稱,現在將語音理解與生成更緊密地結合,目的正是為了消除語言造成的即時互動隔閡。

### 可能影響:商務、旅遊與遠距協作全面升級

這項技術的商業潛力十分明顯。對於跨國企業的視訊會議,Gemini 3.5 能讓參與者各自用自己的語言發言,而對方聽到的即是流暢的翻譯語音,不再需要等待口譯或字幕刷新。在旅遊或客服場景中,即時語音翻譯也能大幅降低溝通成本。值得注意的是,由於它強調自然度,未來甚至可能應用於配音、有聲書或直播內容的即時多語言轉換,改變內容創作者與國際觀眾之間的互動方式。

### 讀者可關注的後續:產品上市時程與更多語言支援

雖然谷歌已經宣布整合至多項產品,但具體的語言對數量、正式上線時間以及支援的裝置清單,目前還沒有完整揭露。讀者可以留意 Google 翻譯 App 或 Google Meet 接下來的更新日誌,看看是否率先支援繁體中文、日文、韓文等東亞語言。此外,開發者也能透過 Google AI Studio 的 API 來測試這項模型,關注其準確性與延遲表現。隨著 Gemini 3.5 持續迭代,預計未來一年內,這項技術將逐步滲透到更多日常使用的工具中,真正實現「告別翻譯腔」的跨語言交流體驗。

Related

相關文章

MarkTechPost AI模型更新

Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages

This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather

14 分鐘前
MarkTechPost AI模型更新

Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight

Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

14 小時前

智譜新高,MiniMax承壓,“大模型雙雄”命運殊途

這篇消息聚焦「智譜新高,MiniMax承壓,“大模型雙雄”命運殊途」。原始導語提到:大模型在被市場重新定價 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

16 小時前