告別“翻譯腔”:Gemini 3.5 實時語音翻譯模型正式發佈
重點摘要
谷歌發佈Gemini 3.5 Live Translate音頻模型,通過實時語音到語音技術實現跨語言溝通突破,已集成至Google AI Studio、翻譯和Meet等產品。其核心創新在於追求翻譯“自然度”,摒棄傳統輪流式翻譯模式,旨在打破語言溝通的地理與文化障礙。
### 告別「翻譯腔」:Gemini 3.5 即時語音翻譯模型登場
谷歌日前正式發表了新一代的 Gemini 3.5 Live Translate 音頻模型,這是一款專為即時語音轉語音設計的翻譯技術。不同於過去常見的機器翻譯那種生硬、延遲的「翻譯腔」,這款模型主打「自然度」,希望讓跨語言對話變得像日常交談一樣流暢。根據官方資訊,該技術已逐步整合到 Google AI Studio、Google 翻譯以及 Google Meet 等產品中,意味著使用者很快就能在會議、通話或一般翻譯場景中體驗到更接近真人雙向溝通的即時翻譯。
### 重點整理:即時、自然、無縫整合
Gemini 3.5 Live Translate 的核心特點在於「即時語音到語音」的處理能力。傳統的語音翻譯通常先將語音轉成文字,翻譯後再合成語音,過程中有明顯的停頓與輪流式發言限制。谷歌這次試圖跳脫這種模式,直接對語音信號進行端到端的處理,不僅大幅降低延遲,也保留了語調、節奏與情感線索,使翻譯結果聽起來更加自然。目前這項功能已經內建在 Google 自家的開發工具與常用服務中,預料將率先應用於多語會議翻譯與即時字幕生成。
### 背景脈絡:從「輪流翻譯」到「並行溝通」
過去十年,機器翻譯技術從統計模型進展到神經網路,準確率顯著提升,但「輪流式」的翻譯模式始終是體驗瓶頸——一個人說完後必須等待翻譯,對話節奏被打斷,聽者也很難感受到原始發言的情緒。谷歌這次的突破,可以視為其長期在大型語言模型與多模態 AI 研究上的累積結果。Gemini 3.5 系列原本就以多模態能力著稱,現在將語音理解與生成更緊密地結合,目的正是為了消除語言造成的即時互動隔閡。
### 可能影響:商務、旅遊與遠距協作全面升級
這項技術的商業潛力十分明顯。對於跨國企業的視訊會議,Gemini 3.5 能讓參與者各自用自己的語言發言,而對方聽到的即是流暢的翻譯語音,不再需要等待口譯或字幕刷新。在旅遊或客服場景中,即時語音翻譯也能大幅降低溝通成本。值得注意的是,由於它強調自然度,未來甚至可能應用於配音、有聲書或直播內容的即時多語言轉換,改變內容創作者與國際觀眾之間的互動方式。
### 讀者可關注的後續:產品上市時程與更多語言支援
雖然谷歌已經宣布整合至多項產品,但具體的語言對數量、正式上線時間以及支援的裝置清單,目前還沒有完整揭露。讀者可以留意 Google 翻譯 App 或 Google Meet 接下來的更新日誌,看看是否率先支援繁體中文、日文、韓文等東亞語言。此外,開發者也能透過 Google AI Studio 的 API 來測試這項模型,關注其準確性與延遲表現。隨著 Gemini 3.5 持續迭代,預計未來一年內,這項技術將逐步滲透到更多日常使用的工具中,真正實現「告別翻譯腔」的跨語言交流體驗。
Related
相關文章
Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages
This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather
Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight
Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

智譜新高,MiniMax承壓,“大模型雙雄”命運殊途
這篇消息聚焦「智譜新高,MiniMax承壓,“大模型雙雄”命運殊途」。原始導語提到:大模型在被市場重新定價 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

華為昇騰 0 Day 支持智譜 GLM-5.2 模型,提供全面推理優化
華為昇騰 AI 宣佈在智譜開源 GLM-5.2 大模型當天即完成深度推理優化。通過 MOE 大融合算子、通信計算融合、高併發調度等七項關鍵技術,顯著提升編程和長程任務的處理效率,現已支持 A3 系列產品部署。#AI 大模型# #國產算力#
企業AI轉型再添利器:青雲科技算力雲接入 MiniMax-M3 模型
企業AI落地面臨高效低成本難題。青雲科技旗下基石智算平臺接入國產開源大模型MiniMax-M3,提供新算力支持。MiniMax-M3以卓越上下文處理能力等三大核心技術見長,依託自研架構,助企業便捷部署AI業務。
阿里開源統一科學大模型 LOGOS,僅用五十六分之一參數超越微軟
阿里 ATH-Token Foundry 聯閤中國人民大學高瓴人工智能學院開源科學基礎模型 LOGOS。該模型採用統一科學語法與純序列建模範式,在六大科學任務上匹配或超越傳統專用方法。其中 LOGOS-1B 僅 1B 參數,即展現出極高效率,性能超越參數量達 8×7B 的微軟模型。