IT之家模型更新

ChatGPT 語音最大規模升級:OpenAI 正籌備推出 GPT-Bidi-1 AI 模型

2026年6月17日 14:59
ChatGPT 語音最大規模升級:OpenAI 正籌備推出 GPT-Bidi-1 AI 模型

重點摘要

科技媒體 testingcatalog 今天(6 月 17 日)發佈博文,報道稱 OpenAI 公司正在籌備推出 GPT-Bidi-1 模型,將成為 ChatGPT 語音模式最大規模升級。

站內 AI 整理稿

### ChatGPT 語音模式即將迎來史上最大更新?OpenAI 傳籌備全新「GPT-Bidi-1」模型

近期科技圈傳來一則值得關注的消息:根據國外科技媒體《TestingCatalog》的報導,OpenAI 正在內部籌備一款代號為「GPT-Bidi-1」的全新 AI 模型,預計這將是 ChatGPT 語音功能自推出以來幅度最顯著的一次升級。雖然官方尚未正式證實,但這項資訊已經引發使用者與開發者對語音互動體驗未來走向的熱烈討論。

### 什麼是 GPT-Bidi-1?可能與雙向語音處理有關

從模型代號「Bidi」來推測,這個字很可能來自「Bidirectional」(雙向)的縮寫。這意味著 GPT-Bidi-1 可能不只是單純強化語音辨識或生成能力,而是試圖讓 AI 能夠更自然地理解與回應語音中的上下文脈絡——包括語速、語氣、停頓、甚至使用者打斷對話時的即時應變。換句話說,未來的 ChatGPT 語音模式或許不再只是「你問一句、它答一句」的單向交流,而是更像真實人類之間那種可以來回切換、互相補充的雙向互動。

### 背景脈絡:ChatGPT 語音模式的演進與現狀

回顧 ChatGPT 語音功能的發展歷程,最早在 2023 年秋季 OpenAI 推出語音對話功能時,主要依賴 Whisper 語音辨識模型與文字轉語音技術來實現。當時的使用者體驗雖然驚豔,但仍存在延遲較高、無法隨意打斷、以及情感表達不夠自然等限制。2024 年初,OpenAI 進一步推出「Voice Engine」語音引擎,但並未廣泛開放。如今傳出 GPT-Bidi-1 的消息,顯示 OpenAI 可能正準備從模型架構層面重新設計語音處理流程,而非僅靠外掛套件來補強。

### 可能影響:語音助理市場將出現質變

這項升級若能如期推出,對整個語音助理市場的衝擊將會相當可觀。目前市面上主流的語音助理如 Apple Siri、Google Assistant 與 Amazon Alexa,多半仍停留在「喚醒—提問—回應—等待下一次喚醒」的離散式對話模式。若 ChatGPT 語音模式能實現真正流暢的雙向對話,例如使用者可以在 AI 說話途中插入新問題,或是 AI 能根據使用者語氣自動調整回答長度,那麼 ChatGPT 將很可能成為第一個具備「類人對話節奏」的語音助手,進一步拉大與競爭對手的差距。

### 對一般使用者的實際好處:更自然、更有效率

對日常使用者而言,語音模式的最大痛點在於「對話不順」。舉例來說,當 AI 正在長篇大論時,如果使用者突然想到另一個問題,通常只能等它說完,或是強行中斷後重新提問。GPT-Bidi-1 如果真能實現雙向處理,使用者就能像與真人聊天一樣隨時插話、修正或補充資訊。這對於開車時使用語音導航、烹飪時查詢食譜、甚至進行外語口說練習等情境,都將帶來顯著的效率提升。

### 讀者可關注的後續發展方向

由於 OpenAI 目前尚未發布任何正式公告,現階段所有資訊仍屬媒體推測階段。讀者可以留意以下幾個關鍵動向:第一,OpenAI 是否會在近期開發者大會或官方部落格中提及 GPT-Bidi-1 的相關研究。第二,ChatGPT 付費版(Plus、Pro)的使用者是否會率先獲得測試資格。第三,各國監管機構對這類「雙向語音 AI」可能衍生的隱私與安全議題(例如對話被無意識打斷時的資料擷取範圍)是否會提出新的規範。最後,競爭對手如 Google(Gemini Live)、Anthropic(Claude 語音模式)也有可能加速跟進,屆時將形成一波語音 AI 升級競賽。

### 結語:語音互動的「無縫感」或許就在不遠處

從文字對話到語音對話,AI 互動形式正一步步向人類本能靠攏。GPT-Bidi-1 的出現,象徵 OpenAI 不再滿足於「聽得懂」與「說得出」,而是追求「聽得懂語氣、接得住中斷、說得像真人」。雖然我們還不確定這款模型何時會正式登場,但可以確定的是,語音 AI 的下一個重要突破,很可能就藏在「雙向」這兩個字裡面。

Related

相關文章

MarkTechPost AI模型更新

Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages

This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather

1 小時前
MarkTechPost AI模型更新

Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight

Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

15 小時前

智譜新高,MiniMax承壓,“大模型雙雄”命運殊途

這篇消息聚焦「智譜新高,MiniMax承壓,“大模型雙雄”命運殊途」。原始導語提到:大模型在被市場重新定價 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

17 小時前