OpenAI ChatGPT 語音最大規模升級：雙向 AI 語音模型 Bidi 1 已上線測試

2026年6月24日 12:34

重點摘要

科技媒體 testingcatalog 昨日（6 月 23 日）發佈博文，報道稱部分用戶反饋在網頁版、App 版 ChatGPT 應用中，發現了雙向 AI 語音模型 Bidi 1。

站內 AI 整理稿

### ChatGPT 語音功能大進化：雙向模型 Bidi 1 悄然上線測試

近日，科技媒體 TestingCatalog 披露，部分使用者已在 ChatGPT 網頁版與 App 版中，發現了全新的「雙向 AI 語音模型 Bidi 1」。這項更新被視為 OpenAI 在語音互動領域迄今最重大的升級，暗示著 AI 對話不再只是單純的「你問我答」，而是朝更貼近人類自然交談的方向邁進。目前該功能仍處於限時測試階段，僅少數用戶能搶先體驗。

### 什麼是「雙向語音模型」？與現有語音模式有何不同？

現行 ChatGPT 的語音功能，主要仰賴「語音轉文字」後再由語言模型生成回覆，再以語音合成輸出。這種模式本質上是單向的：使用者說完後必須等待完整回覆，無法中途插話或被打斷。而 Bidi 1 的核心突破在於「雙向即時處理」——它能夠同時接收與生成語音，讓雙方可更自然地輪流發言，甚至允許即時修正、補充或打斷。這使得 AI 對話更像人類間的即興交談，而非機械式的問答序列。

### 從語音助理到對話夥伴：OpenAI 的語音技術演進

回顧 OpenAI 的語音發展歷程，從 2023 年 9 月推出語音對話（Voice Conversations）功能，到 2024 年 5 月展示具備情緒辨識與即時反應的「GPT-4o 語音模式」，再到如今 Bidi 1 的測試，每一步都在縮短人機語音溝通的延遲與不對稱性。過去使用者常抱怨 AI 語音回覆「太慢」或「無法插話」，Bidi 1 正是針對這些痛點設計。它不僅降低了語音互動的僵硬感，更可能為殘障輔助、即時翻譯、客服對話等場景帶來顛覆性體驗。

### 可能影響：用戶體驗、使用場景與溝通習慣的改變

對一般使用者而言，Bidi 1 最直接的感受是「對話更流暢」。舉例來說，當 ChatGPT 在解釋複雜概念時，使用者可以隨時說「等一下，這邊講慢一點」或「換個例子」，AI 能立即中斷並調整回應。這不僅提升效率，也讓語音互動變得更直覺。此外，在會議記錄、語言學習、創意腦力激盪等場景，雙向語音模型能模擬真實討論節奏，使 AI 從「回答工具」升級為「協作夥伴」。長期來看，人們與 AI 互動的方式可能從打字為主，轉向更自然的口語交流。

### 產業競爭加劇：其他科技巨頭如何應對？

OpenAI 此次低調測試，也對其他語音 AI 業者形成壓力。Google 的 Gemini Live 與 Amazon 的 Alexa 同樣在努力提升對話流暢度，但多數仍停留在「先聽後答」的單向模式。Bidi 1 的雙向特性，直接挑戰了現有語音助理的設計邏輯。若 OpenAI 成功將此模型導入正式版，將可能重新定義語音 AI 的技術標準。競爭對手勢必加速研發，甚至可能推動語音模型開源或推出類似功能，以搶占市場。

### 讀者可關注的後續發展：正式版時程、語言支援與設備限制

目前 Bidi 1 僅在部分使用者帳號中出現，且未公布具體推出時間。讀者可留意以下幾個關鍵動向：第一，OpenAI 是否會在開發者大會或官方部落格正式介紹此模型；第二，支援的語言範圍——現行 ChatGPT 語音已涵蓋多種語言，但雙向模型對語言模型的即時處理要求更高，初期可能只支援英語；第三，使用限制——測試期間可能僅限 ChatGPT Plus 或 Pro 用戶，未來是否會逐步下放至免費用戶；第四，硬體相容性——雙向語音運算對手機處理器與網路延遲較敏感，老舊裝置可能無法順暢執行。

### 總結：一場關於「即時」的語音革命正在醞釀

Bidi 1 的出現，不僅是技術上的升級，更象徵著人機互動典範的轉移。過去我們習慣「輸入→輸出」的乾淨介面，現在 OpenAI 正嘗試讓 AI 學會聽話、插話、乃至於在話語中「搶話」，這種破壞平衡的行為，反而更接近人類社交的本質。未來幾週至幾個月內，隨著更多測試回饋浮現，我們將能更清楚這項功能如何改變日常使用 AI 的方式——而這或許只是更全面對話式 AI 時代的開端。

原始來源：IT之家 ↗

查看原始來源

36氪生成式AI

AI可以用任何手段、寫任何東西，但你得是個“中年老登”

這篇消息聚焦「AI可以用任何手段、寫任何東西，但你得是個“中年老登”」。原始導語提到：“我現在陷入到一種巨大的虛無主義裡，AI 什麼都能寫。” 從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

IT之家生成式AI

火山引擎發佈豆包音頻生成模型 1.0，支持多模態參考生成與長時音色一致性

火山引擎正式推出豆包音頻生成模型 1.0，首次支持文本、音頻等多模態參考生成，能端到端產出完整敘事音頻。模型在長時生成中保持多角色音色高度一致，大幅減少後期工作，即將上線剪映、即夢等產品。#豆包音頻模型##AI 音頻生成#

剛剛閱讀分析

鈦媒體生成式AI

Edge AI Daily 早報（6月24日）

OpenAI發佈GPT-5.5-Cyber網絡安全專用模型並聯合發起Patch the Planet開源漏洞修復行動，Google正式推出Interactions API將AI開發範式從模型調用轉向Agent管理。歐盟升級對Meta的兒童上癮指控，理論罰款上限達120億美元，同時發佈技術主權一攬子方案應對美國雲佔據70%歐洲市場的現實。

剛剛閱讀分析

雷峰網生成式AI

阿里QoderWork推“峰谷Token”，夜間使用Qwen3.7低至2折

您正在使用IE低版瀏覽器，為了您的雷峰網賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器此為臨時鏈接，僅用於文章預覽，將在時失效業界正文發私信給徐咪發送 0 阿里QoderWork推“峰谷Token”，夜間使用Qwen3.7低至2折本文作者：徐咪 2026-06-24 12:03 導語：6月23日晚，阿里QoderWork推出“峰谷Token”，Agent在每晚 22:00到次日08:00運行可自動享受優惠，其中Qwen3.7-Max模型低至2 6月23日晚，阿里QoderWork推出“峰谷Token”，Agent在每晚 22:00到次日08:00運行可自動享受優惠，其中Qwen3.7-Max模型低至2折。這是國內首個上線“峰谷Token”的Agent產品，將大幅降低用戶的使用成本。例如，用戶可在白天設定好定時任務、或者睡前提交長程任務指令，選擇Qwen3.7模型，讓Agent自動跑完全流程，早上起來驗收即可。據介紹，夜間折扣產品涵蓋QoderWork、Qoder Desktop等產品。 0人收藏分享：相關文章阿里 AI 大模型阿里高管集體下田插秧，忙了一上午才種半畝？網友： ... 阿里發佈視頻生成模型HappyHorse 1.1：五大維度全面 ... 阿里發佈世界模型HappyOyster 1.0，用戶可實時探索、 ... 阿里雲擴建全球基礎設施，新增法國巴黎、馬來西亞柔 ... 徐咪編輯發私信當月熱門文章藍信發佈2026全棧AI新品，打造100%國產化政企智能辦公新範式 SoulAgent 即將亮相北京智源大會，探索個人智能體在知識服務場景中的應用美團電話會：“小美”與騰訊“元寶”的合作將於近期上線美團發佈AI瀏覽器Tabbit 1.0，可自動執行各類任務騰訊雲護航全球16個國家及地區世界盃直播，AI技術首次在世界盃大規模應

2 小時前閱讀分析

智東西生成式AI

剛剛，Claude進入美國版飛書，成了我的AI新同事

智東西編譯 | 楊京麗編輯 | 李水青智東西6月24日消息，今天凌晨，Anthropic推出面向企業團隊的群聊AI協作助理Claude Tag，首站接入企業通訊平臺Slack。用戶可以在Slack中@Claude，讓它讀取上下文、調用已授權工具，並在團隊協作場景中處理任務，目前Claude Tag調用的是Claude Opus 4.8模型。 ▲Anthropic推出Claude Tag功能（圖源：X） Anthropic稱，Claude Tag是Claude Code功能演進的新形態，目標是讓Claude從個人助手，變成可被整個團隊共同調用的協作成員。它可以隨著時間積累頻道上下文，逐步沉澱團隊知識，減少用戶反覆解釋背景的成本；在獲得授權後，Claude還可以連接其他頻道和數據源，主動識別相關信息、跟進擱置任務，並在數小時甚至數天內自主推進項目。目前，在Anthropic內部，@Claude已然成為其推進工作的重要方式，Anthropic產品團隊65%的代碼由Claude Tag內部版本創建。除工程場景外，Anthropic員工還會用它追蹤產品指標和數據、處理支持工單，或協助定位複雜Bug根因。前段時間剛加入Anthropic的“AI大神”安德烈·卡帕西（Andrej Karpathy）在社交平臺X發文，稱讚這一功能：Claude Tag代表了一種新的Claude交互範式，能讓Claude更深入地嵌入組織內部的日常協作中，這是大模型用戶界面與交互體驗（LLM UI/UX）的第三次重大重新設計。 ▲卡帕西稱讚Claude Tag功能（圖源：X）其他網友也在X上圍繞Claude Tag展開激烈討論。有人第一反應是“看來我現在需要一個Team賬號了”。 ▲網友圍繞Claude Tag功能討論（圖源：X）還有網友很快聯想到了微軟的Copilot，推測兩者有類似之處。 ▲

3 小時前閱讀分析

智東西生成式AI

對話亞馬遜雲科技全球VP：企業Agent落地的坑怎麼填

智東西作者 | ZeR0 編輯 | 漠影智東西6月24日報道，在昨日舉行的亞馬遜雲科技中國峰會期間，亞馬遜雲科技全球數據庫服務副總裁Ganapathy “G2” Krishnamoorthy與智東西等媒體進行深入交流。G2告訴智東西，亞馬遜雲科技已廣泛地使用其AI編程工具Kiro來構建新功能。 “對我們而言，安全始終是重中之重，因此我們在內部利用了許多這類工具來提升自身的安全與開發能力。”G2談道，“我們的一大優勢在於為構建者打造工具，而亞馬遜雲科技內部就擁有大量的雲原生構建者，這給我們提供了極其豐富的反饋。” 針對開發者應如何搭配選用Kiro、Claude Code等編程工具的問題，亞馬遜雲科技提供有各種工具，除了已被廣泛採用的Kiro外，也將OpenAI Codex和Claude Code提供給了開發者使用。其持續集成與持續部署（CI/CD）基礎設施能夠支持所有這些不同的工具。 “我們會從不同工具的實際運行中汲取經驗，從而為客戶提供最佳的開發體驗。”G2說。對於許多企業來說，將Agent引入企業真實場景中併產生價值，難點不在模型本身，而在於如何構建起工具連接、權限管控、可觀測性、治理審計體系，把模型能力穩定、安全、可治理地接入真實的業務系統。會上，小鵬集團、月之暗面、影石、獵豹移動等中國合作伙伴各自分享瞭如何使用亞馬遜雲科技的產品來為優化其業務。這些產品均來自亞馬遜雲科技構建的全棧Agentic AI技術，覆蓋從AI基礎設施、模型、數據與知識、Agentic AI平臺到Agent應用。 G2在與媒體交流時進一步分享道，為了讓構建的各大系統協同工作，亞馬遜雲科技投入了很大的精力：Amazon Bedrock團隊會確保每一個接入的模型都得到極致優化，AgentCore內部也支持Strands Agents等多種不同的Agent框架，以確保當這些框架、Amazon B

3 小時前閱讀分析