MarkTechPost AI研究與前沿

StepFun Releases StepAudio 2.5 Realtime: An End-to-End Voice Model with Roleplay-Specific RLHF and Paralinguistic Comprehension

2026年5月24日 22:51
StepFun Releases StepAudio 2.5 Realtime: An End-to-End Voice Model with Roleplay-Specific RLHF and Paralinguistic Comprehension

重點摘要

StepFun, the Shanghai-based AI lab, released StepAudio 2.5 Realtime in May 2026 — an end-to-end real-time speech large language model with fully customizable persona capabilities. The model connects via a WebSocket API, supports Chinese and English, and ranked first across all five benchmark dimensions tested in April 2026, including an 80.41 human evaluation score and 82.18 on paralinguistic comprehension. The post StepFun Releases StepAudio 2.5 Realtime: An End-to-End Voice Model with Roleplay

站內 AI 整理稿

上海 AI 實驗室 StepFun 於 2026 年 5 月正式發表 StepAudio 2.5 Realtime,這是一款端到端的即時語音模型。其最大特色在於導入專為角色扮演設計的 RLHF(強化學習人類反饋),並具備副語言理解能力,能捕捉語調、情緒等非語言線索。

此模型延續 StepFun 在語音 AI 領域的技術路線,從過往的靜態語音生成進化至即時互動版本。角色扮演專用的 RLHF 意味著模型在訓練時特別強化了角色設定的連貫性與對話自然度,讓虛擬角色能更貼近人類真實互動。

副語言理解的加入,讓模型不僅能「聽懂」文字內容,還能解讀說話者的情緒、語氣變化與停頓。這項能力對於打造具沉浸感的虛擬角色相當關鍵,也讓語音助手或遊戲 NPC 的對話回饋更有人味。

在應用層面,StepAudio 2.5 Realtime 可能首先影響遊戲產業中的非玩家角色互動,以及客服系統中更人性化的語音應答。此外,也能用於教育或心理諮詢場景,需要細膩語氣判斷的情境將因此受惠。

讀者後續可留意 StepFun 是否會開放模型測試或 API 使用權限,以及業界對其語音理解與角色扮演效果的評測結果。同時,與 OpenAI 或 Google 等既有語音模型的比較,也將是觀察這項技術定位的重要指標。

Related

相關文章

GPT發AI原創新成果了

這篇消息聚焦「GPT發AI原創新成果了」。原始導語提到:AI實現藥物全自動研發,還遠嗎? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛

AI越強,越要“殺死”過去的自己

這篇消息聚焦「AI越強,越要“殺死”過去的自己」。原始導語提到:人類需要實現思維模式的轉變。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 小時前
MarkTechPost AI研究與前沿

Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks

In this tutorial, we implement an end-to-end workflow for Salesforce CodeGen. We load a CodeGen model from Hugging Face, prepare it for code generation, and use it to generate Python functions from natural-language prompts. We then move beyond basic inference by adding function extraction, syntax checking, static safety checks, unit-test-based validation, best-of-N candidate reranking, multi-step program synthesis, prompt-style experimentation, benchmark visualization, and artifact export. Through this workflow, we learn how CodeGen can be used not only as a code completion model but also as part of a structured code-generation pipeline that evaluates, filters, and organizes generated solutions. Loading the Salesforce CodeGen Model from Hugging Face Copy CodeCopiedUse a different Browserim

8 小時前

Transformer之父離開谷歌,奧特曼等了他十年

這篇消息聚焦「Transformer之父離開谷歌,奧特曼等了他十年」。原始導語提到:27億美元也沒能留住,Noam Shazeer追尋下一代架構。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

16 小時前

Dario訪談首曝:Mythos被稱為“超級武器”

這篇消息聚焦「Dario訪談首曝:Mythos被稱為“超級武器”」。原始導語提到:在這場69分鐘完整訪談裡,Dario Amodei 說人類真正面對的不是某個突然降臨的奇點,而是一條已經開始垂直起飛的指數曲線。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

19 小時前

用結構替代數據,因果世界模型如何重塑具身智能大腦

這篇消息聚焦「用結構替代數據,因果世界模型如何重塑具身智能大腦」。原始導語提到:因果世界模型需要一個標誌性的時刻來證明自己。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

20 小時前