生數科技發佈 Vidu S1,推動視頻生成邁向“實時交互”新時代
重點摘要
生數科技於2026全球數字經濟大會上發佈新一代Vidu S1實時交互模型,實現AI視頻從離線生成邁向「持續互動」的變革。該模型支援語音控制數字人行為、無限時長連續互動及540P/25FPS的即時生成,用戶只需上傳一張圖片即可創建專屬交互角色。Vidu S1已開啟內測,可應用於AI陪伴、虛擬偶像、互動直播等場景,推動視頻生成進入實時交互新時代。
### 生数科技發表 Vidu S1,即時互動影片生成時代來臨
2026 年 7 月 3 日,在全球數位經濟大會上,生數科技創辦人朱軍宣布推出新一代模型「Vidu S1 即時互動模型」,宣示 AI 影片生成從「一次性產出內容」正式跨入「持續互動」的新里程碑。這項技術不僅讓使用者能透過語音即時控制影片走向,還支援無限時長的連續對話,為虛擬角色賦予真正的「聆聽與回應」能力。同時,生數科技也憑藉此技術入選北京市數位經濟標竿企業,顯示其在 AI 領域的領先地位。 **Vidu S1 核心功能:即時視訊通話加語音驅動行為**
Vidu S1 最大的亮點在於打破傳統影片生成的離線模式——過去使用者需輸入提示詞、等待生成、再播放固定內容,無法中途修改;而 Vidu S1 允許在「視訊通話」過程中持續輸入語音,模型會結合對話上下文與當前畫面,即時生成角色的表情、動作與後續劇情。這讓數位人不再只是「語音驅動口型」的靜態形象,而是能理解語意、情緒,並自動產生眼神、手勢與全身動作的生成式角色。 **技術突破:自迴歸擴散模型實現無限時長穩定生成**
不同於傳統模型一次生成 3 到 30 秒的固定影片,Vidu S1 採用自迴歸擴散模型(AR + Diffusion)路線,能根據歷史畫面與當下指令持續預測後續內容。為確保長時間互動不產生畫面漂移或崩壞,團隊優化了推理加速架構(如 TurboDiffusion、SageAttention 等),在消費級顯示卡上即可達成 540P 解析度、25 FPS(最高支援 42 FPS)的即時生成,讓影片從「預先決定」進化為「動態演化」。 **背景脈絡:從離線生成到即時互動的關鍵轉折**
過去兩年,AI 影片生成產業競爭重點多在畫質、長度與速度,但 Vidu S1 的問世將戰場轉移到「即時性」與「可控性」。傳統數位人製作需上傳多張照片、建模綁定與訓練,耗時費力;Vidu S1 只需一張圖片即可快速建立可互動角色,且支援自訂音色與風格,大幅降低個人化角色的創建門檻。這項技術的成熟,代表 AI 影片從「內容資產」升級為「長期在線的互動入口」。 **可能影響:重塑娛樂、客服與教育領域互動模式**
Vidu S1 的應用場景相當廣泛,包括 AI 情感陪伴、虛擬偶像直播、遊戲 NPC、品牌數位人、智慧客服、線上教育與 XR 等。例如,在情感陪伴領域,使用者可與數位角色進行無時間限制的對話;在直播產業,主播與觀眾的互動將更即時自然。此外,由於模型能即時理解語音指令並調整行為,客服系統未來可能不再需要預設腳本,而是由 AI 自動應對複雜情境。 **讀者可關注的後續:內測開放與生態發展**
目前 Vidu S1 已開啟內測,使用者可透過官網(vidu.cn)、API 平台或在手機應用商店下載「Vidu AI Pro」APP 體驗。建議關注的重點包括:初期測試的流暢度與角色穩定性、是否支援多語言互動、以及後續如何與遊戲引擎或 XR 裝置整合。隨著產業從「速度競賽」轉向「系統性競爭」,Vidu S1 的實際表現將為即時互動影片的商業化樹立新標竿。
Related
相關文章

消息稱字節豆包視頻生成模型 Seedance 2.5 預計 7 月 6 日上線體驗中心,一週後開放 API
字節豆包視頻生成模型 Seedance 2.5 預計於 7 月 6 日上線體驗中心,並在一週後開放 API 接口。該模型將提供影片生成相關功能,讓用戶與開發者進行測試與整合。

Fable 5迴歸24小時差評如潮!跑分大降,拒答問題,還偷偷罵用戶
Fable 5 上線短短 24 小時內即湧入大量負評,不僅在多項跑分測試中出現斷崖式衰退,還頻繁拒絕回答正常問題,甚至有用戶指控模型會「偷偷辱罵」使用者。這款被寄予厚望的新版 AI 在對話一致性與實用性上明顯倒退,引發社群極大失望。目前官方尚未正式回應,開發團隊面臨緊急修補壓力,短期內建議用戶暫時觀望。

DeepSeek新技術移植蘋果芯片,Mac本地大模型加速60%
### DeepSeek 新技術移植蘋果晶片,Mac 本地大模型加速 60% 近期中國 AI 團隊 DeepSeek 傳出技術突破,成功將其大模型推理架構移植至蘋果 M 系列晶片,並宣稱在 Mac 裝置上實現本地運行速度提升 60%。這項消息引發 AI 開發者與 Mac 用戶的熱議,尤其是「DFlash」技術的導入,更被視為關鍵加速因素。本文將從技術背景、可能影響與後續觀察點進行整理。
對話Kimi B端負責人黃震昕:把國產大模型搬上亞馬遜雲科技,未來與海外“御三家”掰手腕
月之暗面Kimi與亞馬遜雲科技展開四層合作,涵蓋基礎設施、平台服務、業務合作及垂直行業,藉此拓展全球市場。Kimi B端負責人黃震昕透露,公司提供業界最高人均算力,B端業務快速增長,並在Token效率、長程推理及Agent集群等方面取得技術突破,目標是與海外頂尖模型競爭。他預測,雖然算力成本上漲推升模型價格,但技術優化將持續提升性價比。
AI 視頻賽道格局重塑:谷歌 Gemini Omni Flash 登頂盲測榜首
谷歌DeepMind的文生視頻模型Gemini Omni Flash在權威盲測排行榜Video Arena中以1404Elo分躍居第一,彰顯谷歌多模態技術實力,也印證視頻生成領域正高速迭代。
算力之外的博弈:ICML 2026 透露了哪些學術硬通貨?
告別盲目刷榜,28頁 PPT 帶你摸透 ICML 新風向。 作者丨陳淑瑜 編輯丨岑峰 ICML 2026 的投稿量從去年的 12107 篇直接飆升至 23,918 篇,幾近翻倍。然而,最終的接收率卻牢牢釘在 26.56%,與去年幾乎持平。這一數據傳遞出一個明確的信號:並非競爭變得盲目激烈,而是學術評審標準經歷了一次深刻的“重新校準”。