從 VCloud 到 Agentic VCloud:Agent 時代的範式重構
重點摘要
站在大同善化寺的大雄寶殿中,我打開與豆包的視頻通話,將鏡頭對準殿左右的金代彩塑,問道:“給我講講這些金代彩塑,哪幾尊塑像最值得細細端詳?”豆包會像真人講解一樣,先“看到和認出”彩塑,再“聽懂”問題,然後“思考”如何回答,最後說出答案。如果你也在景點或展覽中這樣向豆包提問過,會發現豆包的講解能力已經接近普通真人講解員的水準。留心觀察,你會發現越來越多像豆包一樣能看能聽、能想能說的 Agent 正出現在不同的生活和工作場景中。在它們身上,音視頻不再只是被人單向消費的內容,而是支持其面向真實世界進行輸入與輸出的重要能力。在人與 Agent 協同共存的趨勢下,視頻雲的任務不再只是保障內容流轉,還要支撐人與 Agent 之間的意圖交互。過去,音視頻是被消費的內容,視頻雲的主要任務是讓音視頻以更清晰、更穩定、更低延遲、更低成本的方式服務用戶,為人帶來更好的觀看和互動體驗。現在,Agent 成為了視頻雲的“超級用戶”,需要依靠視頻雲去感知世界、理解世界、執行任務、交付結果,只做好採集、傳輸、存儲、轉碼、分發和播放已經遠遠不夠了。視頻雲需要具備更多智能。火山引擎視頻與邊緣負責人王悅在2026火山引擎 FORCE 原動力大會智能視頻雲論壇上指出,Agent 時代的視頻雲既是人與AI協同的交互底座,也是 Agent 在多模態場景下進行感知、處理、表達與執行的重要能力層,更是智能應用連接真實世界的關鍵基礎設施之一。這意味著,視頻雲需要面向 Agent 時代完成一次自我重構:在繼續服務好人的同時,也要滿足好 Agent 提出的新需求。一、從 VCloud 到 Agentic VCloud在過去相當長的一段時間內,音視頻都是人們獲取信息的媒介,主要服務於傳播場景。從廣播、電視到後來的長視頻、短視頻、直播、播客,承載音視頻的產品形態在隨著技術發生變化,但服務的對象始終是人,服務的價值始終是滿足人的感官
站在大同善化寺的大雄寶殿中,我打開與豆包的視頻通話,將鏡頭對準殿左右的金代彩塑,問道:“給我講講這些金代彩塑,哪幾尊塑像最值得細細端詳?”豆包會像真人講解一樣,先“看到和認出”彩塑,再“聽懂”問題,然後“思考”如何回答,最後說出答案。如果你也在景點或展覽中這樣向豆包提問過,會發現豆包的講解能力已經接近普通真人講解員的水準。留心觀察,你會發現越來越多像豆包一樣能看能聽、能想能說的 Agent 正出現在不同的生活和工作場景中。在它們身上,音視頻不再只是被人單向消費的內容,而是支持其面向真實世界進行輸入與輸出的重要能力。在人與 Agent 協同共存的趨勢下,視頻雲的任務不再只是保障內容流轉,還要支撐人與 Agent 之間的意圖交互。過去,音視頻是被消費的內容,視頻雲的主要任務是讓音視頻以更清晰、更穩定、更低延遲、更低成本的方式服務用戶,為人帶來更好的觀看和互動體驗。現在,Agent 成為了視頻雲的“超級用戶”,需要依靠視頻雲去感知世界、理解世界、執行任務、交付結果,只做好採集、傳輸、存儲、轉碼、分發和播放已經遠遠不夠了。視頻雲需要具備更多智能。火山引擎視頻與邊緣負責人王悅在2026火山引擎 FORCE 原動力大會智能視頻雲論壇上指出,Agent 時代的視頻雲既是人與AI協同的交互底座,也是 Agent 在多模態場景下進行感知、處理、表達與執行的重要能力層,更是智能應用連接真實世界的關鍵基礎設施之一。這意味著,視頻雲需要面向 Agent 時代完成一次自我重構:在繼續服務好人的同時,也要滿足好 Agent 提出的新需求。一、從 VCloud 到 Agentic VCloud在過去相當長的一段時間內,音視頻都是人們獲取信息的媒介,主要服務於傳播場景。從廣播、電視到後來的長視頻、短視頻、直播、播客,承載音視頻的產品形態在隨著技術發生變化,但服務的對象始終是人,服務的價值始終是滿足人的感官體驗和內容獲取需求。隨之誕生的視頻雲,實際上是在解決如何兼顧極致的體驗和成本的問題。服務於這個目標,視頻雲形成了比較穩定的發展邏輯:更高畫質、更低延遲、更強併發、更優成本。這也是火山引擎視頻雲業務過去10年一直在積累的“抖音同款能力”——為數億用戶提供流暢穩定的視聽體驗。到2023年大模型興起之後,音視頻內容不再只是製作出來供人觀看的內容,還成為了 AI 感知世界、理解需求的重要媒介。再到2026年上半年,行業跑步進入 Agent 時代,音視頻又從AI感知的媒介,進化成為了 AI 與人實現意圖對齊、輸出任務成果的媒介。音視頻從內容媒介到交互媒介的變化,也給視頻雲的發展帶來了新變化。一方面,視頻雲仍然需要持續提供傳統技術能力。清晰度、低延遲、穩定性、併發能力和成本效率,仍然是視頻雲向外提供服務的工程地基。尤其在直播、電商、在線教育、泛娛樂和出海視頻服務中,存儲、帶寬、CDN、轉碼、RTC等能力依然決定了業務能否規模化運行。另一方面,新的任務已經變得非常明確——視頻雲的服務對象要從人擴展到人和Agent,讓更多產品享受到“豆包同款”的技術能力。OpenAI Realtime API、Google Gemini Multimodal Live API等產品的推出,也都在證明低延遲語音、視頻和多模態交互正在成為AI應用的關鍵能力。IDC 相關資料顯示,2025年上半年AI驅動的“音視頻AI實時互動與智能媒體生產”細分市場就已達到4000萬美元量級,同比實現大三位數增長。這意味著,視頻雲的新增量會來自AI應用對實時音視頻交互、智能媒體生產和任務交付能力的持續需求。要抓住這個機會,就得像王悅所說,視頻雲在 Agent 時代需要從“音視頻雲服務能力”進化為“連接人與 Agent 的新型智能音視頻能力底座”。最終,新的 Agentic VCloud 會成為 Agent 時代的一項主力基礎設施,而不只是像 VCloud 階段一樣只為音視頻領域提供服務。它應該讓一個企業的數字員工輕鬆聽懂會議語音並識別屏幕內容,也應該讓一個內容創作 Agent 輕鬆地把一句自然語言拆解成素材理解、畫質增強、剪輯、編碼和發佈流程。二、如何重構出 Agentic VCloud從 VCloud 到 Agentic VCloud,視頻雲的技術座標系也在進行一次本質躍遷。過去,視頻雲是服務人類感官體驗的內容系統,只面向人類用戶響應操作、提供功能;現在,視頻雲在全速邁入 Agent 意圖交付(Intent-to-Outcome) 的新時代,要面向 Agent完成意圖理解、能力編排、動態調度,並交付可驗證的結果。這會考驗視頻雲的底層架構是否面向 Agent 原生設計,能否提供 Agent 友好的標準化工具能力,能否在真實業務中實現高質量、規模化交付。滿足這些要求的視頻雲需要具備服務長週期任務鏈路的能力,包括持續感知、理解、推理、工具調用、環境反饋、結果交付。簡而言之,視頻雲要為 Agent 的完整任務鏈路提供技術底座。為此,火山引擎 Agentic VCloud 構建了兩項核心能力:多模態鏈路,負責支撐 Agent 的感知與環境反饋;AI MediaKit,負責支撐 Agent 的工具調用與結果交付。多模態鏈路是 Agent 的感知基礎設施。Agent 主要通過多模態鏈路來連接實時世界、獲取任務目標、得到環境反饋。只有讓 Agent 得到實時的、豐富的上下文信息,才能保證其準確、高效地執行任務。這條多模態鏈路會包括MoQ(Media over QUIC)多模態傳輸和多模態網關。其中,MoQ(Media over QUIC)多模態傳輸負責支撐信息的高效流動。它統一了媒體語義、媒體對象和媒體傳輸,能夠在 Agent 語義場景下同時解決低延遲和大規模併發難題,實現小於600ms Agent 建連時延與億級AI會話併發。多模態網關則要在大模型概率世界和確定的物理世界之間搭建語義橋樑,實現 Agent 與實時物理世界的連接,解決信息對齊的問題。為了避免Agent 把“戴爾”聽成“海爾”,火山引擎做到了支持10ms語義判停、多模態音畫同步以及 99.99% 的語義級可靠傳輸。AI MediaKit 則服務於 Agent 的行動,是Agent友好的音視頻開發套件,能把視頻雲積累的“能力組件”編排進“Agent意圖交付”的鏈路中。有了這個開發套件,當用戶對 Agent 說出“把這段直播錄製畫質提升後發佈到抖音”時,就不再需要指定編碼器、分辨率和增強算法,而是直接由 Agent 配合 AI MediaKit,把這句話的意圖解析成結構化需求,再完成編排、調度和結果交付。為了實現這種效果,AI MediaKit 構建了一個 Agent-Native 的三層架構:最上面是意圖層(Media Intent),面向Agent提供聲明式 API、端雲結合的CLI、媒體領域知識 Skill 和 LLM 原生的MCP 協議,能夠圍繞意圖聲明清楚“要什麼”以及“有哪些約束”;中間是媒體工作流層,能夠把“要什麼”和“有哪些約束”自動編排成可執行的算子級工作流,支持對圖像、音頻、視頻、文本四種模態內容的處理,具備感知、增強、編碼、剪輯、生成五類基礎能力;最底層是媒體運行時,是負責交付可驗證的音視頻產物的執行層。這一層能夠實現端雲結合,並能通過算法、算力、芯片和架構持續提升音視頻任務交付產物的完成度。在上一層編排完成的媒體工作流,會在這一層根據不同的任務複雜度被調度到端側或雲側上執行。雲上為執行高階任務提供了 Comet 編碼芯片、有GenVR音視頻增強等相應的高階能力,本地則會利用 FFmpeg 這類基礎能力完成基礎任務。火山引擎正是通過這種技術系統的重構,推動了視頻雲邁入 Agentic VCloud 階段。三、從比拼視頻體驗到比拼 Agent 落地從 VCloud 到 Agentic VCloud,視頻雲服務的鏈路也正在被拉長。過去,VCloud 更多是在某個環節提供能力支持,例如轉碼、分發、存儲、播放或實時通信;現在,Agentic VCloud 要進入 Agent 的完整任務鏈路,從理解意圖開始,參與編排、調度、執行和結果驗證。從被調用的能力模塊到支撐任務 Agent 落地的基礎設施,視頻雲的價值衡量維度也隨之產生變化。過去,視頻雲更多是在“保下限”:別卡頓、別變糊、別宕機,同時把帶寬和算力成本壓下去。Agent 時代的視頻雲還要“提上限”:讓 AI 能夠精準理解音視頻上下文,用自然語言觸發複雜工作流,並交付達到企業級可用標準的結果。“今天我們可以很容易地把音視頻任務的完成度做到20%,努努力也可以做到60%。但是在企業級場景中,20%的完成度不過是玩具,60%的完成度也只算一個Demo,連及格線都談不上。我們認為,突破90%的完成度,才算真正邁過企業級產品的門檻。”火山引擎多媒體基礎產品負責人杜佑表示,結果的完成度才是行動的終點。價值衡量維度的變化,也會帶來視頻雲競爭邏輯的變化。功能、參數和成本,這些能力依然重要,但會越來越像進入賽道的入場券,而不再是決定性差異。新的競爭焦點變成了:誰能把模型、媒體處理、實時通信、工具調用、算力調度和行業 Know-how 組合成穩定閉環;誰能讓 Agent 在真實業務裡完成長週期任務;誰能在成本可控的前提下,把任務完成度從 Demo 水平推到企業級水平。這也在一定程度上體現了火山引擎提出建設 Agentic VCloud 的行業意義。它不是一次單純的產品升級,而是視頻雲進入新週期的信號:當視頻從信息載體變成任務載體,當視頻雲從內容基礎設施變成 Agent 基礎設施,行業的價值邊界就會被重新定義。這也是一個重構市場格局的節點。誰能更快完成周期切換,誰就更有可能在 Agent 時代建立新的服務能力和競爭優勢。
Related
相關文章

GPT5.6慘遭切腦,Fable 5迴歸要變弱雞版?
這篇消息聚焦「GPT5.6慘遭切腦,Fable 5迴歸要變弱雞版?」。原始導語提到:美國AI,「閉關鎖國」? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Anthropic最新報告摸透全球打工人:凌晨5點求睡眠,晚6點問菜譜
這篇消息聚焦「Anthropic最新報告摸透全球打工人:凌晨5點求睡眠,晚6點問菜譜」。原始導語提到:白天,Claude是高薪打工人的生產力引擎;深夜,它成了唯一知道你還醒著的那個。一份報告,意外照出了幾百萬人藏起來的24小時。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

獨家|獲超億美元融資,Sand.ai 曹越:為什麼視頻是通往世界模型最重要的路徑
這篇消息聚焦「獨家|獲超億美元融資,Sand.ai 曹越:為什麼視頻是通往世界模型最重要的路徑」。原始導語提到:“每一代模型,我們都在押注一個非共識。” 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發
這篇消息聚焦「北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發」。原始導語提到:北京太空算力創新中心採用“公司 + 聯盟”雙輪驅動模式,運營主體為北京天算星聯科技有限公司。創新中心承擔四類核心職能。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
讓AI自己修服務器?先過了這場“火線測試”再說
智東西 作者 | 陳駿達 編輯 | 漠影 隨著大模型能力持續提升,智能體正從聊天、寫作等輔助場景走向軟件開發、網絡管理和基礎設施運維等生產環節。尤其在AI基礎設施領域,面對龐大的GPU集群和複雜架構,越來越多企業開始嘗試讓智能體承擔故障排查、告警分析和資源管理等工作,以提升運維效率並降低人力成本。 然而,運維場景對智能體構成了空前挑戰。AI算力集群運維橫跨GPU硬件、網絡通信、分佈式存儲、容器編排、訓練框架等多個技術棧,問題現象往往模糊、不完整甚至相互矛盾,智能體需要在開放環境中主動探索、反覆驗證,自行界定問題並尋求解決路徑。 要提升智能體在此類複雜場景的綜合能力,一套與之匹配的評測基準不可或缺。但當前行業恰恰缺乏對這種多步推理、開放決策過程的系統化評估能力,導致運維智能體研發長期“無標可依”,進展評估與方向校準均缺乏牽引。 正是在這樣的背景下,中國信息通信研究院開源了全球首個面向AI Infra運維場景的智能體評測基準——AISHPerf-智算運維智能體評測基準,國內頭部AI原生基礎設施企業無問芯穹重點參與技術建設。 這套基準源自百億條真實運維數據,不再只關注“會不會回答問題”,而是聚焦智能體“能不能解決問題”,為運維智能體能力評估提供了一套貼近真實生產環境的參考標準。 一、百億條運維數據,煉出103道“考題” 任何評測體系的價值,最終都建立在數據質量之上。對於運維智能體而言尤其如此。因為真實世界中的故障往往具有高度隨機性和複雜性,許多問題並不存在標準答案,甚至需要跨越多個技術棧進行聯合分析。如果評測數據脫離真實生產環境,即使得到再高的測試分數,也很難證明智能體具備實際應用價值。 無問芯穹之所以能夠重點參與這一評測基準的技術建設,與其在AI基礎設施領域的長期實踐密切相關。根據披露的信息,其早在2025年便已將運維智能體應用到實際訓練推理業務中,並取得明顯成效。工單平均處理
OceanBase發佈AI數據庫三件套,TOC最高降50%,螞蟻、靈光都在用
智東西 作者 | 王涵 編輯 | 雲鵬 智東西6月29日報道,今天,OceanBase發佈湖庫一體AI數據庫產品OceanBase Lakebase,該產品面向Agent應用,原生支持多模態數據管理。 “數據湖”是一種集中式存儲架構,可以存儲結構化、半結構化、非結構化等不同類型的數據。Lakebase融合了“數據湖”架構的開放性和“數據庫”架構的功能性,讓結構化數據、非結構化數據和向量數據能夠在統一架構中被管理、加工、檢索和調用。 基於此,OceanBase還發布了數據生產、治理和服務工作臺OceanBase DataStudio,以及面向經營分析和業務決策的數據智能Agent OceanBase DataPilot兩個產品。 OceanBase DataStudio覆蓋數據接入、數據加工、任務編排、語義建模、數據治理到Agent協作等環節,幫助企業把分散的數據資產轉化為可管理、可理解、可調用的數據服務。 OceanBase DataPilot作為統一的企業業務智能入口,讓業務人員可以通過自然語言完成分析報告、數據看板和可信答案生成,把過去依賴專業數據團隊完成的分析流程,轉化為可交互、可追問、可複用的智能決策能力。 智東西等媒體與OceanBase CEO楊冰、CTO楊傳輝,進行了面對面的交流。 楊冰認為,AI正在改變數據的管理方式,數據使用者和數據形態都發生了變化。數據使用者的改變帶來了三大挑戰:VibeCoding帶來了海量Agent應用;Agent開始執行生產任務;Agent長期運行的正確性和自我進化。數據形態改變,則為非結構化數據成為可計算資產、數據要主動流轉、數據要理解任務。 兩者作用疊加,OceanBase給出判斷:在AI時代,數據庫應該是湖庫一體的。 OceanBase內部的AI轉型也在進行中。楊冰透露,OceanBase已將內核團隊分為“一體化數據庫”和“A