雷峰網生成式AI

一線對談丨「龍蝦」過後,百度不想再卷Token了

2026年6月29日 06:22

重點摘要

李彥宏第一次提到“DAA”這個新詞,是今年元旦前後,在百度內部的一次彙報會上。當時團隊展示了一家車企的智能體應用情況,彙報中列出了調用次數、Token消耗等常見指標。李彥宏卻追問了一個問題:有多少個智能體在活躍?後來,這個問題逐漸演變成了 Create 大會上被正式提出的 DAA(Daily Active Agent,日活躍智能體數)。如果說移動互聯網時代最重要的指標是 DAU,那麼在智能體時代,百度試圖用 DAA 去回答另一件事:究竟有多少 Agent 真正在持續工作和被使用,併為企業創造價值。過去兩年,大模型行業最常見的增長指標是調用次數、Token消耗和推理成本。尤其是今年以來,隨著龍蝦、Agent Harness快速普及,越來越多非技術用戶開始直接使用智能體完成工作,Token需求被進一步放大,供需關係也隨之發生變化。不少從業者看來,AI行業正進入新一輪調用量競爭週期。價格、規模和市場份額,成為雲廠商最關注的話題。但作為百度智能雲AI與大模型平臺總經理忻舟給出了另一種觀察:他認為,市場高估了龍蝦帶來的短期變化,卻低估了支撐龍蝦運行的harness對企業智能應用落地的長期影響。“用戶其實不關心 Token 消耗量,他更看重任務效果。”忻舟表示,能長期留下的,都是已經進入業務流程、持續產生結果的 Agent。一旦智能體進入企業業務流程,開始參與供應鏈管理、港口調度、代碼開發、數據分析等具體工作,它所創造的價值就會沉澱下來。此時衡量業務健康度的標準,也會從資源消耗轉向價值創造。這種判斷也影響了百度智能雲的策略選擇。當行業仍在討論價格戰和調用量增長時,百度更關注的是AI能否真正進入企業生產系統。雲賽道沒有“標準答案”,選擇更符合公司實際情況的戰略,才更加重要。過去行業裡的雲廠商更偏向“賣資源”;而百度智能雲已經在帶著工程師駐場、做 POC、啃國央企流程,把 AI 真正落進業

站內 AI 整理稿

李彥宏第一次提到“DAA”這個新詞,是今年元旦前後,在百度內部的一次彙報會上。當時團隊展示了一家車企的智能體應用情況,彙報中列出了調用次數、Token消耗等常見指標。李彥宏卻追問了一個問題:有多少個智能體在活躍?後來,這個問題逐漸演變成了 Create 大會上被正式提出的 DAA(Daily Active Agent,日活躍智能體數)。如果說移動互聯網時代最重要的指標是 DAU,那麼在智能體時代,百度試圖用 DAA 去回答另一件事:究竟有多少 Agent 真正在持續工作和被使用,併為企業創造價值。過去兩年,大模型行業最常見的增長指標是調用次數、Token消耗和推理成本。尤其是今年以來,隨著龍蝦、Agent Harness快速普及,越來越多非技術用戶開始直接使用智能體完成工作,Token需求被進一步放大,供需關係也隨之發生變化。不少從業者看來,AI行業正進入新一輪調用量競爭週期。價格、規模和市場份額,成為雲廠商最關注的話題。但作為百度智能雲AI與大模型平臺總經理忻舟給出了另一種觀察:他認為,市場高估了龍蝦帶來的短期變化,卻低估了支撐龍蝦運行的harness對企業智能應用落地的長期影響。“用戶其實不關心 Token 消耗量,他更看重任務效果。”忻舟表示,能長期留下的,都是已經進入業務流程、持續產生結果的 Agent。一旦智能體進入企業業務流程,開始參與供應鏈管理、港口調度、代碼開發、數據分析等具體工作,它所創造的價值就會沉澱下來。此時衡量業務健康度的標準,也會從資源消耗轉向價值創造。這種判斷也影響了百度智能雲的策略選擇。當行業仍在討論價格戰和調用量增長時,百度更關注的是AI能否真正進入企業生產系統。雲賽道沒有“標準答案”,選擇更符合公司實際情況的戰略,才更加重要。過去行業裡的雲廠商更偏向“賣資源”;而百度智能雲已經在帶著工程師駐場、做 POC、啃國央企流程,把 AI 真正落進業務系統。港口調度、供應鏈優化,生產排程、風阻計算、AI Coding,本質上都是同一件事:AI 開始從“提供能力”,變成“直接參與結果”。在長達近兩個小時的深度對話中,忻舟沒有迴避落地陣痛,也坦陳了當下面臨的算力瓶頸與交付壓力,我們聊了公有云、Agentic AI 、ToB 交付的陣痛。忻舟也向我們透露了一份落地紮實的成績單:“伐謀”通過解決集裝箱配載的算法優化,每年能為港口省下上千萬元成本;數據智能平臺“勝算”,在製造、物流等客戶實地 POC 測試中實現了零差評,讓客戶直接拍出預算。也正是在這些產業落地的基礎上,百度智能雲在今年 Create 上宣佈全面升級為面向大規模智能體應用的新全棧 AI 雲:一邊依託崑崙芯、AI 雲、文心大模型和智能體能力,打造單位 Token 智能水平更高的 Agent Infra;另一邊繼續強化每瓦性能更強、性價比更高的 AI Infra。以下是雷峰網和忻舟的對話實錄,雷峰網做了不變原意的調整和編輯:01 怎麼評判AI 業務健康度?雷峰網:我們關注到百度Q1財報 AI 收入超過 52%,這部分收入主要由哪些構成?現在的收入結構,距離你理想中那種“能自增長”的健康狀態,還有多遠?忻舟:GPU 雲肯定是其中很大的一塊,這是最底層、最基礎的設施,不管做什麼都需要 GPU 雲,所以增長非常快,Q1財報數據,百度智能雲GPU收入同比增長184%。第二塊是 AI 應用,包括網盤、文庫、秒噠、伐謀、數字人等。這部分增長也非常快,根據Q1財報,已經帶來了25億元收入。去年整個行業其實都在考核調用量 KPI,我覺得那時候行業整體不算特別健康。很多廠商其實是貼著成本甚至虧本在賣。因為很多模型本身都是開源的。除了豆包這種不開源模型之外,像 DeepSeek、Kimi 等模型基本都開源。大家推理性能和成本不會差太多,可能你比我好 5%、10%,最多差 20%,不會出現數量級差距。大家做技術、做工程的,都會知道優化極限在哪裡。但今年不一樣了。現在很多 Token可能原價都拿不到,尤其是量大的時候。資源稀缺的時候,本質上就是賣方市場。從財務角度看,我們現在很多業務某種程度上也是健康的,因為毛利是正的。但我們也在考慮:這種健康能持續多久?它到底只是階段性的供需關係,還是一種能長期創造業務價值的能力?我自己的判斷是,一個業務離客戶價值越近,它就越健康。如果只是賣資源,哪怕現在毛利很好,也會受到供給變化影響。比如未來英偉達產能提升,或者國產芯片成熟,供應不再稀缺,那資源生意的毛利一定會越來越低。但如果這個業務本身能夠長期增長,並且持續積累經驗、數據和方法論,形成飛輪效應,不會因為底層資源價格波動就被影響,那它才是真正健康的業務。雷峰網:今天的百度智能雲怎麼看業務的健康度?尤其是在 DeepSeek V4 出來把價格又掀翻一次之後,百度智能雲的定價難度是不是變大了?忻舟:首先,定價一定是對應具體產品的,所以得先談產品,再談定價。在智能體時代,行業目前最普遍的業務指標,還是 Token 調用量。更早之前,大家看的是調用次數;後來發現,同樣一次調用,消耗的 Token 差異很大,所以 Token 比調用次數更能反映真實使用情況。再往前,其實大家看的甚至是 GPU 使用量。本質上,這些都屬於“物理指標”——因為它們最容易被統計。行業的發展,往往也是從最容易量化的指標開始衡量業務健康度。再往上走,就是 Robin 在 Create 大會上提到的 DAA(Daily Active Agent,日活躍智能體)。相比 Token,DAA 已經更接近“價值”本身了。因為只有 Agent 真正有價值,用戶才會持續調用它。DAA背後的邏輯是:智能體到底給客戶帶來了多少收益。比如增收了多少、節省了多少成本、提升了多少效率。相同的 Token 消耗,在不同場景下創造的價值可能完全不同——有的只是節省一點成本,有的卻可能直接帶來十倍收益。目前來看,Token 是可統計的;但哪些 Token 真正產生了價值、哪些只是無效消耗,其實很難準確衡量。所以 Robin 提出 DAA,本質上是希望找到一個比 Token 更接近價值的指標。未來可能還會繼續演進。比如出現更接近價值的自動化統計方式,或者直接進入“按結果付費”。因為客戶願意為 Token 付多少錢,其實差異不大;真正能拉開差距的,是客戶願意為哪個智能體付多少錢。越往後走,衡量業務健康度的核心,可能會逐漸變成超級智能體、通用智能體的收入情況。所以我覺得,這是一個逐層演進的過程:最開始是調用次數,後來是 Token,再後來是 DAA,未來可能還會出現新的指標。現在我們除了看 Token,也會重點看智能體相關業務的 ARR (年化訂閱收入)。用戶願意持續付費,說明這個產品有價值。雷峰網:聽起來挺有意思的,所以這個DAA的提出是基於千帆私有化場景?忻舟:不是專門針對私有化。雷峰網:我們知道私有化部署在2023年就很熱了,很多做私有化的公司其實是一錘子買賣,機器賣出去,後面跟每日調用次數關係不大。那麼現在呢?忻舟:當時很多企業做 AI 轉型,其實是自上而下推動的。比如金融行業,會有監管要求,需要統一管理模型風險,於是就需要一個平臺去統一納管各種機器學習模型和算法,比如 XGBoost、GBM 等。那也是金融行業從“規則系統”向“機器學習系統”轉型的階段。過去很多風控邏輯,本質上是評分卡、規則樹;後來開始引入大規模邏輯迴歸等機器學習方法。這也是為什麼當時做私有化部署這類公司,需要把平臺、算法、管理能力一起打包推進。所以那個階段,它們確實給金融行業的算法轉型帶來了價值。但問題也很明顯,很多項目交付時效果很好,驗收也沒問題,但往往需要大量工程師駐場。一旦撤場,客戶內部團隊接起來就比較吃力。歸根結底,還是技術門檻太高。而且金融行業已經算是 IT 能力比較強的行業了。如果放到製造業、交通這些傳統行業,問題會更明顯。所以行業當時面臨的是同一個問題:平臺本身不是不好,而是客戶“用不起來”。後來私有化部署公司除了賣平臺、賣算法,也開始賣機器,其實很大一部分收入來自硬件。真正的變化,是從 2022 年底 ChatGPT 出現後開始的。最大的變化,是技術門檻被大幅拉低了。與此同時,很多互聯網、大廠的人才也開始流向傳統行業,企業內部整體的技術能力也在提升。於是,新技術第一次開始真正被客戶“用起來”。再往後,像 OpenClaw 這類產品出現後,變化就更明顯了。它本質上其實更偏“產品革新”,而不只是技術革新。它通過 memory、交互方式等設計,大幅降低了使用門檻。百度內部把這類產品叫“通用智能體”。它最大的變化在於:普通業務人員不需要會寫代碼,只要有業務經驗,就能和系統完成交互。系統會逐漸學習、蒸餾用戶的工作方式,並形成對應能力。與此同時,系統本身也在不斷迭代。包括 Harness 的迭代、模型的迭代、skills 創建與更新的迭代,本質上都在持續降低門檻、提升效果。這意味著,通用智能體第一次真正具備了在企業內部大規模普及的條件。一旦普通人也能使用,用戶規模就可能擴大 10 倍、100 倍。用戶一多,很多好的業務場景和創新自然就會冒出來。而且現在還出現了“超級智能體”。一些以前做不到的事情,現在開始真正跑通。比如百度的“伐謀”、“秒噠”。以港口為例,我們在 Create 大會上提到的配載場景,相比原有智能管控系統,優化效果提升了 10%,每年預計能節省上千萬元成本。而且這還只是一個場景。現在已經在繼續擴展更多場景。客戶願意為這件事付很多錢,因為它創造的是實打實的業務價值。所以歸根結底,過去私有化平臺之所以跑不起來,並不是平臺不行,而是當時技術成熟度和客戶組織能力都還沒到那個階段。現在,技術突破、產品門檻下降,再加上企業組織能力提升,整個行業開始真正進入“能用起來”的階段了。雷峰網:現在 GPU 雲收入裡,私有化和公有云大概各佔多少?私有化收入一般算在哪一塊?忻舟:肯定是公有云佔大頭。私有化主要是賣軟件。所以在體量上 GPU 公有云目前最大。短期內這是一個正毛利的好業務,但長期來看,我們肯定不能只靠賣 GPU 雲,要靠 PaaS 和 SaaS 帶來新增長。02 價格戰打到今天,廠商還在爭什麼?雷峰網:靠囤 GPU、賣 Token 的生意,您怎麼看?忻舟:小廠商抗風險能力差,資金到位慢對他們就是致命風險,這體現了雲廠商的規模優勢 。更重要的是,如果沒有技術,囤卡的小廠本質上只是倒買倒賣大宗商品的“貿易公司” 。要把算力卡變成穩定的 Token 資源,中間需要強大的AI基礎設施、計算通信網絡和 MaaS 服務能力,以及 99.95% 的穩定性要求 。雲廠商屬於“加工貿易一體”的加工商,加了很多技術屬性在裡面,加上規模效應,所以抗風險能力強得多 。目前 GPU 雲收入主要是公有云,這是一個正毛利的好業務,但長期來看,我們肯定還是要發展 PaaS 和 SaaS,來鞏固雲資源的售賣並帶來新增長 。雷峰網:很多財大氣粗的廠商在貼本甚至賠本賣 Token,這種策略有可行性或價值嗎? 忻舟:這是一個戰略判斷問題,核心在於賭 Token 到底有沒有粘性,以及賣 Token 能不能帶動 CPU 等其他雲資源的消耗。去年業界普遍認為模型在併發、上下文長度等工程體驗上有細微差別,客戶遷移也需要重新測試,存在一定的遷移成本,所以有廠商願意用比較激進的價格先把量帶起來,再去驗證客戶能不能沉澱下來,以及能不能帶動其他雲資源的消耗。但百度當時的判斷是,Token 調用本質是更接近標準化、無狀態的服務,粘性沒有那麼強,客戶隨時可以切走 。其次,我們從數據和案例上也沒有看到非常強的“Tokens賣量帶動 CPU 雲消耗”的必然關聯。基於這兩個判斷,我們當時認為,單純靠虧著賣、負毛利賣 Token,並不是特別划算。現在行業也逐步迴歸理性,大家更關注正毛利、可持續交付和真實業務價值,這也和我們當時的判斷基本一致。雷峰網:這和各家自建 Agent 平臺的技術路線有關嗎?忻舟:還沒到 Agent,當時比的純粹是 Token 推理。即使是千帆智能體平臺,我們也可以解耦,去對接客戶已有的 MaaS 或其他雲的 MaaS。這種可解耦性正是 Token 粘性很低的原因之一。雷峰網:怎麼判斷 TOKEN 的粘性?忻舟:一是直覺判斷,它是標準程度很高的服務,並且沒有狀態,你今天不提供了,客戶馬上切下一家。二是從數據上看,賣 Token 換取整體雲消耗的關聯度,是不是能把賬算過來。雷峰網:那百度會對調用量焦慮嗎?提出 DAA,是不是也和這種焦慮有關?忻舟:只要指標比別人差都會有焦慮,會有來自各方的壓力。但我們還是堅持長期主義,想看真正對客戶有價值的指標和衡量方式是什麼。雷峰網:OpenClaw 這類通用智能體,對雲廠商還有長期影響嗎?忻舟:人們往往高估了短期的影響,而低估了長期的影響 。OpenClaw類產品雖然是短期爆火的極客產品,但它的長期影響巨大。最本質的變化在於:第一,它把業務專家的知識和經驗顯式地沉澱下來變成了 Skills,並且這些經驗能夠進行動態自我更新與進化。第二,通用性非常強,使用門檻非常低。用戶規模擴大了 10 倍乃至 100 倍,普通業務人員可以直接使用,一定會催生大量高價值應用 。基於後訓練技術、指令遵循和強化學習的技術,在最近一兩年才真正成熟。比如百度搭子DuMate(通用智能體)這個產品的開發中,AI 編碼率幾乎已經達到 90%。03 “龍蝦架構”後,Token 還重要嗎?雷峰網:OpenClaw 掀起這一輪情緒波動後,百度智能雲受到的影響大嗎?忻舟:從 Token 調用量等實際業務指標來看,沒有因為龍蝦近期的降溫而跟著向下波動,相對的,一直在快速上升。因為很多企業看到了這種技術產品的價值,把記憶、主動、自進化等技術和產品思想借鑑融入到了自己的產品中 。只要產品有價值,就會持續消耗 Token 。雖然市場聲量在起伏,但實際業務資源的需求依然遠大於供應 。以目前市面上一些百萬、千萬DAU的bot類應用為例,它們並沒有用上最新的技術框架,因為在沒有找到很好的商業變現模式前,他們承受不起高昂的 Token 消耗成本 。也就是說,資源需求並不是不夠大,而是已經被成本問題提前壓住了。只有當 Token 消耗降到現在的十分之一,甚至更低,這類高 DAU 應用才可能真正大規模接入最新技術。到那時,市場需求會進一步釋放,市場天花板遠沒有到。雷峰網:很多時候,外界看到的行業變化,和廠商內部真實感受到的變化,其實差別很大。我們原本會很自然地覺得,像 OpenClaw 這類產品出來之後,雲廠商的調用量應該會立刻爆發。忻舟:對,現在雲調用量其實已經起來了。但問題在於,調用量起來,不代表商業模式已經成立。現在整個行業其實已經是典型的“需求遠大於供應”,所以在這個階段,行業其實會同時往兩個方向走。一個方向是繼續往上衝效果,先去探索任務能力的天花板,先不那麼在意 Token 成本,看看 AI 最終到底能把任務做到什麼程度;另一個方向則是在已經確認效果能滿足要求的情況下,拼命想辦法降低成本。所以從這個角度看,現在市場討論的很多“調用量增長”,其實並不會改變 Token 市場整體供需偏緊這件事。因為當前整個行業,本質上還是需求遠遠大於供應。雷峰網:如果這樣看的話,百度策略是在探索產品效果天花板,還是在降本? 忻舟:兩件事都在做。我們承受得起花代價去探索產品效果的天花板在哪 。另一方面,我們也在大力降本。例如 Create 大會上更新的Agent Infra,裡面有一套Harness Engineering 的能力。它不僅提供長上下文管理、持久記憶、工具調用、子智能體調度、評估反饋、Runtime 這些基礎能力,還把這些模塊做了深度協同優化。舉個例子,用戶在用瀏覽器、Office 等工具處理辦公類任務時,成功率可以做到 95%。同時,因為我們做了更好的上下文管理,完成同樣一個任務,所需要的對話輪次會更少。和 OpenClaw 相比,Token 消耗可以減少 23%。雷峰網:現在 Pro C 用戶大概能接受多高的 Token 消耗?忻舟:C端用戶並不關心 Token 消耗量,他們關心的是任務效果,比如寫報告、做 PPT 或數據分析 。所以現在的 ProC 產品多采用點數或包月訂閱制 。對於真正的重度用戶,即使是高級會員的額度,也有可能半天就用超了 。比如我們內部使用智能編碼工具或做 Research 時的消耗量非常大 。04 ToB 市場怎麼攻下來?雷峰網:對於 ToB 公司來說,今天底層技術拉不開差距,是不是渠道更重要?半年後,大模型 ToB 的競爭格局會有什麼變化?忻舟:在基礎設施和通用類智能體管理平臺上,各家工程能力差距確實不大。但真正拉開差距的是“給企業做了哪些高價值的應用”,比如百度智能雲的伐謀、勝算(數據智能平臺) 。客戶做完 POC 測試後都非常認可並願意給出預算 。目前市場的瓶頸是交付成本還相對較高,需要人去對接需求並做定製化開發。但我們的判斷是,隨著技術易用性的提升和我們對行業場景理解的深入,交付成本一定會快速下降 。需求和效果在上升,交付成本在下降,半年後市場格局將會打開非常大的空間 。雷峰網:是不是可以理解為,今天真正的“AI 富礦”,其實反而是在製造業、港口、供應鏈這些實體產業裡?因為它們過去的信息化和 AI 滲透率沒那麼高,所以改造空間反而更大。忻舟:我覺得有兩個原因。第一,中國製造業本身就在快速升級。不管是電池、汽車、芯片、服務器、存儲,這幾年整個中國製造的發展速度都非常快。產業本身在增長,意味著它天然就會產生大量新的效率需求和優化需求。第二,也是更關鍵的一點:很多實體企業的 IT 基礎設施,其實遠遠沒有互聯網、金融行業那麼成熟。也正因為基礎薄弱,它們的 AI 提升空間反而非常大。我們現在看到的情況是,只要 AI 的使用門檻足夠低、產品易用性足夠好,它一定能在供應鏈、營銷、財務、編碼等大量業務場景裡,帶來非常明顯的效率提升。包括伐謀、勝算、千帆,我們其實已經在幾十家實體企業裡做過驗證。我們的結論很直接:到處都是礦。現在真正限制行業發展的,其實不是需求,而是交付成本能不能繼續下降。對於私有化來說,交付成本里最核心的還是“人”。因為你需要理解客戶需求、做行業適配、做定製化交付,同時還要持續提升產品易用性,降低客戶內部的使用門檻。本質上,這是產品能力、行業 Know-how 和組織培訓三件事同時推進的過程。雷峰網:而且今天很多大型國企、KA 企業,其實手裡的預算並不少。忻舟:預算確實不少。如果客戶還沒真正看到價值,買軟件這件事,對很多企業來說是需要很大決心的。所以什麼時候他們願意花錢買軟件?就是當他們已經非常明確地看到,這個系統真的能帶來生產效率提升。還是拿港口舉例。現在這個案例已經非常典型了:系統上線之後,集裝箱裝箱效率提升,吞吐量越大,節省下來的成本就越高。如果一個港口一年吞吐量對應十億級成本,那提升 10% 就是真金白銀的一億。當這個價值已經被驗證之後,其他港口就會更容易做決策。雷峰網:在今天交付成本、交付難度都還很高的情況下,雲廠商是不是還是得靠“搶客戶”?忻舟: 需要搶。但各家雲廠商的戰略決心和投入資源不一樣 。一些廠商公有云做得很大,對私有化只是一種探索;而百度對國央企和私有化業務非常看重,認為是未來高增長的重點 。這裡面的核心在於判斷:私有化這塊業務的天花板有多高?交付

Related

相關文章

GPT5.6慘遭切腦,Fable 5迴歸要變弱雞版?

這篇消息聚焦「GPT5.6慘遭切腦,Fable 5迴歸要變弱雞版?」。原始導語提到:美國AI,「閉關鎖國」? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛

Anthropic最新報告摸透全球打工人:凌晨5點求睡眠,晚6點問菜譜

這篇消息聚焦「Anthropic最新報告摸透全球打工人:凌晨5點求睡眠,晚6點問菜譜」。原始導語提到:白天,Claude是高薪打工人的生產力引擎;深夜,它成了唯一知道你還醒著的那個。一份報告,意外照出了幾百萬人藏起來的24小時。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛
IT之家生成式AI

北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發

這篇消息聚焦「北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發」。原始導語提到:北京太空算力創新中心採用“公司 + 聯盟”雙輪驅動模式,運營主體為北京天算星聯科技有限公司。創新中心承擔四類核心職能。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛
智東西生成式AI

讓AI自己修服務器?先過了這場“火線測試”再說

智東西 作者 | 陳駿達 編輯 | 漠影 隨著大模型能力持續提升,智能體正從聊天、寫作等輔助場景走向軟件開發、網絡管理和基礎設施運維等生產環節。尤其在AI基礎設施領域,面對龐大的GPU集群和複雜架構,越來越多企業開始嘗試讓智能體承擔故障排查、告警分析和資源管理等工作,以提升運維效率並降低人力成本。 然而,運維場景對智能體構成了空前挑戰。AI算力集群運維橫跨GPU硬件、網絡通信、分佈式存儲、容器編排、訓練框架等多個技術棧,問題現象往往模糊、不完整甚至相互矛盾,智能體需要在開放環境中主動探索、反覆驗證,自行界定問題並尋求解決路徑。 要提升智能體在此類複雜場景的綜合能力,一套與之匹配的評測基準不可或缺。但當前行業恰恰缺乏對這種多步推理、開放決策過程的系統化評估能力,導致運維智能體研發長期“無標可依”,進展評估與方向校準均缺乏牽引。 正是在這樣的背景下,中國信息通信研究院開源了全球首個面向AI Infra運維場景的智能體評測基準——AISHPerf-智算運維智能體評測基準,國內頭部AI原生基礎設施企業無問芯穹重點參與技術建設。 這套基準源自百億條真實運維數據,不再只關注“會不會回答問題”,而是聚焦智能體“能不能解決問題”,為運維智能體能力評估提供了一套貼近真實生產環境的參考標準。 一、百億條運維數據,煉出103道“考題” 任何評測體系的價值,最終都建立在數據質量之上。對於運維智能體而言尤其如此。因為真實世界中的故障往往具有高度隨機性和複雜性,許多問題並不存在標準答案,甚至需要跨越多個技術棧進行聯合分析。如果評測數據脫離真實生產環境,即使得到再高的測試分數,也很難證明智能體具備實際應用價值。 無問芯穹之所以能夠重點參與這一評測基準的技術建設,與其在AI基礎設施領域的長期實踐密切相關。根據披露的信息,其早在2025年便已將運維智能體應用到實際訓練推理業務中,並取得明顯成效。工單平均處理

1 小時前
智東西生成式AI

OceanBase發佈AI數據庫三件套,TOC最高降50%,螞蟻、靈光都在用

智東西 作者 | 王涵 編輯 | 雲鵬 智東西6月29日報道,今天,OceanBase發佈湖庫一體AI數據庫產品OceanBase Lakebase,該產品面向Agent應用,原生支持多模態數據管理。 “數據湖”是一種集中式存儲架構,可以存儲結構化、半結構化、非結構化等不同類型的數據。Lakebase融合了“數據湖”架構的開放性和“數據庫”架構的功能性,讓結構化數據、非結構化數據和向量數據能夠在統一架構中被管理、加工、檢索和調用。 基於此,OceanBase還發布了數據生產、治理和服務工作臺OceanBase DataStudio,以及面向經營分析和業務決策的數據智能Agent OceanBase DataPilot兩個產品。 OceanBase DataStudio覆蓋數據接入、數據加工、任務編排、語義建模、數據治理到Agent協作等環節,幫助企業把分散的數據資產轉化為可管理、可理解、可調用的數據服務。 OceanBase DataPilot作為統一的企業業務智能入口,讓業務人員可以通過自然語言完成分析報告、數據看板和可信答案生成,把過去依賴專業數據團隊完成的分析流程,轉化為可交互、可追問、可複用的智能決策能力。 智東西等媒體與OceanBase CEO楊冰、CTO楊傳輝,進行了面對面的交流。 楊冰認為,AI正在改變數據的管理方式,數據使用者和數據形態都發生了變化。數據使用者的改變帶來了三大挑戰:VibeCoding帶來了海量Agent應用;Agent開始執行生產任務;Agent長期運行的正確性和自我進化。數據形態改變,則為非結構化數據成為可計算資產、數據要主動流轉、數據要理解任務。 兩者作用疊加,OceanBase給出判斷:在AI時代,數據庫應該是湖庫一體的。 OceanBase內部的AI轉型也在進行中。楊冰透露,OceanBase已將內核團隊分為“一體化數據庫”和“A

2 小時前