融資數億元，我們和貝塔無限劉武龍聊了聊具身系統創新

2026年6月2日 02:08

重點摘要

站內 AI 整理稿

帶著十餘年華為AI系統工程的全棧經驗。作者丨齊鋮湧編輯丨林覺民具身智能賽道正經歷一場深刻的分歧。傳統機器人派雖然能搞定機械控制的精密操作，卻在通用泛化上步履維艱。不久前，大批自駕背景的大佬頂著耀眼的融資光環入場，拿著規控那套，把路徑規劃、定位精度拉滿，一度以為自己是 “降維派”，但在交互上卻非常僵硬。技術路線同樣不夠收斂，VLA 的黑盒困境、世界模型的虛實隔閡、數據飛輪的規模焦慮都還存在。在此背景下，AI 科技評論希望找到具身新晉創業團隊和新的技術思路。這次對話的是前華為加拿大 AI 研究所所長劉武龍。離開華為後，他創立貝塔無限，一頭扎進混沌的具身智能賽道。貝塔無限剛剛宣佈完成種子+輪融資，由世紀華通與和利資本聯合領投，毅達資本、南山戰新投等知名機構跟投。距離上一輪融資完成僅過月餘，兩個月累計數億元入賬，進展十分迅速，體現了資本對劉武龍及貝塔無限團隊的認可。劉武龍的履歷橫跨多個技術週期：華為加拿大 AI 研究所所長，與 Hinton、Bengio 等深度學習先驅團隊深度合作；後歸國主導 ADS 2.0 量產交付；繼而接管盤古大模型工程團隊，主持昇騰萬卡集群調優。劉武龍的特殊之處，在於他是業內極少同時打通自動駕駛全棧、大模型系統工程、個性化 AI 產品、硬件量產交付的人，劉武龍並不是“純技術思維”，相反，具備極強的“商業思維”和“消費者視角”。他沒有選擇追逐人形熱點，也不迷信單一模型的力量，而是用一套華為式的系統工程思維，遷移到 “能走進家庭的具身大腦與機器人”。在這場對話裡，他會分享具身大腦的真實架構、數據飛輪的行業真相、消費級機器人的生死命題，以及大廠、初創、人形、四足、自駕系、大模型系的終局判斷。以下是劉武龍與 AI 科技評論的對話，經編輯整理：01離開華為AI 科技評論：你在華為的經歷非常豐富，先聊聊你的背景？劉武龍：主要是四段經歷。第一段是 2016 年，我們在加拿大把華為第一個自動駕駛原型機跑通了，2017 年回到中國，一直在搞研發孵化，奠定了華為 ADS 的技術底座。第二段是 2020 年到 2023 年初，我在加拿大擔任華為 AI 研究所所長，負責所有 AI 團隊，規模 200 多人，分佈在蒙特利爾、多倫多、埃德蒙頓，核心是跟三個國家級 AI 實驗室合作，跟 Richard Sutton（強化學習之父）、Yoshua Bengio 和 Hinton 三位很熟。那段時間我帶著團隊做了兩件事：一是自動駕駛持續打榜，拿了一堆世界第一；二是預訓練大模型。我們是世界上第一個做阿拉伯語大模型的，而且幾千萬美金賣給中東某國，做教育對話問答，可以算是第一個大模型商業變現，那時候 ChatGPT 還沒火。第三段是2023初被臨時叫回國準備接管整個華為智能駕駛產品部，同時負責首個不依賴高精地圖ADS2.0版本的量產交付，助力阿維塔12、享界等華為系車型大賣。第四段是2024年初又被公司臨時調去負責大模型系統工程，組建數百人團隊幾乎從0到1補齊昇騰萬卡集群訓推系統，我們團隊兄弟們應該是針對國產萬卡集群最精通的了。AI 科技評論：為什麼在 2026 年這個節點選擇出來創業做具身智能？劉武龍：我在華為幹了十幾年，最核心的是把兩件事徹底跑通了：一件是自動駕駛從早期孵化、路測、迭代，一直幹到規模量產和業界領先；另一件是大模型從預訓練、後訓練，到昇騰萬卡集群的工程化落地。做到後面我越來越清晰一個結論：自動駕駛解決的是 “車怎麼在物理世界安全移動”，大模型解決的是 “機器怎麼理解和思考”，而具身智能，是把思考、感知、移動、操作、記憶、個性化全部捏成一個能在真實世界活下來的系統。華為把我練成的不是單一算法專家，而是系統工程型選手。具身智能恰恰最吃這個：它不是拼一個模型多強，而是拼感知、決策、控制、記憶、個性化、數據迴流、硬件適配、產品定義、商業化一整套閉環。這套組合拳，我在華為十幾年裡，剛好全練過。更關鍵的是，行業現在走到了必須落地的拐點。大家都在秀 Demo：擦桌子、擰瓶蓋、疊衣服，看起來很熱鬧，但沒人回答最樸素的問題：機器人怎麼進家門？用戶為什麼願意買單？怎麼越用越聰明？怎麼形成商業閉環？我出來創業，就是要把這些細節串聯起來。02具身三派路線之爭AI 科技評論：您怎麼看現在具身智能的技術路線分化？市面上有三股力量 —— 自動駕駛背景的人、傳統機器人背景的人、大模型背景的人。你似乎三邊都佔？劉武龍：我是國內少有的三邊都深度做過的。所以我組團隊的時候，特意把這三撥人都湊齊了：有大模型的人，有自動駕駛的人，有做個性化 AI 系統的，還有最新玩 VLA 模型比較轉的年輕人。AI 科技評論：接觸下來，你發現這三撥人思維方式有什麼本質衝突？劉武龍：衝突不小。做傳統機器人的，腦子裡是控制論、動力學方程、精確的軌跡規劃；做大模型的，上來就想 “我能不能一個模型端到端解決所有問題”；做自動駕駛的，特別是經歷過量產交付的，第一反應是 “這玩意兒怎麼冷啟動、怎麼收集數據、怎麼迭代閉環”。我們的團隊在彌合這些衝突。AI 科技評論：外界把智駕出來做具身的創業者統稱為 “智駕降維派”，你認同這個標籤嗎？劉武龍：其實純智駕團隊，很難做好消費級具身智能。這不是能力問題，是問題維度完全不一樣。自動駕駛的場景是高安全約束、封閉道路、幾乎無複雜操作、人車弱交互；而具身智能面對的是開放家庭環境、幾十自由度柔性操作、人機強交互、長時記憶、個性化需求。場景不一樣，無法實現降維打擊。另外我不覺得自己是 “智駕降維”，我是自駕經驗和大模型結合的升維。我見過智駕出來的團隊，習慣用規控那套做機器人，路徑規劃做得極細、定位精度拉滿，但交互很僵、不會看人臉色、不懂用戶習慣，最後產品根本沒法用。因為消費級機器人不是車，它是 “活的夥伴”。AI 科技評論：現在行業天天講 “具身大腦”“具身基座模型”，概念滿天飛。從工程和落地角度，你給一個最清晰、最不玄學的定義。劉武龍：具身大腦 = 負責理解與記憶的 “大腦” + 負責高頻動作的 “小腦” + 用於推演與優化的世界模型 + 全時空多模態記憶系統。它不是一個大模型，而是一套能在物理世界閉環生存的操作系統。而真正具身產品化的落地，依賴一套從數據到模型、從硬件到OS的的複雜系統架構。這也是我們所提的四維一體Beta Matrix架構的出發點。AI 科技評論：現在市面上很多公司在推 VLA 端到端模型，你們走哪條路線？劉武龍：現在行業兩條主流路線，我都覺得不完整：一條是行業普遍採用的兩段式解耦架構—— 上層依靠 VLM 等大模型負責語義理解與任務規劃，下層搭配獨立的控制模塊執行物理動作，這套方案交互順暢、理解能力強，但模型層與控制層割裂，會出現動作不準、時延偏高、控制飄移等問題，真機很難穩定跑起來；另一條是 VLA 端到端路線，看似架構簡潔統一，卻泛化能力極差、真實場景數據極度稀缺，也很難擴展支撐幾小時的長程複雜任務。我們目前還是兩段式邏輯：統一基座 + 大小腦分層。用一套主幹網絡做底層特徵，上層是大腦，負責意圖理解、長程規劃、個性化、記憶；下層是小腦，負責毫秒級控制、抓取、平衡、避障；中間用世界模型做推演，用強化學習持續優化。AI 科技評論：為什麼不直接端到端？VLA 看起來是更先進的範式。劉武龍：VLA 是趨勢，但現在還不成熟。你看 Figure 的 Helix，號稱端到端，但其實是雙系統 —— 一個系統處理語言和視覺，另一個高頻輸出動作。本質上還是分層。完全端到端的問題在於，你把感知、認知、控制全揉在一起，雖然簡化了架構，但犧牲了可解釋性和可控性。特別是在家庭場景，安全是第一位的。如果一個模型黑盒輸出一個動作，你很難保證它在極端情況下不犯錯。而且 VLA 現在的數據效率太低，需要海量真機數據，但家庭場景的數據幾乎沒人有。AI 科技評論：很多公司也在提 “大小腦”，你們的差異到底在哪？劉武龍：大部分公司的大小腦是 “兩層皮”：大腦是一個大模型，小腦是一套獨立的控制模塊，中間靠協議拼接，信息割裂、延遲高、沒法實時打斷。我們有兩個核心差異：一是在同一個基座模型中，大小腦聯合訓練，網絡結構和執行頻率做內部分層，但訓練推理是端到端的；二是兼具用戶交互能力和具身任務能力的統一大腦，更加適配隨時打斷、實時重規劃的消費級場景。簡單說，一套網絡，既能幹 “聽懂你說話、記住你習慣、規劃幾小時任務” 的大腦事，也能幹 “毫秒級穩手、動態避障、摔倒自恢復” 的小腦的事。能被實時打斷、能邊交互邊規劃，才是家用機器人該有的樣子。這件事，我們在 2025 年下半年就明確並落地，現在已經變成行業共識。AI 科技評論：有人說世界模型在具身是玄學？我發現你在自動駕駛裡也沒用這一塊，為什麼在機器人裡要用？劉武龍：結合我在自駕實戰經驗來說：純視頻預測型世界模型，沒用；能和強化學習結合、用於推演動作序列的世界模型才是核心。自駕裡我們不用，是因為自駕的環境是規則化的，安全冗餘極低，不允許模型在車裡 “瞎想”；但機器人不一樣，家庭環境千變萬化，試錯成本低，用世界模型做 “心理演練”，能把樣本效率提升一個數量級。即使機器人沒見過這個場景，也能靠推演做出靠譜動作。這種 “主動思考”，在具身領域是非常關鍵的。03行業都在卷預訓練數據，但我覺得思路錯了AI 科技評論：全行業都在搶數據、建數據工廠，你怎麼看數據這件事？劉武龍：行業現在集體卡在一個死衚衕：所有人都在卷第一階段 —— 離線預訓練，把泛化從 70% 捲到 80%，但真正決定產品能不能用的，是第二階段 —— 場景自適應與持續學習，把 80% 拉到 99%。我把具身數據分成三層：第一層是通識底座數據，把模型基礎能力拉到 80 分，這一步大家都能做；第二層是場景自適應數據，機器人在真實家庭裡看人演示、自主試錯、數據迴流、在線迭代，這一步才是拉開差距的關鍵；第三層是個性化記憶數據，用戶習慣、家庭佈局、行為軌跡、長程任務，這一步是壁壘中的壁壘。這裡我拋一個暴論：具身智能的終局比拼，不是 80% 和 81% 的內卷，是最後 20% 的長尾與個性化。AI 科技評論：家庭數據採集隱私敏感、規模難起，你們怎麼解決？劉武龍：我們堅決不走兩條路：一是不進家庭偷拍，二是不建封閉數據工廠。我們的方案是 “類家庭可控場景眾包”：高端民宿、酒店式公寓、中介空置房。這些場景和家庭幾乎一樣，又存在租客真空期，保潔整理本來就要進場。我們只需要給工作人員配輕量化穿戴採集設備，每小時多補一點報酬，願意幹的人非常多。我們還自研了三指輕量化採集設備，成本只有國外方案的 1/5，輕便、不干擾幹活、數據質量極高。目標很明確：30 萬–50 萬小時高質量家庭操作數據，不靠堆人、不靠燒錢，靠商業邏輯跑通規模。純虛擬仿真數據我們現階段不用，因為sim-to-real gap 永遠存在，而且建一個高質量物理仿真器，需要的數據比訓一個具身大腦還要多一個量級，完全不划算。04 別一上來就猛幹家務，那是“死路一條”AI 科技評論：聊聊產品。現在市面上很多公司一上來就說要做家庭服務機器人，能做飯、能打掃、能照顧老人。您的切入口是什麼？（雷峰網）劉武龍：那是 “死路一條”。你算筆賬：一個家政服務人員一小時 30 塊錢，你做一個機器人賣幾萬塊，用戶會算 ROI 的。而且在你達到能完全替代家政人員之前，沒有人會為這個買單。AI 科技評論：你們怎麼切入家庭消費場景呢？劉武龍：結合第一性原理和商業實際的排除法。從第一性原理來說，機器狗能提供情緒價值和解決戶外場景，但是沒辦法進化成家庭通用機器人，最簡單的，沒有上肢和實際操作能力，甚至不能稱之為“過渡產品”；從商業實際角度，純人形雙足機器人現階段也不具備真實落地能力，無法普及，C端消費者不會買一個大號鐵疙瘩。反過來想就很清晰了，它應該是一個“類人”的家庭成員，安全性、接受度、移動性、操作能力需要結合在一起。AI 科技評論：怎麼理解？劉武龍：任何新物種的落地都遵循客觀規律。我們團隊，無論在華為還是字節，都打造過多個爆款的全生命週期創新產品。首先要安全，並有功能上的驚喜，才能獲得早期嚐鮮者；其次在系統層面要和現有的家庭客觀環境融洽，人均建築面積40平左右，放不了空間佔用等同人形的機器人；最後是智能化水平和操作能力，要能產生情感連接，也能持續學習和進化。AI 科技評論：所以你們第一款產品準備做什麼？劉武龍：現階段還得保密，但工業設計層面足夠驚豔。它不是工具型，是“養成系” 的夥伴。為什麼迪士尼的雪寶能火？因為它可愛、有情緒價值。消費級機器人不是越像人越好，是越能融入生活越好。AI 科技評論：那你的冷啟動策略是什麼？劉武龍：產品價值會在客戶使用中能分階段、逐步釋放，且有一點需要強調，必須是真實的價值，不能是技術人員的自嗨。第一步，讓用戶把機器人當成“家裡的高階夥伴”，先接受它存在。第二步，從最輕的操作開始：遞拖鞋、開門、收垃圾，不貪多、不炫技，把高頻小需求做到極致。第三步，讓機器人學會調用家裡已有的智能設備，洗衣機、掃地機、冰箱、燈，它做“總指揮”。第四步，把這些能力串成長程任務，洗衣、拖地、整理，變成真正的物理 Agent。AI 科技評論：多數玩家好像都卡在第二步？在具體動作上發力過深？劉武龍：實驗室和家庭是兩個場景，機器人和電器不是對立的關係。我常對團隊說，我們首先要熱愛生活，一頭扎進實驗室是做不好消費級機器人的。AI 科技評論：要做到這樣，具身基座模型怎麼設計？劉武龍：三個能力：可記憶、可個性化、可長程任務。能記住用戶習慣、家庭佈局、幾天前的任務、你的偏好變化。現在很多機器人，你 10 分鐘前說過的話，它就忘了，這根本沒法用。個性化反饋系統，用戶的表揚、打斷、沉默、甚至不耐煩，都是反饋信號，幫機器人迭代自己的行為和偏好。單基座統一大小腦，現在 GPT-4o、Gemini、多模態豆包都在往這個方向走，但我們更早把它用到真機上。消費級機器人，能被打斷、能實時響應、能邊聊邊幹，是底線體驗。05具身團隊：誰能笑到最後？AI 科技評論：怎麼看當前的具身格局，大廠，智駕系，運動控制，誰能先跑出來？劉武龍：單一的路線都跑不出來，但大家也都在進步。純大廠資源當然多，但是人均卡數和試錯速度不足；純人形的“終局”故事好融資，但短期難落地；純自駕缺乏C端思維，可能會陷入工程化思維定式；純大模型則缺乏硬件和工業設計能力。具身智能是系統複雜度最高的工業產品。我們經常講AI和Robotics的進化，更重要的其實是自己的進化。我們具備複合能力的基因和全棧團隊的基礎，但也肯定有個試錯和迭代的過程。這就是為什麼叫做Beta Infinity，起點遠沒有加速度重要。如果一定要說誰能跑出來，一定是同時懂大模型基座 + 自動駕駛閉環 + 個性化 AI + 硬件工程 + 商業化落地的系統工程團隊。AI 科技評論：目前投資機構的反饋如何？劉武龍：當前投資圈的朋友們非常積極熱情，但我們制定了非常清晰的融資節奏，每輪都close得很快，確實很難照顧到太多投資機構朋友們，也趁機給大家說聲抱歉。當前階段主要還是想一方面以最快速高效的方式獲得匹配我們研發節奏的足夠資金，另一方面還是要把主要精力去投入打磨技術和產品。AI 科技評論：現在投資人越來越看重商業化，你怎麼回答他們？劉武龍：具身智能必須技術先行 + 產品閉環 + 商業落地三條腿走路，缺一不可。短期的話，用小機器人跑通 C 端冷啟動，快速形成數據飛輪，先立足。中期，把具身大腦方案對外授權，實現 “一腦多體”，賦能行業，賺技術錢。長期來說，成為家庭物理 Agent 的操作系統級公司，定義行業標準。先活下來，再長大，最後定義規則。AI 科技評論：最後，來幾個暴論吧。劉武龍：具身不是炫技，是能在物理世界活下來的系統工程。數據飛輪的關鍵不是採得多，是真實場景、持續迴流、在線優化。能走進家門的那個 “機器人夥伴”，一定是先把產品、工程、商業全部想清楚的人做出來的。（雷峰網）

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

18 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析