擊敗主場霸主英偉達與PI！千尋智能登上具身智能「奧林匹克」最高領獎臺

2026年6月3日 05:59

重點摘要

站內 AI 整理稿

榜單登頂同時，千尋官宣完成15億元A+輪融資。作者丨向欣編輯丨高景輝在競技體育中，有一種勝利含金量最高——在對手主場、用對手製定的規則、擊敗對手。剛剛，一家中國公司在北美具身智能的“奧林匹克”賽場上，完成了這一壯舉。由UC Berkeley、斯坦福和英偉達聯合發起的全球具身智能實戰評測平臺RoboArena，被譽為機器人領域的“Chatbot Arena”。RoboArena最新榜單顯示，千尋智能自研的具身基座模型Spirit v1.6，在技術全能項目中力壓英偉達最新模型Cosmos3與Physical Intelligence （以下簡稱PI）Pi0.5，排名全球第一，成為前三名中唯一的中國具身模型。有趣的是，英偉達和PI不僅是參賽者，還是賽事的設計方。就在不久前的NVIDIA GTC Taipei 2026大會上，英偉達還專門介紹，自家最新發布的NVIDIA Cosmos 3模型在RoboArena上排名第一。賽事主辦方親自為榜單站臺。而現在榜首換人了。千尋這次登頂，頗有種踢館成功的意味。以前中美在具身智能賽場是各自練兵，今天千尋直接去美國隊的主場，拿了塊全能金牌。同時，千尋智能在資本市場上也獲得了頂薪續約。千尋智能今日正式官宣完成15億元A+輪融資，三個月融資四輪，刷新具身智能行業融資速度記錄，股東包含一線美元基金、大型產業投資方以及國資基金，老股東持續加碼，構築起頂級財務PE、國際美元基金、實業產業資本、各地方國資等全方位合圍的頂配資本陣容。至此，千尋今年累計融資金額已近50億元。技術登頂與資本頂配兩件事放在一起看，背後傳遞出的信息遠比表面看到的更加豐富。過去一年，具身智能領域融資紀錄不斷刷新，榜單高分層出不窮，但“刷榜”現象讓這些成績的真實含金量備受質疑。RoboArena受到關注，正是因為試圖解決這個問題。它把具身Benchmark從標準化考試變成了一場防作弊、重泛化、難以刷分的全球實戰擂臺賽，模型需要面對完全未知的場景和物體，實打實地考驗泛化性與穩定性。千尋的模型登頂，也足以讓整個行業重新審視中國玩家的位置。長期以來，具身智能領域最重要的話語權主要掌握在美國頭部機構手中。如今，中國企業已在模型能力和落地速度上快速追趕，實現並跑甚至領跑。在具身智能的技術對決中，以千尋智能為代表的中國力量已經具備了與美國頂尖玩家正面掰手腕的底氣。大額融資的持續落地，則讓這種技術優勢有機會進一步轉化為數據優勢和場景優勢。中國具身智能企業，會跑得越來越快。01具身智能的奧林匹克全能賽RoboArena，為什麼難拿冠軍？具身智能行業一直存在一個現實問題：評測成績與真實世界表現並不能簡單畫等號。榜單高分與真實世界的泛化落地之間，橫亙著一條巨大的鴻溝。問題出在評測方式上。具身智能領域建立了大量Benchmark。不同榜單覆蓋仿真、真機、導航、操作、長程任務以及VLA模型、世界模型等不同條件和方向，為研究者提供了統一的評價體系，也推動了技術進步。但標準化評測天然存在侷限。為了保證可重複性，大多數榜單都會固定場景、固定任務和固定評價規則。模型經過反覆訓練後，可以逐漸適應這些測試條件。於是行業開始出現“刷榜”現象，不少公司針對榜單進行專項優化，從而刷出高分，但這與具身智能所追求的核心能力“泛化”背道而馳。結果是，某些模型能夠在特定任務上取得極高分數，但換環境、物體或者操作順序，表現可能大幅下降。這種做法就像學生靠題海戰術拿滿分，換個沒做過的題目就束手無策。模型越來越會考試，卻未必越來越會幹活。PI的具身模型核心研究員Karl Pertsch曾犀利地評價這類榜單：“註定是徒勞”。對於需要進入工廠、門店和家庭的機器人來說，此類成績參考價值不夠高。“刷榜”現象也削弱了榜單的說服力。RoboArena的突破性在於重新設計了評測邏輯，與大多數Benchmark追求標準化不同，RoboArena把評測重點放在泛化能力上。模型無法提前適配固定場景，每一次測試都需要面對新的環境、新的物體和新的任務組合。這份榜單由UC Berkeley、斯坦福、英偉達聯合發起，是具身智能領域首個國際公開性評測平臺，榜單規則來自行業最核心的一批前沿技術研究者。值得注意的是，PI的聯合創始人Sergey Levine、核心研究員Karl Pertsch也是該測試平臺的核心設計者。PI，這家由斯坦福、伯克利等頂級研究團隊創立的公司，一直被視為具身智能領域最具代表性的技術標杆之一。這意味著行業最強玩家用自己的標準認可了這套評測體系。為了避免人為的技術性干預，RoboArena採用“全球眾包+雙盲”機制。評測員分佈在不同國家和地區，任務和場景則由評測研究員自行設計，多聚焦操作類任務，測試整個過程中操作員不會獲知模型身份，完全盲測，測試結果全部開源。在這種規則下，賽事對泛化能力的要求近乎苛刻。提前備考的可能性被切斷，參賽模型的每一次測試都是臨場發揮，需要面對極其多樣化的環境與任務，可能是從未見過的物品，也可能是從未適應過的場景。RoboArena的評分機制也與眾不同，引入了競技體育中的ELO動態評級算法。熟悉電競或者國際象棋的人應該知道，ELO最大的特點是打敗強者獲得更多積分。不看你贏了多少次，只看你贏了誰。打敗強隊加分高，贏弱隊加分少。這種機制大幅降低了刷榜空間，讓真正有實力的黑馬能夠浮出水面，也能夠持續淘汰名不副實的高分選手。RoboArena中模型的 Elo 分變化趨勢：從左到右，按 Elo 分從低到高排列如果把傳統Benchmark理解為訓練賽，那麼RoboArena更接近總決賽。當不少團隊還在訓練賽裡爭奪MVP時，千尋已經在總決賽裡拿到了FMVP。能在任意場景、任意任務的隨機對決中勝出，意味著模型已經具備了走出實驗室、進入真實商業場景的核心素養。它比任何單一任務的高分都更具落地參考價值。02客場戰勝英偉達與PI，千尋半年內完成“兩連冠”這不是千尋第一次登頂國際權威榜單。今年1月，千尋自研的Spirit v1.5在RoboChallenge的Table30榜單上一舉登頂，超過了之前的最強模型PI0.5。有意思的是，RoboChallenge和RoboArena的評測邏輯完全不同。前者關注模型在統一條件下能做到什麼水平；後者關注模型面對隨機的任務、未知的世界能否持續發揮。RoboChallenge由Dexmal、Hugging Face、智源研究院等聯合發起，是全球首個大規模真機（real-robot）具身智能評測平臺，評測採用統一硬件和標準化環境，要求參賽模型完成30項固定任務，重點考察模型在相同條件下的綜合能力與任務完成質量。RoboArena的評測環境、任務內容和操作對象則都具有較強隨機性。Spirit能夠連續登頂兩套邏輯完全不同的評測體系，說明其在標準化環境下的綜合能力和開放環境下的泛化能力，都得到了驗證。RoboArena的評測任務由研究員隨機指定，沒有固定題庫。在眾多測試項目中，“將玩具水豚放入餐盤”和“打開筆記本”兩個任務，較為典型地體現了Spirit v1.6的能力。它們分別對應具身智能裡的兩類典型難題：開放環境中的目標識別與操作執行，以及精細力控。任務一：將玩具水豚放置到餐盤。Spirit v1.6 VS Pi0.5。任務中，桌面中央擺放著一個餐盤，周圍散落著筆、杯子、足球玩具、膠棒等多種物品。Spirit v1.6準確識別出玩具水豚，完成抓取並將其放入盤中。Pi0.5則識別錯誤，抓取了綠色杯子，且定位不準，反覆嘗試仍失敗。左 Spirit v1.6 右 Pi0.5差異背後是模型對場景語義的理解深度不同。千尋的模型能夠理解“水豚”這一語義概念，區分干擾物，並在雜亂環境中保持抓取穩定性；Pi0.5則在目標識別階段就出現偏差。任務二：打開筆記本。Spirit v1.6 VS Cosmos 3這屬於物體操作與精細力控任務，涉及受力點判斷、開合角度控制和連續動作規劃。筆記本開合處較薄，機器人需要準確找到能夠施力的位置，還要控制好力度和角度，避免物體滑動導致操作失敗。Spirit v1.6成功完成整個打開過程。英偉達最新發布的Cosmos 3則多次嘗試翻開，始終未能成功。左 Spirit v1.6 右 Cosmos 3值得注意的是，Spirit v1.6的測試環境中還擺放著杯子、毛巾、蔬果等多種干擾物，而Cosmos 3的環境相對簡單，干擾物較少。千尋的模型在受力點判斷、實時力控和任務理解上更勝一籌，Cosmos 3則沒能定位到筆記本準確的開合位置，缺乏精細的閉環調節。回看RoboChallenge，千尋Spirit v1.5在插花、桌面清理等任務中同樣表現出色。插花需要精細力度控制，桌面清理涉及多物體分類與連續操作，模型均能穩定完成。RoboArena榜單更新後，有人將千尋擊敗英偉達和PI視為一次“爆冷”。不過，仔細觀察過去半年千尋的發展軌跡，瞭解其連續登頂RoboChallenge和RoboArena兩大評測體系後，就能夠理解這種領先其實不能單純用偶然來解釋。千尋用對手製定的規則，在對手的主場實現“兩連冠”，說明Spirit的優勢並非來自針對性優化，而是模型能力本身的提升。Spirit在環境理解、目標識別、動作規劃和執行穩定性方面展現出更強的一致性，整個決策鏈條更加完整。03千尋真正的底牌，不在榜單上Spirit v1.6的登頂，是千尋技術實力的最佳證明。這種實力已經轉化為資本市場的吸金力。今年，千尋三個月融資四輪，刷新了具身智能行業融資速度記錄，已累計融資近50億元。資金將用於具身基座模型研發、數據體系建設、場景規模化商業落地三大方面。從投資陣容看，千尋的股東已經是夢之隊級別，包含順為、雲鋒等頂級的財務VC，國際美元基金這類海外資本，石溪資本、兆易創新等實業產業資本。不同的股東能形成各自助力，財務VC擅長資本運作與投後賦能，美元基金對技術路線的判斷更偏向全球視野，利於海外市場拓展；產業戰略投資方則提供供應鏈、場景等核心資源。據AI科技評論瞭解，資本市場普遍認為，千尋智能近期連續落地多輪大額融資，是硬科技獨角獸上市前的戰略鋪路佈局。市場之所以給予這樣的判斷，在於千尋已經具備了硬科技企業走向資本市場所需要的基礎：技術閉環與商業閉環。一個廣泛共識是，具身智能的Scaling Law正在遭遇真實世界數據不足的挑戰。高質量、規模化、可持續獲取的數據，已經成為決定模型能力上限的關鍵變量。圍繞這一問題，千尋構建了一套完整的“數據金字塔”技術戰略：底層依託互聯網通用視頻完成預訓練，中層利用可穿戴設備採集的真實交互數據進行專項迭代，頂層則通過實際落地場景產生的數據持續優化模型表現。為了解決行業普遍面臨的“數據採集貴、效率低”的痛點，千尋自研了數據採集設備。其自研的uDAS可穿戴數採設備歷經7次技術迭代，採集成本降至傳統遙操作方式的十分之一，數據可用性提升至95%以上。設備實現了全身關節、手部力觸覺多維度信息同步採集，無需搭建實驗室環境，可直接在真實工業、居家、零售場景作業。千尋智能可穿戴數採設備已遍佈全國解決採集成本問題只是第一步。對於具身公司而言，更大的挑戰在於如何持續、穩定地獲得海量真實世界數據。為此，千尋進一步搭建起一套分佈式數據超級工廠體系，組建了國內規模最大的真實數據採集團隊，近千臺可穿戴設備分佈在100多個城市同步採集數據，並形成了覆蓋採集、清洗、標註和質檢的數據閉環處理流程。採用分佈式佈局，是因為單一地點採集的數據場景單一、物品單一，無法覆蓋真實世界的多樣性。分佈式採集網絡可以在不同城市、不同場景同時進行，大幅提升數據的場景覆蓋度和品類豐富度。2026年，千尋計劃將數據規模拓展至100萬小時。千尋的數據訓練理念也極為獨特，他們十分看重“髒數據”。在很多訓練體系中，異常數據會被儘可能清理掉。而千尋認為，真實世界本身充滿噪聲。機器人未來面對的環境，本來就不完美。因此保留一定比例複雜數據、異常數據和失敗數據，反而有助於提升模型泛化能力。在千尋看來，多數玩家仍在使用“溫室數據”，導致模型一齣實驗室就水土不服。髒數據的訓練理念，刻意保留了一部分“不標準答案”，能夠讓千尋的模型在真實社會中長大，泛化能力天然更強。這種思路也與RoboArena的評測邏輯高度一致。RoboArena考察的，也正是模型面對不確定因素時的適應能力。數據飛輪能否真正轉起來，最終還要看機器人能否進入真實場景。千尋的機器人已經進入寧德時代的產線、京東的門店、博世的全球工廠等場景，大量真實落地場景為千尋提供了美國企業難以獲取的數據礦。此外，千尋還開展了全球化合作與生態建設。由此，千尋構成了 “場景沉澱數據→數據迭代模型→模型反哺產業” 的完整閉環。這也是資本敢於重倉的根本邏輯。04中國具身智能企業，正在成為技術定義者此次千尋登頂的意義，不僅屬於一家企業，也屬於整個中國具身智能產業的發展進程。行業的一個普遍認知是，美國負責定義具身智能技術，中國負責製造機器人。如今，這種分工正在發生變化。千尋在RoboArena這個由美國頂尖機構設計、長期由美國公司主導的擂臺上擊敗了主場霸主，證明中國團隊在具身模型層面同樣具備全球頂尖的競爭力。這是中國具身智能從“製造優勢”向“技術話語權”延伸的關鍵一步。以千尋為代表的中國戰隊，用硬橋硬馬的真功夫打出了一波漂亮的攻守轉換。而且，具身智能競賽是上半場比論文，下半場比落地，當前行業競爭核心正在轉向體系能力建設。模型、數據、硬件和場景深度耦合，單一技術領先已經難以構建長期壁壘。中國企業也在用場景紅利和工程能力，實現從追趕到並跑的質變。模型可以通過迭代持續進步，榜單排名也會不斷刷新，但真實場景中的能力沉澱很難被短期複製。數據如何獲取、場景如何進入、模型如何迭代、產品如何落地，這些問題都是行業發展的重要命題，而千尋智能已經在這場長跑中，率先卡住了身位。隨著具身智能行業的發展，實戰能力會取代論文數量成為新的評判標準，場景數據會成為比參數規模更寶貴的資產，中國具身智能的全球化領跑，才剛剛開始。（雷峰網）

原始來源：雷峰網 ↗

查看原始來源

MarkTechPost AI模型更新

Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages

This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather

1 小時前閱讀分析

MarkTechPost AI模型更新

Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight

Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

15 小時前閱讀分析

36氪模型更新

智譜新高，MiniMax承壓，“大模型雙雄”命運殊途

這篇消息聚焦「智譜新高，MiniMax承壓，“大模型雙雄”命運殊途」。原始導語提到：大模型在被市場重新定價從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

17 小時前閱讀分析

IT之家模型更新

華為昇騰 0 Day 支持智譜 GLM-5.2 模型，提供全面推理優化

華為昇騰 AI 宣佈在智譜開源 GLM-5.2 大模型當天即完成深度推理優化。通過 MOE 大融合算子、通信計算融合、高併發調度等七項關鍵技術，顯著提升編程和長程任務的處理效率，現已支持 A3 系列產品部署。#AI 大模型# #國產算力#

1 天前閱讀分析

AIBase模型更新

企業AI轉型再添利器：青雲科技算力雲接入 MiniMax-M3 模型

企業AI落地面臨高效低成本難題。青雲科技旗下基石智算平臺接入國產開源大模型MiniMax-M3，提供新算力支持。MiniMax-M3以卓越上下文處理能力等三大核心技術見長，依託自研架構，助企業便捷部署AI業務。

1 天前7000閱讀分析

AIBase模型更新

阿里開源統一科學大模型 LOGOS，僅用五十六分之一參數超越微軟

阿里 ATH-Token Foundry 聯閤中國人民大學高瓴人工智能學院開源科學基礎模型 LOGOS。該模型採用統一科學語法與純序列建模範式，在六大科學任務上匹配或超越傳統專用方法。其中 LOGOS-1B 僅 1B 參數，即展現出極高效率，性能超越參數量達 8×7B 的微軟模型。

1 天前9300閱讀分析

相關文章