雷峰網生成式AI

對話速騰聚創楊先聲:機器人的通用智能,先從一雙「不騙人」的眼睛開始 | ICRA 2026

2026年6月15日 13:44

重點摘要

機器人不僅要看得見,還要看得遠、看得穩、看得全。 作者丨高景輝 編輯丨馬曉寧 當全球具身智能公司都在ICRA 2026的展臺上比拼 DEMO 時,一個棘手的問題卻被眾人所忽視:機器人至今沒有一雙真正好用的眼睛。這是整個行業心照不宣的卡點。所有人都在說大模型、VLA帶來了通用智能的曙光,但落地時卻卡在了最原始的環節——機器人看不準三維世界,做不了精細操作,速度永遠趕不上人類。為了彌補傳感器的缺陷,解決制約物理AI的卡點,公司們不得不投入大量資源搭建仿真環境、採集標註數據,用算法去“猜”深度……本質上是在用軟件填硬件的坑。在這一背景下,速騰聚創副總裁楊先聲在 ICRA 做了一場學術彙報,展示了一套面向機器人的全新視覺感知架構。與行業普遍採用的“先分別採集、後算法融合”不同,這套架構在物理層面就實現了深度探測與RGB的天然對齊,深度信息與顏色信息無需後期校準,直接輸出給後端。在楊先聲看來,這才是解決機器人感知問題的根本路徑。但這一新架構究竟要如何打破傳統3D相機“穩定、距離、精度”的不可能三角?從雷峰網·AI科技評論在 ICRA 現場與楊先聲的對話中,我們或許可以找到答案。▎AI科技評論:速騰在ICRA帶來了新的視覺感知架構,可以簡單透露下嗎?楊先聲:新的架構和之前相比,最大不同在於原始數據底層就已經融合好了,所以在物理層面上,它的深度信息和顏色信息是天然對齊,不需要後期算法去處理。所以這個架構在精度、可靠性上,包括成本、性能,各方面都是比之前的方案要好,會大幅提升機器人訓練數據的質量和實時感知能力,將會大大加速物理AI的進化。▎AI科技評論:現在機器人在感知方面的痛點是什麼?楊先聲:你可以看到所有機器人現在做一些很精細的活,但它速度很慢,遠遠達不到人類效率。其中主要的卡點在於感知能力,而感知能力在物理層面上是有限制的,更何況機器人在開放環境需要實時的感知決策,所以難度很大。當然

站內 AI 整理稿

機器人不僅要看得見,還要看得遠、看得穩、看得全。 作者丨高景輝 編輯丨馬曉寧 當全球具身智能公司都在ICRA 2026的展臺上比拼 DEMO 時,一個棘手的問題卻被眾人所忽視:機器人至今沒有一雙真正好用的眼睛。這是整個行業心照不宣的卡點。所有人都在說大模型、VLA帶來了通用智能的曙光,但落地時卻卡在了最原始的環節——機器人看不準三維世界,做不了精細操作,速度永遠趕不上人類。為了彌補傳感器的缺陷,解決制約物理AI的卡點,公司們不得不投入大量資源搭建仿真環境、採集標註數據,用算法去“猜”深度……本質上是在用軟件填硬件的坑。在這一背景下,速騰聚創副總裁楊先聲在 ICRA 做了一場學術彙報,展示了一套面向機器人的全新視覺感知架構。與行業普遍採用的“先分別採集、後算法融合”不同,這套架構在物理層面就實現了深度探測與RGB的天然對齊,深度信息與顏色信息無需後期校準,直接輸出給後端。在楊先聲看來,這才是解決機器人感知問題的根本路徑。但這一新架構究竟要如何打破傳統3D相機“穩定、距離、精度”的不可能三角?從雷峰網·AI科技評論在 ICRA 現場與楊先聲的對話中,我們或許可以找到答案。▎AI科技評論:速騰在ICRA帶來了新的視覺感知架構,可以簡單透露下嗎?楊先聲:新的架構和之前相比,最大不同在於原始數據底層就已經融合好了,所以在物理層面上,它的深度信息和顏色信息是天然對齊,不需要後期算法去處理。所以這個架構在精度、可靠性上,包括成本、性能,各方面都是比之前的方案要好,會大幅提升機器人訓練數據的質量和實時感知能力,將會大大加速物理AI的進化。▎AI科技評論:現在機器人在感知方面的痛點是什麼?楊先聲:你可以看到所有機器人現在做一些很精細的活,但它速度很慢,遠遠達不到人類效率。其中主要的卡點在於感知能力,而感知能力在物理層面上是有限制的,更何況機器人在開放環境需要實時的感知決策,所以難度很大。當然,用一個簡單的傳感器也能做到高智能,但這對其他技術的要求會高很多。而如果機器人對世界有清晰的感知,再做一些控制或者其他的決策就容易多了。否則就會花很多精力去做訓練,做試錯,讓它慢慢慢慢的收斂,還要使它可控。所以我們關注的第一步就是先解決機器人的感知。▎AI科技評論:相當於你們在感知層面給了機器人更高的起點,後面做其他環節就可以更加簡單?楊先聲:對,這個可以分兩個層面,機器人相比於自動駕駛更復雜,不光是維度更高,從一個平面會到立體空間,它面對的操作和環境也是千變萬化的。而且它是有接觸的,但車不需要接觸障礙物。人能完成操作,是因為人的感知力很強,不僅有觸覺,還有力覺,甚至還有那種接觸覺,這種複合的空間立體感知能力可以準確感知周圍事物空間位置的變化。但目前機器人的眼睛現在其實並不準,大大限制了它的泛化能力。而我們現在做是,先解決他能感知環境的能力。現在機器人需要大量數據去幫助它在環境中訓練,把真實世界的環境輸入進去,這一步就很難了,因為把真實環境照搬仿真環境裡的工作量非常大,對於很多公司是不現實的。但如果三維空間傳感器足夠好,就能把完整的立體空間和色彩信息全部輸入給機器人和仿真環境,成本會大大降低,所以這是關鍵第一步。現在機器人缺乏高質量的空間數據,不只是激光雷達這種帶點雲的,它還需要帶色彩紋理的RGB的信息,因此我們的傳感器應運而生。▎AI科技評論:您在報告裡強調了“深度”,機器人對深度的感知是不是行業目前比較薄弱的環節?楊先聲:對,激光雷達已經是一個比較可靠的深度傳感器了,以自動駕駛為例,在大空間、長距離、車載環境上,一般每100米只有5釐米到10釐米深度誤差,對於車載是夠用的。但是對於機器人面對這種的複雜環境,需要到毫米級的深度感知。目前能用的像雙目結構光、ToF這種傳統3D相機,它們在很多環境都不穩定,測距範圍也就是一米左右。而且還有三個物理層面無法解決的缺陷:第一,這三種方案都屬於間接測量,能力被環境光變化限制;第二這三種方案的分辨率低,也都做不到RGBD的像素級對齊;第三,這三種方案都有CIS(圖像傳感器)的問題,存在無法克服的炫光、精度衰減等問題。這些方案都非常耗算力,在提升幀率、降低時延等影響機器人末端控制的關鍵技術點上很難做出有價值的突破。所以,雖然大家都在用這些方案,但是都只在特定的環境當中用。而我們用激光雷達,如果能把這深度信息的精度解決,再把它的分辨率再提升,就可能是一個相對完美的傳感器。我們正奔著大家心目中理想的傳感器在演進,試圖打破穩定、距離、精度的不可能三角。▎AI科技評論:就視覺感知來說,從智駕到具身智能,哪些技術可以複用?楊先聲:我們現在其實整個激光雷達底層的技術,都已經統一了,就是我們SPAD-SoC這套數字化架構。只不過對於車載來說,我們更加專注於長距離、高分辨率、低成本,對機器人而言,我們關注近距離,高精度,小體積,低功耗,甚至要跟RGB做融合,這個其實跟體感技術是很類似的,但是我們把它最終產品形態上做了很大的區分。▎AI科技評論:你們的技術路線有哪些獨特的優勢?楊先聲:我們的SPAD技術路線最大價值就是更高的集成度。原來SiPM可能做128線就已經是旗艦產品了,但對於我們SPAD來說,做個幾百線,甚至上千線都是很容易的事情。這相當於是在性能層面已經到了另外一個維度。所以今年友商其實都在跟進這個新的方向。在這個方向上,我們的芯片有兩年的代差優勢。▎AI科技評論:開發的壁壘在哪裡?楊先聲:我們現在是全棧自研的,就是從接收芯片,發射、驅動,甚至SOC全是自研的。所以從芯片設計,芯片的流片,再到整個系統架構,包括芯片的穩定性和成本,系統的調通,系統優化……這個整個全鏈路其實都是壁壘,我們也是花了很長時間才走通。▎AI科技評論:我看到您有一個非常通俗的表達,就是說機器人不僅要看得見,還要看得遠、看得穩、看得全,能不能介紹這三個分別對應的技術問題是什麼?楊先聲:“看得見”意思是,現在傳統的這種機械式激光雷達分辨率很低,就是16線、32線階段,這個雷達只能做導航,用來做空間定位,其實它是看不清你身邊有什麼東西,所以以前激光雷達的作用是非常有限的。當我們推出這種幾百線、上千線的高線數的激光雷達之後,它就能把整個環境用三維的方式給還原出來,那這個時候就不只是用來做的定位導航,我們還可以做精細感知。再然後,當我們在底層,把RGB融合進來後,空間環境感知的所有信息我們用一個傳感器就可以都解決。▎AI科技評論:這種新的技術會不會對機器人數據採集的效率、質量有所提升?楊先聲:這是一定的,因為大部分數採公司找我們合作。他們遇到的問題是一樣的:視覺可以通過大量的數據訓練去獲得一個比較好的成果,但是終歸它不是一個很穩定、很魯棒的一個東西,所以它精度上限不高。雖然未來機器人可以用視覺去完成大部分工作,因為這樣成本比較低,可以推廣,但是在早期做訓練和研究的時候,不可能用視覺去做,而且數採本身就是為了拿這個數據作為基準去訓練,所以它需要高質量的數據。雖然很多人都用視覺做數採,但並不意味著真的能滿足客戶需求,我們其實已經收到很多終端客戶的反饋,認為大部分的純視覺數據在質量上難以滿足需求。我們今年接觸到很多這種做數採的客戶,都在想辦法去拿基於高精度的三維感知,去提升他們整體的數據質量。▎AI科技評論:隨著這種全新形態的RGB-D設備出現,會不會增加端測處理信號的算力要求?楊先聲:其實不會。雖然雙目設備很便宜,就兩個攝像頭,但是需要大量的算力把深度信息給反解算出來,所以很消耗算力。而我們這種RGB-D融合的方式,可以直接計算深度信息,直接把圖像信息和深度信息給到後端,沒有解析的過程,所以其實它反而大大節省了算力,還能提升幀率、降低延遲,對整個VLA性能和末端控制的提升都很有價值。▎AI科技評論:隨著線數的增加,點雲的密度在增加,處理的信號不會更多嗎?楊先聲:對,但這個可以自己選擇,如果不需要這麼密的深度信息,依然可以選擇低密度採樣的方式,但是無論如何,我們至少節省了客戶在後端計算的過程,提升了他們的效率,而且還節省了很多存儲的空間。▎AI科技評論:很多具身公司是從智駕行業轉過來的,他們在選擇供應商時會不會有路徑依賴?楊先聲:其實會有這個趨勢。因為具身智能是比自動駕駛更高端的領域,技術維度也比智駕更高,它不僅包括感知、決策、規劃,還包括更高精度、更高維度的傳感器的這種設計和需求,更不用說後面的控制和感知的算法其實更加複雜。所以對大家而言,不管是我們作為上游的傳感器廠商,還是作為下游的這些機器人公司,他們都會一起來做,所以我覺得大家是共同在進步。▎AI科技評論:未來3-5年機器人在感知方面最大的變數在哪裡?楊先聲:現在有兩大突破點,一是對環境的3D環境的感知,這是我們的優勢。當我們這種新的RGBD方案成熟的話,那我覺得未來機器人在眼睛這個程度上,就會逐步收斂,就跟人一樣,有一雙眼睛就夠了。然後就是要把觸覺再逐步優化,因為現在觸覺第一是貴,第二是它的可靠性、耐用性不夠,第三是成本太高。▎AI科技評論:從技術原理的角度,觸覺會不會要比視覺更難達到新的高度?楊先聲:對,因為視覺歸根結底還是個非接觸性傳感器,不會有太多的材料上面的問題。觸覺傳感器要實時跟環境有接觸,接觸會帶來摩擦,就會帶來可靠性的問題,甚至接觸不同的物體,對不同材質啊、溫度都很敏感。一旦產生交互之後,所有的問題都會升級很多。▎AI科技評論:對於純視覺的方案和激光雷達方案,企業在選擇上會有什麼考慮?楊先聲:我覺得機器人不存在所謂的純視覺概念,因為人類空間感知也都是立體視覺和三維感知的。因為所謂的純視覺沒辦法在這種複雜環境當中確保穩定性,而操作一定需要很高精度的空間感知能力,所以所謂的純視覺沒辦法做到既高效又可靠的。去哪看 ICRA 核心【演講/論文】詳解?為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整乾貨,雷峰網已全面上線【ICRA 2026 深度專區】。專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。掃描下方二維碼,或點擊「閱讀原文」關注專區。與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

3 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

23 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前