商湯科技秘密研發多模態模型“U1Pro”:由林達華牽頭,預計7月啟動內測對標OpenAI

2026年6月25日 09:305600 次瀏覽

重點摘要

商湯科技正秘密研發多模態大模型“U1Pro”,面向設計場景,由首席科學家林達華牽頭。該模型隸屬“日日新”家族,目標對標OpenAI的GPT-Image2,強調長程邏輯與思考能力,預計7月啟動內測並商用。

站內 AI 整理稿

商湯科技近日傳出正在秘密研發一款名為“U1Pro”的多模態大模型,引發業界廣泛關注。據了解,該項目由商湯首席科學家林達華親自牽頭,主要面向設計場景,力求在圖像生成與理解領域實現新的突破。作為商湯“日日新”家族的最新成員,U1Pro的目標設定十分明確——直接對標OpenAI的GPT-Image2,尤其強調長程邏輯推理與深度思考能力的整合,這在當前多模態模型中可謂獨樹一幟。

從技術路線來看,U1Pro的研發重點在於提升多模態交互的連貫性與可靠性。傳統的圖像生成模型往往側重於視覺效果,而在處理多步驟、依賴語境邏輯的複雜任務時容易出現“斷層”。U1Pro試圖透過強化模型內部的因果推理鏈,讓圖像的生成不僅“像”,而且“對”,能夠根據用戶的連貫描述逐步修正和調整輸出,這對於專業設計領域的高精度需求尤為關鍵。

林達華作為商湯科技的技術核心,其研究方向長期集中在計算機視覺與多模態學習,此次親自掛帥U1Pro,足以看出商湯對該項目的戰略重視。商湯一直以“日日新”模型系列作為大模型業務的基礎,U1Pro的加入不僅豐富了產品矩陣,也標誌著商湯在多模態賽道上從“跟跑”轉向“並跑”甚至“領跑”的野心。與OpenAI的直接競爭,意味著商湯正在全球層面爭奪技術話語權。

值得一提的是,U1Pro的發布時間表已經初現雛形:預計於今年7月啟動內部測試,並同步推進商業化落地。這種“內測即商用”的策略,反映出商湯對模型成熟度的信心,同時也是為了搶佔設計工具市場的窗口期。在Adobe、Canva等國際巨頭紛紛引入AI功能的背景下,U1Pro若能憑藉獨特的邏輯推理能力站穩腳跟,將為國內AI設計工具出海提供重要支撐。

從行業生態角度來看,U1Pro的問世可能對多模態模型的評價標準產生影響。目前業界對“多模態”的定義多停留在跨模態對齊與基礎生成,而對“思考能力”的強調則將競爭推向下一個維度。如果U1Pro在高質量設計場景中實現了讓人滿意的長程邏輯閉環,它不僅會成為商湯技術實力的證明,也將推動整個行業從“生成速度競賽”轉向“認知質量競賽”。

當然,挑戰同樣存在。多模態模型的推理能力對算力和數據質量提出了更高要求,尤其設計領域涉及大量專業知識與審美偏好,如何讓模型在保持創造力的同時不偏離邏輯約束,是林達華團隊需要持續攻克的難題。此外,對標GPT-Image2意味著U1Pro必須在開放域任務的泛化性上達到世界級水準,這對訓練策略和數據規模都是嚴峻考驗。

總體來看,商湯科技此次低調佈局U1Pro,既是對自身技術路線的延伸,也是對未來AI應用格局的一次主動出擊。從7月內測開始,市場將有機會逐步驗證這款模型的真實實力。無論最終結果如何,U1Pro的出現都預示著多模態大模型正在進入一個更加注重邏輯深度與場景落地的全新階段。

Related

相關文章

鈦媒體生成式AI

GPT設計GPT

這篇消息聚焦「GPT設計GPT」。原始導語提到:如果說英偉達賣鏟子,那麼OpenAI想擁有礦山。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

3 小時前
智東西生成式AI

剛剛,全球第一個能同時掃微信和支付寶的AI眼鏡,誕生了

智東西 作者 | 雲鵬 編輯 | 心緣 智東西6月26日杭州現場報道,剛剛,XR領域頭部創企樂奇Rokid在生態開發者大會上正式發佈了新一代Rokid AR眼鏡,其重點提升了顯示效果。 此外,智能眼鏡操作系統YodaOS升級為AIOS,融入更多智能體能力,主動服務能力更強。 Rokid AR搭載了高通驍龍至尊版空間計算協處理器,支持空間+AI雙攝、6DoF立體空間、電致變色和58°FoV視野,可以說是規格拉滿。 Rokid創始人兼CEO祝銘明在採訪中特別提到,這顆芯片比高通近日發佈的驍龍Reality Elite芯片性能更強,提升幅度在20%左右。 不過這款AR眼鏡新品並未公佈具體售價和上架時間。 祝銘明在大會上做了一個重磅“預告”,Rokid AI眼鏡和Rokid AR眼鏡合二為一的AI+AR“完全體”產品,大概會在3-5年內落地。 AI眼鏡軟件生態層面,Rokid全球首發了微信掃一掃支付,其AI眼鏡也成為首個同時支持微信和支付寶的同類產品。 Rokid AI眼鏡上的YodaOS升級為“AIOS”,樂奇AI助手正式升級到2.0版本,主動智能、智能化UI交互呈現是其兩個核心能力升級點。 比如閱讀智能體,可以直接朗讀攝像頭識別到的信息; 作業輔導智能體,可以通過視覺識別輔導孩子作業; AI打車助手可以讓你直接用眼鏡打車,並且屏幕上實時追蹤車輛進度; 在臨近旅行、出差出發時AI助手會主動提醒,告知當地天氣與準備事項; AI助手可以用餅狀圖告訴你面前食品的卡路里,還能用可視化表格呈現世界盃賽事比分。 在Rokid看來,AIOS時代,AI會“繞過”App,變為自帶能力的原生服務主體,AI眼鏡使用AI有輕量化、多模態、全天候的特點。 值得一提的是,在AI付費模式方面,祝銘明在採訪中特別提到,未來Rokid可能會推出“Token收費模式”,今年用戶在Rokid平臺的AI消耗Token量

5 小時前
雷峰網生成式AI

全網瘋搶體脂秤背後,阿福找到了健康AI的正確打開方式

“一代人有一代人的雞蛋要領”,這次輪到了體脂秤。6月25日,螞蟻阿福發起的“科學減重1億斤”健康行動正式上線,同時向全網發放“骨折價體脂秤”。除了9.9元快遞費,網友只需1分錢就能領到手,參與科學減重。社交平臺上,曬單和討論同步發酵,搶到的人曬出訂單截圖,紛紛表示“已下單”“等發貨”“真香”;沒搶到的在評論區急得團團轉,追問領取方式,反覆確認阿福真的給出了“地板價”。據螞蟻阿福旗艦店數據顯示,這款AI體脂秤上線24小時,領取量已經超過30萬臺。雷峰網記者在阿福APP實測發現,為了讓體脂秤送到真正需要的用戶手中,在阿福App下單需先支付30.01元,收到秤後綁定並完成AI解讀,就可獲得30元返現,相當於體脂秤到手只要1分錢。一臺體脂秤為何引發“全網瘋搶”熱潮?背後折射的,恰恰是普通人長期被健康管理困住的真實焦慮。1分錢領體脂秤,阿福把體重管理的門檻打下來體重管理的第一步,是瞭解自己的身體狀況。但現實是,很多人只知道體重,卻不瞭解體脂率、肌肉量、骨密度等基礎的體重管理概念。大多數時候只能憑感覺,毫無依據地開始節食或是突擊運動,沒過幾天又“放棄抵抗”,循環往復。阿福的第一步,就是把體重管理的基礎工具——體脂秤的門檻打下來。此次阿福提供的“骨折價”AI體脂秤,支持測量體重、BMI、體脂率、內臟脂肪、肌肉量等18項身體數據。用戶在阿福APP綁定體脂秤後,在阿福首頁“我的健康”以及阿福“健康檔案”,就可隨時查看健康數據,並清楚顯示指標屬於標準還是偏低、偏高。這些數據維度合在一起,讓用戶對身體狀況的瞭解能夠更加全面,進而體重管理更加科學。此外,阿福也支持接入手機、運動手錶和血氧儀等多種類健康硬件。用戶已有的體脂秤、手環、血糖儀、運動手錶,數據都可以同步到阿福APP。AI不再憑一個體重數字猜測身體,可以進一步基於多維數據給出貼合現狀的分析和方案;用戶也減少了在多個硬件APP和AI對話框來回

5 小時前
雷峰網生成式AI

RoboScience機器科學發佈通用具身大模型Visics,首次完整展示VLOA雙引擎架構

雷峰網獲悉,6月24日,通用具身智能企業RoboScience機器科學在深圳成功舉辦通用具身大模型發佈會。會上,公司首次完整披露了自研Visics大模型的技術架構VLOA(Vision-Language-Object-Action),並展示了模型在多項真實場景的應用,包括全球最複雜具身操作任務傢俱拼裝。 RoboScience機器科學創始人兼CEO田野、聯合創始人兼執行總裁汪濤深度解讀了Visics大模型、底層技術架構VLOA和數據體系,並分享了未來在模型泛化、場景落地及生態構建等方面的戰略規劃。Visics大模型重新定義具身智能RoboScience機器科學創始人兼CEO田野告訴雷峰網,當前機器人操作面臨泛化能力差、精細操作難、長程任務誤差累積三大核心瓶頸。Visics大模型的突破在於首次通過自研技術架構VLOA,將Object Trajectory(物體3D點雲軌跡)作為中間接口,把“認知”與“執行”徹底解耦。他表示:“Object 這個詞本身有‘物體’和‘目標’兩種意思,所以它精確地描述了機器人本體跟物體要發生什麼樣的交互、要完成什麼樣的物體運動狀態的變化。我們自研以Object Trajectory為中心的 VLOA 架構,是因為它往上能夠精確地表示我們執行任務的內容,往下能夠精確地表示機器人要完成什麼目的。”VLOA(Vision-Language-Object-Action)創新架構實現了三大維度泛化:指導任意機器人、操作任意物體、完成任意任務。以抓取操作為例,相比現有基於特定物體和機械臂的方法,其在成功率、姿態多樣性及計算速度上均有顯著提升。 Visics大模型融合“具身世界模型”和“通用操作模型”兩大核心引擎,創新性地引入Object Trajectory作為中間接口,並以物體的連續3D點雲軌跡進行表徵。上層具身世界模型負責認知和預演物理軌跡,下層通用操作模

5 小時前
雷峰網生成式AI

ICML2026 |SEER:自動增強+替換Patch,同時搞定噪聲、異常、缺失、分佈偏移的新SOTA模型!

原文作者:公眾號-時序大模型原文鏈接:https://mp.weixin.qq.com/s/ZJfbE2OFeV9kZ6kBrLTsDg雷峰網轉載本篇論文來自ICML2026,最新前沿時序技術,針對時間序列預測,提出了名為SEER的Transformer魯棒時序預測框架,首次實現多類型低質量時序數據的統一魯棒建模。文章信息論文名稱:SEER:Transformer-based Robust Time Series Forecasting via Automated Patch Enhancement and Replacement論文作者:Xiangfei Qiu、 Xvyuan Liu、 Tianen Shen、 Xingjian Wu、 Hanyin Cheng、 Bin Yang1 Jilin Hu研究背景時間序列預測是支撐金融經濟研判、智慧交通調度、醫療健康監測、電力能源調控、環境氣象預警等諸多關鍵領域的核心基礎技術,精準的長短期時序預測結果能夠為行業資源動態調配、風險提前預警、智能化精準決策提供核心數據支撐,具備極高的學術研究價值與工程落地價值。在時序預測模型迭代發展歷程中,傳統循環神經網絡(RNN、LSTM、GRU)依賴串行迭代計算,存在長距離時序依賴捕捉能力弱、並行度低、訓練效率差的固有缺陷;CNN類模型僅能聚焦局部鄰域特徵,無法建模長時序關聯;而傳統線性時序模型泛化能力不足,難以適配複雜非線性時序場景。近年來,基於Patch分塊建模的Transformer時序模型憑藉創新性的時序切割思路,成為時序預測領域的主流SOTA方案,代表性模型包含PatchTST、Triformer、Crossformer、xPatch等。這類模型的核心優勢是打破逐時間步建模的侷限,將連續完整的長時序序列均勻切分為若干具備完整局部語義的子序列分塊,以Patch分塊作為基礎建模與Tra

6 小時前