Codex技術大佬親自揭秘：做AI產品最後拼的竟然是“品味”？

2026年7月1日 13:30

重點摘要

站內 AI 整理稿

智東西編譯 | 茄子編輯 | 程茜智東西7月1日消息，6月28日，Lenny播客最新一期訪談，對話OpenAI Codex產品與工程負責人安德魯·安布羅西諾（Andrew Ambrosino），討論AI正在如何重塑軟件產品的生產方式，諸多觀點值得產品和研發從業者參考。 Codex作為OpenAI旗下的AI編程工具，是近一年來該公司活躍用戶數量增長最快的產品之一。近半年來，其使用量增長6倍，周活躍用戶超500萬。而Andrew則是Codex產品桌面應用開發的負責人同時也是OpenAI的技術團隊的一員。他曾擔任過設計師、軟件工程師，早年還是YC明星金融創業公司Catch的創始人，身兼CEO、CTO、產品負責人多職。 ▲Andrew Ambrosino工作履歷（圖源：領英） Andrew指出，隨著大模型降低實現成本，軟件開發的核心瓶頸正從“寫出功能”轉向“做出取捨”。在OpenAI內部，同一需求可能同時出現大量並行原型，而產品團隊的主要工作變為篩選與整合，而非實現本身。他認為，在這一變化下，“品味”成為關鍵能力，包括定義做什麼、如何組織系統以及如何表達產品形態。而傳統以PRD（產品需求文檔）與瀑布流程為中心的開發方式正在被解構，文檔與原型的作用轉向按問題類型選擇使用。同時，Andrew透露OpenAI約90%員工正在使用Codex，覆蓋工程及非技術崗位，其外部周活已超過500萬，AI正在從編程工具擴展為跨職能的通用工作入口。 ▲Codex技術負責人Andrew訪談現場，Andrew（左）、主持人Lenny（右）（圖源：YouTube）以下是本次訪談的核心要點： 1、Codex周活超500萬，超過90%OpenAI員工在用：自2026年1月至今，Codex使用量增長6倍，周活躍用戶超500萬。OpenAI內部90%員工每週使用，涵蓋工程、市場、財務、法務等崗位。 2、產品開發流程倒置：以前是“寫文檔→研究→原型→實現”（因為實現貴），現在是“實現成本趨近於零，任何人都能做出任何東西”OpenAI內部一個功能可能有90個不同團隊同時在搞原型。 3、最核心的能力變成“品味”：實現不值錢了，值錢的是“判斷做什麼”、怎麼做好“品味”，哪些功能該合併、用什麼媒介傳遞信息、什麼才是用戶真正需要的。 4、AI做不好設計的三個原因：設計比代碼難評分；模型訓練缺乏設計反饋迴路；設計需要“新穎性”，而AI擅長學習已有模式。 5、角色正在坍塌：設計師寫代碼、PM寫代碼、工程師做產品設計。OpenAI不設固定角色標籤，按“技術成員”劃分，你的角色就是你花時間做的那些事。 6、Codex目標是成為最好的桌面應用：Codex的願景不只是開發者工具，目標是成為“最好的桌面應用”，能寫代碼、整理文件、做數據分析、讀郵件、操作瀏覽器，一個應用覆蓋所有知識工作。 7、失敗過10-15年才找到成功：Andrew創業10-15年一直在失敗，直到Codex才找到成功。他給的建議是：“不要固守你的流程，固守你能交付的結果。” 以下是對訪談全程內容的編譯（為優化閱讀體驗智東西做了不改變原意的編輯）： Lenny：OpenAI 90%的人都在用Codex。 Andrew：不是90%的工程師，是90%的整個公司。 Lenny：你前幾天發了條推文，說你想讓Codex成為有史以來最好的桌面應用。 Andrew：對。Codex的質量門檻必須足夠高，高到你在打開這個應用做下一件事的時候不會有任何猶豫，它就是你自然而然的選擇。就像人們現在習慣去打開一個瀏覽器標籤一樣。 Lenny：是的。我知道不斷有數據出來，說你們創下了各種使用量紀錄。 Andrew：我不太確定。再說吧。反正挺多人喜歡這個應用的。 Lenny：你覺得為什麼AI和那些最前沿的模型就是做不好設計？ Andrew：我覺得設計更難評分，因為人類審美的那部分是反饋機制中必需的。用目前的技術來達成那一點，還是有點遙不可及。 Lenny：現在產品團隊的形態跟幾年前相比，是什麼樣的？ Andrew：OpenAI的每個人都非常有主動性，都有很好的想法，所以每個人都在做所有的事。並不是說人們在扮演根本不同的角色，或者專注於不同的事情。而是說現在的流程是倒過來的。實現不再是昂貴的部分了，我敢說，昂貴的是“品味”。 Lenny：你覺得會有這樣一種“坍塌”到來嗎，就是每個人都變成全能型選手，那就是未來？還是你覺得我們還是會主要保持職能分工？ Andrew：有一些事情我是擔心的。我聽說很多公司說我們要取消產品這個角色，每個人都將成為一個“構建者”，然後會發生的是…… 一、Andrew：AI時代，產品開發流程已經倒過來了 Lenny：我們在準備這次聊天的時候，我問你你最想讓大家從這次對話中得到什麼，你說的是AI如何改變產品工作的形態。你工作在可能是最前沿的AI軟件團隊。所以你對未來的方向、對其他團隊一兩年後會走到哪裡，有一個非常有趣的視角。那麼現在產品團隊的形態跟幾年前相比，是什麼樣的？ Andrew：現在最難的事情之一，作為一個領導者在構建這些產品時，就是流程的倒置。我想很多人都討論過這一點，就是現在任何人都可以構建任何東西。我現在確實相信，從零開始，如果你跟這些模型對話，我們的也好，別人的也好，你確實可以搭建出你想要的任何功能。這並不是軟件開發中困難的部分，但這確實很酷。而我認為這創造了一個環境，讓人們可以做所有這些東西。你給人們無限的token。 OpenAI的每個人都非常有主動性，都有很好的想法，所以每個人都在做所有的事。而你看我們運行了很多年的產品流程，它一直是有點相反的，對吧？它一直是研究、構思，也許有一些原型，但即使我們過了瀑布式開發階段，它還是帶有一種“實現是昂貴的，所以你需要在前面通過文檔、通過研究、通過原型來去風險化，因為原型和設計更便宜”的假設。這個假設現在已經變了。現在，我敢肯定，對於某個我們急需做的功能，有90個不同的、沒有協調的團隊在各自實現和嘗試？所以簡短的回答是，流程是倒過來的。並不是說人們在做根本不同的角色，或者關注不同的事情，也不是說技能消失了，或者角色就這麼沒了。而是流程倒過來了，實現不再是昂貴的部分了，我敢說，昂貴的是品味。但它是策劃的過程，是那90次嘗試中，哪些是好的？哪些應該融入到其他方面？應該怎麼框定這件事？它應該屬於那個功能的一部分嗎？開關裡應該有幾個分段？。 Lenny：“品味”這個詞已經被說爛了。我想回頭再說這個。關於那90個原型的想法，太有意思了。所以我想確認一下我理解得對不對。OpenAI內部有一個想法在流傳。人們以前的做法是寫文檔。 Andrew：對。 Lenny：我們要構建什麼，功能是什麼，策略是什麼，PRD。現在你描述的，完全說得通，人們直接創建一個原型。你是說公司裡不同的人有類似的想法，現在他們不寫文檔了，而是創建自己的小原型，這就導致了90個不同的東西，大家可以看看，也許從中選一個方向。是這個意思嗎？ Andrew：這種事兒很多。你已經看到很多產品負責人說PRD已死，原型為王。但我完全不相信這個。我認為現在發生的一件有趣的事情是，因為實現的成本在每一個媒介上都變得非常便宜，直接跳到一個原型是非常誘人的，尤其是如果你不是工程師，如果你從來沒有寫過代碼，或者從來沒有興趣，或者從來沒有時間，說“PRD已死，讓我直接給你看我的意思”是非常誘人的，對吧？但我也注意到，對於工程師來說，寫很多文檔也是非常誘人的，很多不值得讀的文檔。這不是在貶低寫文檔的人。而是說如果實現是充裕的，那麼為你想要表達的觀點選擇正確的格式就變得非常重要。如果那個觀點是在一個模糊區域的產品清晰度，那它可能確實需要一份文檔。如果你要做的是把東西放到人們手裡去試用、去壓力測試一個交互模式，那它就是原型。但我覺得現在有趣的一點是，選擇正確的媒介變得非常重要。 Lenny：有一個術語，之前一位播客嘉賓分享過，我聽到你說這個的時候就想到了，叫做“原始標記”。當設計師、畫家或藝術家在一幅畫或一件藝術品上做出第一個標記時，那個標記就是你開始回應的東西，一切都會從你做的第一個標記開始延伸。所以聽到你說的，有時候原型不是應該做的第一件事，因為那樣你就會只是對這個原型做出反應，而不是對一個不同的想法或者一個更大的想法做出反應。我很喜歡聽到這個。所以不是像大家說的“不再寫文檔了，不再寫PRD了”。你說的是它們在特定場景下仍然有用。 Andrew：對。我覺得還有一點是，在以前的世界裡，媒介本身就隱含了很多信號，表明某件事在流程中的位置。所以如果你看到某樣東西感覺像是在生產環境中的應用，那就意味著它在流程的後期，假設已經被去風險了，設計已經看過了，這是一個好的商業目標。而現在這些東西被解耦了。之所以以前是這樣，是因為在事情被恰當去風險之前，很難獲得資源去構建它。現在這已經完全過時了。所以我認為非常重要的是要說，我們可以有原型，我們可以有文檔，但我們是否清楚這個東西是做什麼的？因為正如你所說，你不想過度錨定在某個本應是探索性的東西上，但它現在看起來已經這麼像生產就緒了，視覺上已經準備好上線了，但它並不是研究方向的正確模型，也不是用戶真正需要的，也不是對業務最有利的。不是要過度強調品味這件事，但還是一樣，品味——知道做什麼，如何呈現信息，如何達成目標，用什麼媒介——正在成為最重要的事情。在所有領域都是如此。二、AI時代，真正稀缺的是“品味” Lenny：當你談“品味”的時候，你說的好品味是什麼？是你描述的那種決定“這就是我們要投入的事情”嗎？還是說當你有了一個東西之後，判斷“這個對嗎？這個東西能發佈嗎？”當你想到好品味、好判斷的時候，具體來說是什麼？ Andrew：對。挺有意思的。我在網上刷太多了。有一條推文，好像是昨天的，他們用了Paul Graham的例子，說Paul Graham顯然有好品味，但他穿著cargo shorts，對吧？所以我們得把品味的意思稍微拆解一下。這裡面有很多細微差別。我覺得你剛才提到的那些都是其中一部分。有審美的部分，但也有系統思考的部分，這個東西怎麼融入整個系統？還有我們往哪裡走，這個主題是什麼？怎麼呈現它？很多都是更廣泛的上下文。當然，品味中也有部分是“這個交互動畫在語義意義上不匹配它所試圖傳達的意思”，對吧？它太跳了，和它要表達的意思不符。這非常重要，我可能過度關注這個了。但是，還有那種“這個東西應該是什麼樣的？如果我們什麼都能造，那目標是什麼？我們怎麼到達那裡？”——我覺得那才是真正品味的問題所在。 Lenny：當我聽到這些的時候，我總是在想，隨著AI越來越強，能做越來越多的工作，人類的大腦還會在哪些地方繼續保持價值？感覺品味是其中一部分。我在這條線上思考的另一點是，AI在真正的設計上仍然非常糟糕。AI的輸出並不好。 Andrew：對。 Lenny：很少能說“就是它了，他們做到了”。而且總是“哦，這是Claude設計，這是Codex設計”。你覺得為什麼AI和最前沿的模型在今天就是做不好設計？你覺得它們最終能達到那個水平嗎？你覺得我們會達到一個“天哪，我們不用再幹了”的狀態嗎？ Andrew：對。我覺得有一些實際的原因導致它滯後了，也有一些更難解決的問題。我不是研究團隊的，我這麼說肯定會被罵的。我覺得設計比軟件更難評分。創建一個反饋迴路來訓練模型什麼是好設計、什麼是壞設計，比“代碼能不能編譯”“它能不能做該做的事”要繁瑣和繁重得多，因為人類審美的那部分是反饋機制中必需的。我也認為實驗室歷史上更傾向於讓模型擅長那些能加速AI研究的事情。在編碼模型的早期階段，很明顯模型能夠寫出正確的代碼會加速研究，對吧？而對於設計，你不能真正提出同樣的理由。不是說擅長設計不重要，而是它不直接在那個飛輪裡，對吧？這些是實際的原因，而且這些會消失的——這些模型會在設計上變得相當好。但有一些更模糊的東西會非常棘手。我列了一個簡短的清單。一是，什麼被認為是好設計，其中有一部分是文化性的。你還記得嗎，大概是去年，每一個新出來的網站都只是Linear網站的複製品。Linear的網站設計很好，品味很好。如果一個模型能做到那樣，我會說“哇，這真是巨大的飛躍”。如果我有一個模型每次都輸出Linear的網站，那挑戰不在於此。在設計中有一種“新穎性”的成分，它實際上比在軟件工程中更重要。軟件工程中你幾乎希望它過度偏向已知的模式，對吧？而設計不一樣，它需要一些隨機性和新穎性。二是，對我來說，我花了很多時間寫代碼，或者在早期Codex應用上監督代碼，即使模型在設計中變得很好，也存在一個抽象層，是軟件設計和正在寫的代碼之間的互動。這邊角落裡的這個東西應該在代碼庫中與下面的這個東西共享某些內容。這和“模型需要成為一個更好的設計師”是有點不同的，尤其是在視覺方面，但它要深得多。這是關於抽象層的。比如，如果明天我們公司做了品牌重塑，淺層版本是我們得一個一個更新263個組件。深層版本是，這兩個看起來不同的東西之間的語義——它們都在列表中，擁有某種樣式，向用戶傳達某種交互模式。我覺得在目前的技術下，那個抽象層還是有點遙不可及的，對吧？所以我認為，當我們經歷這個過程的時候，我們11月開始做Codex應用，一開始我們沒有全職使用它，現在我們用它來做所有事情，這個過程是一段旅程，但現在我們在使用它的時候實際做的事情已經不一樣了。所以問題是什麼來著？ Lenny：沒有，那個回答非常精彩。說到設計和創意，Codex應用剛出來的時候，它是一個全新的東西。以前沒人見過。它不是終端，不是IDE。它是一個能寫代碼的聊天界面，你還能看到代碼。聽你這麼說，感覺AI很難“給出一個全新的編碼範式”。而這似乎就是人類大腦目前仍然有價值的地方——幾乎是創造力，想出新的東西，而不是從已有事物的模式中生成。 Andrew：對。我完全同意。讓我們暫時為人類大腦鼓掌。三、AI沒有殺死設計流程，只是重構了它 Lenny：在我們準備這次對話的時候，你說你在聽Jenny的那一期節目，她是Claude Code和Claude Cowork的設計負責人。她有一個觀點是設計流程已死。沒有時間做設計了，事情發展太快了，直接構建，然後設計在事情推進的過程中引導方向。你暗示你對設計流程有不同的看法。 Andrew：我和Jenny可能在這方面有很多共識。我不是“設計流程本尊”的粉絲。我同意她的觀點，它確實死了。而且在AI之前我就真的不喜歡這個流程。 Lenny：你能快速描述一下那個流程嗎？讓大家知道你說的是什麼。 Andrew：幾年前我創辦一家初創公司的時候，我們做設計招聘，有一篇有點諷刺的文章出來了，關於案例研究工廠的。那是mid-syrup時代的東西。設計師被教這個流程，並且把它看得高於一切，甚至高於結果。如果某樣東西經過了那個流程，那就兩件事是成立的：一是它會是好的，流程能保證質量和影響力；二是如果某樣東西經過了那個流程，即使你不喜歡它、沒人用它，它也是好的。流程就是用戶研究、發散、收斂。框架是對的，但一直有點學術化。但我認為這確實暴露了它的短板，尤其是因為實現的速度。而且，再一次，那個流程是建立在“實現是昂貴的，你只能負擔得起構建一次”的假設之上的。所以你需要在實現之前徹底地遍歷問題空間和解決方案空間，對吧？然後我們看到了，像Figma、Origami和所有這些工具，你可以通過把交互原型提前拉到流程中來加速一些洞察，對吧？你可以模擬生產環境，就是高管們會說“我們能不能做一個原型”，然後期望它能直接工作，對吧？但這東西是真的。這成為了設計流程本尊的一部分。我們把原型拉進了流程裡。現在的問題是你可以把所有實現都拉進去。在很多假設之間存在不匹配。你看到一個完全打磨好的原型，看起來已經可以發佈了，公司裡有足夠多的人看到它，他們會說“我們現在能發佈這個嗎？” 但實際上我們還在早期設計流程階段，只是沒人說出來，對吧？這就是我們現在的情況，像多人探索一樣。90個人會有這個想法，它會看起來很精緻，但實際上這就是現在的設計流程。把設計流程和媒介綁定在一起，這是可怕的部分。設計師現在有更多的工具來做這個流程，對吧？你可以把東西放到當前產品中，你可以做AB測試，或者就把它當原型用。很多公司現在都有“產品嬰兒版”的想法，比如Baby Cursor。你在Twitter上見過這個，我們有Baby Codex，對吧？一個大幅簡化的代碼庫，模擬了生產應用的所有交互，因此在上面進行vibe coding要快得多。因為你可以說，“如果側邊欄這樣工作會怎樣？”或者“如果一個面板進來，在這裡有一個群聊會怎樣？”“如果XYZ會怎樣？”這是一個巨大的工具，是設計流程的一部分。所以說設計流程已死，我覺得既對也不對。如果你綁定的是舊的工具、舊的規格、舊的那套日常具體流程，那它確實死了，你會過得很不舒服。但把整個流程扔掉，或者把流程那種“我們在這個階段”的框架扔掉，那比以往任何時候都更重要。 Lenny：這真的很有意思，因為你有各個職能的背景。如果大家看你的領英，上面寫著工程師、設計師、產品經理、創始人。現在你負責桌面應用，而且設計不在你的管轄範圍內，對吧？是有獨立的設計團隊，還是他們在你下面？ Andrew：看每週情況吧。 Lenny：好的。 Andrew：我們合作非常緊密。我們相信大家一起坐在一起、嵌入彼此。彙報線什麼的，我不知道。 Lenny：他們每週都在變。Codex的設計流程是什麼樣的？ Andrew：關於角色坍塌、存在性角色坍塌已經寫了很多了。沒有什麼角色了。我們沒有看到那種情況。我們在Codex組織內看到的角色坍塌比公司其他部門和經濟其他部門要多。我認為部分原因是這是一個面向工程師的技術產品，所以我們的設計師懂工程師的語言，我們的產品經理懂技術語言、會寫代碼。Alexander有計算機科學碩士學位，而我沒有。所以我們看到了很多角色坍塌。我覺得我們描述團隊協作方式的一種方式是，角色之間的重疊比過去多得多。每個人不再是由“設計在哪裡停止、工程從哪裡開始”的邊界來定義，而是由他們工作的平均位置來定義。如果你把設計團隊每個人做的事情平均一下，有很多代碼相關的工作，有很多產品相關的工作，但平均來看，他們的點在這邊。如果你把它畫成圖的話。這也跟流程有關。尤其是因為Codex應用的整個開發都是由內部自測（dogfooding）循環驅動的。我們所有人都有一個願望，就是儘可能多地在這個應用裡做事，即使它不是最好的工具，這樣它才能成為最好的工具。所以很多設計是我們所有人通過使用這個應用來完成的，然後說“這個哪裡有問題？”我們經常做的一件事是我們不改進流程，而是為了讓產品變得更好而去做它，這是一個非常不舒服的處境。但每週都在變化。 Lenny：我特別喜歡你提出的這個觀點：你的角色就是你花時間做的事情的平均值。如果你大部分時間都在做PM的工作，那你現在就是PM。如果是工程，那你現在就是工程師。你覺得是OpenAI第一個把員工叫做“技術成員”的嗎？ Andrew：不是，我相信這可能是從Xerox開始的。我實習的第一家公司，叫Upthere，也是這麼叫的。這個概念一直存在，但現在更常見了。這確實是研究型公司的一個傳統，對吧？ Lenny：好的。它從研究領域出來，但我覺得這可能是未來方向的一個信號——我們就叫每個人“技術成員”，你的職能不是固定的，你不是被框在PM或設計或工程的格子裡。你

原始來源：智東西 ↗

查看原始來源

36氪生成式AI

谷歌貼身對標字節：最新輕量版 Nano Banana 2 四秒出圖，單張僅 0.034 美元，還能直出視頻

谷歌最新發布輕量版 Nano Banana 2，能在四秒內生成圖片，單張成本僅 0.034 美元，價格低於字節跳動的競品。該模型在出圖品質與延遲上實現雙重反超，並具備直接生成影片的功能。

剛剛閱讀分析

智東西生成式AI

時隔4個月，谷歌Nano Banana再發新模型

這篇消息聚焦「時隔4個月，谷歌Nano Banana再發新模型」。原始導語提到：4秒生成1K圖片，僅需0.23元。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

全天候科技生成式AI

美團開源萬億參數大模型 LongCat-2.0，五萬卡國產算力全流程訓練

美團開源了萬億參數的大模型 LongCat-2.0，該模型採用五萬張國產算力卡進行全流程訓練。此模型特別強調 Agentic Coding 能力，即具備自主編碼與任務執行的特性。

剛剛閱讀分析

IT之家生成式AI

OpenAI：ChatGPT 全球採用率持續擴大，非英語用戶佔比過半

OpenAI 最新報告顯示，ChatGPT 全球採用率持續擴大，非英語用戶佔比已超過一半。用戶地域分佈更廣，非洲和亞洲增速最快，35 歲以上用戶群體也在擴大。工作用途中，視覺設計任務增長最快。#ChatGPT##AI#

53 分鐘前閱讀分析

雷峰網生成式AI

Reddit 上爆出大猛料，Claude 為何封號中國用戶又快又準？

Claude Code 負責人已回應：只是為了防止模型蒸餾！作者丨樊天驕編輯丨鄭佳美昨天，一個 Reddit 大佬逆向了一下 Claude Code，發現為了防止中國用戶，Anthropic 居然在最近更新的 Claude Code 2.1.196 版本中放了個監控程序！於是爆料者立刻追溯時間，發現這個程序不是最近才有的，早在 2026 年 4 月 2 日的 2.1.91 版本該程序就已上線，卻從未寫入官方更新日誌。雷峰網要知道，不久之前 Claude Code 還被曝出在用戶的通知郵件內安裝追蹤器。用戶們本以為這就是 Anthropic 的底線，緊接著 Anthropic 就被曝出安裝了回傳用戶信息的間諜程序，用實際行動告訴你：我不光沒有底線，我還沒有下限。讓人咂舌的是這個間諜程序的運行機制的確設計的足夠精妙。它會通過篡改系統提示詞的日期格式、替換細微特殊標點等肉眼完全無法識別的隱寫手段對中國的用戶進行秘密標記，並且回傳用戶信息。這就是說，Claude Code 在神不知鬼不覺的情況下，已經偷偷回傳了所有中國用戶信息近 3 個月。也難怪今年會爆發一輪接一輪的 Claude Code 封號熱潮：甭管你的 IP 地址在國內還是國外，也甭管調用 API 的方式多麼高明，只要是中國人，Anthropic 都能做到精準封殺。依稀記得前段時間社區裡的中國網友們都苦兮兮，技術人員談論的主題不超過三句話：你號封了嗎?我號封了嗎？我號怎麼又被封了？看完這份逆向實錘，也難怪不少網友感慨：絕了，Anthropic，可真有你的。雷峰網01為了防止中國用戶使用，Anthropic 有多努力Anthropic 究竟怎麼通過這套間諜程序（Spyware）, 精準封號中國網用戶的？經 Reddit 大神的逆向拆解，這套內置程序設置了兩套技術：一種是基於系統提示詞的文本隱寫（Steganograp

4 小時前閱讀分析

智東西生成式AI

黃仁勳的物理AI ChatGPT時刻，正被這家中國公司的“流式多模態”接棒

智東西作者 | 王涵編輯 | 漠影 “物理AI的ChatGPT時刻已經到來。” 2026年1月5日，拉斯維加斯CES展會，英偉達創始人兼CEO黃仁勳宣告AI正式進入新階段。在他看來，AI的演進可以分為四個階段：Perception AI、Generative AI、Agentic AI、Physical AI。當模型能夠理解質量、摩擦、慣性、動量守恆，AI才真正走出屏幕。他同時指出，要讓機器人理解物理世界，不能僅靠單一模型，而是需要建立一整套智能系統。黃仁勳描繪了未來願景，但一個問題擺在了所有人面前——物理世界的AI，到底需要什麼樣的技術能力？ AI真正走向物理世界，機器人、無人機、安防攝像頭、可穿戴設備這些場景，需要的不是回答問題，而是持續工作。物理AI最重要的，也就是主動執行的能力。 Om AI聯匯CEO兼首席科學家趙天成博士表示：“之前整個業內對通用視覺智能的關注度偏低，大家可能更關注一些可以看秀的表演或操作場景。但通用視覺這個點是未來物理AI真正規模化應用落地必不可少的，而且可能是更加現實、更加直接的核心技術，會更廣泛地應用到所有物理AI場景。” 通用視覺智能（General Vision Intelligence），即模型能像人一樣持續觀察環境、精準定位目標、自主驅動行動，且這一切必須在端側完成。近日發佈的VLX端側流式多模態模型系列，正是這一路徑的最新實踐。這是業界首次提出 “流式多模態” 這一全新模型架構。區別於傳統模型“採集-上傳-離線處理”的路徑，VLX系列面向物理世界中持續湧入的視頻流，實現毫秒級實時感知，並首次在端側打通“持續感知→精準定位→行動決策”的完整閉環。一、三個模型、三層能力、一條鏈路什麼是通用視覺智能（General Vision Intelligence）？ Om AI聯匯的定義是三項核心能力：持續感知（無需人工觸發）、空

5 小時前閱讀分析

相關文章

谷歌貼身對標字節：最新輕量版 Nano Banana 2 四秒出圖，單張僅 0.034 美元，還能直出視頻

時隔4個月，谷歌Nano Banana再發新模型

美團開源萬億參數大模型 LongCat-2.0，五萬卡國產算力全流程訓練

OpenAI：ChatGPT 全球採用率持續擴大，非英語用戶佔比過半

Reddit 上爆出大猛料，Claude 為何封號中國用戶又快又準？

黃仁勳的物理AI ChatGPT時刻，正被這家中國公司的“流式多模態”接棒