剛剛！湯道生姚順雨對談50分鐘，回應騰訊AI慢之疑！講透AI下半場

2026年6月5日 03:47

重點摘要

站內 AI 整理稿

智東西作者 | 智東西編輯部編輯 | 心緣智東西6月5日報道，剛剛，兩位AI圈的重磅大咖——騰訊雲一把手湯道生和騰訊首席AI科學家姚順雨，進行了一場近50分鐘的深度對話，在把當下AI領域最火爆的Agent（智能體）話題聊透的同時，還不乏互相趣味調侃，整場對話金句頻頻，看點十足。剛開場，姚順雨略顯緊張，他打趣說自己“平時都在海淀，很少來朝陽”，但一進入AI話題，他就瞬間找回了感覺。對外界“騰訊在AI上慢了”的質疑，兩人在現場做了正面回應。姚順雨認為，AI不是兩三年的短期遊戲，而是一個長期過程，ChatGPT和Claude Code不會是唯一Super App，會有源源不斷的新機會誕生。湯道生提到，一些地方可能我們做得快了，有的地方做得慢了，業內的提醒都非常好，有一些地方我們可以做得更好，但是就像你說的，這是一個長跑，這是一個馬拉松。對談中，姚順雨談到自己小時候最喜歡的產品就是QQ空間和QQ秀，湯道生自嘲了一句“老登”，引發全場爆笑。回憶自己曾經的學術研究時，姚順雨特別提到，2022年第一次把語言模型與網頁和API連接起來時，看到模型能夠基於互聯網完成多輪交互，那一刻給他的感覺就像“微弱的電燈絲亮了一下”。值得一提的是，他博士論文結尾的“未來工作”中，就提到了“為Agent訓練模型”，目前看來，這確實是他所做的，姚順雨說當時他覺得自己已經想得夠大了，但現在看來可能還是不夠大。以下是本場對話的金句和代表性觀點梳理：姚順雨： ·AI下半場方法論已經成熟，找問題變得更加困難，AI下半場的目標是在中國建立一個長期的基於AGI的組織。 ·我覺得LLM時代和過去的AI最本質的區別就是泛化性。 ·Co-Design首先最難的一點是要建立Trust，很重要的一點是要有換位思考的能力。 ·Agent技術最重要的兩個部分是外部Agent和Coding Agent。 ·在中國更有價值的事情是，用一個更小的模型把更高價值的任務做好，“沒有性能，性價比就無從談起”。湯道生： ·Agent時代我們會看到更多角色的融合，大家都是產品經理，都要去了解透徹用戶的需求。 ·今天 AI 時代做產品，要求的的能力更全面、更難了。以下為湯道生與姚順雨的對話實錄：一、做模型與做產品，“第一性原理”是什麼？湯道生：AI能力要真正落到場景中，背後還有很多複雜工作要做。今天我特別邀請到騰訊首席AI科學家姚順雨，和大家聊聊騰訊大模型與AI產品的思考與進展。我簡單介紹一下順雨，順雨在學術界提出過ReAct框架，也在OpenAI參與過Operator、 Deep Research等前沿Agent產品；加入騰訊以來，他主導混元大模型的構建，既懂前沿技術，也紮根業務一線，相信會帶來不一樣的洞察，我們歡迎順雨。姚順雨：大家好。我平時都是在海淀區，很少來朝陽區，很高興。湯道生：今天我們兩個對話，可能是一個比較新的形態，如果有什麼出乎意料的，我想也是給大家一個驚喜。順雨，你加入騰訊前，我記得我當時問過你一些問題，為什麼下半場會選擇來騰訊？而且你認為AI下半場最重要的是什麼？姚順雨：首先解釋一下什麼叫做下半場，我最近感覺這個詞有點被濫用，這個概念是我去年的一個博客提出來的，什麼意思？其實我覺得在去年之前AI已經發展幾十年，但是更加重要的是怎麼去解決問題，去尋找好的方法，最近我覺得很明顯就是說，方法論已經變得非常成熟，但尋找問題變得更加困難。舉個例子，比如說過去我們發明AIphaGo這樣的方法去下圍棋，但是這個方法只用來適合下圍棋或者下各種棋類。你會為了翻譯做一個特別的模型，但是它只能做翻譯，不能做其他事情。但是有了預訓練和後訓練之後我們發現，我們像有一個萬能錘子，它可以砸任何釘子，它是一個通用方法論，可以解決各種各樣的問題，反而更困難的是怎麼尋找好的問題去解決。其實我覺得加入騰訊很重要一點，就是說這裡有很多好問題、有很多產品，我覺得這一點在接下來變得越來越重要。一方面，好的產品能夠解決第一個問題：我們做預訓練和後訓練之後到底要把它應用在什麼地方產生價值；第二個是環境是非常重要的，如果沒有好的環境，那Agent沒有辦法做各種各樣的事情，比如說如果沒有一個點外賣的tool的話，就沒有辦法點外賣，很多事情做不到，我覺得最重要的是context，無論是企業還是個人，就像我上一次在AGI-Next說的一樣，我覺得越來越重要的事情是context，因為模型越來越擅長把一個非常複雜的輸入變成輸出，很多時候你的競爭壁壘就在於你有沒有最原始的輸入，你知不知道這個人他到底在幹什麼，你知不知道這個企業各種各樣的信息，這一點我覺得騰訊有非常強的優勢。但其實我覺得這只是第二大的原因，最重要的原因是文化，我記得我第一次跟你聊天，包括和其他總辦老闆聊天的時候，我第一印象大家都非常誠實，哪裡做的好哪裡做的不好，非常直白不會掩蓋，我覺得這種坦誠是我第一印象。第二個就是說騰訊總體是一個基於trust，而不是基於metric去運轉的公司，我覺得這一點對於做AI是非常重要的，包括我覺得我們的文化有非常low ego，有非常solid的這一面，我覺得這些文化對於長期做一個AI的組織是非常重要的，包括我們對長期主義的堅持，所以AI下半場最重要是什麼？我個人覺得就是，我們應該在中國建立一個長期的基於AGI的組織，今天的AI主要有三部分：首先是foundation的部分，我們怎麼樣把預訓練和後訓練最基礎的東西做得非常solid。第二部分是產品，我們怎麼樣把這樣的技術，真的為人和社會產生價值。第三個是frontier，我們怎麼樣探索新的研究範式，探索新的機會。我覺得最重要的是我們構建一個非常均衡的三角形一樣的組織。我覺得對於做foundation來說：第一最重要的是有充足資源；第二就是需要正確的做事的方式，這些和我剛才說的文化也是吻合的。對於產品來說，有好的產品的sense，有這種做產品的人是至關重要的；第三個，在中國我們今天所做的前沿探索不夠多，所以我希望能把frontier exploration的精神能更多地注入到我們組織中。湯道生：你提到的聊的過程中感受到的真誠或者務實的氛圍，也是經常我跟客戶交流得到的反饋，我覺得我們的做事方式，做產品的理念，其實也是比較實事求是的，畢竟AI賽道是長跑，我覺得有時候認知也很重要，我們做的好的和不好的也得認，但關鍵是一個多維度的競賽，我們看到現在模型有很多進步，我們做產品其實也是有越來越多的形態，不同的場景有不同的需求，我覺得未來還是非常可期的。二、Co-Design，模型和產品如何相互成就？湯道生：你剛剛提到模型跟產品，產品可以說提供一個環境，裡面要給模型提供context上下文，我想問一個問題，我們平時開會提的有一個詞比較多是Co-Design，怎麼把產品關模型能夠比較緊密底結合起來，尤其今天有這麼多豐富的產品，從我們合作非常緊密的像元寶這樣的一個聊天機器人，包括AI搜索，企業裡面也有部署智能客服、智能營銷，另外最近非常火的類龍蝦像CodeBuddy、WorkBuddy這樣的產品，其實對於模型依賴很深，你怎麼思考Co-Design這個方式？姚順雨：有三點：首先CoDesign的前提就是說模型本身要做的很solid，有很多foundational的work要做好。首先我覺得預訓練是一個相對就是產品agnostic的事情，它做的非常solid可以提供非常強的foundation，而且預訓練它最大的特點就是它是一個可泛化學習過程，它的進步可以帶給各種各樣下游任務持續的價值提升。後訓練我覺得最重要一點是要設立好正確的Eval，中國大家有個不好的傾向是大家喜歡刷榜，但是我覺得更重要的是如何實事求是的基於產品，基於真正的應用，構造更加真實的Eval。第二要意識到可能“實用性”價值是大於刷榜價值，這一點我們做大量工作，跟各種各樣產品進行了深度Co-Design，Co-Design很關鍵一點就是要產生相互信任，這一點我們做了大量工作，取得互信，怎麼把產品數據用好，怎麼把迴流，怎麼把Eval做好，有很多細節，我就不贅述。第三點我想說，LLM時代和過去的AI最本質的區別就是泛化性，在LLM之前比如說做翻譯產品，只要把翻譯數據做的特別好就行了。你做一個圍棋的程序，你只需要把圍棋的數據準備特別好就行。但是今天即使你想只做一個Coding Agent，你會發現其實需要的不僅是Coding Agent的數據，你需要非常好的聊天能力，非常強的搜索能力，非常強的指令遵循能力，非常強的推理能力，它其實是非常複合的data的taxonomy，我覺得需要對這個事情有一個taste。這個事情的推論就是說有很多產品的體系化地方，會有比較大的優勢，比如說我們和元寶的Co-Design使我們模型產生很強的聊天和搜索能力，這樣的能力又可以被遷移到ima和WorkBuddy其他的產品，所以這些產品能夠提供不同的數據，但是這些數據之間又可以相互泛化，它形成一個像網絡一樣的體系，我覺得這一點的價值越來越重要。湯道生：對，外部的榜也屬於Eval的一種，所以我們內部做Eval跟外部的這種榜有什麼區別？姚順雨：首先benchmark還是有它的價值的，不是完全沒有價值，只是說這些榜非常容易 overfitting。基於真實世界的數據會對模型的研發有幫助：首先就是你能發現模型很多底線問題，實際上我們先發一個Preview模型最主要的目的之一是希望能夠獲得真實世界反饋，能修復各種各樣榜單中沒有發現的問題，這個在會在正式版上面有很大的改進。第二點，你對真實的Prompt distribution會有一個更深的瞭解。我舉個例子，比如說benchmark上面的這些題目可能它都是非常精確的，有非常長的concrete description，它可能一般來說是一個單純的問題，但是我們知道在現實場景中可能大家問的問題都是比較模糊的，可能就一兩句話，它會不停追問，這些場景可以啟發我們怎麼去更好做這樣的訓練。第三點，我覺得甚至我們可以在這些產品上面獲得一些靈感去推進現在還沒有的榜單或者是沒有領域的推進，比如說我們最近做了很多Context learning的工作，包括元寶的反饋也給我們很大的啟發和幫助。所以我覺得產品和模型的互相成就是越來越重要的一個AI的話題。湯道生：我記得我們早期做元寶的時候還碰到多輪遵循的問題，好像在使用產品，大家這種迭代Prompt的方式跟benchmark還有差異，真正在產品裡面大家使用所需要的能力確實好像跟benchmark還有蠻大的差異的。姚順雨：你問我這麼多問題，我也問你一個問題。湯道生：歡迎。姚順雨：其實我記得我第一次跟您聊的時候，你跟我講了很多你過去的經歷，從QQ空間、QQ秀的時代，一直到我小學時候最喜歡的產品。從QQ音樂，到雲到現在的元寶，其實跟你聊天很有意思，因為你做過各種各樣的產品，to C也有，to B也有，遠古時代的也有，最近AI時代的產品也有。我比較好奇，你覺得你做產品的第一性原理是什麼，你覺得哪些經驗和價值是不變的？哪些東西是變的？湯道生：我覺得其實最終做產品還是本著用戶到底有什麼需求，我到底怎麼去解決他的痛點，怎麼去給用戶或者客戶創造價值。在不同的時代，甚至不同的行業，你做一個產品還是需要能夠給用戶帶來價值，他才會買單，才會使用。所以我倒覺得從PC互聯網時代我們做空間、移動的時代做各種各樣的產品、內容的產品，到產業互聯網做雲，其實我們也要花好多的時間、精力去聽客戶的聲音，嘗試去幫助他們去解決他的問題。底層的邏輯其實沒有這麼大的變化。但確實我覺得在PC互聯網、移動互聯網時代做產品跟今天在AI時代做產品還是有蠻多不一樣的地方。首先從範式的角度來看，在AI時代以前我們做產品很多時候想的是通過功能來滿足用戶的需求，你作為一個產品提供方、服務提供方，你想清楚我提供怎麼樣的一個能力，讓用戶可能通過某些菜單去選，好像是一些“預製菜”，你只能在裡面去點一樣。但在AI時代做產品，它的那種開放式的服務形態就會帶來很不一樣的要求跟挑戰，用簡單的交互方式可能是自然語言，可能是語音，其實作為產品方你也不知道用戶會問什麼。所以要充分利用模型能力去理解用戶的需求，然後通過比如說今天大模型的這種邏輯推理，能去調用工具的能力，產品去給模型提供各種各樣可以用的工具，來應對這種開放式的需求，這個是我覺得跟我們過去做產品很不一樣的地方。甚至也包括你剛剛提到的Eval，以前我們做產品有很清晰很具體的產品的細節功能的描述，怎麼去做設計、做研發、做測試，我覺得那個瀑布式的流程也比較清晰。但是做AI產品，我發現最大的變化是我們整個流程可能都要重新設計，尤其今年大部分的代碼都由AI生成，我們的工程師可能會花更多的時間去做設計，架構的設計，把寫代碼的工作都交給AI了，然後定期去指導一下、修正一下。然後測試也要左移，更前置去想清楚針對我們各種案例Eval、環境，我們對於開放式答案的要求，甚至alignment怎麼對齊，我們用戶所需要的那種風格，我感覺今天時代做產品其實要求的能力更全面。姚順雨：更難了。湯道生：更難了。我問你一下混元3，大家都在說Hy3 preview是你騰訊的首秀，具體混元3做什麼改變，你能給大家介紹一下嗎？姚順雨：其實我覺得沒有什麼秘密，今天做大模型從某種程度來說比較Trivial的事情，我們應該把Infrastructure做好，我們應該把數據做好，算法的部分反而是比較簡單的。其實我覺得主要幾個點吧。第一，我們把Infrastructure重建了，無論是預訓練還是強化學習。第二是我們把數據和Eval做了很大的改變，如何去定義更真實的問題，如何豐富數據的 taxonomy，如何去提高數據的質量，這是一個永無止境的追求。第三，我覺得很重要的很多決策其實包括怎麼去招人，怎麼去設立模型的節奏，怎麼去每天有很多的Decision 要考慮很多Trade off，我覺得可能沒有一個很清晰的公式，我覺得是一個很Taste driven的事情。所以我其實挺好奇問你一個問題的，因為您剛剛跟我討論Co-Design這個概念，我很好奇您對Co-Design這件事情是怎麼想的，你覺得哪些事情是應該模型做的，哪些是產品應該做的？湯道生：我覺得Co-Design在不同階段，過去這兩年其實是一直在變化的，我覺得這個變化某種程度來講是隨著模型能力的升級而變化，當然整個行業、市場、用戶的需求他在變化的過程中也會帶來我們兩邊模型跟產品需要更好去滿足。給我一個比較深的感受是怎麼去對齊，因為在我們一起去做產品，去做對齊會的時候，我們有很多不同的決策，產品可能要針對某個方向去解決一些問題，模型到底怎麼做去滿足這個需求，但是你要回到模型需要數據，數據應該怎麼標註，到什麼顆粒度，到底什麼是好的標註，什麼是不好的標註，因為有一些地方要獎勵，有一些地方要懲罰。然後還有Eval，還有評測，因為如果產品認為好的產品體驗，評測是不認同的話，大家其實做出來的產品就會不一致了。所以Co-Design給我的感覺更多是在項目組裡面不同的角色參與到產品的設計，定了一些產品的目標方向，怎麼讓多個角色能夠對於一些開放式問題有比較好的對齊，如果沒有做到這樣一個對齊的話，你會發現產品的行為會不可預測。甚至有時候會有一些隨機性，因為模型訓練的過程可能也被混淆了。所以這是我這兩年跟做產品跟模型團隊做Co-Design的一個比較深的感受。您覺得呢？姚順雨：其實我是覺得，就像我剛剛說的，首先最難的一點是要建立Trust，畢竟我覺得同理心很重要，因為說到底做模型的目標和做產品的目標有很多align的部分，也有很多不align的部分。就是模型人希望我能力越強越好，但是產品的人覺得用戶需求越滿足越好。所以天然有很多不align的部分，我覺得很重要的一點是要有換位思考的能力。其實就是你剛剛問我元寶我們是怎麼一步一步Co-Design的，其實一個很重要的細節是，我們當時是派了後訓練最強的骨幹力量，去幫助元寶把後訓練做好。當時我們自己的預訓練還沒有準備好，但是我們知道維護元寶這樣的產品以及它的DAU會對我們接下來做模型也非常非常重要，而且對於創新的合作非常重要。所以當時其實很多算法同學不理解，我需要去很努力解釋，但是現在看起來這些努力都是pay off的，我覺得這樣一個動作讓產品意識到模型的同學是真的在為產品著想，我覺得這個其實對於我們之後的合作，包括Hy3 preview在元寶上成功上線起到了非常重要的作用。當然有很多技術的部分可以探討，但是最難的部分反而是怎麼樣建立信任，怎麼樣換位思考。三、Agent技術往哪走？產業怎麼落？湯道生：對，非常認同。我換一個話題，你是ReAct架構的提出者，博士研究也是圍繞著語言智能體展開的，你幾年前的一些觀點到今天兌現了嗎？比如有哪些？姚順雨：那天我挺感慨的，我重新讀了自己的博士論文，感覺又回到一個很遠古時代，我的博士論文的title叫做Language Agents: From Next-Token Prediction to Digital Automation，是2019年。湯道生：7年前。姚順雨：那個時候Literally就是我們的GPT-2，那個時候它只能做Next token prediction，而且它產生一段話不太連續，或者有很多毛刺，所以當時人們很難想象到它有一天成為一個改變世界的力量，當時我覺得可能大家做的研究，稍微有想像力做一些研究，比如說中國首都是，如果做Next token prediction它會回答北京，somehow它是一個有Knowledge的事情，能做到這一點大家當時非常開心，覺得這個技術很有意思。當時我的想象力比較狂野，我覺得GPT是一個非常優美的東西，吐下一個Token是一個非常極簡且非常通用的事情，我覺得它有一天潛力不僅僅是在於吐出下一個Token，而在於把這個世界上所有的事情全部automate，我當時想的還不夠大，我想的是digital automation，但是現在看起來也有可能是digital and physical automation。我覺得其實我博士期間主要做兩部分，第一部分就是如何建立一個Agent方法論，如何把一個Next Token prediction的機器變成一個Agent，變成一個自動化的機器，最重要的工作可能是你說的ReAct。我記得2022年7月份的時候某一天晚上，當我第一次把PaLM 2的API和當時手寫的一個Wikipedia API連在一起，它第一次可以基於這個網頁回答問題，並且多輪交互的時候，我當時感覺就像微弱電燈燈突然亮的感覺一樣，我感覺據我所知，人類第一次把LLM和互聯網連在一起並且做多輪交互，我當時的感覺是，這個感覺可能在5年或者10年會改變這個事情，但是可能比我想象中還要更快。我記得當時我們第一次提出SWE-bench的時候，我覺得OK，如果這個事情能做到，那很顯然它會帶來巨大價值，當時可能是幾百億、上千億，但現在可能是數萬億，數是萬億，可能我想的還是太小了。另一部分我做的工作就是怎麼定義Digital automation的任務，比如說WebShop是第一個基於互聯網的Web Agent task，包括InterCode和SWE-bench是最早的Co

原始來源：智東西 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

2 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

15 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

18 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

19 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

22 小時前閱讀分析

36氪生成式AI

微軟，考慮接入DeepSeek

這篇消息聚焦「微軟，考慮接入DeepSeek」。原始導語提到：Copilot Cowork轉為按量計費。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前閱讀分析

相關文章