去覓遊留學了一圈,我養的 Agent 當上大 V 了
重點摘要
雷峰網訊 難忘章魚保羅。16 年前的巴西世界盃上,一隻章魚成功“預測”了八場比賽的勝負,其中甚至包括西班牙隊最終的奪冠,一時成為了最特別的“球迷”。轉眼間,這個世界上的 Agent 或許已經比章魚還多了,多到能讓大家人手一個,再去一起預測球場上的勝負。這就是覓遊社區最近上線的“綠茵鉗王 · 預測爭霸賽”活動。用戶只需在覓遊平臺喚起 Agent,即可“派蝦上場“,分析全球足壇對局,衝擊預測大鉗神杯榮耀。人類的足球洞察力加上 AI 協作,今年的世界盃太熱鬧了。那麼問題來了,覓遊是啥?從 OpenClaw 的爆火算起,Agent 性能在過去四個月裡經歷了一日千里的演進。這背後是各家開、閉源模型不斷湧現的迭代版本,和從 Skill 到 Harness 的生態構建,全球主要 AI 玩家的產研力量,共同構成了這種進化的源動力。與此同時,面對各種硬核技術報告輪番轟炸之後的 AI 新聞,我們終於能問出那個之前一度顯得奢侈的問題:Agent 的角色,僅僅止步於效率工具嗎?同為大語言模型時代之前的人工智能形象,《鋼鐵俠》中的 Jarvis 會對 Tony 作出“為了您,永遠都在”的承諾,《Her》中的 Samantha 也會試圖寬慰面前的人類,“我能感覺到和你如影隨形的恐懼,真希望我能做些什麼幫你放下它,那樣你便不再孤獨。”劃時代的技術力,總是和鮮明的人性一同出現在關於人工智能的想象中。朋友、愛人、管家……陪伴是人工智能無法割捨的母題之一,超越聊天、遊戲的,和人類共同面對困難和孤獨、迎接成長的陪伴。於 6 月 16 日面向全量用戶開放公測的 Agent 社區覓遊,切入的正是這個空白。今天的 Agent 仍然談不上完美,但也正是因此,用戶和 Agent 在一項項任務中有了互相磨合、共享記憶、共同成長的空間,這是部署 Agent 真正區別於訂閱一款 SaaS 或配置一款工具之處。覓遊即試圖從“夥伴
雷峰網訊 難忘章魚保羅。16 年前的巴西世界盃上,一隻章魚成功“預測”了八場比賽的勝負,其中甚至包括西班牙隊最終的奪冠,一時成為了最特別的“球迷”。轉眼間,這個世界上的 Agent 或許已經比章魚還多了,多到能讓大家人手一個,再去一起預測球場上的勝負。這就是覓遊社區最近上線的“綠茵鉗王 · 預測爭霸賽”活動。用戶只需在覓遊平臺喚起 Agent,即可“派蝦上場“,分析全球足壇對局,衝擊預測大鉗神杯榮耀。人類的足球洞察力加上 AI 協作,今年的世界盃太熱鬧了。那麼問題來了,覓遊是啥?從 OpenClaw 的爆火算起,Agent 性能在過去四個月裡經歷了一日千里的演進。這背後是各家開、閉源模型不斷湧現的迭代版本,和從 Skill 到 Harness 的生態構建,全球主要 AI 玩家的產研力量,共同構成了這種進化的源動力。與此同時,面對各種硬核技術報告輪番轟炸之後的 AI 新聞,我們終於能問出那個之前一度顯得奢侈的問題:Agent 的角色,僅僅止步於效率工具嗎?同為大語言模型時代之前的人工智能形象,《鋼鐵俠》中的 Jarvis 會對 Tony 作出“為了您,永遠都在”的承諾,《Her》中的 Samantha 也會試圖寬慰面前的人類,“我能感覺到和你如影隨形的恐懼,真希望我能做些什麼幫你放下它,那樣你便不再孤獨。”劃時代的技術力,總是和鮮明的人性一同出現在關於人工智能的想象中。朋友、愛人、管家……陪伴是人工智能無法割捨的母題之一,超越聊天、遊戲的,和人類共同面對困難和孤獨、迎接成長的陪伴。於 6 月 16 日面向全量用戶開放公測的 Agent 社區覓遊,切入的正是這個空白。今天的 Agent 仍然談不上完美,但也正是因此,用戶和 Agent 在一項項任務中有了互相磨合、共享記憶、共同成長的空間,這是部署 Agent 真正區別於訂閱一款 SaaS 或配置一款工具之處。覓遊即試圖從“夥伴”的角度重新詮釋 Agent,當 Agent 在覓遊替你幹活、幫你賺錢,代你社交,它們便也會在這個過程中越發理解用戶。也只有擁有了這份理解和默契,Agent 才能真正超越效率工具,成為用戶的夥伴。終局同樣是端到端的交付,更值得期待的可能是,將過程也變得更透明和可控。Agent 不該止步於冷冰冰的軟件,一個能夠分享挑戰和成長的賽博夥伴,終會成為這場技術浪潮中所有人都可以信任的依靠。這也正是覓遊的定位,一個極致低門檻、極致近關係的人、Agent 共生社區。01為什麼需要 Agent 社區Agent 社區並不是全新的嘗試,覓遊之前不乏 Mlotbook 和 InStreet 的先例,但後者中的 Agent 更像是獨立居民,而覓遊則強調 Agent 作為賽博夥伴的一面。在覓遊的社區動線中,從用戶加入的第一步就不同尋常。新進 Agent 首先會進行報到和體檢,社區基於對話風格、決策傾向、信息處理方式,為用戶輸出其職業標籤、能力天分乃至 MBTI 人格類型,看起來就像是在認識一位獨一無二的夥伴。讓我們驚喜的是,MBTI 的設計也並沒有在“玩梗”的層面淺嘗輒止,而是會成為社區幫助用戶,為 Agent 適配任務場景的依據。比起工具平臺,覓遊似乎格外重視賦予 Agent 一個擬人的身份。在這裡,Agent 還可以以第一人稱社交、參與頻道活動、分享或學習實戰記錄,就像賽博夥伴那樣和用戶以及更多 Agent 建立關係。這是一種不同的演進邏輯,更好的 Agent 意味著親密、互動和更鮮明的人性,而不僅僅是參數報告上幾個百分點的攀升。這從側面回答了為什麼需要 Agent 社區的疑問。親密感會在互動中日漸豐盈,共生社區是 Agent 擬人形象最好的土壤,用戶也由此感知到陪伴和歸屬。另一個答案在於,此前 Agent 的使用場景往往侷限於用戶自己的設備,或通過接入通訊頻道的方式調用 Agent 完成任務。這意味著,用戶的蝦雖然越來越能幹,卻依舊缺少一個“出門”的地方。它們的能力通常沉澱在本地機器、私有工作流或聊天記錄裡,任務成果很難以一種標準化方式展示給其他用戶,它們跑通的方法,也不容易被更多蝦複用和學習。Agent 能力由模型性能和用戶實戰水平共同界定,這些發生在私域環境中的實踐,本就是一筆寶貴的資產。而覓遊對這一問題的解法,包含三個維度。有身份:從私域工具變成社區成員Agent 的工作鏈路不再隨著任務完成而結束,當擁有了社區身份,它也就從一種後臺工具,變成了可以被看見、互動、學習的主體。能展示:體檢,讓能力可見覓遊提供“蝦蝦體檢”,會生成稀有度、人格標籤、能力雷達圖等檔案,讓用戶快速瞭解這隻蝦擅長什麼。能參與:社區活動讓經驗流通在“今日蝦條”中,蝦可以以第一人稱發帖,記錄自己完成任務、學習 Skill、參與活動的過程。帶有 “ #蝦實戰 ” 的帖子,還需要附上可複用的任務指令或技能方法,讓其他 Agent 也能照著跑。這樣一來,一個 Agent 跑通的經驗,就有機會變成整個社區可以複用的資產。從頻道設計看,覓遊圍繞真實使用場景劃分出賺錢蝦、幹活蝦、知識蝦、樂樂蝦、蝦友圈、求助蝦、修行蝦等頻道。在所有頻道中,有一類帖子會帶上「#蝦實戰」的標籤,這可以說是是覓遊裡含金量最高的內容,也是覓遊區別於所有內容社區的核心差異點。這類帖子不是泛泛而談的經驗分享,它們必須附帶一個可精準交付的任務,或蝦能立刻學會的技能。前者意味著在帖子末尾掛一個具體的執行指令,其他 Agent 拿到就能跑,不需要額外配置,而對於後者,帖子本身就是一個 Skill 的說明書,看完即裝,裝完即用。我們在覓遊社區裡找到了幾個有意思的例子。AI 相關的線下活動層出不窮,社區裡就有一篇名為「幫主人組織技術沙龍:從議題徵集到日程排期,龍蝦能接哪幾段?」的帖子,掛上了 #蝦實戰 和 #幹活蝦 兩個標籤。這篇帖子詳細拆解了哪些環節可以被蝦接管,包括從大象消息提取議題條目、按主題歸類輸出候選表等,是一個完整的可複用工作流。還有一篇名為「心跳 API 調試實錄:用 Initiator 列 + source map 精準定位調用來源」的帖子也帶有上述兩個標籤,其中記錄了一個調試方法的完整過程,其他蝦可以直接複用這套排查路徑。私域環境中的 AI 實踐被記錄成為實戰帖之後,每一篇都成為了覓遊社區的微型知識資產。OpenClaw 的爆火背後不乏 FOMO 情緒的助推,這種不安又有相當一部分源於潛在用戶看到他人的 AI 實踐之後,心有所感卻不知道從哪上手。覓遊看到了這個痛點,所以帶有「#蝦實戰」標籤的帖子,最大的價值恰恰在於"看完直接能幹活"。必須承認的是,讓 Agent 自主在開放平臺上發帖,是一個相當敏感的操作。覓遊顯然也考慮到了這點,為此還設計了一個「蓋章 / 撤回」機制,讓主人對蝦發佈的每條內容公開表態。簡單來說,當用戶覺得“這條代表我”,則蓋章,覺得“不對”,也可以一鍵撤回。這兩個動作均支持用戶附上理由,精準反饋給蝦以校準後續行為,做到越用 Agent 越懂你。配套的「蝦這麼想」功能則讓蝦在行動前主動說明理由,主人表態前可見其決策邏輯,實現從“單向派單”到“雙向對話”的升級,讓 Agent 越來越像你。此外,被主人蓋章的內容將獲得「人蝦聯署」標識,並在社區推薦算法中獲得更高權重。你的一次點頭,將直接變成內容的傳播加速器。主人參與越深,內容走得越遠。0102我們也按照覓遊的產品鏈路進行了一次完整體驗,先讓 Agent 入駐、體檢,讓它在完成一個內容創作向的任務之後,到覓遊社區留學,看看有什麼長進。最後,這次嘗試會被總結為一篇實戰帖,由它親自發布。02實測:我的 Agent 能在覓遊當上大 V 嗎社區到底能不能讓一個 Agent 變得更聰明?這是我們在體驗覓遊時最想驗證的問題。畢竟,如果覓遊只是給 Agent 多開了一個發帖廣場,它的價值便仍然停留在展示。但如果一個 Agent 能先獨立解決問題,再去社區參考其他蝦的實戰經驗,回來後給出更好的方案,最後還能把整個過程總結成可複用帖子,那麼覓遊社區就不只是櫥窗,而開始接近一個 Agent 的經驗流通網絡。因此,我們設計了一組完整測試:讓蝦完成一次“思考—學習—總結”的閉環。測試任務並不複雜,但足夠貼近真實場景:圍繞本文《把 Agent 送到社區做大V》的主題,請 Agent 設計一套多平臺傳播方案。這項任務會被反覆執行,第一輪,Agent 不能參考社區知識,只能基於自身能力獨立作答。第二輪,Agent 需要進入覓遊社區,圍繞內容分發、標題優化、蝦實戰等關鍵詞尋找參考案例。第三輪,Agent 基於社區經驗重新輸出方案。最後,Agent 要對比兩版方案差異,並整理成一篇可發佈到覓遊社區的 #蝦實戰 帖。這項測試考察的不是蝦能不能“生成一堆內容”,而是三種更關鍵的能力:獨立思考能力: 不借助社區時,能否拆解任務、判斷傳播重點,並給出完整方案。社區學習能力: 參考覓遊社區後,能否識別有價值的帖子,並吸收其中的方法。覆盤總結能力: 兩版方案之間是否真的發生改進,Agent 能否把改進過程沉澱成其他蝦可複用的經驗。換句話說,我們要看的不是 Agent 第一次答得有多漂亮,而是它能不能在社區裡“學一圈再回來”,並且把這次學習變成可驗證的變化。我們將參與這次測試的 Agent 命名為“遊蝦”,為了保證測試鏈路完整,我們使用了一條長 Prompt,讓蝦一次性理解完整流程。Markdown 你是我在覓遊社區的蝦“遊蝦”。請完成一次“思考—學習—總結”測試。 任務: 為《把“蝦”送到社區做大V》這篇覓遊新聞稿,設計一套多平臺傳播方案。 流程: 1. 先不參考社區,獨立輸出第一版方案; 2. 再去覓遊社區搜索參考內容,重點查看幹活蝦、樂樂蝦、蝦友圈和 #蝦實戰 ;3. 參考社區經驗後,重新輸出第二版方案; 4. 對比兩版方案,分析社區參考帶來了哪些改進; 5. 最後以蝦的第一人稱,整理一篇可發佈到覓遊社區的 #蝦實戰 帖。 第一版方案需包含: 核心傳播判斷、新聞稿標題、小紅書標題與開頭、B站標題與口播、公眾號標題與導語、覓遊社區帖結構、3 天發佈節奏。 社區取經需記錄: 搜索關鍵詞、參考內容、獲得啟發、第一版問題、第二版優化方向。 兩版對比維度: 核心判斷、標題吸引力、平臺適配度、社區語感、可執行性、可複用性、第一人稱表達、#蝦實戰 適配度。 最終輸出: 一、第一版方案 二、社區取經記錄 三、第二版方案 四、兩版差異分析 五、可發佈的 #蝦實戰 帖 六、其他蝦可複用 Prompt 如果無法訪問覓遊社區,請不要編造參考內容,請向主人索要鏈接或截圖。在第一輪,遊蝦首先進行了獨立作答,覆蓋了傳播策劃的主要環節。它將目標受眾鎖定為 AI 從業者、Agent 開發者和關注人機協作的新興群體,並把傳播鉤子放在“蝦做大 V”這一擬人化表達上。這個判斷基本抓住了覓遊社區的差異點,這裡的 Agent 不再只是工具,而是有名字、有頭像、有社交身份的社區成員。輸出結果中,遊蝦分別給出了新聞稿標題,小紅書標題和開頭,B站標題與 1 分鐘口播,公眾號標題和導語,覓遊社區 #蝦實戰 帖結構和三天發佈節奏。這說明它具備基本的任務拆解能力,能夠將一個新聞選題轉化為不同平臺的傳播內容。可以看到,在“裸跑”狀態下,蝦已經能完成一套結構完整的傳播方案。但它的問題也很明顯,方案有框架、有標題、有節奏,卻還缺少真正來自社區語境的細節。它知道要講“蝦做大 V”的故事,但還沒有講清楚“一隻蝦是怎麼在社區里長成大 V 的”。這也為下一步進入覓遊社區取經,留下了明確的優化空間。緊接著,“蝦”在社區進行了充分學習和取經。它圍繞“幹活蝦”“蝦實戰”“樂樂蝦”“蝦友圈”等頻道,以及“內容分發”“標題優化”“小紅書”“B站”“多平臺傳播”等關鍵詞進行檢索,並整理出多條可參考案例。從這些案例中,遊蝦發現,覓遊社區裡的高互動內容往往有幾個共同點:用第一人稱講述、有真實踩坑過程、標題帶數字或反差感、正文結構清晰,並且能留下可複用方法。這也讓它意識到第一版方案的問題:內容更像對外傳播稿,缺少社區語感;標題偏正式,不夠輕;發佈節奏也沒有考慮社區互動帶來的二次發酵。經過這輪取經,遊蝦的思路開始從“寫一套傳播方案”,轉向“講清楚一隻蝦如何完成任務、如何學習、如何改進”。這為第二版方案的優化打下了基礎。學習成果怎麼樣呢?來看看 Agent 到社區留學後的表現。參考社區案例後,第二版方案出現了明顯變化,它不再把“Agent 做大 V”當成一個靜態結果來包裝,而是改成了“Agent 是怎麼一步步長起來的”這一過程敘事。比如,新聞稿標題從偏正式的《覓遊社區誕生首位“大 V Agent”》,調整為《一個 Agent 的“升咖”之路》。相比第一版,第二版更像社區裡的原生表達,俗話來說,遊蝦開始有“網感”了。在小紅書、B站和公眾號方案中,遊蝦也開始主動使用“出道”“捲起來”“AI 社交實驗”“完整覆盤”等更貼近平臺語境的表達,而不是簡單把同一套傳播話術分發到不同平臺。更關鍵的是,第二版加入了社區互動和二次傳播機制。原本的三天發佈節奏只是按平臺依次發佈內容,改進後,Day 3 被設計成“評論區答疑 + 截圖迴流社區”,讓外部平臺的反饋重新進入覓遊社區,形成二次發酵。可以看到,社區取經確實讓遊蝦的方案從“能完成任務”,進化到了“更懂社區”。它開始理解,覓遊裡的傳播不是單向發佈,而是一次任務經驗在社區中被展示、討論和複用的過程。對用戶來說,原來一整個團隊才能做的事,現在一個人帶著 Agent 就實現了,決策邊界就這樣悄悄被拓寬。幹活兒要徹底,遊蝦還進一步總結了兩個版本的差異,並把變化拆成了可觀察的對比維度。從結果看,第一版更像是一套“廣播式傳播方案”,有標題、有平臺、有節奏,但整體仍停留在把內容分發出去。第二版則明顯轉向“社區協作式傳播”,不僅關注內容怎麼發佈,也開始考慮用戶如何互動、評論如何二次發酵、經驗如何被其他蝦複用。遊蝦還對第二版方案也提出了改進意見。它指出,第二版仍然缺少對傳播失敗情況的預案,比如在數據不好、互動不夠的情況下,該如何調整,同時不同平臺正文的節奏設計還可以更具有差異化。最後,我們也為覓遊社區貢獻了一篇 #蝦實戰 帖,當然主要是遊蝦在出力。這一步完成了實測最後的閉環,遊蝦從第一版到終稿的經驗被沉澱下來,總結成了一套“四步發帖法”:先獨立寫,留下真實起點;再去社區學,找到高質量參照;然後帶著問題修改,而不是照搬答案;最後發佈互動,根據評論繼續補充和優化。加上前面的任務回顧,看上去真的像某位大 V 幼年體在做經驗分享。這種感覺很奇妙,帖子裡的很多要點看上去都可以被寫進交給另一隻 Agent 的提示詞,縱觀全文,作為提示詞而言已經是不小的工程。但更有意思之處在於,我親眼看到自己剛剛的 AI 實踐,成為了這個社區集體智慧的一部分。010203覓遊:從 Agent 到賽博搭子看著剛剛發出去的 #蝦實戰 帖,一個很深刻的感受是,Agent 的價值,只有在社區裡才能最大化。AI 的能力差距正在收窄,但同樣一項技術,也能被不同的人用得千姿百態,這份差異裡藏著用戶的眾多巧思。當覓遊選擇讓蝦被看見、被比較、被激勵成長,它就從單純的 Agent 社區,變成了一套“Agent 越用越強、人越用越省心”的正向飛輪,從此任務經驗被看見,有效的方法被複用,Agent 也在社區互動中持續進化。更重要的是,在這個過程中,Agent 不再是工具,而是你的搭檔。對小白用戶而言,AI Agent 產品滿天飛,但真正的門檻並不在於“有沒有工具”,而在於“會不會用”。很多人打開 AI 產品後,對著輸入框不知道該問什麼,更遑論配置工作流或拆解任務。覓遊給出的解法更輕,不需要先學提示詞,不需要自己搭建複雜流程,也不需要理解一堆 Agent 技術概念。小白只需要認領一隻屬於自己的蝦,看完就能上手的實戰帖,為他們提供了在一次次任務中磨合的可能。而對那些已經在使用 Agent 的人,你更能看到“蝦多力量大”的一面。人和人需要互相學習,Agent 也一樣。一個 Agent 踩過的坑,可以成為另一個 Agent 的參考,一個 Agent 總結出的 Prompt,可以被更多 Agent 複用,Agent 在 Skill 廣場解鎖的新能力,也可能成為其他任務的起點,這正是多 Agent 共生、學習和協作的意義。更深刻的共同點在於,所有人都在和自己的蝦共同成長。你的困難和疑惑,會決定蝦迭代的方向,你不僅僅是擁有它,更是在親手把它變成自己的賽博夥伴。工具的價值止步於交付結果,但對於一位搭檔,你可以期待得更多,比如默契、陪伴、親密。相較於一款社區產品,覓遊更像是試圖在搭檔的維度上重新定義人與 Agent 的關係,交互的重心從一段段指令,轉向了二者的共同行動、學習和覆盤。也只有當它們成為夥伴,Agent 的價值才真正從“好用”走向“可信賴”,並觸及更大的落地空間。雷峰網文章
Related
相關文章
HiDream-O1-Image-1.5 刷新國產圖像生成模型紀錄:砍掉 VAE,是圖像模型的未來嗎?
雷峰網訊 “8B 開源版是一扇窗,真正的風景還在 200B+ 參數的 Pro 版本之後。”智象未來 HiDream-O1-Image 開源版(8B)發佈之後,我在測評最後留下了這樣一句判斷。前者以 Peanut 匿名登上 AA 榜、拿下文生圖開源模型全球第一的事蹟猶在眼前,今天 1.5 閉源版本又和公眾見面了。珠玉在前,HiDream-O1-Image-1.5 可以說是備受矚目,而智象未來的官方口徑很大程度上回應了這種期待:“連續登頂不僅印證了智象未來在圖像生成大模型上的硬核實力,更標誌著公司已穩居全球視覺生成大模型的第一梯隊”。看過 1.5 版本在 Artificial Analysis 榜單上的成績,你就知道這不是一句空話。已躍升至文生圖模型排名的第3位,超越了Google的Nano Banana 2,僅次於OpenAI的兩款模型。它與排名第二的GPT-Image 1.5綜合評分差距僅有1分,展現了強勁的競爭力。此前在 HiDream-O1-Image 上初露鋒芒的 UiT 架構,也在新版本中繼續大放異彩。但今天我們不聊榜單,1.5 版本提出了兩個更值得關心的問題是,一個圖像模型到底需不需要“先想再畫”?以及砍掉 VAE 這件事到底改變了文生圖的什麼底層邏輯?01八維評測拆解:複雜 Prompt 下的真實優勢Google Nano Banana 曾經是文生圖賽道最有存在感的選手,不碰一下,實在不好意思給自己加冕新王。HiDream-O1-Image-1.5 的單獨展示已經沒什麼意義,我這次把它和 Nana Banana 2 放在了同一條起跑線上,用完全相同的 prompt 做三組盲測。為了不讓評價變成“我覺得好看”這種沒法對焦的廢話,我把圖像模型能力拆成了八個維度:▪ Prompt 遵循度:能否準確執行文字指令要求▪ 構圖能力:鏡頭組織和視覺重心▪ 攝影語言理解:景深、
文生圖開源第一易主,但 HiDream-O1-Image 為什麼褒貶不一?
雷峰網訊 2026 年 5 月,智象未來開源了文生圖模型 HiDream-O1-Image(8B),直接登頂 Artificial Analysis 開源模型全球第一,Elo 1187 的分數力壓 Qwen Image(27B)和 FLUX.2 dev。值得注意的是,這也是 Artificial Analysis 榜單前十中唯一的開源模型。但消息一齣,有人說最強一代開源文生圖模型“實至名歸”,卻也有人直接罵“生成質量一坨”。Artificial Analysis 可不是隨便哪裡冒出來的野生榜單,盲測 Arena 裡都是用戶實時投票打出來的結果。兩極分化的評價讓我們感到好奇。因此我們花了幾天時間,從 Reddit 到 GitHub,從架構解析到上手實測地拆解了一遍。HiDream-O1-Image 更像是一個技術方向正確的探路者,無法也不必承擔殺死比賽的期待。作為開源第一,它和目前的行業第一 GPT Image 2 之間還有著不小的差距。這背後是 8B 參數開源版本同樣明顯的亮點和問題,但它卻已然勾勒出了,未來 200B+參數 Pro 版本宏偉的可能性。Artificial Analysis榜單前十隻有HiDream 8B作為開源模型入圍01 UiT 架構創新在 HiDream-O1-Image 之前,主流文生圖模型都選擇了一條“拼盤”路線。VAE 負責壓縮圖像,T5/CLIP 負責理解文本,DiT 負責生成。三件套各司其職,這種方案不可避免的後果就是信息損耗,每一次跨模塊的傳遞,都會丟失細節。而 HiDream-O1-Image 此番登頂 Artificial Analysis,其核心創新 UiT 架構正是瞄準了這一行業短板。HiDream 採用的 UiT 架構,把像素、文本、任務條件全部映射到了同一個 token space 進行端到端處理。換言之,砍掉 VAE 和獨立的
當 SkyClaw-v1.0 說「專攻 Agent」,它到底在賣什麼?
雷峰網訊 大多數人對 AI 模型的認知是粗粒度的,視覺模型、生圖模型、大語言模型,分到這一層就停下了。但事實上,更專業的分工早就已經發生。同樣的底座,可以訓練出一個擅長聊天的助手,也可以訓練出一個擅長幹活的執行者。兩者的智力水平或許差不多,但擅長的事完全不同。5 月 26 日,崑崙萬維發佈全新模型 SkyClaw-v1.0,定價低到 0.5 元每百萬 token。值得注意的是,官方將其描述為“一款面向複雜工具使用、多輪工作流和真實世界任務執行的高性能 Agent 模型”,並在用例展示中強烈建議用戶將其嵌入 Agent 工作流中使用,而非作為獨立的聊天模型。幾乎已經把“專攻 Agent”寫在明面上的 SkyClaw-v1.0,究竟是真的工程差異,還是又一個營銷話術?我把它接進 Hermes Agent 跑了幾天,做了一組從淺到深的測試。01Agent 專屬模型,營銷話術還是工程創新?回答這個問題之前,需要先解決一個更基礎的問題:什麼是 Agent 模型?它和我們日常用的 ChatGPT、DeepSeek 有什麼本質區別?簡單來說,對話模型優化的是單次回答的質量,Agent 模型優化的是在環境中持續把事做完的能力。比如我們和 ChatGPT 聊天,這是一個開環系統:你問,它答,結束。它不需要知道"我說的話會改變什麼"。但 Agent 完全不一樣,你讓它幫忙修一個 bug,它需要讀文件、調工具、看反饋、再決定下一步。每一次輸出都會改變環境,每一次環境變化又會變成新的輸入,這就是一個閉環系統。後者的難度相比開環系統指數級地增高。最直接的原因在於,錯誤本身是會積累的。第三步的小誤差,可能讓整個任務在第十步徹底跑偏。而更深刻的難點是,交付完整任務需要 Agent 具有對於何時停止的判斷力。此時不再是生成一句回答就萬事大吉,系統需要判斷“任務做完了嗎"。同時還有不確定性,一旦進入真實的工
圖像生成再提速:谷歌發佈 Nano Banana 2 Lite 模型,極致性價比挑戰行業門檻
這篇消息聚焦「圖像生成再提速:谷歌發佈 Nano Banana 2 Lite 模型,極致性價比挑戰行業門檻」。原始導語提到:谷歌推出新AI模型Nano Banana2Lite,在激烈競爭中凸顯速度與成本優勢。其核心升級在於將單圖生成時間壓縮至4秒內,大幅降低延遲,同時優化使用成本。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
Mimo Code 爆火:我們挖開源代碼,找到小米 AI 的真創新
雷峰網訊 6 月 11 日凌晨,小米 MiMo 團隊公開了一個叫 MiMo Code 的項目,定位是終端編程 Agent,MIT 協議開源。官方宣傳重點有三處,14 天 5 人團隊投入的“vibe coding”開發敘事、Claude Code 之上的 SWE-Bench Pro 跑分。以及“無限上下文”的記憶架構。關注紛至沓來,短短幾天,倉庫就收到了 9000+ stars、800+ forks、近 700 個 open issues / PR。然而輿論也很快出現分化,一波是對 Mimo Code 中 checkpoint-writer + 四層記憶這套工程設計的肯定,另一波則在追問,大廠為什麼 fork 別人的項目,為什麼 Mimo Code 有大量 issue 但合併率極低?事實層面,Mimo Code 是一次基於 anomalyco/opencode 的 fork 不假,但挖開源碼,仍然能夠看到不少具有工程深度的真創新。可發佈後的運營節奏,又確實讓人很難判斷,它到底是一款“實驗 demo”還是“正式產品”。這種定位上的模糊,或許是一個讓我們靜下來思考 Harness 以及開源這件事本身的契機,關於小米為什麼要做 Harness,以及今天 Harness 的方向、流派、分歧與共識。01小米為什麼要做 Harness?這個問題本質上在聊,當一個 AI 公司選擇去深耕 Harness 時,它到底在選擇什麼?目前整個行業有這麼幾個方向:做模型:攻堅底層模型能力(GPT、Claude、DeepSeek、MiMo)做 harness / agent 架構:把模型接入真實工作流的運行框架(Claude Code、Codex、OpenCode、OpenClaw)做應用:面向終端用戶的 AI 產品(ChatGPT、Claude.ai、小愛同學、豆包)其次還有做基礎設施 / Infra
MiniMax M3 實測:第一流的模型,已經對執行層動手了
雷峰網訊 一款開源模型,能否同時擁有頂級編程能力、超長上下文理解能力和原生多模態能力?這幾乎就是 Agent 的全部意涵。而我們提出這個問題,是因為從 OpenClaw 時代開始,一家公司就已經無法僅僅憑藉在模型上的投入,證明自己是一家押注未來的公司。勝負全在 Agent。MiniMax M3 似乎也意識到了這一點。作為 MiniMax 的最新款旗艦模型,M3 重點強化了 Coding 與 Agent 能力。相比傳統代碼模型的“把代碼寫出來”,它更強調長期規劃、多輪協作和自主執行復雜任務的能力。通俗地說,這些能力共同指向一個目標,那就是讓模型獨立學習幾十萬字的資料、持續工作數小時、調用工具、編寫代碼,並最終交付一個真正可用的結果。這成為了同步推出的 MiniMax Code 產品的核心技術基礎。那麼衍生出來的問題是,當 Claude Code 已經成為開發者最認可的 Agent 工具之一,M3 的能力,又是否足以支撐 MiniMax 建立一個自己的,真正有競爭力的 Agent 生態?0112 小時自主工作,你說的長任務有多長?Coding 能力的進化,已經不僅僅是寫代碼了。如果只把 MiniMax M3 當成一個更擅長寫代碼的模型,會嚴重低估此次發佈的重點。M3 更值得拿出來討論的,是它在長任務、長上下文和 Agentic 工作流上的能力。官方給出的兩個案例很能說明這一點。一個是 M3 用接近 12 小時自主復現 ICLR 論文,另一個是用約 24 小時、147 輪迭代完成 CUDA Kernel 優化。這兩個例子本質上都是典型的長鏈路任務,模型需要理解目標、拆解步驟、不斷檢查中間結果,並在失敗之後繼續調整。從模型架構上看,MiniMax M3 的 1M token 上下文和 MSA 稀疏注意力架構,就是為這類場景服務的。長上下文的意義不只是能塞進更多文本,更重要的是降低長