智東西模型更新

豆包會做任務了,成功幫我薅了瑞幸的羊毛

2026年6月15日 10:57

重點摘要

AI應用風向標(公眾號:ZhidxcomAI) 作者|江宇 編輯|漠影 智東西6月15日報道,近日,豆包全量上線了任務模式。打開應用後可以發現,頂部模型切換欄已經從原來的“快速、專家”兩檔模式,擴展為“快速、專家、任務”三檔模式。 為了弄清楚任務模式到底能做什麼,智東西第一時間進行了體驗。我在任務模式下,直接向豆包提問:“你能完成哪些任務?” 隨即,豆包列出了一長串能力清單,其中包括產品設計與開發、文檔創作、數據分析、研究整理、多媒體創作、自動化工具以及瀏覽器網頁操作等多個方向。在回答的最後,豆包給出了一個頗為直接的定義:任務模式=端到端完成任務。 可見,豆包此次上線的任務模式,也已經不再只是傳統意義上的聊天機器人,而更接近騰訊Workbuddy、月之暗面Kimi Work這類桌面智能體產品。 不過體驗下來發現:豆包選擇了一條和不少桌面Agent不太一樣的路線。 一、豆包能“動手”幫我點咖啡了 最近,瑞幸上線了My Coffee Skill,支持搜索門店、瀏覽商品、下單、查詢訂單狀態等功能。於是我決定拿這個場景作為第一個測試。 我直接向豆包客戶端發送了My Coffee Skill的安裝地址。幾秒鐘後,豆包開始安裝My Coffee Skill。 整個過程中,豆包沒有彈出任何系統級權限申請窗口。既沒有要求訪問電腦,也沒有要求讀取本地文件,更沒有申請瀏覽器控制權限。安裝信息顯示,這個Skill會被部署到獨立運行目錄中。 這意味著至少在目前階段,豆包的思路並不是先獲取系統權限,再去完成任務,反而是優先通過Skill機制調用能力。 安裝完成後,豆包提示需要配置瑞幸MCP Token。這個Token可以直接在瑞幸AI開放平臺獲取。 配置完成後,豆包還專門詢問是否需要保存Token。保存之後,後續使用Skill時便無需重複配置。 隨後豆包開始搜索門店,這裡出現了一個比較有意思的現象。

站內 AI 整理稿

AI應用風向標(公眾號:ZhidxcomAI) 作者|江宇 編輯|漠影 智東西6月15日報道,近日,豆包全量上線了任務模式。打開應用後可以發現,頂部模型切換欄已經從原來的“快速、專家”兩檔模式,擴展為“快速、專家、任務”三檔模式。 為了弄清楚任務模式到底能做什麼,智東西第一時間進行了體驗。我在任務模式下,直接向豆包提問:“你能完成哪些任務?” 隨即,豆包列出了一長串能力清單,其中包括產品設計與開發、文檔創作、數據分析、研究整理、多媒體創作、自動化工具以及瀏覽器網頁操作等多個方向。在回答的最後,豆包給出了一個頗為直接的定義:任務模式=端到端完成任務。 可見,豆包此次上線的任務模式,也已經不再只是傳統意義上的聊天機器人,而更接近騰訊Workbuddy、月之暗面Kimi Work這類桌面智能體產品。 不過體驗下來發現:豆包選擇了一條和不少桌面Agent不太一樣的路線。 一、豆包能“動手”幫我點咖啡了 最近,瑞幸上線了My Coffee Skill,支持搜索門店、瀏覽商品、下單、查詢訂單狀態等功能。於是我決定拿這個場景作為第一個測試。 我直接向豆包客戶端發送了My Coffee Skill的安裝地址。幾秒鐘後,豆包開始安裝My Coffee Skill。 整個過程中,豆包沒有彈出任何系統級權限申請窗口。既沒有要求訪問電腦,也沒有要求讀取本地文件,更沒有申請瀏覽器控制權限。安裝信息顯示,這個Skill會被部署到獨立運行目錄中。 這意味著至少在目前階段,豆包的思路並不是先獲取系統權限,再去完成任務,反而是優先通過Skill機制調用能力。 安裝完成後,豆包提示需要配置瑞幸MCP Token。這個Token可以直接在瑞幸AI開放平臺獲取。 配置完成後,豆包還專門詢問是否需要保存Token。保存之後,後續使用Skill時便無需重複配置。 隨後豆包開始搜索門店,這裡出現了一個比較有意思的現象。它並沒有主動獲取我的實時位置,而是先整理出門店列表,讓我自行指定去哪一家門店取餐。換句話說,即便是在下單場景裡,豆包依然沒有獲得定位權限。 確認門店後,它開始搜索商品並生成訂單。在此期間,我故意給出一個相對模糊的需求——少冰。 豆包並沒有報錯,並且根據商品規則重新調整配置,再次確認訂單內容。 最終生成訂單後,我又打開瑞幸微信小程序進行了對照。但是無論是商品價格還是優惠券使用情況,兩邊均不一致,甚至在豆包下單還便宜了3角錢。 完成支付後,豆包繼續跟進訂單狀態,併成功返回取餐碼。 幾分鐘後,我順利拿到了這杯咖啡。 二、買完咖啡之後,我決定讓它順手做個App 既然已經完成了一次下單,我索性繼續加大難度。我把一個咖啡愛好者App的需求直接扔給了豆包。 這個App需要能夠記錄每日咖啡、統計咖啡因攝入量、生成分享卡片,並支持查看長期數據趨勢。 收到需求後,豆包直接進入任務執行狀態。與普通聊天模式最大的區別在於,它會主動拆解任務,並實時展示當前執行進度。在此期間,用戶可以選擇追加信息,也能直接結束任務。 隨後,豆包給出了一整套交付結果。除了產品方案和UI設計稿之外,它還生成了完整的SwiftUI代碼,以及一個能夠直接運行的網頁Demo。 ▲產品方案與SwiftUI代碼 細看這份完整方案文檔,豆包是按照一份正式產品文檔的結構展開的。 文檔開頭就先給出產品定位,隨後,豆包繼續拆出了產品概述、市場定位、用戶畫像、核心功能、頁面流程與交互設計等內容。其中,還包括:核心用戶群體、用戶使用場景、貼紙式記錄系統、咖啡因智能統計、時間流手賬首頁、分享創意工坊等更細分的模塊。 比較有意思的是,這份文檔最後還自動寫上了版本號、日期和作者信息。作者一欄顯示為“SuperDoubaoAgent Product Team”,有點像豆包給自己臨時組了一個產品團隊。 同時,這份文檔出現在一個可繼續編輯的文檔編輯器裡,用戶可以繼續手動修改內容,也可以直接調用AI繼續優化。 打開網頁Demo後,一個手機模擬器直接出現在頁面中央。 首頁展示當天咖啡因攝入量;底部中央按鈕用於記錄咖啡; 統計頁面展示趨勢變化;分享頁面則負責生成分享卡片。 我也很快發現了一個問題。在初始版本里,底部導航欄中央用於添加咖啡記錄的“+”按鈕採用了懸浮設計,但位置明顯高於兩側導航按鈕,看起來並不協調。 如果是傳統開發流程,這時候通常需要重新修改代碼、編譯預覽,再查看效果。不過在豆包這裡,我直接進入了可視化編輯模式。 選中按鈕後,我輸入了一句非常簡單的需求:“與下方其他按鈕水平對齊。”隨後豆包開始調整頁面佈局,並重新生成預覽。 與很多AI工具依然圍繞代碼展開不同,豆包這裡已經開始嘗試把“設計修改”從代碼層抽離出來。對於不會寫代碼的用戶來說,直接描述需求,可能比修改代碼更符合直覺。 另一個比較細節的設計是版本管理。每次完成修改之後,系統都會自動生成新的版本記錄。用戶可以在V1、V2等多個版本之間自由切換。 三、幾個開發小細節,讓代碼小白狂喜 做完基礎Demo之後,我還給豆包追加了一個需求:為每一杯咖啡添加精美貼圖。 收到需求後,豆包立馬分析了貼圖對於產品體驗的影響,隨後規劃了貼圖設計方案、頁面替換方案以及後續渲染邏輯。隨後,它又進一步拆分出貼圖顯示優化、頁面渲染更新以及功能實現等多個子任務,並逐步推進。 完成修改之後,網頁Demo中的咖啡記錄與選擇頁面直接發生了變化。原本較為簡單的文字被替換成了風格統一的咖啡插畫,整體視覺豐富了不少。 與此同時,貼圖的配色也延續了產品原本的咖色系設計,沒有出現明顯的風格割裂。 完成貼圖之後,我又繼續追問:還能增加什麼功能?這一次,豆包直接給出了25+個功能創意。 既包括咖啡因攝入預警、年度咖啡報告、咖啡地圖,也包括咖啡豆收藏、好友打卡、衝煮記錄等偏社區方向的功能。對於缺乏產品經驗的用戶來說,相當於多了一位能夠持續提供創意的產品經理。 五、圖片、文案、視頻一起上,能調度更多工具 最後,我又加了一個更進一步的任務。豆包既然能把App做出來了,不如順手藉助其生圖和生視頻的能力,再生成一支宣傳視頻。 收到需求後,豆包開始自動規劃任務。先調用生圖工具生成宣傳圖,再匹配上廣告文案,隨後拆解鏡頭和分鏡。 不過在最終的視頻生成環節,工具出現了異常。最終,豆包判斷當前更可能是視頻工具服務異常。 隨後,豆包主動給出兩種替代方案:一種是利用現有素材在剪映中快速製作簡單視頻;另一種則是保留完整視頻腳本和分鏡,等待後續重新生成。 雖然最終廣告片沒有成功產出,但整個過程中能夠明顯感覺到Agent與傳統聊天機器人的區別。 寫在最後: 任務模式下,豆包已經不只是回答問題,而是能夠圍繞一個目標任務,調用Skill、連接MCP,並協調代碼、圖片、視頻等不同工具共同完成工作。 同時,豆包也選擇了一條相對剋制的路線。 至少從本次體驗來看,無論是咖啡下單還是App開發,它都沒有主動獲取定位權限,也沒有申請電腦控制權限或本地文件訪問權限。相比一些強調“接管電腦”的桌面Agent產品,豆包在有限權限下,儘可能完成更多任務。 對於擁有龐大用戶規模的產品來說,這條思路或許更容易落地。 從此次上線的任務模式來看,豆包顯然已經不滿足於繼續做一個聊天機器人,也開始向桌面Agent方向邁進。而這條賽道上已經站著Codex、Claude Code,以及積累了一定AI辦公場景經驗的騰訊WorkBuddy。 對於豆包來說,任務模式或許只是第一步。未來,豆包究竟能夠接管多少工作,又會以什麼方式接管,仍值得持續觀察。

Related

相關文章

MarkTechPost AI模型更新

Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages

This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather

19 分鐘前
MarkTechPost AI模型更新

Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight

Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

14 小時前

智譜新高,MiniMax承壓,“大模型雙雄”命運殊途

這篇消息聚焦「智譜新高,MiniMax承壓,“大模型雙雄”命運殊途」。原始導語提到:大模型在被市場重新定價 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

16 小時前