字節最便宜視頻模型來了！1.6毛/秒，比Fast快，實測讓黃仁勳和豆包一起踢球

2026年6月15日 11:00

重點摘要

站內 AI 整理稿

智東西作者 | 畢偉豪編輯 | 李水青智東西6月16日報道，昨晚，字節新模型Seedance 2.0 Mini深夜來襲，該模型主打性價比，側重於提供更低的價格以及更快的生成速度。 Seedance 2.0 Mini雖然定價更低，但保留了核心能力參考生成，用戶可以通過融合提示詞與最多12個多種模態的參考素材（包括6張圖片、3段音頻、3段視頻）來鎖定人物一致性、精細化控制運動軌跡、卡準劇情節奏。字節方面稱，在早期測試中，Seedance 2.0 Mini在運動表現方面超過了Seedance 2.0和Seedance 2.0 Fast。和Seedance 2.0 Fast相比，Seedance 2.0 Mini的運動質量更好，畫面穩定性更強，單次生成更便宜，在短視頻和快速測試場景裡效率更高。Fast模型現在更適合短電影草稿這類輕量用途，Seedance 2.0則適合預算充足的高端製作。對比強調高電影感的畫面和原生音頻整合的Veo 3以及重視物理真實感、延展場景和複雜敘事的Sora 2，Seedance 2.0 Mini在渲染速度、產出成本、短視頻創意上佔據優勢。一句話總結，如果追求快速批量創意視頻生成、高端項目前期草稿、短視頻製作以及節省預算，Mini是更好的選擇。 API價格方面，Seedance 2.0 Mini相比Seedance 2.0有大幅度的下降，生成成本降低約50%，目前僅支持在小云雀和即夢AI中使用，或者在火山方舟大模型體驗中心進行體驗，API將在6月22日開放，當前在火山方舟大模型體驗中心的價格為0.023元/千tokens。 C端價格上，目前在即夢和小云雀兩個平臺，如果想體驗新模型，需要訂閱會員，6月15日到6月21日有限時會員和積分消耗折扣。官方宣傳的最低價位是每秒鐘0.16元，但折扣價格只有標準及以上會員才能享受，如果是最低檔位的基礎會員，實際使用中按照小云雀積分計算，一條10秒鐘的視頻平均在80積分左右，摺合人民幣約為8元，平均每秒為0.8元。 Seedance 2.0 Mini核心亮點如下： 1、視覺效果比前代Seedance模型更好； 2、生成速度更快，等待時間更短； 3、單次生成視頻的積分消耗量更低； 4、運動一致性和指令遵循能力出色； 5、支持多模態輸入的參考系統，可以實現多個圖片、音頻和視頻引用。為了驗證這款新模型的實際表現，我們第一時間在小云雀上進行了體驗。體驗發現，Seedance 2.0 Mini在生成速度上有所提升，同時視頻生成的質量也可圈可點，模型在多模態輸入、長文本提示詞的處理、音畫同步以及人物一致性方面有不錯的表現，但也存在對物理定律的遵循不嚴謹以及鏡頭切換不太自然等問題。一、口播、說唱、空中飛鯨，速度與質量兼具，但問題也不少此次測試共設計了四組不同難度的場景，覆蓋長文本理解、音畫同步、複雜物理規律模擬、超現實場景生成以及電商短視頻等場景，重點觀察Seedance 2.0 Mini在畫面一致性、動作還原、音畫同步以及生成速度等方面的表現。首先，作為主打性價比的模型，首先測試的一定是生成效率，我們選擇了一個相對簡單，但對速度、質量以及數量均有要求的電商口播場景，在該場景中，用戶往往需要批量生成帶數字人口播的商品介紹視頻。如果生成時間過長，即便效果優秀，也難以滿足實際生產需求。因此，我們設計了一個典型的電商帶貨場景，在測試模型生成速度的同時，也觀察其對於數字人口播、商品展示和鏡頭切換的綜合表現。提示詞：現代直播電商工作室內，一位25歲左右的年輕女性主播站在商品展示臺前，面向鏡頭進行口播。主播身穿簡潔幹練的職業裝，面帶自然微笑，手中拿著一款白色無線降噪耳機。背景是乾淨明亮的科技風直播間，桌面擺放著耳機充電倉和產品包裝盒。視頻開始時，主播看向鏡頭並說道：“如果你最近正在尋找一款高性價比無線降噪耳機，那麼一定不要錯過這款產品。” Seedance 2.0 Mini花費了2分鐘左右給出了視頻，口播內容與嘴型精準對應，產品展示鏡頭完整且符合帶貨邏輯，主播形象保持一致，真實度很高，但出現了展示的耳機過大，不符合現實邏輯的問題。緊接著，我們嘗試了一個涉及多人互動和嘴型同步的高難度場景：地下說唱Battle。相比簡單的人物對話，說唱不僅語速極快，而且伴隨著大量表情變化、肢體動作和觀眾互動，這對視頻模型的音畫同步能力提出了更高要求。提示詞：紐約布魯克林地下街區的夜晚，兩位年輕說唱歌手正在進行激烈的街頭Battle。四周聚集著大量圍觀者，霓虹燈與街頭塗鴉構成充滿張力的背景。第一位歌手以極快語速輸出歌詞，同時配合誇張而富有節奏感的手勢動作；第二位歌手則不斷點頭、挑眉、微笑或露出不屑表情進行回應。鏡頭在近距離面部特寫和全景群體畫面之間切換。要求每一個單詞、每一個音節都與嘴部動作精準同步。圍觀群眾不斷髮出歡呼、笑聲和喝彩，舉起手機錄製視頻，揮舞雙手響應節奏。背景音樂為重低音Hip-Hop Beat，所有人聲與嘴型必須達到真人級同步效果，整體呈現高真實度紀錄片風格。可以看到視頻中的Rapper聲音和嘴型保持同步，快速吐字時口部動作依然清晰自然；人物的表情、手勢和身體律動能夠跟隨節拍變化；圍觀群眾會在精彩段落做出及時反饋，整個現場呈現出真實街頭Battle的沉浸感。但視頻存在說唱的歌詞混亂，聽著不像英語的問題。除了音畫同步之外，物理規律模擬同樣是當前視頻生成模型的一大難點。因此，我們設計了一個違背日常經驗、同時又要求遵循物理邏輯的失重場景，來測試模型對空間關係、慣性運動以及流體行為的理解能力。提示詞：一家現代風格咖啡館內，重力突然消失。顧客、桌椅、書本和各種物品緩慢漂浮到空中。咖啡師漂浮著繼續製作咖啡，液態咖啡從杯中溢出後形成無數漂浮液球。一隻橘貓像在水中游泳一樣緩慢穿過空間。鏡頭持續旋轉並自由移動，展示整個失重環境。所有漂浮物體都必須遵循真實慣性和動量規律，液體運動需要符合流體物理特徵。整體呈現極高真實感和複雜物理模擬能力。視頻中顧客、物品、貓咪會緩慢漂浮並保持在無重力狀態下的運動軌跡，但出現了部分顧客沒有失重，有人漂浮有人坐著的情況，且液態咖啡還在咖啡師的杯子裡沒有飄出來，與真實失重狀態有所出入。最後，我們選擇了一個超現實場景來測試模型的創造力和泛化能力。相比街道、人物等高頻訓練內容，這類現實中不存在的場景往往在訓練數據中佔比極低，更能檢驗模型對罕見視覺元素組合的理解能力。提示詞：巴黎市中心的街道上，一頭長達數十米的巨大藍鯨正像在海洋中一樣緩慢遊過天空。陽光透過半透明魚鰭投射出夢幻般的光影，數百條發光小魚圍繞著鯨魚遊動。下方汽車仍在正常行駛，路人紛紛停下腳步仰望天空，有人驚訝地舉起手機拍攝。鏡頭從鯨魚腹部下方緩慢跟隨移動，展現鯨魚掠過歷史建築時產生的巨大尺度對比。整體畫面超現實但極度真實，所有細節均遵循真實攝影邏輯，營造出令人震撼的夢境般視覺體驗。視頻中鯨魚、路人和建築的能夠體現出巨大的尺度差異，鯨魚的擺尾、魚鰭動作符合真實海洋生物運動規律；巴黎街景、車輛和行人的反應也比較真實。二、給圖片和視頻絲滑生成，黃仁勳踢世界盃，貓片魔改白虎降世相比文生視頻，圖生視頻對模型的要求實際上更高。文生視頻考驗的是模型對文本的理解和視覺生成能力，而圖生視頻則需要模型先準確識別圖片中的主體特徵，包括人物外貌、服飾細節、面部結構以及整體身份特徵，然後在此基礎上完成動作延展和場景重構。同時，在視頻生成過程中，模型還需要處理主體一致性、動作連貫性、場景融合以及物理規律等多個維度的問題，因此圖生視頻往往更容易暴露模型能力短板。為體驗Seedance 2.0 Mini的圖生視頻能力，我們分別上傳了黃仁勳和豆包的照片，並輸入如下提示詞：幫我生成一個視頻，圖1和圖2中的人物在世界盃賽場上踢足球，圖1人物進攻，圖2人物防守，要有盤帶動作，兩個人都穿上球衣。足球屬於典型的高動態運動場景，盤帶、變向、防守、身體對抗等動作都涉及複雜的人體運動邏輯和足球運動軌跡，模型不僅需要讓兩個人“像本人”，還要讓他們“像球員”。從生成結果來看，Seedance 2.0 Mini成功識別出了黃仁勳的核心面部特徵，並將他進行了動漫化處理。視頻中，黃仁勳負責帶球推進，豆包則進行貼身防守，足球運動軌跡與人物動作基本保持一致，美中不足的是鏡頭不是一鏡到底，中間盤帶過人的時候切鏡頭導致畫面不順暢。根據已有視頻素材進行創意生成，也非常考驗模型能力，於是我們上傳了一段逗貓的視頻，並輸入了另一組提示詞：生成一段小貓逐漸長大成為白虎的視頻。在這個視頻裡，小貓逐漸長大的過程中，對於毛色、頭部和眼睛等關鍵區域，模型保留了較好的連續性，使觀眾能夠明顯感受到這是同一個主體在不斷成長，不過由於沒有進行分鏡設計，因此長大的過程中背景的切換比較生硬。為了檢驗Seedance 2.0 Mini基於多模態素材的生成水準，我們上傳了兩張圖片、一段視頻以及一個音頻，讓Seedance 2.0 Mini生成一個夏日動物出遊的視頻，提示詞如下： Seedance 2.0 Mini很快輸出了視頻，能看到視頻中的動物形象保持了不錯的一致性，與背景環境以及音樂的融合也比較融洽，模型對於多種模態素材的處理較為精細。從測試中可以看出，Seedance 2.0 Mini不僅能夠完成常規的人物動作生成，在涉及身份保持、角色成長和形態演變等更復雜的多模態素材處理時，也具備較強的視覺連續性和穩定性。但不可否認的是，模型在一些細節的處理上還存在一些問題。總結：視頻生成模型捲起性價比，價格低但質量不低整體看這次測試，無論是長文本理解、音畫同步、圖生視頻，還是超現實場景生成，作為一款主打高性價比的輕量化模型，Seedance 2.0 Mini都交出了一份超出預期的答卷。過去很長一段時間裡，視頻生成領域始終面臨一個經典難題：質量、速度和成本三者難以兼得。想要更好的畫質，就需要更大的模型和更長的推理時間，想要更快的速度，就不得不犧牲部分效果，而當用戶開始大規模生產內容時，成本又會成為新的瓶頸。但從Seedance 2.0 Mini的表現來看，字節正在試圖找到速度、價格和質量之間的平衡。Seedance20 Mini主要面向頭腦風暴、快速測試、視頻原型製作以及短視頻創作等場景，在這些場景中，創作者主要使用720p的分辨率生成視頻，這將進一步降低成本。在我們的測試中，雖然存在一些問題，但對於普通用戶來說，它已經能夠滿足日常創作需求了。而對於自媒體、MCN機構、電商團隊以及短劇工作室而言，其生成效率和價格優勢則意味著可以實現更具性價比的批量化生產。不過若是追求視頻的質量以及細節，那這款模型就不太夠用了，但如果放在精細化視頻生成的前期“草稿”階段，這款量大管飽的模型是非常合適的。視頻生成模型發展到今天，越來越多用戶開始關心AI視頻生成的價格問題，能否在生產環境中大規模運用至關重要。從這個角度來看，Seedance 2.0 Mini的意義在於進一步降低了AI視頻內容的生產門檻，價格雖然低了，但質量依然有保證。

原始來源：智東西 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

19 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析