智東西生成式AI

字節最便宜視頻模型來了!1.6毛/秒,比Fast快,實測讓黃仁勳和豆包一起踢球

2026年6月15日 11:00

重點摘要

智東西 作者 | 畢偉豪 編輯 | 李水青 智東西6月16日報道,昨晚,字節新模型Seedance 2.0 Mini深夜來襲,該模型主打性價比,側重於提供更低的價格以及更快的生成速度。 Seedance 2.0 Mini雖然定價更低,但保留了核心能力參考生成,用戶可以通過融合提示詞與最多12個多種模態的參考素材(包括6張圖片、3段音頻、3段視頻)來鎖定人物一致性、精細化控制運動軌跡、卡準劇情節奏。 字節方面稱,在早期測試中,Seedance 2.0 Mini在運動表現方面超過了Seedance 2.0和Seedance 2.0 Fast。 和Seedance 2.0 Fast相比,Seedance 2.0 Mini的運動質量更好,畫面穩定性更強,單次生成更便宜,在短視頻和快速測試場景裡效率更高。Fast模型現在更適合短電影草稿這類輕量用途,Seedance 2.0則適合預算充足的高端製作。 對比強調高電影感的畫面和原生音頻整合的Veo 3以及重視物理真實感、延展場景和複雜敘事的Sora 2,Seedance 2.0 Mini在渲染速度、產出成本、短視頻創意上佔據優勢。 一句話總結,如果追求快速批量創意視頻生成、高端項目前期草稿、短視頻製作以及節省預算,Mini是更好的選擇。 API價格方面,Seedance 2.0 Mini相比Seedance 2.0有大幅度的下降,生成成本降低約50%,目前僅支持在小云雀和即夢AI中使用,或者在火山方舟大模型體驗中心進行體驗,API將在6月22日開放,當前在火山方舟大模型體驗中心的價格為0.023元/千tokens。 C端價格上,目前在即夢和小云雀兩個平臺,如果想體驗新模型,需要訂閱會員,6月15日到6月21日有限時會員和積分消耗折扣。 官方宣傳的最低價位是每秒鐘0.16元,但折扣價格只有標準及以上會員才能享受,如果是最低檔位的基礎會員,

站內 AI 整理稿

智東西 作者 | 畢偉豪 編輯 | 李水青 智東西6月16日報道,昨晚,字節新模型Seedance 2.0 Mini深夜來襲,該模型主打性價比,側重於提供更低的價格以及更快的生成速度。 Seedance 2.0 Mini雖然定價更低,但保留了核心能力參考生成,用戶可以通過融合提示詞與最多12個多種模態的參考素材(包括6張圖片、3段音頻、3段視頻)來鎖定人物一致性、精細化控制運動軌跡、卡準劇情節奏。 字節方面稱,在早期測試中,Seedance 2.0 Mini在運動表現方面超過了Seedance 2.0和Seedance 2.0 Fast。 和Seedance 2.0 Fast相比,Seedance 2.0 Mini的運動質量更好,畫面穩定性更強,單次生成更便宜,在短視頻和快速測試場景裡效率更高。Fast模型現在更適合短電影草稿這類輕量用途,Seedance 2.0則適合預算充足的高端製作。 對比強調高電影感的畫面和原生音頻整合的Veo 3以及重視物理真實感、延展場景和複雜敘事的Sora 2,Seedance 2.0 Mini在渲染速度、產出成本、短視頻創意上佔據優勢。 一句話總結,如果追求快速批量創意視頻生成、高端項目前期草稿、短視頻製作以及節省預算,Mini是更好的選擇。 API價格方面,Seedance 2.0 Mini相比Seedance 2.0有大幅度的下降,生成成本降低約50%,目前僅支持在小云雀和即夢AI中使用,或者在火山方舟大模型體驗中心進行體驗,API將在6月22日開放,當前在火山方舟大模型體驗中心的價格為0.023元/千tokens。 C端價格上,目前在即夢和小云雀兩個平臺,如果想體驗新模型,需要訂閱會員,6月15日到6月21日有限時會員和積分消耗折扣。 官方宣傳的最低價位是每秒鐘0.16元,但折扣價格只有標準及以上會員才能享受,如果是最低檔位的基礎會員,實際使用中按照小云雀積分計算,一條10秒鐘的視頻平均在80積分左右,摺合人民幣約為8元,平均每秒為0.8元。 Seedance 2.0 Mini核心亮點如下: 1、視覺效果比前代Seedance模型更好; 2、生成速度更快,等待時間更短; 3、單次生成視頻的積分消耗量更低; 4、運動一致性和指令遵循能力出色; 5、支持多模態輸入的參考系統,可以實現多個圖片、音頻和視頻引用。 為了驗證這款新模型的實際表現,我們第一時間在小云雀上進行了體驗。 體驗發現,Seedance 2.0 Mini在生成速度上有所提升,同時視頻生成的質量也可圈可點,模型在多模態輸入、長文本提示詞的處理、音畫同步以及人物一致性方面有不錯的表現,但也存在對物理定律的遵循不嚴謹以及鏡頭切換不太自然等問題。 一、口播、說唱、空中飛鯨,速度與質量兼具,但問題也不少 此次測試共設計了四組不同難度的場景,覆蓋長文本理解、音畫同步、複雜物理規律模擬、超現實場景生成以及電商短視頻等場景,重點觀察Seedance 2.0 Mini在畫面一致性、動作還原、音畫同步以及生成速度等方面的表現。 首先,作為主打性價比的模型,首先測試的一定是生成效率,我們選擇了一個相對簡單,但對速度、質量以及數量均有要求的電商口播場景,在該場景中,用戶往往需要批量生成帶數字人口播的商品介紹視頻。如果生成時間過長,即便效果優秀,也難以滿足實際生產需求。 因此,我們設計了一個典型的電商帶貨場景,在測試模型生成速度的同時,也觀察其對於數字人口播、商品展示和鏡頭切換的綜合表現。 提示詞:現代直播電商工作室內,一位25歲左右的年輕女性主播站在商品展示臺前,面向鏡頭進行口播。主播身穿簡潔幹練的職業裝,面帶自然微笑,手中拿著一款白色無線降噪耳機。背景是乾淨明亮的科技風直播間,桌面擺放著耳機充電倉和產品包裝盒。視頻開始時,主播看向鏡頭並說道:“如果你最近正在尋找一款高性價比無線降噪耳機,那麼一定不要錯過這款產品。” Seedance 2.0 Mini花費了2分鐘左右給出了視頻,口播內容與嘴型精準對應,產品展示鏡頭完整且符合帶貨邏輯,主播形象保持一致,真實度很高,但出現了展示的耳機過大,不符合現實邏輯的問題。 緊接著,我們嘗試了一個涉及多人互動和嘴型同步的高難度場景:地下說唱Battle。相比簡單的人物對話,說唱不僅語速極快,而且伴隨著大量表情變化、肢體動作和觀眾互動,這對視頻模型的音畫同步能力提出了更高要求。 提示詞:紐約布魯克林地下街區的夜晚,兩位年輕說唱歌手正在進行激烈的街頭Battle。四周聚集著大量圍觀者,霓虹燈與街頭塗鴉構成充滿張力的背景。第一位歌手以極快語速輸出歌詞,同時配合誇張而富有節奏感的手勢動作;第二位歌手則不斷點頭、挑眉、微笑或露出不屑表情進行回應。鏡頭在近距離面部特寫和全景群體畫面之間切換。要求每一個單詞、每一個音節都與嘴部動作精準同步。圍觀群眾不斷髮出歡呼、笑聲和喝彩,舉起手機錄製視頻,揮舞雙手響應節奏。背景音樂為重低音Hip-Hop Beat,所有人聲與嘴型必須達到真人級同步效果,整體呈現高真實度紀錄片風格。 可以看到視頻中的Rapper聲音和嘴型保持同步,快速吐字時口部動作依然清晰自然;人物的表情、手勢和身體律動能夠跟隨節拍變化;圍觀群眾會在精彩段落做出及時反饋,整個現場呈現出真實街頭Battle的沉浸感。但視頻存在說唱的歌詞混亂,聽著不像英語的問題。 除了音畫同步之外,物理規律模擬同樣是當前視頻生成模型的一大難點。因此,我們設計了一個違背日常經驗、同時又要求遵循物理邏輯的失重場景,來測試模型對空間關係、慣性運動以及流體行為的理解能力。 提示詞:一家現代風格咖啡館內,重力突然消失。顧客、桌椅、書本和各種物品緩慢漂浮到空中。咖啡師漂浮著繼續製作咖啡,液態咖啡從杯中溢出後形成無數漂浮液球。一隻橘貓像在水中游泳一樣緩慢穿過空間。鏡頭持續旋轉並自由移動,展示整個失重環境。所有漂浮物體都必須遵循真實慣性和動量規律,液體運動需要符合流體物理特徵。整體呈現極高真實感和複雜物理模擬能力。 視頻中顧客、物品、貓咪會緩慢漂浮並保持在無重力狀態下的運動軌跡,但出現了部分顧客沒有失重,有人漂浮有人坐著的情況,且液態咖啡還在咖啡師的杯子裡沒有飄出來,與真實失重狀態有所出入。 最後,我們選擇了一個超現實場景來測試模型的創造力和泛化能力。相比街道、人物等高頻訓練內容,這類現實中不存在的場景往往在訓練數據中佔比極低,更能檢驗模型對罕見視覺元素組合的理解能力。 提示詞:巴黎市中心的街道上,一頭長達數十米的巨大藍鯨正像在海洋中一樣緩慢遊過天空。陽光透過半透明魚鰭投射出夢幻般的光影,數百條發光小魚圍繞著鯨魚遊動。下方汽車仍在正常行駛,路人紛紛停下腳步仰望天空,有人驚訝地舉起手機拍攝。鏡頭從鯨魚腹部下方緩慢跟隨移動,展現鯨魚掠過歷史建築時產生的巨大尺度對比。整體畫面超現實但極度真實,所有細節均遵循真實攝影邏輯,營造出令人震撼的夢境般視覺體驗。 視頻中鯨魚、路人和建築的能夠體現出巨大的尺度差異,鯨魚的擺尾、魚鰭動作符合真實海洋生物運動規律;巴黎街景、車輛和行人的反應也比較真實。 二、給圖片和視頻絲滑生成,黃仁勳踢世界盃,貓片魔改白虎降世 相比文生視頻,圖生視頻對模型的要求實際上更高。 文生視頻考驗的是模型對文本的理解和視覺生成能力,而圖生視頻則需要模型先準確識別圖片中的主體特徵,包括人物外貌、服飾細節、面部結構以及整體身份特徵,然後在此基礎上完成動作延展和場景重構。 同時,在視頻生成過程中,模型還需要處理主體一致性、動作連貫性、場景融合以及物理規律等多個維度的問題,因此圖生視頻往往更容易暴露模型能力短板。 為體驗Seedance 2.0 Mini的圖生視頻能力,我們分別上傳了黃仁勳和豆包的照片,並輸入如下提示詞: 幫我生成一個視頻,圖1和圖2中的人物在世界盃賽場上踢足球,圖1人物進攻,圖2人物防守,要有盤帶動作,兩個人都穿上球衣。 足球屬於典型的高動態運動場景,盤帶、變向、防守、身體對抗等動作都涉及複雜的人體運動邏輯和足球運動軌跡,模型不僅需要讓兩個人“像本人”,還要讓他們“像球員”。 從生成結果來看,Seedance 2.0 Mini成功識別出了黃仁勳的核心面部特徵,並將他進行了動漫化處理。視頻中,黃仁勳負責帶球推進,豆包則進行貼身防守,足球運動軌跡與人物動作基本保持一致,美中不足的是鏡頭不是一鏡到底,中間盤帶過人的時候切鏡頭導致畫面不順暢。 根據已有視頻素材進行創意生成,也非常考驗模型能力,於是我們上傳了一段逗貓的視頻,並輸入了另一組提示詞: 生成一段小貓逐漸長大成為白虎的視頻。 在這個視頻裡,小貓逐漸長大的過程中,對於毛色、頭部和眼睛等關鍵區域,模型保留了較好的連續性,使觀眾能夠明顯感受到這是同一個主體在不斷成長,不過由於沒有進行分鏡設計,因此長大的過程中背景的切換比較生硬。 為了檢驗Seedance 2.0 Mini基於多模態素材的生成水準,我們上傳了兩張圖片、一段視頻以及一個音頻,讓Seedance 2.0 Mini生成一個夏日動物出遊的視頻,提示詞如下: Seedance 2.0 Mini很快輸出了視頻,能看到視頻中的動物形象保持了不錯的一致性,與背景環境以及音樂的融合也比較融洽,模型對於多種模態素材的處理較為精細。 從測試中可以看出,Seedance 2.0 Mini不僅能夠完成常規的人物動作生成,在涉及身份保持、角色成長和形態演變等更復雜的多模態素材處理時,也具備較強的視覺連續性和穩定性。但不可否認的是,模型在一些細節的處理上還存在一些問題。 總結:視頻生成模型捲起性價比,價格低但質量不低 整體看這次測試,無論是長文本理解、音畫同步、圖生視頻,還是超現實場景生成,作為一款主打高性價比的輕量化模型,Seedance 2.0 Mini都交出了一份超出預期的答卷。 過去很長一段時間裡,視頻生成領域始終面臨一個經典難題:質量、速度和成本三者難以兼得。 想要更好的畫質,就需要更大的模型和更長的推理時間,想要更快的速度,就不得不犧牲部分效果,而當用戶開始大規模生產內容時,成本又會成為新的瓶頸。 但從Seedance 2.0 Mini的表現來看,字節正在試圖找到速度、價格和質量之間的平衡。Seedance20 Mini主要面向頭腦風暴、快速測試、視頻原型製作以及短視頻創作等場景,在這些場景中,創作者主要使用720p的分辨率生成視頻,這將進一步降低成本。 在我們的測試中,雖然存在一些問題,但對於普通用戶來說,它已經能夠滿足日常創作需求了。 而對於自媒體、MCN機構、電商團隊以及短劇工作室而言,其生成效率和價格優勢則意味著可以實現更具性價比的批量化生產。不過若是追求視頻的質量以及細節,那這款模型就不太夠用了,但如果放在精細化視頻生成的前期“草稿”階段,這款量大管飽的模型是非常合適的。 視頻生成模型發展到今天,越來越多用戶開始關心AI視頻生成的價格問題,能否在生產環境中大規模運用至關重要。 從這個角度來看,Seedance 2.0 Mini的意義在於進一步降低了AI視頻內容的生產門檻,價格雖然低了,但質量依然有保證。

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

3 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

23 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前