谷歌貼身對標字節:最新輕量版 Nano Banana 2 四秒出圖,單張僅 0.034 美元,還能直出視頻

2026年7月1日 17:43
谷歌貼身對標字節:最新輕量版 Nano Banana 2 四秒出圖,單張僅 0.034 美元,還能直出視頻

重點摘要

谷歌最新發布輕量版 Nano Banana 2,能在四秒內生成圖片,單張成本僅 0.034 美元,價格低於字節跳動的競品。該模型在出圖品質與延遲上實現雙重反超,並具備直接生成影片的功能。

站內 AI 整理稿

### 重點整理:谷歌輕量模型 Nano Banana 2 強勢登場

谷歌近期推出全新輕量級 AI 模型「Nano Banana 2」,主打極速生成與低成本優勢。根據官方資訊,該模型能在四秒內產出一張圖片,單張生成成本僅約 0.034 美元,並且支援直接輸出影片。這款模型被視為直接對標字節跳動旗下同類產品,在價格、生成速度與畫質上均實現「雙反超」,展現谷歌在輕量生成式 AI 領域的野心。

### 背景脈絡:輕量模型市場競爭白熱化

近年來,AI 圖像與影片生成技術快速普及,但高昂的運算成本與延遲一直是商用化的瓶頸。字節跳動先前推出的輕量模型以低價與快速生成聞名,迅速搶佔中小型開發者與內容創作者市場。谷歌此次推出的 Nano Banana 2,正是針對這塊需求精準切入。不同於旗艦級模型追求極致畫質,輕量模型更注重效率與成本平衡,適合大量產出、即時互動的場景,例如社群媒體貼文、廣告素材、原型設計等。

### 可能影響:價格戰與技術門檻再降低

Nano Banana 2 的定價策略極具侵略性,單張 0.034 美元不僅低於字節跳動的現有方案,更可能迫使其他競爭對手跟進降價。這將進一步降低 AI 生成內容的進入門檻,讓個人創作者與小型團隊也能負擔高品質的視覺素材。同時,四秒出圖與直出影片的能力,意味著即時互動應用(如直播特效、即時設計反饋)將更為可行。長期來看,這可能加速傳統設計與影音製作流程的數位轉型,但也引發對版權與原創性的新一輪討論。

### 讀者可關注的後續:實測表現與生態整合

目前官方僅釋出初步規格與價格,實際生成品質、延遲穩定性、影片長度與解析度等細節仍有待第三方測試。讀者應關注以下幾點:第一,Nano Banana 2 是否支援繁體中文提示詞與台灣常見的場景風格;第二,谷歌是否會將此模型整合進現有服務(如 Google Cloud、Colab 或 Bard),提供無縫開發體驗;第三,字節跳動是否會推出升級版反制,以及開源社群能否複製類似成果。此外,隨著輕量模型普及,監管機構對 AI 生成內容的標示與責任歸屬也可能成為後續焦點。

### 技術亮點:輕量化架構與多模態輸出

Nano Banana 2 的核心優勢在於其輕量化架構,能在不犧牲太多畫質的前提下大幅降低運算資源。據了解,該模型採用蒸餾技術與量化壓縮,使參數量遠小於旗艦模型,卻仍能維持穩定的生成品質。更值得留意的是,它不僅能生成靜態圖像,還可直接輸出短影片,這在輕量模型中較為少見,顯示谷歌在時序建模與壓縮演算法上取得突破。對於需要快速迭代的動態內容(如社群限時動態、產品展示短片),這項功能極具吸引力。

### 市場定位:瞄準開發者與內容創作者

谷歌將 Nano Banana 2 定位為「開發者友善」的模型,預計透過 API 形式提供,並搭配簡潔的 SDK 與文件。這與字節跳動主打「一站式創作平台」的策略略有不同:谷歌更強調靈活整合,讓開發者能自訂工作流程;字節則傾向提供封閉但易用的編輯器。兩種路線各有優劣,但 Nano Banana 2 的低成本與低延遲,可能吸引原本因價格卻步的獨立開發者,進而擴大 AI 生成內容的應用場景,例如電商商品圖批量生成、遊戲素材自動化、教育互動教材等。

### 潛在挑戰:品質穩定性與倫理議題

儘管價格與速度亮眼,輕量模型在複雜場景、光影細節或人臉生成上仍可能不如旗艦模型。若 Nano Banana 2 的實際輸出出現明顯瑕疵,將影響開發者信心。此外,低成本生成也意味著不當內容(如深偽、侵權素材)更容易被大量產出,谷歌需要建立有效的審查機制與浮水印標記。讀者可觀察谷歌是否推出類似「SynthID」的內容溯源工具,以及是否與台灣在地機構合作訓練模型,以符合本地法規與文化敏感度。

### 結語:AI 生成進入「平價即時」新階段

Nano Banana 2 的問世,象徵 AI 圖像與影片生成從「高成本專業工具」轉向「平價即時服務」。對於台灣的內容創作者、新創公司與數位行銷業者而言,這可能帶來新的效率紅利,但也需留意技術依賴與版權風險。建議讀者持續追蹤谷歌的正式發布時程、API 定價細節,以及首批使用者的實測報告,才能判斷這款模型是否真正適合自己的應用場景。

Related

相關文章

智東西生成式AI

時隔4個月,谷歌Nano Banana再發新模型

這篇消息聚焦「時隔4個月,谷歌Nano Banana再發新模型」。原始導語提到:4秒生成1K圖片,僅需0.23元。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛
智東西生成式AI

黃仁勳的物理AI ChatGPT時刻,正被這家中國公司的“流式多模態”接棒

智東西 作者 | 王涵 編輯 | 漠影 “物理AI的ChatGPT時刻已經到來。” 2026年1月5日,拉斯維加斯CES展會,英偉達創始人兼CEO黃仁勳宣告AI正式進入新階段。 在他看來,AI的演進可以分為四個階段:Perception AI、Generative AI、Agentic AI、Physical AI。當模型能夠理解質量、摩擦、慣性、動量守恆,AI才真正走出屏幕。他同時指出,要讓機器人理解物理世界,不能僅靠單一模型,而是需要建立一整套智能系統。 黃仁勳描繪了未來願景,但一個問題擺在了所有人面前——物理世界的AI,到底需要什麼樣的技術能力? AI真正走向物理世界,機器人、無人機、安防攝像頭、可穿戴設備這些場景,需要的不是回答問題,而是持續工作。物理AI最重要的,也就是主動執行的能力。 Om AI聯匯CEO兼首席科學家趙天成博士表示:“之前整個業內對通用視覺智能的關注度偏低,大家可能更關注一些可以看秀的表演或操作場景。但通用視覺這個點是未來物理AI真正規模化應用落地必不可少的,而且可能是更加現實、更加直接的核心技術,會更廣泛地應用到所有物理AI場景。” 通用視覺智能(General Vision Intelligence),即模型能像人一樣持續觀察環境、精準定位目標、自主驅動行動,且這一切必須在端側完成。 近日發佈的VLX端側流式多模態模型系列,正是這一路徑的最新實踐。 這是業界首次提出 “流式多模態” 這一全新模型架構。區別於傳統模型“採集-上傳-離線處理”的路徑,VLX系列面向物理世界中持續湧入的視頻流,實現毫秒級實時感知,並首次在端側打通“持續感知→精準定位→行動決策”的完整閉環。 一、三個模型、三層能力、一條鏈路 什麼是通用視覺智能(General Vision Intelligence)? Om AI聯匯的定義是三項核心能力:持續感知(無需人工觸發)、空

1 小時前
雷峰網生成式AI

獨家丨世界模型企業知天下完成天使輪融資,要做「中國版World Labs」

通向世界模型之路:生成式3DGS基模。 作者丨向 欣 編輯丨高景輝 AI科技評論獨家獲悉,空間智能與世界模型初創公司知天下(蘇州)人工智能科技有限公司(以下簡稱“知天下”)近日已完成天使輪融資。本輪由上海眾合創投獨家投資,探針資本擔任財務顧問,資金將主要用於擴充團隊研發生成式高斯基模、開拓高斯潑濺中國內容社群的海外影響力。知天下是一家專注於高斯潑濺(3D Gaussian Splatting,簡稱3DGS)三維重建與生成技術的AI企業,於 2024 年初推出 3DGS 免費重建與發佈服務,其平臺已匯聚數萬名 3DGS 用戶,形成技術交流與內容創作社區,同時積累了高質量多視角照片數據集,近期平臺3DGS創作日均數據已超越英國SuperSplat,僅次於美國World Labs。依託已積累的PB級真實三維世界影像數據,知天下正在研發規模持續增長的生成式高斯基礎模型,用於實現三維空間推理和補全,推進AI從文本理解向三維物理世界理解的方向演進,為空間智能提供底層基礎設施。3DGS是近年來海外科技公司重點投入的技術方向之一。NVIDIA已將其集成至Omniverse及Isaac Sim平臺,李飛飛創辦的World Labs也將其作為核心數據結構。其原理是將場景表示為大量可優化的三維高斯橢球體集合,可兼顧照片級渲染質量、高效的實時渲染、以及深度學習可微特性,近年已成為具身智能、AR/VR、數字孿生和自動駕駛仿真的通用空間表示標準。創始團隊方面,知天下創始人宋寬博士,擁有北京大學兩個學士學位,馬裡蘭大學博士學位,曾獲北京中關村及蘇州等地人才項目支持。2023年,他確立3DGS與多模態、生成式AI協同發展的技術路線,並主導構建了國內最大規模的3DGS技術社區。公司首席科學家魏澤強,2019年以來持續在宋寬博士團隊工作,2025年博士畢業於北京郵電大學人工智能學院。在多視角深度學習方向曾帶領

2 小時前