主打極致快與省!Google發表Gemini 3.1 Flash-Lite模型 效能全面輾壓2.5 Flash

在各個AI業者巨頭競相爭奪推論成本與速度優勢的當下,Google宣佈推出全新輕量化模型「Gemini 3.1 Flash-Lite」。這款主打「極致快與省」的新一代模型,被Google定位爲Gemini 3系列中速度最快、性價比最高的選擇,更專爲開發者的大規模、高吞吐量工作負載而生。憑藉着全面超越前代2.5 Flash的強悍效能與超低延遲特性,Gemini 3.1 Flash-Lite準備在企業級應用與API經濟市場掀起新一波的算力革命。

即日起,開發者可透過Google AI Studio的Gemini API取得3.1 Flash-Lite預覽版,企業用戶也能同步在Vertex AI平臺上進行佈署與應用。

震撼市場的定價與有感提速

在商業應用落地上,「成本」與「延遲」往往是開發者最在意的兩大痛點。Gemini 3.1 Flash-Lite這次端出極具侵略性的定價策略:

• 輸入 (Input tokens):每百萬Token僅需0.25美元。

• 輸出 (Output tokens):每百萬Token僅需1.50美元。

除了價格親民,速度更是其最大賣點。根據Artificial Analysis的基準測試,在保持同等甚至更高生成品質的前提下,Gemini 3.1 Flash-Lite的首字迴應速度 (Time to First Token, TTFT)比2.5 Flash大幅提升2.5倍,整體輸出速度也成長45%。

Google強調,這種超低延遲特性是高頻工作流程的必備條件,讓其成爲打造「即時響應式體驗」的理想模型。

跨級距的推論與多模態能力

別以爲掛上了「Lite」的後綴就代表不夠聰明。在權威排行榜Arena.ai上,Gemini 3.1 Flash-Lite獲得高達1432分的佳績。

更令人矚目的是,在多項考驗推論邏輯與多模態理解 (Multimodal understanding)的基準測試中,Gemini 3.1 Flash-Lite的表現均超越同級別對手,甚至「越級打怪」贏過了前幾代體量更大的模型 (如2.5 Flash)。

導入「思考等級」控制,彈性應對複雜任務

爲了讓開發者能更精準地控制算力成本,Gemini 3.1 Flash-Lite在AI Studio和Vertex AI中標配一項極具實用性的新功能——「思考等級」 (Thinking Levels)。

這項機制允許開發者針對特定任務,靈活調整模型「思考的深度」。當面臨對成本極度敏感的大批量任務 (如海量文本翻譯、內容審覈)時,可以調低思考層級以追求極致速度;而當需要處理複雜邏輯 (如生成UI介面、創建模擬環境、遵循複雜的多步驟指令)時,則可調高思考層級以確保精準度。包含Latitude、Cartwheel和Whering等早期測試企業均表示,Gemini 3.1 Flash-Lite能夠以接近大型模型的精準度處理複雜輸入,並展現出極高的指令遵循一致性。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》