谷歌最强大模型终于问世！最快轻量版狂卷性价比，价格杀到0.7元/百万token，技术报告解读

智东西

编译 | 程茜

编辑 | 心缘

智东西6月18日报道，凌晨，谷歌宣布Gemini 2.5模型全系重磅更新：Gemini 2.5 Pro、Gemini 2.5 Flash发布正式版并进入稳定运行阶段，并推出Gemini 2.5 Flash-Lite预览版。

这意味着Gemini 2.5 Pro、Gemini 2.5 Flash从实验预览版变为正式版，可投入企业应用。

Gemini 2.5 Flash Lite在编程、数学、科学、推理和多模态基准测试中全面超越 2.0 Flash-Lite，广泛任务延迟低于2.0 Flash-Lite和2.0 Flash。谷歌称这一模型为其最经济实惠、速度最快的2.5系列模型。

谷歌最强大模型终于问世！最快轻量版狂卷性价比，价格杀到0.7元/百万token，技术报告解读

▲Gemini 2.5 Flash Lite基准测试结果

展开全文

同时，在最新的LMArena排行榜中，Gemini-2.5-Flash-Lite文本排名12，按类别划分，创意写作排名第三、编程排名第14、难题提示排名第17。

谷歌最强大模型终于问世！最快轻量版狂卷性价比，价格杀到0.7元/百万token，技术报告解读

LMArena公布的性价比图表中，Gemini 2.5 Pro比Gemini 1.5 Pro的分数高出120多分，高于OpenAI、xAI、Anthropic的其他主流模型。

谷歌最强大模型终于问世！最快轻量版狂卷性价比，价格杀到0.7元/百万token，技术报告解读

▲LMArena发布的主流模型性价比对比图

价格方面，Gemini-2.5-Flash-Lite比Gemini-2.5-Flash便宜30%-60%，输入价格为0.1美元（折合人民币约0.7元）/百万tokens，输出价格为0.4美元（折合人民币约2.9元）/百万tokens。

谷歌还宣布了Gemini 2.5 Flash的最新定价，模型的思考和非思考价格相同，输入价格为0.3美元（折合人民币约2.2元）/百万tokens，输出价格为2.5美元（折合人民币约17.9元）/百万tokens。

谷歌最强大模型终于问世！最快轻量版狂卷性价比，价格杀到0.7元/百万token，技术报告解读

谷歌博客中提到，Gemini 2.5 Pro的销量和需求持续强劲增长，是他们历来所有型号中最高的。在此基础上，研究人员对此型号的06-05版进行了稳定化，并维持与之前相同的帕累托前沿价格点。

如果开发者使用的是Gemini 2.5 Pro Preview 05-06，该模型将持续可用至2025年6月19日，之后将关闭，如果使用Gemini 2.5 Pro Preview 06-05，只需将模型字符串更新为“gemini-2.5-pro”即可。

Gemini 2.5 Flash-Lite预览版现已在谷歌AI Studio和Vertex AI中上线，同时还提供2.5 Flash和Pro稳定版。2.5 Flash和Pro版本均可在Gemini应用中访问。谷歌还为谷歌搜索功能引入了2.5 Flash-Lite和Flash的定制版本。

谷歌最强大模型终于问世！最快轻量版狂卷性价比，价格杀到0.7元/百万token，技术报告解读

技术报告地址：

一、全面超越 2.0 Flash-Lite，支持谷歌原生工具

Gemini 2.5模型是推理模型，能够在响应之前进行推理，从而提升性能和准确性。每个模型都可以控制思考预算，让开发者能够选择模型在生成响应之前进行“思考”的时间和程度。

谷歌博客中提到，其最新推出的2.5 Flash-Lite预览版，是2.5系列模型中延迟、成本都最低的模型，它是Gemini 1.5和2.0 Flash模型的经济高效升级版。

Gemini 2.5 Flash Lite在编程、数学、科学、推理和多模态基准测试中全面超越 2.0 Flash-Lite。它在翻译和分类等高容量、延迟敏感的任务中表现出色，在广泛的任务样本中，延迟低于2.0 Flash-Lite和2.0 Flash。

谷歌最强大模型终于问世！最快轻量版狂卷性价比，价格杀到0.7元/百万token，技术报告解读

性能方面，新模型缩短了首个token的获取时间，同时实现了更高的每秒token解码速度。该模型适合大规模分类或汇总等高吞吐量任务。

Gemini 2.5 Flash-Lite是一个推理模型，允许通过API参数动态控制思考预算。由于Flash-Lite针对成本和速度进行了优化，因此Gemini 2.5的其他模型不同，“思考”功能默认处于关闭状态。

新模型具备Gemini 2.5的诸多功能，包括在不同预算下开启思考模式、连接谷歌搜索和代码执行等工具、多模态输入以及100万个token的上下文长度。

二、Gemini 2.X系列全面超越前代，编程、图像理解逊于OpenAI

谷歌还一口气更新了Gemini 2.5系列模型技术报告，全面介绍了Gemini 2.X模型系列：包括Gemini 2.5 Pro和Gemini 2.5 Flash，以及Gemini 2.0 Flash和Flash-Lite模型。

谷歌技术报告中提到，Gemini 2.5 Pro是谷歌最智能的思维模型，展现出强大的推理和编程能力，擅长生成交互式Web应用程序，能够进行代码库级别的理解，并展现出涌现的多模态编程能力。

Gemini 2.5 Flash是混合推理模型，具有可控的思维预算，适用于大多数复杂任务，同时还能控制质量、成本和延迟之间的平衡。

Gemini 2.0 Flash是谷歌专为日常任务打造的快速且经济高效的非思考模型；Gemini 2.0 Flash-Lite是谷歌速度最快、成本最低的模型，专为大规模使用而构建。

谷歌最强大模型终于问世！最快轻量版狂卷性价比，价格杀到0.7元/百万token，技术报告解读

技术报告中，谷歌对比了Gemini 2.5系列与Gemini 1.5、2.0模型的表现，以及Gemini 2.5系列与其他模型的表现，可以看出，Gemini 2.5系列模型在LiveCodeBench、Aider Polyglot和SWE-bench Verified等编程任务上表现出色，并且比之前的模型有了显著的改进。

除了编程性能之外，Gemini 2.5模型在数学和推理任务上的表现也明显整体优于Gemini 1.5系列：在AIME 2025测试中，Gemini 2.5 Pro的准确率为88.0%，而Gemini 1.5 Pro的准确率为17.5%；在 GPQA（钻石级）测试中，Gemini 2.5 Pro的准确率为86.4%。同样，图像理解能力也显著提升。

谷歌最强大模型终于问世！最快轻量版狂卷性价比，价格杀到0.7元/百万token，技术报告解读

与其他主流大语言模型相比，Gemini 2.5 Pro在Aider Polyglot编程任务中获得SOTA。此外，Gemini 2.5 Pro在Humanity’s Last Exam、GPQA（钻石级）以及SimpleQA和FACTS Grounding事实性基准测试中获得最高分。Gemini 2.5 Pro在LOFT和MRCR长上下文任务中以128k的上下文长度获得了SOTA，并且是上表所考察的所有模型中唯一一个支持1M+tokens上下文长度的模型。

不过，在数学方面，Gemini 2.5 Pro的表现略逊色于OpenAI o4-mini，图像理解方面分数略低于OpenAI-o3 high。

谷歌最强大模型终于问世！最快轻量版狂卷性价比，价格杀到0.7元/百万token，技术报告解读