Gemini API定价完全指南:2026年每百万tokens最新价格与成本优化
详解Google Gemini API 2026年完整定价,包括Gemini 3、2.5、2.0全系列模型价格,免费层限制,批处理与缓存优化,以及中国开发者接入方案。
Nano Banana Pro
4K-80%Google Gemini 3 Pro · AI Inpainting
谷歌原生模型 · AI智能修图
想了解Gemini API在2026年的完整定价?这篇指南覆盖了Google所有Gemini模型的最新价格——从最经济的Gemini 2.5 Flash-Lite($0.10/百万tokens)到最强大的Gemini 3 Pro Preview($2.00/百万tokens)。我们还将深入讲解如何通过缓存和批处理节省高达90%的费用。
快速答案:Gemini 2.5 Pro的标准定价为输入$1.25/百万tokens、输出$10.00/百万tokens(200K上下文内),这个价格在同级别模型中具有竞争力。免费层在2025年12月经历了大幅削减,目前每日请求限制在25-50次之间,商业项目建议直接使用付费层。

Gemini API 2026完整价格表
所有Gemini模型的官方定价如下,数据来源为Google AI官方定价页面,更新于2026年1月。
Google目前提供三个系列的Gemini模型,每个系列都有不同的价格和性能定位。理解这些定价结构是控制API成本的第一步。
Gemini 3系列(最新预览版)
Gemini 3系列是Google最新发布的模型,目前处于预览阶段。Gemini 3 Pro Preview是当前功能最强大的模型,但价格也最高,且没有免费层访问权限。该模型采用上下文长度分层定价:200K tokens以内的请求按标准价格计费,超过200K的部分价格翻倍。
Gemini 3 Flash Preview则是3系列的轻量版本,在保持较高性能的同时提供了更亲民的价格。它支持文本、图片和视频输入,音频输入的价格略高。这款模型提供免费层访问,适合开发者在正式付费前进行测试。
| 模型 | 输入价格(/1M tokens) | 输出价格(/1M tokens) | 上下文窗口 | 免费层 |
|---|---|---|---|---|
| Gemini 3 Pro Preview | $2.00(≤200K)/ $4.00(>200K) | $12.00 / $18.00 | 1M | 无 |
| Gemini 3 Flash Preview | $0.50(文本/图片/视频)/ $1.00(音频) | $3.00 | 1M | 有 |
Gemini 2.5系列(主力推荐)
Gemini 2.5系列是目前生产环境中最推荐使用的模型系列。Gemini 2.5 Pro在复杂推理和长上下文任务方面表现出色,支持完整的100万token上下文窗口,即使在免费层也可以使用这一完整能力。该模型同样采用上下文分层定价,200K以内和以上的价格差异为2倍。
Gemini 2.5 Flash是性价比最高的选择之一,适合大多数日常任务。而Gemini 2.5 Flash-Lite则是整个Gemini家族中最经济的选项,每百万tokens仅需$0.10输入和$0.40输出,非常适合对成本敏感的批量处理任务。
| 模型 | 输入价格(/1M tokens) | 输出价格(/1M tokens) | 上下文窗口 | 免费层 |
|---|---|---|---|---|
| Gemini 2.5 Pro | $1.25(≤200K)/ $2.50(>200K) | $10.00 / $15.00 | 1M | 有 |
| Gemini 2.5 Flash | $0.30 | $2.50 | 1M | 有 |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 1M | 有 |
Gemini 2.0系列
Gemini 2.0 Flash是上一代模型中的代表作,价格与2.5 Flash-Lite相近。需要注意的是,Google已宣布Gemini 2.0 Flash和Flash-Lite将于2026年3月3日退役,建议开发者尽早迁移到2.5系列模型。
| 模型 | 输入价格(/1M tokens) | 输出价格(/1M tokens) | 上下文窗口 | 免费层 |
|---|---|---|---|---|
| Gemini 2.0 Flash | $0.10(文本/图片/视频)/ $0.70(音频) | $0.40 | 1M | 有 |
嵌入模型
Gemini Embedding模型用于文本向量化,支持标准API和批处理API两种调用方式,批处理方式可享受50%折扣。
| 模型 | 标准价格(/1M tokens) | 批处理价格(/1M tokens) |
|---|---|---|
| Gemini Embedding | $0.15 | $0.075 |
各模型选择指南:根据需求选对模型
不同使用场景应该选择不同的模型,选错模型可能导致成本增加5-10倍。
模型选择是API成本控制中最重要的决策。很多开发者习惯性地选择最强大的模型,但实际上大多数任务并不需要顶级模型的能力。根据任务复杂度和预算选择合适的模型,可以在保证效果的同时大幅降低成本。
任务与模型匹配建议
对于复杂推理、代码生成、长文档分析等高难度任务,Gemini 2.5 Pro是最佳选择。它的推理能力在同级别模型中处于领先地位,100万token的上下文窗口也使其能够处理超长文档。虽然输出价格为$10/百万tokens,但对于这类任务而言,质量往往比成本更重要。
对于日常对话、简单问答、文本摘要等中等复杂度任务,Gemini 2.5 Flash提供了很好的平衡点。它的响应速度比Pro更快,价格仅为Pro的四分之一左右,足以胜任大多数商业应用场景。
对于批量数据处理、内容分类、简单提取等低复杂度任务,Gemini 2.5 Flash-Lite是成本最优的选择。每百万tokens仅$0.10的输入价格,使其在大规模处理时具有极大的成本优势。
| 任务类型 | 推荐模型 | 输入成本/1M | 输出成本/1M | 适用场景 |
|---|---|---|---|---|
| 复杂推理 | Gemini 2.5 Pro | $1.25 | $10.00 | 代码生成、长文档分析 |
| 日常对话 | Gemini 2.5 Flash | $0.30 | $2.50 | 聊天机器人、问答系统 |
| 批量处理 | Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 数据分类、内容提取 |
| 最新能力 | Gemini 3 Pro Preview | $2.00 | $12.00 | 需要最新功能的研发测试 |
费用优化:缓存与批处理最高省90%
Google提供了两种主要的成本优化机制:上下文缓存可节省最高90%,批处理API可节省50%。
如果你的应用有大量重复性请求或者可以接受非实时响应,这两个功能可以显著降低API成本。特别是对于企业级应用,合理使用这些优化功能往往能将成本降低到原来的十分之一。
上下文缓存(Context Caching)
上下文缓存是Gemini API最强大的成本优化功能。当你的应用需要反复使用相同的系统提示、文档或上下文时,可以将这些内容缓存起来,后续请求只需要引用缓存即可,而不需要每次都重新传输和处理。
Gemini 2.5系列模型支持90%的缓存折扣,这意味着缓存命中的tokens仅按原价的10%计费。例如,如果你有一个10万tokens的系统提示需要反复使用,使用缓存后每次请求的这部分成本仅为$0.0125(原价$0.125的10%)。
Gemini 2.0系列支持75%的缓存折扣。缓存存储本身有额外费用,为每小时$1.00/百万tokens。因此,缓存更适合高频使用的场景——如果同一内容每小时被调用数十次甚至数百次,缓存的价值就会非常明显。
| 模型系列 | 缓存折扣 | 缓存存储费用 | 适用场景 |
|---|---|---|---|
| Gemini 2.5 | 90% | $1.00/小时/1M tokens | 高频重复请求 |
| Gemini 2.0 | 75% | $1.00/小时/1M tokens | 中频重复请求 |
批处理API(Batch API)
批处理API允许你提交大量请求,系统会在24小时内异步处理并返回结果。作为回报,所有批处理请求享受50%的价格折扣。这种方式特别适合数据预处理、批量内容生成、评估任务等不需要实时响应的场景。
使用Gemini 2.5 Pro的批处理API时,输入价格从$1.25降至$0.625/百万tokens,输出价格从$10降至$5/百万tokens。对于需要处理大量数据的企业应用,这可以节省相当可观的成本。
需要注意的是,批处理API不支持显式缓存功能,且Gemini 2.0系列不支持批处理的隐式缓存。如果你的任务同时需要缓存和批处理,建议选择Gemini 2.5系列。
免费层限制与付费层级
2025年12月Google大幅削减了免费层配额,目前免费层主要适合开发测试,商业项目建议直接使用付费层。
了解免费层的具体限制对于规划项目预算至关重要。Google在2025年底对免费层进行了50-80%的配额削减,这使得免费层的实际可用性大大降低。如果你正在评估Gemini API,需要清楚这些限制。
免费层当前限制
免费层的限制按模型有所不同。Gemini 2.5 Flash的每日请求限制从原来的约250次降至现在的50次左右,每分钟请求数(RPM)也从15降至10。Gemini 2.5 Pro的限制更为严格,每日仅约25次请求,每分钟5次。
这些限制意味着免费层主要适合个人学习、功能测试和原型开发。一旦进入正式开发阶段或有商业化需求,就需要启用付费层。特别需要注意的是,Gemini 3 Pro Preview完全没有免费层访问权限。
| 模型 | 免费层RPM | 免费层RPD | 适合场景 |
|---|---|---|---|
| Gemini 2.5 Pro | 5 | ~25 | 开发测试 |
| Gemini 2.5 Flash | 10 | ~50 | 原型开发 |
| Gemini 2.5 Flash-Lite | 15 | ~100 | 学习实验 |
| Gemini 3 Pro Preview | - | - | 仅付费 |
付费层级结构
Google的付费层级采用累进解锁制度。Tier 1在启用计费后自动生效,提供150-300 RPM的配额。Tier 2需要累计消费$250后解锁,配额提升至1000+ RPM。Tier 3为企业定制方案,可获得4000+ RPM甚至更高的配额。
对于大多数中小型项目,Tier 1的配额已经足够。如果你的应用需要处理高并发请求,可以考虑快速消费到$250门槛以解锁Tier 2。企业级应用则建议直接联系Google获取定制方案。
| 层级 | 解锁条件 | RPM范围 | 适合规模 |
|---|---|---|---|
| Free | 默认 | 5-15 | 学习测试 |
| Tier 1 | 启用计费 | 150-300 | 中小项目 |
| Tier 2 | 累计$250 | 1,000+ | 大型项目 |
| Tier 3 | 企业联系 | 4,000+ | 企业级 |
与GPT-4、Claude价格对比
在同级别模型中,Gemini的定价具有明显竞争力,特别是在输出tokens价格方面。
选择AI API时,价格是重要的考量因素之一,但不应该是唯一因素。不同厂商的模型在不同任务上各有优势,需要根据具体需求综合评估。以下是2026年1月主流AI API的价格对比。
旗舰模型对比
在旗舰模型层面,Gemini 2.5 Pro的定价显著低于GPT-4和Claude 3.5 Sonnet。GPT-4o的输入价格为$5/百万tokens,是Gemini 2.5 Pro的4倍;输出价格为$15/百万tokens,是Gemini的1.5倍。Claude 3.5 Sonnet的价格与GPT-4o相近。
这种价格差异在大规模应用中会产生明显影响。假设每月处理1亿tokens的输出,使用GPT-4o需要$1,500,而使用Gemini 2.5 Pro仅需$1,000。长期来看,这个差异相当可观。
| 模型 | 输入价格/1M | 输出价格/1M | 上下文窗口 |
|---|---|---|---|
| GPT-4o | $5.00 | $15.00 | 128K |
| Claude 3.5 Sonnet | $3.00 | $15.00 | 200K |
| Claude Opus 4.5 | $5.00 | $25.00 | 200K |
| Gemini 2.5 Pro | $1.25 | $10.00 | 1M |
经济型模型对比
在经济型模型层面,竞争更为激烈。GPT-4o Mini以$0.15/$0.60的价格提供了不错的性价比,但Gemini 2.5 Flash-Lite以$0.10/$0.40的价格更胜一筹。
值得一提的是,Gemini在上下文窗口方面具有压倒性优势。即使是最经济的Flash-Lite模型也支持100万tokens的上下文,而GPT-4o Mini仅支持128K。这意味着在处理长文档时,Gemini不需要额外的分块处理逻辑。
| 模型 | 输入价格/1M | 输出价格/1M | 上下文窗口 |
|---|---|---|---|
| GPT-4o Mini | $0.15 | $0.60 | 128K |
| Claude 3.5 Haiku | $0.25 | $1.25 | 200K |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 1M |

实际场景成本计算
以下是三个典型应用场景的成本估算,帮助你评估项目预算。
抽象的价格数字有时难以直观理解。通过具体场景的成本计算,可以更好地评估Gemini API是否适合你的项目,以及应该选择哪个模型。
场景一:智能客服机器人
假设你运营一个中型电商网站的客服机器人,每天处理1000次用户咨询。平均每次对话包含200 tokens输入(用户问题+系统提示)和800 tokens输出(机器人回复)。
使用Gemini 2.5 Flash时,每日输入成本为:1000次 × 200 tokens × $0.30/1M = $0.06。每日输出成本为:1000次 × 800 tokens × $2.50/1M = $2.00。每日总成本约$2.06,每月成本约$62。如果改用缓存(假设系统提示100 tokens可缓存),每月成本可降至约$50。
场景二:文档分析系统
假设你需要处理企业内部文档,每天分析50份平均10万tokens的文档,需要生成约2000 tokens的摘要。
使用Gemini 2.5 Pro时,每日输入成本为:50份 × 100K tokens × $1.25/1M = $6.25。每日输出成本为:50份 × 2K tokens × $10.00/1M = $1.00。每日总成本约$7.25,每月成本约$218。如果使用批处理API(50%折扣),每月成本可降至约$109。
场景三:大规模数据分类
假设你需要对100万条用户评论进行情感分类,平均每条100 tokens输入,10 tokens输出。
使用Gemini 2.5 Flash-Lite时,总输入成本为:100M tokens × $0.10/1M = $10。总输出成本为:10M tokens × $0.40/1M = $4。总成本约$14。如果使用批处理API(50%折扣),总成本仅需$7。
| 场景 | 推荐模型 | 月成本(标准) | 月成本(优化后) |
|---|---|---|---|
| 智能客服 | 2.5 Flash | ~$62 | ~$50(缓存) |
| 文档分析 | 2.5 Pro | ~$218 | ~$109(批处理) |
| 数据分类 | 2.5 Flash-Lite | $14/批 | $7(批处理) |
中国开发者接入方案
中国开发者无法直接访问Google AI Studio,需要通过Vertex AI或第三方平台接入Gemini API。
对于中国地区的开发者而言,访问Gemini API面临一些额外的挑战。Google AI Studio(ai.google.dev)在中国大陆无法直接访问,即使使用网络工具也可能遇到支付和账户验证问题。以下是几种可行的解决方案。
方案一:Google Cloud Vertex AI
Vertex AI是Google Cloud的企业级AI平台,支持通过香港或新加坡节点访问Gemini API。Vertex AI的定价与AI Studio基本一致,但需要配置Google Cloud账户和计费。这种方式适合有一定云服务经验的企业开发者,优势是直接使用官方服务,数据安全有保障。
新用户可以获得$300的Google Cloud赠金(91天有效期),足够进行大量测试。但需要注意的是,Vertex AI的配置相对复杂,且需要处理跨境支付问题。
方案二:第三方API聚合平台
对于个人开发者或中小团队,使用第三方API聚合平台是更便捷的选择。这类平台通常提供OpenAI兼容的接口,只需替换base_url和api_key即可接入多种模型,包括Gemini。
以laozhang.ai为例,平台支持Gemini全系列模型,价格与官方基本一致。接入方式非常简单,使用OpenAI SDK即可调用,支持支付宝/微信支付,最低$5起充。这种方式的优势是接入简单、支付便捷、无需处理网络问题,适合快速开发和原型验证。
hljs pythonfrom openai import OpenAI
client = OpenAI(
api_key="sk-YOUR_API_KEY", # 从平台获取
base_url="https://api.laozhang.ai/v1"
)
response = client.chat.completions.create(
model="gemini-2.5-flash", # 支持所有Gemini模型
messages=[{"role": "user", "content": "你好"}]
)
方案选择建议
对于有企业合规要求的项目,建议选择Vertex AI官方方案。对于个人开发者和中小团队的快速开发需求,第三方平台是更实际的选择。两种方案的API调用方式基本兼容,迁移成本很低。

价格趋势与选型建议
基于Google历史定价规律,Gemini API价格预计将继续下降,但下降幅度会逐渐放缓。
理解AI API的价格趋势有助于做出更好的技术选型决策。Google通常在模型从预览版转为正式版时降价20-50%,这种规律在Gemini系列中一直存在。
价格趋势预测
Gemini 3 Pro目前处于预览阶段,定价为$2.00/$12.00。参考历史规律,当它在2026年上半年转为正式版时,价格可能会降至$1.50/$10左右。同时,Gemini 2.5系列可能会进一步降价以保持竞争力。
整体而言,AI API市场正在经历激烈的价格竞争。OpenAI、Anthropic、Google、xAI等厂商都在不断优化成本结构,这对开发者是利好消息。预计2026年底,同等性能的API价格可能比年初再降30-50%。
选型建议总结
对于新项目,建议优先考虑Gemini 2.5系列。2.5 Pro适合需要顶级能力的场景,2.5 Flash是大多数应用的最佳性价比选择,2.5 Flash-Lite适合大规模批量处理。
对于现有项目的迁移,如果正在使用Gemini 2.0系列,应尽快迁移到2.5系列,因为2.0将在2026年3月退役。迁移过程中API调用方式基本不变,主要是更新model参数。
对于预算敏感的项目,充分利用缓存和批处理功能可以将成本降低到原来的十分之一。建议在开发初期就设计好缓存策略,而不是事后优化。
常见问题
Gemini API免费层现在还能用吗?
可以使用,但配额非常有限。2025年12月Google大幅削减了免费层配额,目前Gemini 2.5 Pro每日约25次请求,2.5 Flash约50次请求。免费层适合学习测试,商业项目建议直接使用付费层。
Gemini 2.5 Pro和3 Pro应该选哪个?
目前建议选择2.5 Pro。虽然3 Pro是最新模型,但仍处于预览阶段,且价格是2.5 Pro的1.6倍,没有免费层。等3 Pro正式发布并稳定后再考虑迁移也不迟。
如何最大化节省API成本?
三个关键策略:第一,根据任务复杂度选择合适的模型,简单任务用Flash-Lite;第二,对重复内容启用上下文缓存,可省90%;第三,非实时任务使用批处理API,可省50%。
中文处理会比英文更贵吗?
是的。由于字符编码差异,1个中文字符通常占用2-3个tokens,而1个英文单词约1.3个tokens。这意味着处理同等长度的中文内容,成本可能比英文高50-100%。预算规划时需考虑这一因素。
Gemini API和ChatGPT API哪个更划算?
从纯价格角度,Gemini通常更便宜。Gemini 2.5 Pro的输入价格($1.25/1M)是GPT-4o($5/1M)的四分之一。但选择API还需考虑具体任务的表现、生态系统兼容性等因素,建议根据实际需求测试后决定。