Gemini API定价与配额完全指南:2026年所有模型成本、免费额度与优化策略
全面解析2026年Gemini API定价体系,涵盖Gemini 3/2.5/2.0全系列模型价格、免费额度、速率限制、Context Caching、Batch API折扣及8种成本优化策略。
Nano Banana Pro
4K-80%Google Gemini 3 Pro · AI Inpainting
谷歌原生模型 · AI智能修图
对于使用Gemini API的开发者来说,理解其定价体系是控制成本的第一步。Google提供了从完全免费到企业级的多层定价方案,不同模型的价格差异可达数十倍。更复杂的是,速率限制、Context Caching、Batch API等机制都会影响最终成本。如果不了解这些细节,很容易在开发过程中遭遇意外账单或配额超限。
本指南将全面解析2026年Gemini API的定价体系,从最新的Gemini 3系列到经济实惠的Flash-Lite,从免费层级到企业级Tier 3,帮助你选择最适合的方案并最大化成本效益。

Gemini API定价概述:Token计费机制详解
Gemini API采用Token计费模式,这是理解所有定价的基础。Token是语言模型处理文本的基本单位,可以理解为模型"阅读"和"输出"的最小片段。对于英文,1个token大约等于4个字符或0.75个单词;对于中文,1个汉字通常占用2-3个token。这意味着处理中文内容的成本可能比英文高出50%到100%,这一点在预算规划时必须考虑。
计费分为输入token和输出token两部分。输入token是你发送给API的内容(包括系统提示、用户问题、上下文等),输出token是模型生成的回复。大多数模型的输出token价格都高于输入token,因为生成内容比理解内容需要更多的计算资源。
值得注意的是,如果API请求返回400或500错误,这些token不会被计费,但请求仍会计入配额限制。你可以使用SDK的tokenizer或countTokens API预先计算输入token数量,避免意外超支。
2026年Gemini全系列模型定价表
Google目前提供三大系列的Gemini模型:最新的Gemini 3系列、主力的Gemini 2.5系列,以及更经济的Gemini 2.0系列。每个系列都有Pro(旗舰)、Flash(平衡)、Flash-Lite(经济)等不同版本。以下是2026年1月的完整官方定价:
| 模型 | 输入价格 (≤200K) | 输入价格 (>200K) | 输出价格 | 缓存输入 | Batch折扣 |
|---|---|---|---|---|---|
| Gemini 3 Pro Preview | $2.00/1M | $4.00/1M | $12.00/1M | $0.20/1M | 50% |
| Gemini 3 Flash Preview | $0.50/1M | $0.50/1M | $3.00/1M | $0.05/1M | 50% |
| Gemini 2.5 Pro | $1.25/1M | $2.50/1M | $10.00/1M | $0.125/1M | 50% |
| Gemini 2.5 Flash | $0.30/1M | $0.30/1M | $2.50/1M | $0.03/1M | 50% |
| Gemini 2.5 Flash-Lite | $0.10/1M | $0.10/1M | $0.40/1M | $0.01/1M | 50% |
| Gemini 2.0 Flash | $0.15/1M | $0.70/1M | $0.60/1M | $0.015/1M | 50% |
| Gemini 2.0 Flash-Lite | $0.075/1M | $0.075/1M | $0.30/1M | $0.0075/1M | 50% |
从表中可以看出,价格跨度非常大:最贵的Gemini 3 Pro输出价格是最便宜的2.0 Flash-Lite的40倍。选择合适的模型是成本优化的第一步。对于大多数应用场景,Gemini 2.5 Flash提供了最佳的性价比平衡——它的能力接近Pro系列,但价格仅为十分之一。
多模态内容定价
图片和视频内容的计费有特殊规则。图片输入按560 token计算,大约$0.0011/张;图片输出按1120 token计算,约$0.134/张。视频内容则按秒计费,不同的Veo模型价格从$0.15/秒到$0.50/秒不等。音频输入通常是文本输入价格的3-10倍,例如Gemini 2.5 Flash的音频输入价格为$1.00/1M token(而文本仅$0.30/1M)。

免费额度详解:哪些模型可以免费使用?
Google AI Studio为开发者提供了慷慨的免费层级,这是零成本测试和原型开发的绝佳选择。以下模型完全免费使用:
| 模型 | 免费输入 | 免费输出 | 特殊限制 |
|---|---|---|---|
| Gemini 2.5 Flash | ✅ 完全免费 | ✅ 完全免费 | 速率限制 |
| Gemini 2.5 Flash-Lite | ✅ 完全免费 | ✅ 完全免费 | 速率限制 |
| Gemini 2.0 Flash | ✅ 完全免费 | ✅ 完全免费 | 速率限制 |
| Gemini 2.0 Flash-Lite | ✅ 完全免费 | ✅ 完全免费 | 速率限制 |
| Gemini 3 Flash Preview | ✅ 完全免费 | ✅ 完全免费 | 速率限制 |
| Gemini Embedding | ✅ 完全免费 | 不适用 | 速率限制 |
但免费层级有几个重要限制需要注意。首先,Gemini 2.5 Pro和Gemini 3 Pro不在免费范围内,使用这些顶级模型需要付费。其次,免费层级的速率限制较低(详见下一章节)。第三,免费层级的内容可能会被Google用于改进产品,如果有数据隐私顾虑,建议使用付费层级。
对于学生用户,Google提供了特别优惠:可以免费获得一年的Google AI Pro订阅(价值$19.99/月),包含更高的配额和额外功能。符合条件的学生可以在Google for Education页面申请。
速率限制全解析:RPM、TPM、RPD详解
速率限制是API使用中最容易踩坑的地方。Google通过四个维度来控制API使用量:
- RPM(Requests Per Minute):每分钟请求数
- TPM(Tokens Per Minute):每分钟处理的token数
- RPD(Requests Per Day):每日请求数
- IPM(Images Per Minute):每分钟处理的图片数(仅多模态模型)
超过任何一个限制都会触发429错误。例如,即使你的TPM还有余量,但RPM已达上限,请求仍会被拒绝。以下是2025年12月配额调整后的限制(2026年1月有效):
| 模型 | 免费层RPM | 免费层TPM | 付费Tier 1 RPM | 付费Tier 1 TPM |
|---|---|---|---|---|
| Gemini 2.5 Pro | 5 | 50,000 | 150 | 2,000,000 |
| Gemini 2.5 Flash | 15 | 250,000 | 300 | 4,000,000 |
| Gemini 2.5 Flash-Lite | 15 | 500,000 | 500 | 10,000,000 |
| Gemini 2.0 Flash | 15 | 500,000 | 300 | 4,000,000 |
| Gemini 3 Pro Preview | 5 | 50,000 | 100 | 1,000,000 |
| Gemini 3 Flash Preview | 15 | 250,000 | 300 | 4,000,000 |
RPD配额在太平洋时间午夜重置。免费层级的每日请求限制通常在500-1500次之间,而付费层级可以达到数万次甚至更多。如果你的应用需要稳定的高吞吐量,付费层级是必要的选择。
付费层级对比:Free vs Tier 1/2/3
Gemini API的付费分为四个层级,每个层级对应不同的消费门槛和配额:
| 层级 | 要求 | 典型RPM提升 | 适用场景 |
|---|---|---|---|
| Free | 支持的国家/地区 | 基准 | 个人测试、原型开发 |
| Tier 1 | 绑定有效付费账户 | 10-30倍 | 小规模生产 |
| Tier 2 | 累计消费>$250 + 30天 | 50-100倍 | 中等规模应用 |
| Tier 3 | 累计消费>$1000 + 30天 | 100-500倍 | 企业级应用 |
升级层级的关键是累计消费金额和账户存在时间。例如,要升级到Tier 2,你需要在Google Cloud上累计消费超过$250,并且距离首次付款已超过30天。这是一个自动升级的过程,无需手动申请。
对于需要更高配额的场景,可以在AI Studio的API密钥页面点击"升级"按钮,或通过官方表单申请额外配额增加。但Google并不保证一定会批准申请,他们会根据具体情况评估。
Context Caching:节省90%输入成本的秘密武器
Context Caching是Gemini API提供的强大成本优化功能。当你需要对同一份大型文档进行多次查询,或者有大量共享上下文(如系统提示、知识库)时,缓存可以节省高达90%的输入token成本。
Gemini提供两种缓存机制:
隐式缓存(Implicit Caching)是Gemini 2.5模型的默认功能。当连续请求的开头部分相同时,系统会自动识别并应用缓存折扣。你不需要做任何配置,只需确保将不变的内容放在prompt开头,将变化的内容放在末尾。使用usage_metadata中的cached_content_token_count字段可以查看有多少token命中了缓存。
显式缓存(Explicit Caching)允许你主动创建和管理缓存。你可以设置缓存的TTL(生存时间),并在后续请求中引用这个缓存。显式缓存的优势是保证折扣,而隐式缓存则是机会性的。
hljs pythonfrom google import genai
from google.genai.types import CreateCachedContentConfig
client = genai.Client()
# 创建显式缓存
cache = client.caches.create(
model='models/gemini-2.5-flash',
config=CreateCachedContentConfig(
system_instruction='你是一位专业的法律顾问...',
contents=[
{'parts': [{'text': '<这里是50页的法律文档内容>'}]}
],
ttl='7200s' # 2小时TTL
)
)
# 使用缓存进行查询
response = client.models.generate_content(
model='models/gemini-2.5-flash',
contents='合同中的违约条款是什么?',
config={'cached_content': cache.name}
)
缓存的定价需要考虑存储成本:Pro模型$4.50/百万token/小时,Flash模型$1.00/百万token/小时。如果你的缓存只使用一次就过期,可能反而不划算。最佳实践是:对于需要频繁查询的大型文档(>10万token),使用显式缓存;对于日常请求,依赖隐式缓存即可。
Batch API:批量处理享受50%折扣
Batch API是另一个强大的省钱工具。当你有大量请求不需要实时响应时,可以将它们打包成批量作业,享受50%的价格折扣。目标处理时间是24小时,但大多数作业会更快完成。
批量处理的工作流程分三个阶段:
- 创建阶段:提交请求(内联JSON或JSONL文件),获取作业ID
- 处理阶段:系统异步处理,作业状态从PENDING变为RUNNING再到完成
- 检索阶段:下载处理结果
hljs pythonfrom google import genai
import time
client = genai.Client()
# 准备批量请求
requests = [
{'key': f'item-{i}', 'contents': [{'parts': [{'text': f'分析数据点 {data}'}]}]}
for i, data in enumerate(large_dataset)
]
# 提交批量作业
batch_job = client.batches.create(
model='models/gemini-2.5-flash',
src=requests,
config={'display_name': 'nightly-analysis'}
)
# 轮询等待完成
while batch_job.state.name not in ['JOB_STATE_SUCCEEDED', 'JOB_STATE_FAILED']:
time.sleep(60)
batch_job = client.batches.get(name=batch_job.name)
批量处理支持最大2GB的JSONL输入文件,可以包含数十万个请求。它适合的场景包括:数据预处理管道、模型评估测试、批量内容生成、非实时的翻译任务等。
重要提示:Batch API和Context Caching的折扣不会叠加。如果批量请求命中了缓存,缓存折扣(90%)会优先于批量折扣(50%)。但你可以结合使用两者——缓存共享上下文(节省90%),批量处理独特请求(节省50%)。
真实成本计算:3个典型场景分析
理论定价是一回事,实际成本是另一回事。让我们通过三个典型场景来计算真实成本。
场景1:个人开发者的智能助手(小规模)
假设你在开发一个个人AI助手,日均100次对话,每次对话约2000输入token + 500输出token。
使用Gemini 2.5 Flash(免费层级):
- 输入:100 × 2000 = 200,000 token/天
- 输出:100 × 500 = 50,000 token/天
- 月成本:$0(在免费额度内)
如果使用Gemini 2.5 Pro(付费):
- 输入成本:6M token × $1.25/1M = $7.50/月
- 输出成本:1.5M token × $10/1M = $15.00/月
- 月成本:$22.50
场景2:创业公司的客服系统(中等规模)
假设一个客服系统,日均1000次对话,每次平均3000输入token + 800输出token,并有共享的产品知识库(50,000 token)。
无优化策略:
- 输入:1000 × (3000 + 50000) = 53M token/天
- 输出:1000 × 800 = 0.8M token/天
- 使用2.5 Flash:($0.30 × 53) + ($2.50 × 0.8) = $17.90/天 = $537/月
使用Context Caching优化:
- 知识库缓存:50K × 1000 = 50M token,缓存后仅10% = 5M token
- 输入实际成本:(5M + 3M) × $0.30 = $2.40/天
- 存储成本:50K × $1/1M × 24hr = $1.20/天
- 输出成本:0.8M × $2.50 = $2.00/天
- 月成本:$168(节省69%)
场景3:企业级数据处理(大规模)
假设每晚处理10万条数据记录,每条2000输入token + 500输出token,可接受24小时延迟。
使用Batch API(50%折扣):
- 输入:100K × 2000 = 200M token
- 输出:100K × 500 = 50M token
- 使用2.5 Flash-Lite Batch:(200M × $0.05) + (50M × $0.20) = $20/晚 = $600/月
| 场景 | 无优化成本 | 优化后成本 | 节省比例 |
|---|---|---|---|
| 个人助手 | $22.50 | $0 | 100% |
| 客服系统 | $537 | $168 | 69% |
| 数据处理 | $1,200 | $600 | 50% |
成本优化8大策略:从选型到监控
基于实际经验,以下是8种行之有效的成本优化策略:
策略1:分层模型选择 根据任务复杂度选择不同模型。简单任务(分类、摘要)用Flash-Lite,中等任务(翻译、问答)用Flash,复杂任务(代码生成、深度分析)才用Pro。某金融科技公司通过这种智能路由策略,将API成本降低了58%。
策略2:优化prompt设计 精简prompt可以直接降低token消耗。移除非必要的上下文,避免冗长的指令说明。对于需要上下文的任务,采用渐进式构建而非一次性提供所有信息。
策略3:善用免费层级 开发和测试阶段尽量使用免费层级。Google AI Studio在所有支持的国家完全免费,是原型验证的理想选择。只在生产环境切换到付费层级。
策略4:活用Context Caching 对于重复查询的大文档或固定的系统提示,使用缓存可以节省高达90%。记得及时删除不再使用的缓存,避免不必要的存储成本。
策略5:批量处理非实时任务 能等24小时的任务就用Batch API,立省50%。晚间批处理是企业级应用的标配优化手段。
策略6:设置预算告警 使用Google Cloud的Budget功能或自建监控系统,当消费达到预设阈值的80%时触发通知。这可以防止意外超支,及时发现异常消费模式。
对于需要更稳定API服务的中国开发者,也可以考虑laozhang.ai这类聚合平台,支持多种AI模型统一调用,计费方式与官方一致,具体价格可查阅官方文档。
策略7:控制输出长度
合理设置max_tokens参数。如果只需要简短回答,不要让模型生成长篇大论。输出token的成本通常是输入的2-10倍。
策略8:监控和分析消费模式 定期分析API使用报告,识别高消费请求类型。找出可以优化的热点,比如某个功能消耗了80%的token,可能需要重新设计其实现方式。

配额超限处理:429错误的解决方案
当你遇到429 Too Many Requests错误时,说明已经触发了速率限制。以下是系统化的处理策略:
立即应对:实施指数退避重试策略。首次失败后等待1秒重试,再失败等待2秒,依此类推。大多数情况下,短暂等待即可恢复。
hljs pythonimport time
from google import genai
def call_with_retry(func, max_retries=5):
for attempt in range(max_retries):
try:
return func()
except Exception as e:
if '429' in str(e) and attempt < max_retries - 1:
wait_time = 2 ** attempt # 指数退避
print(f'配额超限,等待{wait_time}秒后重试...')
time.sleep(wait_time)
else:
raise
短期优化:如果频繁触发429,检查你的请求模式。是否有突发流量?能否平滑请求分布?考虑实现请求队列和限流器。
长期方案:升级到更高的付费层级,或申请自定义配额增加。在AI Studio的使用量页面可以查看当前的配额使用情况和限制。
预防措施:在应用层实现配额管理,提前跟踪token消耗,在接近限制时主动降速或切换备用模型。对于关键应用,可以配置多个API Key分担负载。
如果你遇到的是配额超限问题,可以参考我们的专门指南了解更详细的解决方案。
常见问题解答
Q1: Gemini API有永久免费的选项吗?
是的,Gemini 2.5 Flash、2.5 Flash-Lite、2.0 Flash、2.0 Flash-Lite以及Gemini Embedding都有免费层级。但需要注意速率限制,且免费内容可能被Google用于产品改进。
Q2: 中国开发者可以使用Gemini API吗?
Google AI Studio目前不向中国大陆开放直接服务。中国开发者通常需要通过VPN或使用第三方API聚合平台来访问。详见我们的中国区访问指南。
Q3: 如何估算我的月度API成本?
可以使用公式:月成本 = (日均输入token × 30 × 输入价格) + (日均输出token × 30 × 输出价格)。建议在开发阶段就开始跟踪token消耗,建立消费基线。
Q4: Context Caching和Batch API的折扣可以叠加吗?
不能直接叠加。当批量请求命中缓存时,缓存折扣(90%)优先于批量折扣(50%)。但可以组合使用:缓存共享上下文,批量处理独特查询。
Q5: 付费层级是自动升级的吗?
是的,当你的累计消费达到门槛(Tier 2: $250, Tier 3: $1000)且账户存在超过30天后,系统会自动升级你的配额。无需手动申请。
Q6: 免费额度用完后会自动收费吗?
如果你绑定了付费账户,超出免费额度后会自动计费。如果没有绑定付费方式,请求会被拒绝(429错误)。建议设置消费上限防止意外超支。
总结与推荐
Gemini API的定价体系虽然复杂,但提供了灵活的选择空间。总结来看:
| 使用场景 | 推荐模型 | 推荐策略 | 预估月成本 |
|---|---|---|---|
| 个人学习/测试 | Gemini 2.5 Flash(免费) | 使用免费层级 | $0 |
| 个人项目/原型 | Gemini 2.5 Flash | 优化prompt | $0-30 |
| 小团队生产 | Gemini 2.5 Flash + Caching | Context Caching | $50-200 |
| 企业级应用 | Flash + Pro混合 | Caching + Batch | $200-2000 |
| 大规模处理 | Flash-Lite + Batch | 批量处理 | 视规模而定 |
对于大多数应用,Gemini 2.5 Flash是最佳起点——它提供接近Pro的能力,但成本仅为十分之一。随着需求增长,可以逐步引入Caching和Batch优化,并根据任务复杂度升级到Pro系列。
记住成本优化的核心原则:选择够用的最小模型、缓存一切可缓存的内容、批量处理非实时任务、持续监控消费模式。掌握这些,你就能在控制成本的同时充分发挥Gemini API的强大能力。
来源参考: