什么是 Nano Banana Pro？

Nano Banana Pro 是 Google Gemini 3 Pro Image 模型（gemini-3-pro-image-preview）的代号，是目前最先进的 AI 图片模型，支持原生 4K 分辨率输出和多语言文字渲染。

Nano Banana 和 Nano Banana Pro 有什么区别？

Nano Banana 使用 Gemini 2.5 Flash Image（$0.025/张，仅1K）。Nano Banana Pro 使用 Gemini 3 Pro Image（支持1K/2K/4K），画质更好，支持精确文字渲染。

Nano Banana Pro API 价格是多少？

通过 LaoZhang.ai：Nano Banana $0.025/张，Nano Banana Pro 约$0.05/张。Google 官方 Nano Banana Pro 4K 要 $0.24/张 - 我们帮您节省79%！

Gemini API定价与配额完全指南：2026年所有模型成本、免费额度与优化策略

对于使用Gemini API的开发者来说，理解其定价体系是控制成本的第一步。Google提供了从完全免费到企业级的多层定价方案，不同模型的价格差异可达数十倍。更复杂的是，速率限制、Context Caching、Batch API等机制都会影响最终成本。如果不了解这些细节，很容易在开发过程中遭遇意外账单或配额超限。

本指南将全面解析2026年Gemini API的定价体系，从最新的Gemini 3系列到经济实惠的Flash-Lite，从免费层级到企业级Tier 3，帮助你选择最适合的方案并最大化成本效益。

Gemini API定价与配额完全指南

Gemini API定价概述：Token计费机制详解

Gemini API采用Token计费模式，这是理解所有定价的基础。Token是语言模型处理文本的基本单位，可以理解为模型"阅读"和"输出"的最小片段。对于英文，1个token大约等于4个字符或0.75个单词；对于中文，1个汉字通常占用2-3个token。这意味着处理中文内容的成本可能比英文高出50%到100%，这一点在预算规划时必须考虑。

计费分为输入token和输出token两部分。输入token是你发送给API的内容（包括系统提示、用户问题、上下文等），输出token是模型生成的回复。大多数模型的输出token价格都高于输入token，因为生成内容比理解内容需要更多的计算资源。

值得注意的是，如果API请求返回400或500错误，这些token不会被计费，但请求仍会计入配额限制。你可以使用SDK的tokenizer或countTokens API预先计算输入token数量，避免意外超支。

2026年Gemini全系列模型定价表

Google目前提供三大系列的Gemini模型：最新的Gemini 3系列、主力的Gemini 2.5系列，以及更经济的Gemini 2.0系列。每个系列都有Pro（旗舰）、Flash（平衡）、Flash-Lite（经济）等不同版本。以下是2026年1月的完整官方定价：

模型	输入价格 (≤200K)	输入价格 (>200K)	输出价格	缓存输入	Batch折扣
Gemini 3 Pro Preview	$2.00/1M	$4.00/1M	$12.00/1M	$0.20/1M	50%
Gemini 3 Flash Preview	$0.50/1M	$0.50/1M	$3.00/1M	$0.05/1M	50%
Gemini 2.5 Pro	$1.25/1M	$2.50/1M	$10.00/1M	$0.125/1M	50%
Gemini 2.5 Flash	$0.30/1M	$0.30/1M	$2.50/1M	$0.03/1M	50%
Gemini 2.5 Flash-Lite	$0.10/1M	$0.10/1M	$0.40/1M	$0.01/1M	50%
Gemini 2.0 Flash	$0.15/1M	$0.70/1M	$0.60/1M	$0.015/1M	50%
Gemini 2.0 Flash-Lite	$0.075/1M	$0.075/1M	$0.30/1M	$0.0075/1M	50%

从表中可以看出，价格跨度非常大：最贵的Gemini 3 Pro输出价格是最便宜的2.0 Flash-Lite的40倍。选择合适的模型是成本优化的第一步。对于大多数应用场景，Gemini 2.5 Flash提供了最佳的性价比平衡——它的能力接近Pro系列，但价格仅为十分之一。

多模态内容定价

图片和视频内容的计费有特殊规则。图片输入按560 token计算，大约$0.0011/张；图片输出按1120 token计算，约$0.134/张。视频内容则按秒计费，不同的Veo模型价格从$0.15/秒到$0.50/秒不等。音频输入通常是文本输入价格的3-10倍，例如Gemini 2.5 Flash的音频输入价格为$1.00/1M token（而文本仅$0.30/1M）。

Gemini API各模型定价对比

免费额度详解：哪些模型可以免费使用？

Google AI Studio为开发者提供了慷慨的免费层级，这是零成本测试和原型开发的绝佳选择。以下模型完全免费使用：

模型	免费输入	免费输出	特殊限制
Gemini 2.5 Flash	✅ 完全免费	✅ 完全免费	速率限制
Gemini 2.5 Flash-Lite	✅ 完全免费	✅ 完全免费	速率限制
Gemini 2.0 Flash	✅ 完全免费	✅ 完全免费	速率限制
Gemini 2.0 Flash-Lite	✅ 完全免费	✅ 完全免费	速率限制
Gemini 3 Flash Preview	✅ 完全免费	✅ 完全免费	速率限制
Gemini Embedding	✅ 完全免费	不适用	速率限制

但免费层级有几个重要限制需要注意。首先，Gemini 2.5 Pro和Gemini 3 Pro不在免费范围内，使用这些顶级模型需要付费。其次，免费层级的速率限制较低（详见下一章节）。第三，免费层级的内容可能会被Google用于改进产品，如果有数据隐私顾虑，建议使用付费层级。

对于学生用户，Google提供了特别优惠：可以免费获得一年的Google AI Pro订阅（价值$19.99/月），包含更高的配额和额外功能。符合条件的学生可以在Google for Education页面申请。

速率限制全解析：RPM、TPM、RPD详解

速率限制是API使用中最容易踩坑的地方。Google通过四个维度来控制API使用量：

RPM（Requests Per Minute）：每分钟请求数
TPM（Tokens Per Minute）：每分钟处理的token数
RPD（Requests Per Day）：每日请求数
IPM（Images Per Minute）：每分钟处理的图片数（仅多模态模型）

超过任何一个限制都会触发429错误。例如，即使你的TPM还有余量，但RPM已达上限，请求仍会被拒绝。以下是2025年12月配额调整后的限制（2026年1月有效）：

模型	免费层RPM	免费层TPM	付费Tier 1 RPM	付费Tier 1 TPM
Gemini 2.5 Pro	5	50,000	150	2,000,000
Gemini 2.5 Flash	15	250,000	300	4,000,000
Gemini 2.5 Flash-Lite	15	500,000	500	10,000,000
Gemini 2.0 Flash	15	500,000	300	4,000,000
Gemini 3 Pro Preview	5	50,000	100	1,000,000
Gemini 3 Flash Preview	15	250,000	300	4,000,000

RPD配额在太平洋时间午夜重置。免费层级的每日请求限制通常在500-1500次之间，而付费层级可以达到数万次甚至更多。如果你的应用需要稳定的高吞吐量，付费层级是必要的选择。

付费层级对比：Free vs Tier 1/2/3

Gemini API的付费分为四个层级，每个层级对应不同的消费门槛和配额：

层级	要求	典型RPM提升	适用场景
Free	支持的国家/地区	基准	个人测试、原型开发
Tier 1	绑定有效付费账户	10-30倍	小规模生产
Tier 2	累计消费>$250 + 30天	50-100倍	中等规模应用
Tier 3	累计消费>$1000 + 30天	100-500倍	企业级应用

升级层级的关键是累计消费金额和账户存在时间。例如，要升级到Tier 2，你需要在Google Cloud上累计消费超过$250，并且距离首次付款已超过30天。这是一个自动升级的过程，无需手动申请。

对于需要更高配额的场景，可以在AI Studio的API密钥页面点击"升级"按钮，或通过官方表单申请额外配额增加。但Google并不保证一定会批准申请，他们会根据具体情况评估。

Context Caching：节省90%输入成本的秘密武器

Context Caching是Gemini API提供的强大成本优化功能。当你需要对同一份大型文档进行多次查询，或者有大量共享上下文（如系统提示、知识库）时，缓存可以节省高达90%的输入token成本。

Gemini提供两种缓存机制：

隐式缓存（Implicit Caching）是Gemini 2.5模型的默认功能。当连续请求的开头部分相同时，系统会自动识别并应用缓存折扣。你不需要做任何配置，只需确保将不变的内容放在prompt开头，将变化的内容放在末尾。使用usage_metadata中的cached_content_token_count字段可以查看有多少token命中了缓存。

显式缓存（Explicit Caching）允许你主动创建和管理缓存。你可以设置缓存的TTL（生存时间），并在后续请求中引用这个缓存。显式缓存的优势是保证折扣，而隐式缓存则是机会性的。

hljs python
from google import genai
from google.genai.types import CreateCachedContentConfig

client = genai.Client()

# 创建显式缓存
cache = client.caches.create(
    model='models/gemini-2.5-flash',
    config=CreateCachedContentConfig(
        system_instruction='你是一位专业的法律顾问...',
        contents=[
            {'parts': [{'text': '<这里是50页的法律文档内容>'}]}
        ],
        ttl='7200s'  # 2小时TTL
    )
)

# 使用缓存进行查询
response = client.models.generate_content(
    model='models/gemini-2.5-flash',
    contents='合同中的违约条款是什么？',
    config={'cached_content': cache.name}
)

缓存的定价需要考虑存储成本：Pro模型$4.50/百万token/小时，Flash模型$1.00/百万token/小时。如果你的缓存只使用一次就过期，可能反而不划算。最佳实践是：对于需要频繁查询的大型文档（>10万token），使用显式缓存；对于日常请求，依赖隐式缓存即可。

Batch API：批量处理享受50%折扣

Batch API是另一个强大的省钱工具。当你有大量请求不需要实时响应时，可以将它们打包成批量作业，享受50%的价格折扣。目标处理时间是24小时，但大多数作业会更快完成。

批量处理的工作流程分三个阶段：

创建阶段：提交请求（内联JSON或JSONL文件），获取作业ID
处理阶段：系统异步处理，作业状态从PENDING变为RUNNING再到完成
检索阶段：下载处理结果

hljs python
from google import genai
import time

client = genai.Client()

# 准备批量请求
requests = [
    {'key': f'item-{i}', 'contents': [{'parts': [{'text': f'分析数据点 {data}'}]}]}
    for i, data in enumerate(large_dataset)
]

# 提交批量作业
batch_job = client.batches.create(
    model='models/gemini-2.5-flash',
    src=requests,
    config={'display_name': 'nightly-analysis'}
)

# 轮询等待完成
while batch_job.state.name not in ['JOB_STATE_SUCCEEDED', 'JOB_STATE_FAILED']:
    time.sleep(60)
    batch_job = client.batches.get(name=batch_job.name)

批量处理支持最大2GB的JSONL输入文件，可以包含数十万个请求。它适合的场景包括：数据预处理管道、模型评估测试、批量内容生成、非实时的翻译任务等。

重要提示：Batch API和Context Caching的折扣不会叠加。如果批量请求命中了缓存，缓存折扣（90%）会优先于批量折扣（50%）。但你可以结合使用两者——缓存共享上下文（节省90%），批量处理独特请求（节省50%）。

真实成本计算：3个典型场景分析

理论定价是一回事，实际成本是另一回事。让我们通过三个典型场景来计算真实成本。

场景1：个人开发者的智能助手（小规模）

假设你在开发一个个人AI助手，日均100次对话，每次对话约2000输入token + 500输出token。

使用Gemini 2.5 Flash（免费层级）：

输入：100 × 2000 = 200,000 token/天
输出：100 × 500 = 50,000 token/天
月成本：$0（在免费额度内）

如果使用Gemini 2.5 Pro（付费）：

输入成本：6M token × $1.25/1M = $7.50/月
输出成本：1.5M token × $10/1M = $15.00/月
月成本：$22.50

场景2：创业公司的客服系统（中等规模）

假设一个客服系统，日均1000次对话，每次平均3000输入token + 800输出token，并有共享的产品知识库（50,000 token）。

无优化策略：

输入：1000 × (3000 + 50000) = 53M token/天
输出：1000 × 800 = 0.8M token/天
使用2.5 Flash：($0.30 × 53) + ($2.50 × 0.8) = $17.90/天 = $537/月

使用Context Caching优化：

知识库缓存：50K × 1000 = 50M token，缓存后仅10% = 5M token
输入实际成本：(5M + 3M) × $0.30 = $2.40/天
存储成本：50K × $1/1M × 24hr = $1.20/天
输出成本：0.8M × $2.50 = $2.00/天
月成本：$168（节省69%）

场景3：企业级数据处理（大规模）

假设每晚处理10万条数据记录，每条2000输入token + 500输出token，可接受24小时延迟。

使用Batch API（50%折扣）：

输入：100K × 2000 = 200M token
输出：100K × 500 = 50M token
使用2.5 Flash-Lite Batch：(200M × $0.05) + (50M × $0.20) = $20/晚 = $600/月

场景	无优化成本	优化后成本	节省比例
个人助手	$22.50	$0	100%
客服系统	$537	$168	69%
数据处理	$1,200	$600	50%

成本优化8大策略：从选型到监控

基于实际经验，以下是8种行之有效的成本优化策略：

策略1：分层模型选择 根据任务复杂度选择不同模型。简单任务（分类、摘要）用Flash-Lite，中等任务（翻译、问答）用Flash，复杂任务（代码生成、深度分析）才用Pro。某金融科技公司通过这种智能路由策略，将API成本降低了58%。

策略2：优化prompt设计 精简prompt可以直接降低token消耗。移除非必要的上下文，避免冗长的指令说明。对于需要上下文的任务，采用渐进式构建而非一次性提供所有信息。

策略3：善用免费层级 开发和测试阶段尽量使用免费层级。Google AI Studio在所有支持的国家完全免费，是原型验证的理想选择。只在生产环境切换到付费层级。

策略4：活用Context Caching 对于重复查询的大文档或固定的系统提示，使用缓存可以节省高达90%。记得及时删除不再使用的缓存，避免不必要的存储成本。

策略5：批量处理非实时任务 能等24小时的任务就用Batch API，立省50%。晚间批处理是企业级应用的标配优化手段。

策略6：设置预算告警 使用Google Cloud的Budget功能或自建监控系统，当消费达到预设阈值的80%时触发通知。这可以防止意外超支，及时发现异常消费模式。

对于需要更稳定API服务的中国开发者，也可以考虑laozhang.ai这类聚合平台，支持多种AI模型统一调用，计费方式与官方一致，具体价格可查阅官方文档。

策略7：控制输出长度 合理设置max_tokens参数。如果只需要简短回答，不要让模型生成长篇大论。输出token的成本通常是输入的2-10倍。

策略8：监控和分析消费模式 定期分析API使用报告，识别高消费请求类型。找出可以优化的热点，比如某个功能消耗了80%的token，可能需要重新设计其实现方式。

Gemini API成本优化策略

配额超限处理：429错误的解决方案

当你遇到429 Too Many Requests错误时，说明已经触发了速率限制。以下是系统化的处理策略：

立即应对：实施指数退避重试策略。首次失败后等待1秒重试，再失败等待2秒，依此类推。大多数情况下，短暂等待即可恢复。

hljs python
import time
from google import genai

def call_with_retry(func, max_retries=5):
    for attempt in range(max_retries):
        try:
            return func()
        except Exception as e:
            if '429' in str(e) and attempt < max_retries - 1:
                wait_time = 2 ** attempt  # 指数退避
                print(f'配额超限，等待{wait_time}秒后重试...')
                time.sleep(wait_time)
            else:
                raise

短期优化：如果频繁触发429，检查你的请求模式。是否有突发流量？能否平滑请求分布？考虑实现请求队列和限流器。

长期方案：升级到更高的付费层级，或申请自定义配额增加。在AI Studio的使用量页面可以查看当前的配额使用情况和限制。

预防措施：在应用层实现配额管理，提前跟踪token消耗，在接近限制时主动降速或切换备用模型。对于关键应用，可以配置多个API Key分担负载。

如果你遇到的是配额超限问题，可以参考我们的专门指南了解更详细的解决方案。

常见问题解答

Q1: Gemini API有永久免费的选项吗？

是的，Gemini 2.5 Flash、2.5 Flash-Lite、2.0 Flash、2.0 Flash-Lite以及Gemini Embedding都有免费层级。但需要注意速率限制，且免费内容可能被Google用于产品改进。

Q2: 中国开发者可以使用Gemini API吗？

Google AI Studio目前不向中国大陆开放直接服务。中国开发者通常需要通过VPN或使用第三方API聚合平台来访问。详见我们的中国区访问指南。

Q3: 如何估算我的月度API成本？

可以使用公式：月成本 = (日均输入token × 30 × 输入价格) + (日均输出token × 30 × 输出价格)。建议在开发阶段就开始跟踪token消耗，建立消费基线。

Q4: Context Caching和Batch API的折扣可以叠加吗？

不能直接叠加。当批量请求命中缓存时，缓存折扣（90%）优先于批量折扣（50%）。但可以组合使用：缓存共享上下文，批量处理独特查询。

Q5: 付费层级是自动升级的吗？

是的，当你的累计消费达到门槛（Tier 2: $250, Tier 3: $1000）且账户存在超过30天后，系统会自动升级你的配额。无需手动申请。

Q6: 免费额度用完后会自动收费吗？

如果你绑定了付费账户，超出免费额度后会自动计费。如果没有绑定付费方式，请求会被拒绝（429错误）。建议设置消费上限防止意外超支。

总结与推荐

Gemini API的定价体系虽然复杂，但提供了灵活的选择空间。总结来看：

使用场景	推荐模型	推荐策略	预估月成本
个人学习/测试	Gemini 2.5 Flash（免费）	使用免费层级	$0
个人项目/原型	Gemini 2.5 Flash	优化prompt	$0-30
小团队生产	Gemini 2.5 Flash + Caching	Context Caching	$50-200
企业级应用	Flash + Pro混合	Caching + Batch	$200-2000
大规模处理	Flash-Lite + Batch	批量处理	视规模而定

对于大多数应用，Gemini 2.5 Flash是最佳起点——它提供接近Pro的能力，但成本仅为十分之一。随着需求增长，可以逐步引入Caching和Batch优化，并根据任务复杂度升级到Pro系列。

记住成本优化的核心原则：选择够用的最小模型、缓存一切可缓存的内容、批量处理非实时任务、持续监控消费模式。掌握这些，你就能在控制成本的同时充分发挥Gemini API的强大能力。

来源参考：