什么是 Nano Banana Pro？

Nano Banana Pro 是 Google Gemini 3 Pro Image 模型（gemini-3-pro-image-preview）的代号，是目前最先进的 AI 图片模型，支持原生 4K 分辨率输出和多语言文字渲染。

Nano Banana 和 Nano Banana Pro 有什么区别？

Nano Banana 使用 Gemini 2.5 Flash Image（$0.025/张，仅1K）。Nano Banana Pro 使用 Gemini 3 Pro Image（支持1K/2K/4K），画质更好，支持精确文字渲染。

Nano Banana Pro API 价格是多少？

通过 LaoZhang.ai：Nano Banana $0.025/张，Nano Banana Pro 约$0.05/张。Google 官方 Nano Banana Pro 4K 要 $0.24/张 - 我们帮您节省79%！

Gemini Tier 1 已开通计费却仍是免费配额(250 RPD)？完整修复指南 2026

很多开发者在 Google Cloud 项目中开通计费后，期望 Gemini API 的速率限制从免费层级跳升到 Tier 1 水平，却发现配额依然停留在 250 RPD 甚至更低的免费层级数值。这是一个有多种根因的已知问题，最常见的修复方案是将实验性模型变体（如 gemini-2.5-pro-exp）切换为稳定版或付费预览版，然后在 Google AI Studio 中重新生成 API 密钥。本指南系统梳理每种根因并提供经过验证的解决方案，所有信息基于 Google AI 开发者论坛报告和截至 2026 年 2 月的官方文档。

Gemini API 计费状态显示为 Tier 1 已启用但实际 API 配额仍停留在免费层级 250 RPD 限制的可视化对比

要点速览

如果你的 Gemini API 已经开通计费却仍然显示免费层级限制，在深入阅读完整指南之前，先看这个快速排查清单。最常见的原因是使用了实验性模型变体，这类变体无论你的计费状态如何，都只能使用免费层级配额。将模型切换为稳定版（如 gemini-2.5-pro）或付费预览版，在已开通计费的项目中重新生成 API 密钥，并等待最多 48 小时让计费系统完成同步。如果这些步骤无法解决问题，请检查是否有促销赠金覆盖了付费层级，最后可联系 Google Cloud 支持作为兜底手段。以下各章节将详细解释每种场景和经过社区验证的解决方案。

为什么你的 Tier 1 计费仍然显示免费配额

计费面板明确显示"Tier 1"而 API 却返回免费层级速率限制，这是 Gemini 生态系统中最令人沮丧的开发者体验之一。Google AI 开发者论坛上有大量帖子记录了完全相同的场景：开发者严格按照官方步骤开通计费，看到项目确认处于 Tier 1，却在远低于付费层级应有限制的请求频率下持续遭遇 429 "Resource Exhausted" 错误。要理解这种现象为何发生，需要深入研究 Google 的计费和配额系统实际上是如何交互的，因为它们之间的耦合程度远没有大多数开发者以为的那么紧密。

根本问题在于，Google 的 Gemini API 使用了一套多层系统，其中计费状态、项目层级分配和实际的逐模型速率限制三者之间具有相当的独立性。当你在 Google Cloud 项目上开通计费时，系统确实正确地将你的项目注册为符合 Tier 1 资格。然而，API 请求实际适用的速率限制还取决于多个额外因素：你调用的是哪个具体模型变体、你的 API 密钥是否在正确的项目中生成、以及计费到配额的同步是否已经完成。这种分层架构意味着链条中任何一个环节的故障都可能导致你观察到的症状，即便你的计费面板看起来完全正确。

更令人困惑的是，Google 官方速率限制文档页面（最后更新于 2026 年 2 月 19 日）已经不再公布每个层级的具体 RPM 和 RPD 数值，而是引导开发者到 Google AI Studio 中查看实际限制。这一变更移除了开发者以前用来验证层级状态的便捷参照点，增加了额外的不确定性。如果你想了解 Gemini API 免费层级的完整说明，我们的详细指南涵盖了免费层级包含的所有内容以及它与付费层级的对比。

好消息是这个问题已经被充分记录，根因也是可以识别的。以下章节按照在开发者社区报告中出现的频率排序，系统梳理每种根因及其对应的修复方案。大多数开发者在前两个步骤内就能解决问题。

理解 Gemini API 层级体系与速率限制（2026）

Gemini API 层级体系对比图，展示免费层级、Tier 1、Tier 2 和 Tier 3 的要求与速率限制

Google 将 Gemini API 访问划分为四个独立层级，每个层级有各自的准入要求和速率限制分配。准确理解每个层级提供的内容是诊断配额不匹配问题的关键基础。层级体系决定了你在不同模型系列中的最大每分钟请求数（RPM）、每日请求数（RPD）和每分钟令牌数（TPM）。

免费层级只要求你位于符合条件的国家或地区，提供限制明显的基础访问权限。根据 SERP 数据源和 AI Studio 实际观测的交叉验证，免费层级下 Gemini 2.5 Pro 的限制约为 5 RPM、100 RPD，Gemini 2.5 Flash 约为 10 RPM、250 RPD。250 RPD 正是大多数开发者在不知不觉中被困在免费层级时遇到的数值。Gemini 2.5 Flash-Lite 的免费限制相对宽松一些，约为 15 RPM、1,000 RPD。值得注意的是，Google 在 2025 年 12 月大幅削减了免费层级配额，降幅约 50-80%，这使得之前在免费层级限制内运行良好的开发者突然感受到了这个问题的严重性。

Tier 1 在你将完整的付费计费账户关联到 Google Cloud 项目后解锁。这个层级大幅提升速率限制，数据源显示 Gemini 2.5 Pro 和 Flash 等模型约有 150-300 RPM 和 1,500+ RPD。从免费到 Tier 1 的跳升代表着每日请求容量 6-15 倍的增长，这也是开发者对配额不匹配感知如此强烈的原因。官方文档着重强调的一个关键细节是，"实验性和预览模型的速率限制更加受限"，即使在付费层级上也是如此，这意味着并非所有模型都能同等地从 Tier 1 升级中受益。

Tier 2 要求累计消费至少 $250 且自首次付款起满 30 天，Tier 3 则将门槛提高到累计消费 $1,000 且满 30 天。更高层级逐步提升速率限制并解锁额外功能。关于 Gemini API 各层级速率限制的完整分解，我们的专题指南涵盖了包括 TPM、上下文缓存和批量处理配额在内的全部限制详情。

理解付费层级的定价结构对诊断本文讨论的问题也很有帮助。根据 2026 年 2 月 21 日验证的 Google 官方定价页面，Gemini 2.5 Pro 的输入价格为 $1.25-$2.50/百万令牌，输出价格为 $10.00-$15.00/百万令牌，具体取决于上下文长度。Gemini 2.5 Flash 价格更为亲民，输入 $0.30-$1.00/百万令牌，输出 $2.50/百万令牌，是高流量应用的首选。较新的 Gemini 3.1 Pro Preview 定价较高，输入 $2.00-$4.00/百万令牌，输出 $12.00-$18.00/百万令牌，但目前仅以预览形式提供且速率限制更严格。了解这些定价层级有助于你在 Tier 1 计费正确激活后估算成本，确保免费层级限制最终解除时不会被账单吓到。

有一个重要细节经常让开发者措手不及：速率限制是按项目而非按 API 密钥计算的。这意味着在同一个项目中创建多个 API 密钥不会让你的配额翻倍。同时也意味着，如果你在不同项目中有不同计费配置的 API 密钥，你体验到的速率限制会因使用哪个密钥而不同，这直接关联到下一节探讨的根因之一。此外，RPD 配额在太平洋时间午夜重置，你在 Cloud Console 配额页面看到的速率限制值可能与 API 实际执行的值不同，这是由于配置配额和动态层级限制之间存在区别。

这个问题背后的 5 大根因

计费与配额不匹配有五种不同的根因，每种需要不同的修复方法。基于对 Google AI 开发者论坛数十个帖子和社区报告的分析，以下按出现频率排序。准确识别哪种根因适用于你的情况是最快的解决路径。

根因 1：模型变体混淆（最常见，约占 60% 的案例）

这是层级不匹配问题中最容易被忽视的原因，也是大多数故障排查指南未能清楚解释的。Google 为每个模型维护多个变体，命名规则直接决定了你的请求是使用付费层级限制还是停留在免费层级，而这与你的计费状态无关。模型名称以 -exp 或 -experimental 结尾的被明确指定为免费层级模型。例如，gemini-2.5-pro-exp-03-25 无论你设置了什么计费配置，都将始终在免费层级配额下运行。相比之下，稳定版变体 gemini-2.5-pro 和付费预览版变体 gemini-2.5-pro-preview-03-25 会遵从你的 Tier 1 计费状态并应用更高的速率限制。这一区别被深埋在官方文档中，在开发者收到的错误消息中几乎从不被提及，因此很容易中招，尤其是在跟随恰好使用了实验性变体的教程或示例代码时。

根因 2：API 密钥未关联到计费项目（约占 20% 的案例）

Google AI Studio 允许你创建与不同 Google Cloud 项目关联的 API 密钥。如果你在一个未开通计费的项目中创建了 API 密钥，或者你有多个项目但不小心选错了，你的 API 调用就会使用未计费项目的免费层级限制。这在开发者同时拥有个人项目和工作项目时尤为常见，或者在免费试用期间创建了初始 API 密钥但开通计费后从未重新生成密钥的情况下。修复方法很直接：打开 AI Studio，检查你的 API 密钥属于哪个项目，如有必要，在已配置计费的特定项目中创建新密钥。对于同时遇到 API 密钥无效问题排查的开发者，密钥与项目的关联关系往往就是根本原因。

根因 3：计费同步延迟（约占 10% 的案例）

当你首次开通计费或更改计费配置时，新的层级限制在所有 Google 系统中生效之前存在一个同步周期。论坛报告一致表明，这个延迟从几分钟到最长 48 小时不等，大多数同步会在 24 小时内完成。在此窗口期内，你的计费面板会正确显示 Tier 1，但速率限制系统可能仍在执行免费层级配额。使用非免费模型发起一个小额付费 API 调用有时可以帮助更快触发同步过程，因为它迫使计费系统注册一个实际的计费事件。

根因 4：免费促销赠金覆盖（约占 5% 的案例）

如果你的 Google Cloud 账户有活跃的促销赠金，例如 $300 免费试用赠金或其他促销优惠，系统可能会将你的账户视为免费层级用户，即使你已绑定付款方式。这是因为从层级系统的角度来看，促销赠金在技术上与付费计费账户不同。通过 Google Cloud 免费试用注册然后添加付款方式的开发者，有时会发现他们的账户在促销赠金完全消耗或过期之前一直停留在免费层级限制上。这里的关键区别在于，层级升级要求的是"完整的付费计费账户"，Google 将其解释为正在对真实付款方式产生费用的账户，而非正在消耗促销余额的账户。

根因 5：预览模型限制（约占 5% 的案例）

即使在付费层级上，预览模型的速率限制也比稳定版对应模型更为严格。官方文档明确指出"实验性和预览模型的速率限制更加受限"，但不提供预览模型的具体限制数值，而是引导开发者到 AI Studio 查看。如果你使用的是 Gemini 3.1 Pro Preview 或 Gemini 3 Pro Preview 等模型，你体验到的速率限制可能远低于同一层级上稳定模型的水平。严格来说这不是 Bug，而是 Google 为管理仍在优化评估中的模型容量而做出的有意设计。这对正在修复 Gemini 图片生成 429 错误的开发者影响尤为突出，因为在原生图片生成等新功能中，预览模型往往是唯一选择。

还有一种特别令人抓狂的变体问题，部分开发者将其称为"死循环"场景。在这种情况下，计费已正确开通，项目显示 Tier 1 状态，使用的是正确的模型变体，API 密钥也在正确的项目中，但计费面板显示的使用量和费用完全为零。速率限制系统无法检测到任何计费 API 活动，这阻止了层级的完全激活。这种循环依赖——你需要发起付费 API 调用来触发层级激活，但层级限制却阻止调用被视为付费请求——已在多个论坛帖子中被报告，目前没有明确的官方解决方案。开发者报告的最成功的变通方法是：明确使用稳定的、非实验性模型发起一个小提示词的调用，等待 24-48 小时，然后检查计费面板是否开始记录费用。如果仍然没有变化，这种特殊场景需要升级到 Google Cloud 支持团队进行手动层级激活。

分步修复指南

修复 Gemini 层级不匹配的分步诊断流程图，包含三条主要修复路径

了解根因之后，以下是系统性修复层级不匹配的方法。请按顺序执行这些步骤，因为它们按照解决问题的可能性从高到低排列，确保你能尽快修复问题。

修复 1：检查并切换模型变体

首先确认你在 API 请求中实际发送的模型标识符。打开你的应用代码或 API 调用配置，查看 model 参数。如果其中包含 -exp、-experimental，或者指向的是仅作为免费变体提供的模型，那几乎可以确定问题出在这里。修复方法是切换到对应的稳定版或付费预览版变体。以下是最容易混淆的模型名称快速参考：

gemini-2.5-pro-exp-03-25（免费） → 切换到 gemini-2.5-pro（付费 Tier 1+）
gemini-2.5-flash-exp（免费） → 切换到 gemini-2.5-flash（付费 Tier 1+）
任何带 -exp 后缀的模型 → 找到不带 -exp 的对应版本

你可以在 Google AI Studio 的模型选择器中直接查看可用的模型变体及其层级资格。支持付费层级限制的模型会在界面中有相应标记。切换模型变体后，发起一个测试 API 调用并检查响应中的速率限制头信息是否反映了你的 Tier 1 分配。以下是一个用 curl 快速验证实际限制的命令：

hljs bash
curl -s -D - "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-pro:generateContent?key=YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"contents":[{"parts":[{"text":"Hello"}]}]}' 2>&1 | grep -i "x-ratelimit"

响应头将显示你的实际速率限制分配。如果你看到类似 x-ratelimit-limit-requests-per-day: 250 的值，说明你仍处于免费层级。Tier 1 的值应该显示明显更高的数字，RPD 至少为 1500 或以上。这个快速测试能明确确认你的模型变体和 API 密钥配置是否正确使用了付费层级限制。

修复 2：在正确的项目中重新生成 API 密钥

如果切换模型变体没有解决问题，下一步是检查并可能需要重新生成 API 密钥。打开 Google AI Studio，点击左侧栏的"Get API Key"，查看现有 API 密钥旁的项目列。如果显示的项目未开通计费，你需要创建一个新密钥。点击"Create API key in existing project"，选择你已配置计费的特定项目。生成新密钥后，更新应用使用新密钥并重新测试。如果旧密钥不再需要，记得撤销以保持安全。关于修复 Gemini API 配额超限错误的完整指南，我们的资源涵盖了持续性 429 错误的更多排查步骤。

修复 3：完成预付费激活并等待同步

如果模型变体正确且 API 密钥在正确的项目中，问题可能是计费同步延迟。首先通过 Google Cloud Console 计费页面验证你的计费账户已完全激活，确保有一个已激活且无待验证的付款方式。然后使用稳定的非免费模型发起一次有意的付费 API 调用来触发计费系统。之后至少等待 24 小时再重新测试，因为某些同步需要长达 48 小时。在等待期间，你可以在 Google Cloud Console 中监控计费面板，观察是否开始出现 API 使用费用，这将确认计费关联已激活，即使速率限制尚未更新。

修复 4：处理免费促销赠金

检查你的 Google Cloud 计费账户中是否有活跃的促销赠金。在 Google Cloud Console 中进入 Billing 部分，查看是否有任何赠金余额或促销优惠。如果你有来自免费试用或促销活动的活跃赠金，可能需要等待它们被消耗完，或者联系 Google Cloud 支持请求将你的账户视为付费账户以获得相应层级。一些开发者报告通过明确向 Google 支持请求计费账户审查获得了成功，这可以加速从促销状态到完全付费状态的过渡。

修复 5：升级到 Google Cloud 支持

如果以上步骤都无法解决问题，是时候直接联系 Google Cloud 支持了。提交支持请求时，包含以下信息以加速解决：你的 Google Cloud 项目 ID、使用的具体模型变体、API 密钥标识符（不是密钥本身）、显示 Tier 1 激活状态的计费页面截图，以及你收到的具体错误信息或速率限制头信息。引用论坛上关于这个问题的众多帖子来说明这是一个已知问题。Google 支持可以在后端系统中手动验证并修复层级分配，这能解决自动同步失败的情况。

如何验证你的实际层级状态

在断定存在层级不匹配之前，务必通过多种独立方法验证你的实际层级状态。仅依赖单一指标可能会产生误导，因为 Google 系统的不同部分在同步期间或配置变更时可能显示不同的信息。

方法 1：Google AI Studio API Keys 页面

最直接的层级检查方式是通过 Google AI Studio。进入 API Keys 部分，查看 API 密钥旁边的 plan 列。如果在你期望看到"Pay-as-you-go"或"Tier 1"的地方显示"Free"，就确认了不匹配的存在。请注意确切的标签可能有所不同，因为 Google 已多次更改命名方式。关键是看指示器显示的是免费还是付费标识。如果你看到"Pay-as-you-go"，说明你的项目被正确识别为 Tier 1，问题可能在链条的其他环节，比如模型变体选择。

方法 2：Google Cloud Console 配额页

进入 Google Cloud Console，选择你的项目，转到 Quotas and System Limits 页面。搜索 Gemini API 或 Generative Language API 配额。显示的限制应该反映你的层级水平。但要注意，这个页面有时会显示过时或不正确的信息，特别是在开通计费后的同步期间。将其作为辅助检查而非唯一验证方法，并与方法 1 中 AI Studio 的信息进行对比。

方法 3：API 响应头信息

最可靠的实时验证方法是检查 API 响应中返回的速率限制头信息。发起 Gemini API 请求时，响应中包含指示当前速率限制和剩余配额的头信息。查找响应中的 x-ratelimit-limit 和 x-ratelimit-remaining 头信息。如果限制值与免费层级数字匹配（如 15 RPM 或 250 RPD）而非 Tier 1 数字，就确认了 API 在将你的请求作为免费层级处理，不管面板显示什么。这个方法提供了系统实际处理你请求的真实情况，穿透了任何面板显示的不一致。

对于 Python 开发者，可以通过在任何 API 调用后检查响应头来程序化地确认层级状态。x-ratelimit-limit-requests-per-day 头信息是最能说明问题的指标，免费层级会显示 100 或 250（取决于模型），而 Tier 1 会显示 1,500 或更高。你也可以检查 x-ratelimit-limit-requests-per-minute 来查看 RPM 分配。将这个检查构建到应用启动流程中，就能提供一个自动预警系统，在层级不匹配影响用户之前捕获问题。一些开发者实现了一个简单的健康检查端点，在应用启动时发起最小化 API 调用、记录速率限制头信息，如果值与预期层级不匹配则发出告警。这种主动方式远优于只在用户开始遇到失败时才发现不匹配。

综合使用三种验证方法能给你一个全面的实际层级状态画面。如果 AI Studio 显示"Pay-as-you-go"但 API 响应头显示免费层级限制，问题几乎肯定与模型变体有关。如果 AI Studio 显示"Free"尽管已开通计费，问题在于项目-密钥关联或计费同步。当三种方法都确认你处于付费层级但仍然遇到速率限制，问题可能是你的实际请求量在高峰期确实超出了 Tier 1 限制，此时解决方案是优化请求模式或向 Tier 2 资格努力。记录验证结果和时间戳，这些信息在你需要升级到 Google Cloud 支持时很有价值，也帮助你追踪所做的更改是否对配额分配产生了预期效果。

超越 Tier 1：更高限制与替代方案

解决层级不匹配并确认 Tier 1 访问后，你可能发现即使是 Tier 1 限制对你的生产工作负载也不够用。了解通往更高层级的路径和替代方案有助于有效规划容量，避免遇到意外瓶颈。

从 Tier 1 升级到 Tier 2 需要在 Gemini API 上累计消费 $250，并且自首次付款起维持活跃计费账户至少 30 天。这意味着即使你愿意立即投入资金，升级也不是即时的。Google 将累计消费门槛作为信任信号，逐步为展示持续使用模式的账户解锁更高限制。Tier 3 遵循同样的原则，门槛为累计消费 $1,000。如果你的项目需要即时高吞吐量，这个爬升期可能是一个重要的规划约束。

有几种策略可以帮助你在当前层级内最大化有效吞吐量。实现客户端请求批处理可以在处理相同数据量的同时减少单独 API 调用的数量。对相同或近似提示词的响应进行激进缓存可以完全消除冗余 API 使用。在可用的情况下使用异步批处理 API 允许你以较低优先级提交大量请求，且有更宽松的速率限制。此外，将工作负载分布到多个各自拥有独立计费和层级状态的 Google Cloud 项目中，可以有效地成倍增加你的总体容量，尽管这会增加运维复杂性。

对于需要稳定的高吞吐量 API 访问而不想纠缠于层级限制和等待周期的开发者，laozhang.ai 等服务聚合了多种 AI 模型，提供透明的按请求计费且无需管理速率限制层级。这在等待 Tier 2 或 Tier 3 资格的爬升期间特别有用，或者对于需要超出任何单一层级所能提供的突发容量的应用来说同样适用。按请求计费模式消除了层级管理的不确定性，无论使用模式如何都能提供可预测的成本扩展。

生产团队常用的另一种方法是实现多模型回退策略。你不需要完全依赖单一层级上的单个 Gemini 模型，而是配置应用根据可用性和速率限制状态在不同模型之间级联。例如，主路径可能使用 Gemini 2.5 Pro 处理复杂推理任务，当 Pro 模型的速率限制接近时自动回退到 Gemini 2.5 Flash。Flash 模型以更低的成本一致地提供更高的速率限制，是在高流量期间维持服务可用性的绝佳回退选择。一些团队更进一步，整合来自不同提供商的模型，使用 API 网关解决方案在多个 AI 提供商之间处理路由，确保即使任何单个提供商的速率限制被触发，应用也能保持响应。这种跨模型和提供商的优雅降级架构模式已成为无法承受因速率限制而停机的生产 AI 应用的最佳实践。

常见问题

开通计费后 Tier 1 限制需要多久才能生效？

大多数开发者报告在正确开通计费并关联到项目后，Tier 1 限制在几分钟到 24 小时内生效。但某些情况下需要长达 48 小时，特别是新 Google Cloud 账户或从促销赠金过渡到付费计费的账户。如果 48 小时后限制仍未更新且你已验证本指南讨论的所有根因，请联系 Google Cloud 支持进行人工排查。

免费促销赠金是否计入 Tier 2/Tier 3 升级门槛？

不计入。免费促销赠金不计入 Tier 2（$250）和 Tier 3（$1,000）升级所需的累计消费门槛。层级系统明确要求来自真实付款方式的消费。这对通过教育项目、创业项目或促销活动获得 Google Cloud 赠金的开发者来说是一个重要区别。只有对你实际信用卡或计费账户的扣款才会累积到层级升级要求中。

为什么实验性模型在付费账户上仍然使用免费层级限制？

实验性模型被故意指定为仅限免费层级使用，因为它们尚未做好生产准备，Google 希望在收集反馈和监控稳定性的同时限制其使用量。模型名称中的 -exp 后缀表示该变体免费提供但无论计费状态如何都适用免费层级速率限制。这是设计如此，而非 Bug。切换到对应的稳定版或付费预览版变体才是官方预期的解决方案。

可以将 Gemini API 速率限制提升到 Tier 3 以上吗？

对于超出 Tier 3 限制的企业级需求，Google 提供通过 Google Cloud Console 或与 Google Cloud 销售团队合作申请自定义配额提升的选项。你也可以通过 Vertex AI 访问 Gemini 模型，Vertex AI 提供独立的配额和企业级功能。自定义配额请求按具体情况评估，可能需要额外的协议或承诺。

RPD 配额什么时候重置？

RPD 配额每天在太平洋时间午夜重置。这意味着如果你耗尽了每日配额，需要等到太平洋时间凌晨 12:00 计数器重置。围绕这个重置时间规划 API 使用可以帮助优化批处理工作负载的吞吐量。注意 RPM 限制是按滚动每分钟基准重置的，因此恢复速度比每日限制快得多。

有没有实时检查当前速率限制使用情况的方法？

有的。最可靠的方法是检查 API 响应中的速率限制头信息，具体是 x-ratelimit-remaining 和 x-ratelimit-reset。你也可以通过 Google Cloud Console 的 Quotas 页面监控使用情况，不过可能有轻微延迟。对于程序化监控，构建一个简单的中间件来记录这些响应头信息，能让你实时了解配额消耗情况，帮助你在触发硬限制之前实现主动速率控制。

我已切换到稳定版模型但限制仍显示为免费层级，还应该检查什么？

如果你已确认模型变体正确（无 -exp 后缀），最可能的剩余原因是 API 密钥关联。即使经验丰富的开发者有时也会忽视这一点：API 密钥本身携带着与特定 Google Cloud 项目的关联，而该项目的计费状态决定了你的层级。在 Google AI Studio 中创建一个全新的 API 密钥，确保在提示时选择已开通计费的项目。用这个新密钥立即测试。如果速率限制头信息仍然显示免费层级值，问题几乎肯定是计费同步延迟或促销赠金覆盖，你应该按照上面分步指南中的修复 3 和修复 4 进行操作。

在 Gemini API 和 Vertex AI 之间切换是否影响层级和速率限制？

是的，Gemini API（通过 generativelanguage.googleapis.com 访问）和 Vertex AI（通过 aiplatform.googleapis.com 访问）在不同的配额系统上运行，有不同的速率限制配置。你的 Gemini API 层级状态不会自动转移到 Vertex AI，反之亦然。Vertex AI 使用自己的配额管理系统，与你的 Google Cloud 项目和区域绑定。如果你在一个端点上遇到速率限制，切换到另一个端点可能提供额外容量，但你需要为每个端点分别配置认证和计费。许多生产应用战略性地同时使用两个端点，利用 Gemini API 的简单设置和 Vertex AI 的企业功能（如 VPC 服务控制和客户管理的加密密钥）。