o4-mini API 价格：Token 成本、推理成本与使用场景

截至 2026 年 7 月 2 日，OpenAI 直连 Standard 路由下的 o4-mini 价格是每 100 万输入 token 1.10 美元、每 100 万缓存输入 token 0.275 美元、每 100 万输出 token 4.40 美元。这个数字只是估算起点，因为隐藏推理 token 也按输出计费，Batch、Flex、Priority 会改变路由价格，而新的 GPT-5.x 推理模型已经成为很多新工作负载的优先测试对象。

你要判断什么	先看哪一行	实际含义
普通直连接口成本	Standard: $1.10 输入 / $0.275 缓存输入 / $4.40 输出	用于同步调用和常规预算表。
可异步处理的批量任务	Batch: $0.55 输入 / $2.20 输出	适合离线评测、回填、批量分类，不适合实时聊天。
低优先级在线任务	Flex: $0.55 输入 / $0.138 缓存输入 / $2.20 输出	是服务层选择，不是所有账户和场景的默认价格。
高优先级处理	Priority: $2.00 输入 / $0.50 缓存输入 / $8.00 输出	不要把这一行当作普通 Standard 价格。
名字相近的高价行	Deep Research、微调、Azure、第三方 provider	这些是不同合同，不能混进 OpenAI direct 估算。

停止规则很简单：先把新输入、缓存输入、可见输出和隐藏推理 token 分开估算，再决定 o4-mini 是否真的便宜。已有评测通过的旧路由可以保留；新推理任务应并测 GPT-5.4 mini 或 GPT-5.5；抽取、分类、格式化和路由任务应先尝试更便宜的非推理模型。

现在的 `o4-mini` 是什么

OpenAI 模型文档仍然列出 o4-mini，模型 ID 是 o4-mini，快照是 o4-mini-2025-04-16。它属于推理模型，定位是速度快、成本相对低，适合编码、数学、视觉推理和需要短链路推理的任务。但同一页也说明它已经被 GPT-5 mini 接替，所以更准确的说法是：o4-mini 仍可用于已经验证过的路由，但不应自动成为新项目的默认起点。

中文开发者最容易遇到的混淆是把 o4-mini、GPT-4o mini、GPT-5 mini、GPT-5.4 mini 和 o4-mini-deep-research 放进同一张价格表。它们不是同一个模型，也不共享同一条账单合同。成本表、日志、用量看板和代码里的 model 字段必须写精确 ID，否则后续排查会把错误价格、错误质量和错误限额归到同一个名字上。

如果一个旧系统已经用 o4-mini 跑过稳定评测，继续保留这条路由是合理的。问题不在于模型是否还存在，而在于它是否仍然用更少的总成本完成同一个读者或用户任务。总成本要包含失败重试、人工修复、推理 token、长上下文和输出长度，而不只是价格表里的输入单价。

中文环境里还要注意 provider 页面和镜像页面。它们可能展示人民币换算、充值赠送、代理稳定性或不同模型池，这些内容有采购价值，但不应改写 OpenAI direct 的官方行。

如果团队把 ChatGPT 订阅、API 账单和第三方通道混在一个预算表里，最容易误判的是“每月固定费用”和“按 token 后付费”的边界。o4-mini 是 API token 计费问题，不是 ChatGPT Plus 或 Team 套餐问题。

真正适合写入监控看板的字段包括 model、service_tier、input_tokens、cached_input_tokens、output_tokens、reasoning_tokens、retry_count 和 request_class。只有这些字段齐全，价格行才有意义。

把 o4-mini 放进生产路由时，预算表不能只写单价，还要写每个请求类别的平均输入、缓存命中比例、可见输出、推理 token、失败重试和人工修复。这样才能发现真正的成本来源：有时是 prompt 太长，有时是 reasoning budget 过宽，有时是一个低质量模型反复重试导致总价高于大模型。

评测时建议至少保留三组样本：稳定旧任务、边界困难任务和不需要推理的负样本。稳定旧任务用来判断 o4-mini 是否还能保留；困难任务用来判断是否需要 GPT-5.5；负样本用来证明某些抽取、分类和格式化工作应离开推理模型。没有负样本，团队容易把所有问题都送进推理模型。

预算沟通也要拆层：OpenAI direct 行解决技术估算，Batch/Flex/Priority 解决处理方式，Azure 或 provider 解决采购路线，ChatGPT 订阅解决人工使用场景。把这些写进同一行会让团队误以为某个价格数字同时代表模型能力、支付方式、可用地区和稳定性。

上线后应设置两个告警：一是 reasoning tokens 占 output-side tokens 的比例突然升高，二是 cached input 占比突然下降。前者通常说明任务变难、提示词失控或模型在内部循环；后者通常说明稳定前缀被改坏、schema 位置移动或请求拼接方式改变。这两个信号比单纯看日账单更早暴露问题。

迁移实验不要只跑一次平均成本。应按请求类别分别采样：高上下文请求、短输出请求、工具调用请求、失败重试请求和高缓存命中请求。o4-mini 可能在某一类里仍然最合适，也可能只是在平均值里看起来便宜。分组之后才能把它保留在真正有优势的 lane，而不是全量删除或全量保留。

预算复盘时还要把失败请求纳入账单。很多团队只统计成功答案的 token，却忽略被重试覆盖的失败调用。对于推理模型，这会低估真实成本，因为失败调用仍可能消耗输入、输出和推理 token。把失败和重试写进月度模型账单，比单看价格表更接近真实现金流。

如果要把 o4-mini 换成新模型，迁移条件应写成可验证语句：同一 eval set 上质量不下降、retry rate 不上升、平均 reasoning tokens 可解释、p95 延迟可接受、月度估算低于当前 lane 或带来足够的失败率下降。只有这些条件成立，替换才是工程决策，而不是追新。

删除旧 lane 也要保留回滚证据：旧模型的评测分数、典型失败样本、成本分布、替代模型的胜出原因和生效日期。这样后续账单或质量波动时，团队能判断是模型迁移导致，还是流量构成、prompt 或产品需求改变导致。

缓存命中复盘也应写进发布记录：哪些前缀稳定、哪些 schema 不应移动、哪些动态字段必须放在后段。否则一次看似无害的 prompt 重排，就可能让 cached input 优势消失，使 o4-mini 的真实成本突然接近更高档模型。

官方 `o4-mini` 价格行

按路由拆开的官方 o4-mini 价格行

OpenAI 的 API pricing 页面是价格源头。阅读时先把 base model、service tier、专项模型和 provider 合同拆开。中文资料里经常把 Priority 或 Deep Research 的高价行贴到普通 o4-mini 上，这会把预算直接算错。

路由	输入 / 1M	缓存输入 / 1M	输出 / 1M
Standard `o4-mini`	$1.10	$0.275	$4.40
Batch `o4-mini`	$0.55	未单列	$2.20
Flex `o4-mini`	$0.55	$0.138	$2.20
Priority `o4-mini`	$2.00	$0.50	$8.00
`o4-mini-deep-research`	$2.00	$0.50	$8.00

如何估算一次真实请求

o4-mini 请求成本公式，展示新输入、缓存输入、可见输出和推理 token

hljs text
cost = 新输入 / 1,000,000 * 1.10 + 缓存输入 / 1,000,000 * 0.275 + (可见输出 + 推理 token) / 1,000,000 * 4.40

Standard 路由可以用一个工作公式估算：新输入 token 按 1.10 美元每百万计费，缓存输入按 0.275 美元每百万计费，可见输出和隐藏推理 token 相加后按 4.40 美元每百万计费。推理 token 不会出现在最终答案里，但 OpenAI 的 reasoning 文档说明它们属于输出侧账单，也会占用上下文预算。

举例：一次请求有 10,000 个新输入 token、没有缓存输入、2,000 个可见输出 token、3,000 个推理 token。输入部分是 0.011 美元，输出侧是 5,000 / 1,000,000 * 4.40 = 0.022 美元，单次估算约 0.033 美元。看起来不高，但如果每天重复几十万次，推理 token 的波动就会变成预算风险。

再看长 prompt 场景：80,000 个输入 token 中有 60,000 个命中缓存，只有 20,000 个是新输入；输出 5,000 token，推理 10,000 token。新输入约 0.022 美元，缓存输入约 0.0165 美元，输出侧约 0.066 美元，单次约 0.1045 美元。这个例子说明，缓存降低了长提示词成本，但不能抵消无限制推理和长输出。

什么时候继续用 `o4-mini`

o4-mini 最适合保留在已经有评测数据的位置：代码修复建议、短逻辑判断、可验收的数学推理、视觉分析、轻量规划、路由器中的第二层判断。只要它在这些任务上质量稳定、失败率可控、输出长度短，继续使用就比追逐新模型更务实。

保留并不等于停止比较。评测集至少要记录正确率、延迟、可见输出长度、推理 token、重试率、人工修复率和下游失败成本。更便宜的单价可能被更多推理 token 和更多重试吃掉；更贵的模型也可能因为一次完成任务而降低总账单。

生产路由里可以把 o4-mini 作为一个有边界的 lane，而不是全局默认模型。比如保留给结构清晰、答案长度可控、失败代价低的推理任务；把高难规划、复杂代码修复、长链路推理交给 GPT-5.5；把抽取和格式化交给非推理模型。

什么时候切换模型

o4-mini 模型路由图，展示保留、切换和升级选择

新推理任务应先测试当前推荐的 GPT-5.x 路线。成本敏感任务可以并测 GPT-5.4 mini 和 o4-mini；高难推理、复杂规划、编码修复和低容错任务应测试 GPT-5.5。不要因为 o4-mini 有低价标签就跳过新模型评测。

不需要推理的任务应直接绕开 o4-mini。字段抽取、分类、摘要格式化、JSON 清洗、元数据补全和路由预筛通常更适合便宜的非推理模型。用推理模型做确定性小任务，常见结果是质量没有明显提升，账单却被输出侧推理 token 拉高。

工作负载	先测模型	原因
已有 `o4-mini` lane 通过评测	继续 `o4-mini` 并复测	已有生产基线，先不要无证据替换。
新的低成本推理	GPT-5.4 mini 与 `o4-mini` 并测	新模型可能有更好的质量/成本。
复杂规划、代码修复、低失败率	GPT-5.5	更高单价可能用更少重试换回成本。
抽取、分类、格式化、路由	非推理模型	推理 token 通常不增加价值。

真正有用的成本控制

第一根成本杠杆是 prompt caching。把稳定系统指令、schema、长政策、工具说明和重复上下文放在前缀，避免每次请求都改动它们。请求里的用户输入、临时筛选条件和短期状态放在后面，这样可缓存前缀才更稳定。

max_output_tokens 不是只限制最终可见文字。对推理模型来说，它覆盖可见输出和推理 token。如果设置太低，模型可能把预算花在推理上而来不及给出可用答案；如果设置太高，隐藏推理成本可能持续膨胀。监控时要同时看 visible output 和 reasoning token。

Batch 是成本杠杆，但不是实时接口。它适合离线评测、夜间批量处理、日志回填、批量分类和内容审核队列。Flex 适合可以接受低优先级处理的在线任务。Priority 则是付费加速，不应该出现在普通预算的默认列。

如果阻塞点是 429 或配额，优先看 OpenAI API rate limit 指南；如果问题是 key、账单或试用状态，先看 OpenAI API key free trial 指南。

常见错误

不要把微调或强化微调价格当作 base inference 价格。训练小时、数据共享设置、调优模型推理和普通 Standard 调用是不同账单面。

不要把 o4-mini-deep-research 当成普通 o4-mini。名字相近，但用途和价格行不同。预算表应先写实际 model ID，再写路由。

不要把 Azure 或第三方 provider 的价格当成 OpenAI direct。它们可能包含地区、部署、限额、代理、支持和结算方式差异。它们可以是有效采购路线，但不是 OpenAI direct 价格证据。

不要只用可见输出估算。隐藏推理 token 是输出侧成本的一部分，短答案也可能有高推理开销。

上线前检查清单

确认代码和日志里的模型 ID 是 o4-mini，不是 GPT-4o mini、GPT-5 mini 或 o4-mini-deep-research。
普通同步调用使用 Standard 行估算；Batch、Flex、Priority 单独列。
把新输入和缓存输入分开记录，避免把缓存 token 当成额外请求。
把可见输出和推理 token 相加后再套输出单价。
用评测集并测 GPT-5.4 mini、GPT-5.5 和更便宜的非推理模型。
如果问题其实是限额或 429，先看 OpenAI API rate limit；如果问题是 key 或账单状态，先检查 API key/free trial 路径。

常见问题

`o4-mini` 当前 API 价格是多少？

截至 2026 年 7 月 2 日，OpenAI direct Standard 行是每 100 万输入 token 1.10 美元、缓存输入 0.275 美元、输出 4.40 美元。Batch、Flex、Priority、Deep Research、微调、Azure 和第三方 provider 都要分开看。

推理 token 会收费吗？

会。对推理模型来说，隐藏推理 token 按输出 token 计费。估算时要用可见输出加推理 token，而不是只看最终答案长度。

缓存输入是不是把 prompt 算两次？

不是。缓存输入是当前输入中命中可复用前缀的部分，按缓存单价计费。总输入里没有命中的部分才按新输入价格算。

Batch 一定更便宜吗？

Batch 的输入和输出单价更低，但它是异步路线，有 24 小时完成窗口。实时聊天和用户同步操作不适合。

Flex 和 Batch 一样吗？

不一样。Flex 是低优先级服务层，Batch 是异步批处理。两者都可能降成本，但操作约束不同。

`o4-mini` 已经过时了吗？

OpenAI 文档仍列出 o4-mini，并说明它被 GPT-5 mini 接替。这意味着新任务应测试新模型，不等于已有稳定路由必须立刻删除。

应该选 `o4-mini` 还是 GPT-5.4 mini？

如果任务需要低成本推理，应并测两者。已有 o4-mini 评测通过可以保留；新任务更适合从当前 mini 推理路线开始测试。

月度预算怎么估？

先估一次请求的新输入、缓存输入、可见输出和推理 token，再乘以请求量、重试率、失败率、Batch/Flex 占比和可能的 Priority 使用比例。