AI API18 min

Comparación de precios de LLM API 2026: el coste real depende del trabajo

Compare precios de LLM API separando API directa oficial, hosted open models, routers, caché, batch, reintentos y coste por tarea aceptada.

Yingtu AI Editorial
Yingtu AI Editorial
YingTu Editorial
2 jul 2026
18 min
Comparación de precios de LLM API 2026: el coste real depende del trabajo
yingtu.ai

Contenido

No se detectaron encabezados

A 2 de julio de 2026, la API LLM más barata es la ruta que completa su workload al menor coste por resultado aceptado, no el modelo con menor precio de input token. Hay que sumar input, cached input, output, tool/search fees, router fee, retry overhead y coste de revisión. Una tabla o calculadora no basta para mover tráfico real. Hace falta saber quién posee cada precio, qué ruta de llamada cubre, cuándo se revisó, qué unidad usa y qué condiciones cambian la factura. Separar API directa oficial, hosted open-model serving y router economics evita comparar contratos distintos como si fueran la misma factura.

Carril de precioÚselo paraCómo leer la evidencia actual
API directa oficialSoporte, facturación, ruta de datos y términos del modelo del providerOpenAI, Anthropic, Gemini, DeepSeek, Mistral y xAI solo poseen sus propias filas directas.
Hosted open-model APIServir modelos open-weight sin operar GPUs propiasGroq-hosted GPT OSS, Llama y Qwen son precios de Groq route, no precios oficiales del autor del modelo.
Router o marketplaceUna cuenta para switching, fallback o comparación de providersOpenRouter-style rows son router economics: platform fee, request limits y routing behavior importan junto al token price.

Empiece con esta fórmula:

monthly API cost = uncached input + cached input + output + route/tool/search/request fees + retry overhead - batch/cache savings

Bulk extraction, support chatbot, coding agent, long-context analysis, regulated workflow y offline batch pueden tener ganadores distintos. Antes de mover tráfico, revalide availability, preview labels, cache/batch discounts, free tier, data residency uplift, router fees y deprecations.

Snapshot de precios oficiales directos

La tabla es un punto de partida fechado, no un ranking permanente. Los precios son USD por 1M tokens salvo indicación distinta. Input, cached input y output van separados porque las apps output-heavy cambian el resultado.

Owner y rutaFila revisada el 2026-07-02InputCached inputOutputCaveat
API directa de OpenAI, Standardgpt-5.4-nano$0.20$0.02$1.25Standard, Batch, Flex y Priority son contratos distintos; algunos endpoints regionales pueden sumar recargo de residencia de datos.
API directa de OpenAI, Standardgpt-5.4-mini$0.75$0.075$4.50Buena fila candidata para tareas OpenAI de menor coste, no un ganador universal.
API directa de OpenAI, Standardgpt-5.5$5.00$0.50$30.00Solo entra si la calidad justifica el salto, porque el coste de salida domina.
API directa de AnthropicClaude Sonnet 5 intro row$2.00según ruta de caché$10.00El precio introductorio llega hasta 2026-08-31; después pasa a $3.00 input y $15.00 output.
API directa de AnthropicClaude Haiku 4.5$1.00según ruta de caché$5.00Cache writes, cache hits, Batch, Fast mode y data residency cambian la factura.
Google Gemini Developer APIgemini-3.1-flash-lite, Paid Tier Standard$0.25 text/image/video, $0.50 audio$0.025 text/image/video, $0.05 audio$1.50El Free Tier sirve para explorar; producción debe presupuestarse con proyecto paid y términos de datos.
Google Gemini Developer APIgemini-3.5-flash, Paid Tier Standard$1.50$0.15$9.00Grounding con Google Search o Maps puede añadir query fees después del cupo incluido.
Google Gemini Developer APIgemini-3.1-pro-preview, Paid Tier Standard$2.00 <= 200k, $4.00 > 200k$0.20 <= 200k, $0.40 > 200k$12.00 <= 200k, $18.00 > 200kLa longitud del prompt cambia el tramo y el estado preview debe revisarse.
API directa de DeepSeekdeepseek-v4-flash$0.14 cache miss$0.0028 cache hit$0.28deepseek-chat y deepseek-reasoner se asignan a modos V4 Flash y tienen deprecation prevista el 2026-07-24.
API directa de DeepSeekdeepseek-v4-pro$0.435 cache miss$0.003625 cache hit$0.87La página oficial también lista contexto 1M; pruebe latencia y calidad antes de migrar tráfico.
precios de MistralMistral Large example$2.00no listado en public FAQ$6.00Mistral cuenta input y output tokens y Batch tiene 50% discount.
Docs de modelos xAIGrok 4.3$1.25no listado$2.50Para coding mire Grok Build 0.1; voz, imagen y video usan otras unidades.

Hosted open-model APIs y routers pueden ser más baratos, pero son contratos distintos:

Route ownerFila o contratoSeñal de precioUso correcto
precios de Groqopenai/gpt-oss-20b hosted by Groq$0.075 uncached input, $0.0375 cached input, $0.30 outputPrecio de serving de GroqCloud, no precio oficial del autor del modelo.
precios de Groqopenai/gpt-oss-120b hosted by Groq$0.15 uncached input, $0.075 cached input, $0.60 outputBuen primer test barato para open-model workloads si calidad y latencia pasan.
precios de OpenRouterPay-as-you-go plan5.5% platform fee, 400+ models, 70+ providersContrato de router, no precio oficial de los providers subyacentes.
precios de OpenRouterFree plan50 requests/day, free-model accessSirve para exploración, no para producción.

Si su modelo no aparece, vuelva a la página owner y añada model ID, ruta, unidad, fecha de revisión y caveat antes de estimar.

Official LLM API price snapshot board with owner, route, unit, checked date, and caveat fields

La opción barata cambia por workload

Un modelo barato gana solo si completa el mismo job con calidad aceptable y retry rate razonable. El primer shortlist debe ser workload-based.

WorkloadEmpiece probandoPor qué puede ser baratoRegla de parada
Bulk extraction, classification, normalizationDeepSeek V4 Flash, Gemini 3.1 Flash-Lite, Groq GPT OSS 20B, OpenAI GPT-5.4-nanoLow input/output rows importan porque la calidad suele medirse con labels o validators.No llevar a producción hasta contar false positives, retries y human review.
Support chatbot y FAQGemini 3.1 Flash-Lite, OpenAI GPT-5.4-mini/nano, Claude Haiku 4.5, DeepSeek V4 ProOutput ratio medio y cached policy context pueden ayudar.Si baja la calidad de escalation, la ruta barata no es la más barata.
Coding assistant o agentic tool useClaude Sonnet 5, OpenAI GPT-5.4/GPT-5.5, xAI Grok Build, Gemini 3.5 FlashLos fallos generan retries y developer time cost.Exija same-repo evals, tool-call success y rollback cost.
Long-context analysisGemini Pro/Flash long-context, DeepSeek V4 1M context, Grok 4.3Una llamada grande puede ser más barata que chunking + retrieval.Recalcule al cruzar context tier o cache storage.
Regulated o enterprise workflowsDirect provider API o contracted cloud routeBilling, data handling, audit logs y support pueden pesar más que token row.No elija router solo porque la fila sea más baja.
Offline batchOpenAI Batch, Google Batch, Mistral Batch, Groq BatchAsynchronous workloads suelen tener descuento.Batch no es ruta de baja latencia; revise completion window y output retrieval.

Workload route map showing first-test candidates and stop rules for bulk, chat, coding, long-context, regulated, and batch workloads

Worksheet de coste mensual

La factura real empieza con su token mix. Estime cada candidato con la misma forma de workload.

  1. Monthly uncached input tokens.
  2. Monthly cached input tokens o cache-hit rate.
  3. Monthly output tokens, incluyendo reasoning/thinking tokens si el provider los factura como output.
  4. Tool, search, request, route o platform fees.
  5. Retry and fallback overhead.
  6. Batch/cache savings.
  7. Human-review o failure cost cuando el output no pasa.
ScenarioCandidate routeToken mixSimple monthly token costInterpretation
Bulk data cleanupGroq GPT OSS 20B100M input, 10M output$10.50Muy barato si el hosted open model pasa validation.
Bulk data cleanupDeepSeek V4 Flash100M cache-miss input, 10M output$16.80Fila directa baja, pero hay que probar calidad y latency.
Bulk data cleanupOpenAI GPT-5.4-nano100M input, 10M output$32.50Puede valer si OpenAI compatibility o output quality importan.
Bulk data cleanupGemini 3.1 Flash-Lite100M text input, 10M output$40.00Cache o Batch pueden mejorar, pero Free Tier no es producción.
Output-heavy chatbotGroq GPT OSS 20B20M input, 20M output$7.50Output barato, con prueba de calidad open-model.
Output-heavy chatbotDeepSeek V4 Flash20M cache-miss input, 20M output$8.40Output bajo; mida hallucination y escalation cost.
Output-heavy chatbotOpenAI GPT-5.4-nano20M input, 20M output$29.00Output domina; úselo si la calidad supera rutas baratas.
Output-heavy chatbotGemini 3.1 Flash-Lite20M text input, 20M output$35.00Interesante si Gemini ecosystem fit reduce retries.

Añada modifiers reales. Si 40% de un system prompt repetido en OpenAI GPT-5.4-nano se convierte en cached input, esa parte baja de $0.20/M a $0.02/M. Si Gemini 3.1 Flash-Lite corre con Batch, input baja de $0.25/M a $0.125/M y output de $1.50/M a $0.75/M. Si OpenRouter cobra 5.5%, multiplique por 1.055 antes de comparar con billing directo. Cierre con coste por tarea aceptada: price per completed task = total monthly route cost / accepted task count Si una ruta barata completa 94% de tareas y otra más cara 99.5%, la diferencia se convierte en retries, fallbacks, manual review, tickets o output perdido.

Monthly LLM API cost worksheet covering input, cached input, output, retries, route fees, batch, cache, and production recheck rows

API directa, router, hosted open model o self-host

API directa y router resuelven problemas distintos de ownership. Direct provider API es más limpia cuando necesita soporte oficial, billing clarity, data route, enterprise controls e incident diagnosis.

Routers sirven para model switching, fallback, traffic comparison o single integration. OpenRouter's 5.5% fee, free limits y routing behavior entran en la cost model.

Hosted open-model APIs están entre ambos mundos. Groq owns serving price, limits, latency y roster. El label openai/gpt-oss no lo convierte en OpenAI official API price.

Self-hosting solo entra si volume, data locality, hardware access y operations capacity lo justifican. Free weights esconden GPU utilization, serving, monitoring y on-call.

Factores que rompen una tabla simple

Output ratio es la primera trampa. Un chatbot o report generator puede gastar más en output que input.

Caching es la segunda. OpenAI, Google, Anthropic, DeepSeek y Groq tienen semantics y rows distintos.

Batch es la tercera. Es para extraction, eval generation y enrichment offline, no para realtime chat.

Tool/search fees son la cuarta. Web search, Google Grounding, compound tools y router features pueden ser gran parte de la factura.

Preview, intro y tier thresholds son la quinta. Sonnet intro tiene fecha final, Gemini Pro Preview cambia por prompt length y DeepSeek aliases tienen deprecation.

Retry overhead no es opcional. Si la ruta barata necesita 1.3 attempts por respuesta aceptada, calcule 1.3 attempts.

Notas por provider

OpenAI pricing page owns OpenAI direct API token rows y separa Standard, Batch, Flex y Priority.

Anthropic pricing page owns Claude direct rows y cache, Batch, Fast mode, data residency modifiers. Para API vs subscription vea Claude API pricing versus subscription.

Google Gemini pricing owns Developer API rows, Free Tier, Batch y grounding fees. Para free quota vea Gemini API free tier.

DeepSeek pricing now presents deepseek-v4-flash and deepseek-v4-pro; legacy chat/reasoner names map to V4 Flash.

Mistral permite citar Mistral Large example y 50% Batch discount; no invente otras rows.

xAI docs point chat to Grok 4.3 and coding to Grok Build 0.1; voice/image/video units stay out.

Groq is a hosted open-model serving lane.

OpenRouter owns router/marketplace economics.

Checklist antes de mover producción

CheckQué registrar
Price ownerOfficial provider, hosted provider, router, cloud marketplace o self-hosted route.
Model IDExact model string, alias/preview/dated/deprecation status.
Token mixInput, cached input, output, reasoning tokens, average output ratio.
Route feesPlatform fee, request fee, search/tool fee, cache storage, data residency, marketplace uplift.
Quality thresholdPass rate, retry rate, fallback rate, human-review rate, failed-output cost.
Latency and limitsRPM, TPM, context limit, batch window, timeout, provider status behavior.
Data routeRetention, training use, region, enterprise terms, audit needs.
Spend controlsHard caps, alerts, project budgets, tenant attribution, rollback route.

Preguntas frecuentes

¿Cuál es la LLM API más barata ahora?

Para tareas de texto simples y masivas, Groq GPT OSS 20B o DeepSeek V4 Flash pueden verse más baratos. El ganador real aparece al sumar output ratio, cache, batch, retries, route fees y quality threshold.

¿OpenAI es más barato que Claude o Gemini?

Depende del model y workload. GPT-5.4-nano/mini, Claude Sonnet 5 y Gemini 3.1 Flash-Lite tienen ventajas distintas.

¿Debo usar un router como OpenRouter?

Sí si switching, fallback, one account o provider comparison ahorran engineering time. Incluya platform fee y routing behavior.

¿Sirven los Free tiers para producción?

Normalmente no. Sirven para exploration y prototypes. Producción necesita predictable quota, billing owner, data terms y support path.

¿Por qué importa tanto el output price?

Muchos providers cobran output tokens varias veces más caro que input. Chatbots, agents y reports suelen ser output-heavy.

¿Cache y batch cambian el ranking?

Cache ayuda repeated prompts y stable prefixes; batch ayuda offline workloads. Cambian el ranking solo cuando la tarea cumple condiciones.

¿Puedo confiar en tablas de terceros?

Úselas para discovery. Final pricing debe verificarse en official owner pages.

¿Cada cuánto actualizar esta comparación?

Antes de una production decision y antes de cada refresh publicado. Model names, preview status, cache rules y router fees cambian rápido.

Etiquetas

Compartir este artículo

XTelegram