AI API18 min

Сравнение цен LLM API 2026: считайте стоимость задачи, а не только цену токена

Сравните цены LLM API по официальным direct API, hosted open-model routes, router fees, cache, batch и retry cost.

Yingtu AI Editorial
Yingtu AI Editorial
YingTu Editorial
2 июл. 2026 г.
18 min
Сравнение цен LLM API 2026: считайте стоимость задачи, а не только цену токена
yingtu.ai

Содержание

Заголовки не найдены

На 2 июля 2026 года дешевый LLM API нельзя выбирать по одной input-token строке. Сравнивайте стоимость принятого результата: input, cached input, output, tool/search fees, router fee, retry overhead и человеческая проверка часто меняют победителя. Для разработчика одной глобальной таблицы мало. Нужны владелец цены, тип маршрута, дата проверки, единица измерения и условия, которые меняют счет. Поэтому direct API, hosted open-model serving и router economics надо разделить до выбора модели, иначе разные контракты выглядят как одна строка.

Ценовой маршрутКогда использоватьКак читать текущие доказательства
Official direct APIНужны provider support, billing, data route и model termsOpenAI, Anthropic, Gemini, DeepSeek, Mistral и xAI владеют только своими прямыми API rows.
Hosted open-model APIНужен дешевый serving open-weight models без своего GPUGroq-hosted GPT OSS, Llama и Qwen — цены Groq route, не официальный прайс авторов модели.
Router или marketplaceНужен один account для switching, fallback или сравненияOpenRouter-like rows принадлежат router economics; platform fee и request limits важны рядом с token price.

Начните с формулы:

monthly API cost = uncached input + cached input + output + route/tool/search/request fees + retry overhead - batch/cache savings

Bulk extraction, support bot, coding agent, long-context analysis, regulated workflow и offline batch могут выбрать разные модели. Перед traffic move перепроверьте availability, preview labels, cache/batch discounts, free tier, data residency uplift, router fees и deprecation dates.

Снимок официальных direct API цен

Эта таблица — dated owner-labeled baseline, а не вечный leaderboard. Все цены указаны в USD за 1M tokens, если не сказано иначе. Input, cached input и output разделены, потому что output-heavy apps часто меняют ранжирование.

Owner и routeRepresentative row checked July 2, 2026InputCached inputOutputCaveat
OpenAI direct API, Standardgpt-5.4-nano$0.20$0.02$1.25Standard, Batch, Flex и Priority считаются отдельно; региональная обработка может добавить uplift.
OpenAI direct API, Standardgpt-5.4-mini$0.75$0.075$4.50Хорошая строка для теста недорогих OpenAI-задач, но не универсальный победитель.
OpenAI direct API, Standardgpt-5.5$5.00$0.50$30.00Используйте только если качество окупает высокий output-cost.
Anthropic direct APIClaude Sonnet 5 intro row$2.00зависит от cache route$10.00Intro-цена указана до 2026-08-31; затем строка становится $3.00 input и $15.00 output.
Anthropic direct APIClaude Haiku 4.5$1.00зависит от cache route$5.00Cache write, cache hit, Batch, Fast mode и data residency меняют итог.
Google Gemini Developer APIgemini-3.1-flash-lite, Paid Tier Standard$0.25 text/image/video, $0.50 audio$0.025 text/image/video, $0.05 audio$1.50Free Tier полезен для проверки, но продакшн надо считать по paid project и data terms.
Google Gemini Developer APIgemini-3.5-flash, Paid Tier Standard$1.50$0.15$9.00Grounding with Google Search и Maps может добавить query fees после включенного лимита.
Google Gemini Developer APIgemini-3.1-pro-preview, Paid Tier Standard$2.00 <= 200k, $4.00 > 200k$0.20 <= 200k, $0.40 > 200k$12.00 <= 200k, $18.00 > 200kЦена меняется после порога prompt length; preview status надо перепроверять.
DeepSeek direct APIdeepseek-v4-flash$0.14 cache miss$0.0028 cache hit$0.28deepseek-chat и deepseek-reasoner сейчас мапятся на режимы V4 Flash и запланированы к deprecation 2026-07-24.
DeepSeek direct APIdeepseek-v4-pro$0.435 cache miss$0.003625 cache hit$0.87Официальная страница также указывает 1M context; перед переносом трафика проверьте latency и качество.
страница цен MistralMistral Large example$2.00не указано в public FAQ$6.00Mistral считает input и output tokens, а Batch получает 50% discount.
xAI model docsGrok 4.3$1.25не указано$2.50Для coding docs указывают Grok Build 0.1; voice, image и video имеют другие units.

Hosted open-model APIs и routers могут быть дешевле, но это другие контракты:

Владелец routeСтрока или контрактЦеновой сигналКак использовать
цены Groqopenai/gpt-oss-20b hosted by Groq$0.075 uncached input, $0.0375 cached input, $0.30 outputЭто цена GroqCloud serving, не официальный прайс автора модели.
цены Groqopenai/gpt-oss-120b hosted by Groq$0.15 uncached input, $0.075 cached input, $0.60 outputХороший cheap-first test для open-model workload, если качество и latency подходят.
цены OpenRouterPay-as-you-go plan5.5% platform fee, 400+ models, 70+ providersЭто router contract, а не официальный прайс underlying providers.
цены OpenRouterFree plan50 requests/day, free-model accessПодходит для exploration, но не для production entitlement.

Если нужной модели нет, идите к owner page и добавьте model ID, route, unit, checked date и caveat в тот же формат.

Official LLM API price snapshot board with owner, route, unit, checked date, and caveat fields

Самый дешевый маршрут по типу workload

Дешевая модель побеждает только если выполняет ту же задачу с приемлемым quality и retry rate. Первый shortlist должен быть workload-based.

WorkloadНачать тест сПочему может быть дешевоStop rule
Bulk extraction, classification, normalizationDeepSeek V4 Flash, Gemini 3.1 Flash-Lite, Groq GPT OSS 20B, OpenAI GPT-5.4-nanoLow input/output rows важны, потому что quality обычно измеряется labels или validators.Не shipping до подсчета false positives, retries и human-review rate.
Support chatbot и FAQGemini 3.1 Flash-Lite, OpenAI GPT-5.4-mini/nano, Claude Haiku 4.5, DeepSeek V4 ProOutput ratio средний, cached policy context может помочь.Если escalation quality падает, низкая token price не равна низкой cost.
Coding assistant или agentic tool useClaude Sonnet 5, OpenAI GPT-5.4/GPT-5.5, xAI Grok Build, Gemini 3.5 FlashОшибки создают expensive retries и developer time.Нужны same-repo evals, tool-call success rate и rollback cost.
Long-context analysisGemini Pro/Flash long-context, DeepSeek V4 1M context, Grok 4.3Один большой вызов может быть дешевле chunking + retrieval.Пересчитать при переходе через context-tier threshold или cache storage.
Regulated или enterprise workflowsDirect provider API или contracted cloud routeBilling, data handling, audit logs и support могут быть важнее низкой строки.Не выбирать router только из-за token row.
Offline batchOpenAI Batch, Google Batch, Mistral Batch, Groq BatchAsync workloads часто получают discount.Batch не latency route; проверьте completion window и output retrieval.

Workload route map showing first-test candidates and stop rules for bulk, chat, coding, long-context, regulated, and batch workloads

Monthly cost worksheet

Реальный счет начинается с token mix. Для каждого кандидата используйте одинаковую форму нагрузки.

  1. Monthly uncached input tokens.
  2. Monthly cached input tokens или cache-hit rate.
  3. Monthly output tokens, включая reasoning/thinking tokens когда они billed as output.
  4. Tool, search, request, route или platform fees.
  5. Retry and fallback overhead.
  6. Batch/cache savings.
  7. Human-review или failure cost если output не проходит.
ScenarioCandidate routeToken mixSimple monthly token costInterpretation
Bulk data cleanupGroq GPT OSS 20B100M input, 10M output$10.50Очень дешево, если hosted open model проходит validation.
Bulk data cleanupDeepSeek V4 Flash100M cache-miss input, 10M output$16.80Низкая direct DeepSeek строка, но качество и latency надо проверять.
Bulk data cleanupOpenAI GPT-5.4-nano100M input, 10M output$32.50Может быть выгодно при OpenAI compatibility или better output.
Bulk data cleanupGemini 3.1 Flash-Lite100M text input, 10M output$40.00Cache или Batch могут улучшить итог, но Free Tier не production assumption.
Output-heavy chatbotGroq GPT OSS 20B20M input, 20M output$7.50Output дешевый, но open-model quality must pass.
Output-heavy chatbotDeepSeek V4 Flash20M cache-miss input, 20M output$8.40Низкий output price; измерьте hallucination и escalation cost.
Output-heavy chatbotOpenAI GPT-5.4-nano20M input, 20M output$29.00Output dominates; используйте если quality beats cheaper routes.
Output-heavy chatbotGemini 3.1 Flash-Lite20M text input, 20M output$35.00Хорошо если Gemini ecosystem fit снижает retries.

Добавьте modifiers: 40% repeated system prompt на OpenAI GPT-5.4-nano падает с $0.20/M до $0.02/M как cached input. Gemini 3.1 Flash-Lite через Batch падает с $0.25/M до $0.125/M input и с $1.50/M до $0.75/M output. OpenRouter route с 5.5% fee надо умножать на 1.055. Финальная метрика: price per completed task = total monthly route cost / accepted task count Если cheap route принимает 94% задач, а дорогой 99.5%, недостающие 5.5% становятся retries, fallbacks, manual review, support tickets или lost output. Для русскоязычной команды полезно добавить еще один слой учета: валюту закупки, налоговые документы, способ оплаты и допустимость зарубежного vendor route. Даже когда токены оплачиваются в USD, внутренний бюджет часто утверждается в другой валюте и с лимитом по проекту. Поэтому в рабочей таблице держите отдельные колонки для FX rate, payment owner, invoice owner, monthly cap, alert threshold и rollback route. Это не меняет token math, но меняет production decision.

Monthly LLM API cost worksheet covering input, cached input, output, retries, route fees, batch, cache, and production recheck rows

Direct API, router, hosted open model или self-host?

Direct API и router решают разные ownership problems. Direct provider API чище, когда нужны support, billing clarity, data route, enterprise controls и incident diagnosis.

Routers полезны для model switching, fallback, traffic comparison и single integration. OpenRouter's 5.5% platform fee, free limits и routing behavior входят в модель cost.

Hosted open-model APIs находятся между ними. Groq owns serving price, limits, latency и roster. Метка openai/gpt-oss не делает строку официальной OpenAI API ценой.

Self-hosting имеет смысл только при volume, data locality, hardware access и ops capacity. Иначе free weights прячут GPU utilization, serving engineering, monitoring и on-call.

Что ломает простые таблицы цен

Output ratio — первая ловушка. Chatbot или report generator может платить больше за output, чем input.

Caching — вторая. У OpenAI, Google, Anthropic, DeepSeek и Groq разные semantics, cache hit/miss rows и иногда storage cost.

Batch — третья. Это offline route для extraction, eval generation и enrichment, а не realtime chat.

Tool/search fees — четвертая. Web search, Google Grounding, compound tools и router features могут стать значимой частью bill.

Preview, intro и thresholds — пятая. Sonnet intro has end date, Gemini Pro Preview changes by prompt length, DeepSeek aliases deprecate.

Retry overhead обязателен. Модель с 1.3 attempts per accepted answer должна считаться как 1.3 attempts.

Заметки по providers

OpenAI pricing page owns OpenAI direct token rows and separates Standard, Batch, Flex, Priority, plus regional/data-residency caveats.

Anthropic pricing page owns Claude direct rows plus cache, Batch, Fast mode и data-residency modifiers. Для API vs subscription смотрите Claude API pricing versus subscription.

Google Gemini pricing owns Gemini Developer API rows, Free Tier, Batch и grounding fees. Для free quota смотрите Gemini API free tier.

DeepSeek pricing now presents deepseek-v4-flash and deepseek-v4-pro; legacy chat/reasoner names map to V4 Flash and have a scheduled deprecation.

Mistral public pricing supports Mistral Large row and 50% Batch discount; do not invent other rows.

xAI docs point chat to Grok 4.3 and coding to Grok Build 0.1; keep voice/image/video units out.

Groq is a hosted open-model serving lane, official for GroqCloud serving only.

OpenRouter is router/marketplace economics, not official provider pricing.

Production recheck checklist

CheckWhat to record
Price ownerOfficial provider, hosted provider, router, cloud marketplace или self-hosted route.
Model IDExact model string, alias/preview/dated/deprecation status.
Token mixInput, cached input, output, reasoning tokens и output ratio.
Route feesPlatform fee, request fee, search/tool fee, cache storage, data residency, marketplace uplift.
Quality thresholdPass rate, retry rate, fallback rate, human-review rate, failed-output cost.
Latency and limitsRPM, TPM, context limit, batch window, timeout, provider status behavior.
Data routeRetention, training use, region, enterprise terms, audit needs.
Spend controlsHard caps, alerts, per-project budgets, tenant attribution, rollback route.

Часто задаваемые вопросы

Какой LLM API самый дешевый сейчас?

Для простых high-volume text tasks hosted open-model routes вроде Groq GPT OSS 20B или direct low-cost rows вроде DeepSeek V4 Flash выглядят дешево. Реальный победитель определяется после output ratio, cache, batch, retries, route fees и quality threshold.

OpenAI дешевле Claude или Gemini?

Зависит от model и workload. GPT-5.4-nano/mini могут быть cost-effective, Claude Sonnet 5 может окупаться качеством coding/agentic, Gemini 3.1 Flash-Lite — высоким volume в Google ecosystem.

Стоит ли использовать router вроде OpenRouter?

Да, если switching, fallback, one account или comparison экономят engineering time. Но platform fee, request limits и routing behavior входят в cost model.

Free tiers подходят для production?

Обычно нет. Это exploration и prototypes. Production требует predictable quota, billing owner, data terms, support path и spend controls.

Почему output price так важен?

У многих providers output tokens стоят в разы дороже input. Chatbot, agent или report generator often spend more on output.

Как cache и batch меняют победителя?

Cache помогает repeated prompts и stable prefixes; batch — offline workloads. Они меняют ranking только если workload реально matches conditions.

Можно ли доверять third-party pricing tables?

Используйте для discovery. Final pricing должен идти к official owner page; router/hosted-provider pages own only their route economics.

Как часто обновлять сравнение цен LLM API?

Перед каждой production decision и каждым published refresh. Model names, preview status, cache rules, batch discounts и router fees меняются быстро.

Теги

Поделиться статьей

XTelegram