DeepSeek V4 Preview: Pro, Flash, 1M контекст, API и открытые веса

На 8 мая 2026 года DeepSeek V4 Preview уже не выглядит слухом или неофициальным названием. У DeepSeek есть релиз от 24 апреля, API-документация с deepseek-v4-pro и deepseek-v4-flash, а также проверенные артефакты на Hugging Face. Практический вопрос для русскоязычного разработчика другой: какой маршрут тестировать первым и что именно этот маршрут доказывает.

Маршрут	Когда начинать с него	Что проверить до продакшена
Chat или App	Нужно быстро потрогать поведение модели	лимиты, приватность, переносимость результата в API
Официальный API	Нужен контракт DeepSeek и точные model ID	Pro/Flash, 1M контекст, max output 384K, цена на дату проверки, streaming, thinking mode
Hugging Face веса	Нужны открытые веса и контроль исполнения	железо, inference stack, лицензия, latency, recall, отличие от hosted API
Provider	Уже есть gateway, региональный маршрут или billing у provider	собственные цены, лимиты, логи, fallback, свежесть модели и поддержка
Локальный запуск	Нужен контроль, исследование или offline-sensitive пилот	GPU, память, KV cache, обслуживание, мониторинг и оценка качества

Правило первого теста простое. Если задача массовая, дешево проверяемая и чувствительная к latency, начинайте с deepseek-v4-flash. Если задача связана со сложным рассуждением, кодом, агентами, длинным синтезом или дорогой ручной проверкой, начинайте с deepseek-v4-pro. Не используйте deepseek-v4-preview как model ID и не считайте 1M контекст гарантией хорошего ответа.

Что подтверждает официальный релиз

Релиз DeepSeek от 24 апреля 2026 года фиксирует главное: V4 Preview официально запущен и open-sourced, а семейство состоит из DeepSeek-V4-Pro и DeepSeek-V4-Flash. Pro указан как MoE-модель с 1.6T total и 49B active parameters. Flash указан как 284B total и 13B active parameters. Оба варианта связаны с 1M контекстом и режимами thinking / non-thinking.

Это не делает Pro автоматическим выбором для всего. В российской выдаче много материалов быстро превращают релиз в гонку цен и параметров. Для внедрения полезнее другая рамка: Pro - первый кандидат для failure-expensive веток, Flash - первый кандидат для проверяемых массовых веток. Ценность статьи не в повторении числа 1.6T, а в том, чтобы понять, где это число снижает реальную стоимость принятого результата.

На практике легко смешать официальный релиз, provider-доступ, открытые веса и сравнения с другими моделями в один аргумент покупки. В продакшен-решении это четыре разных владельца контракта. DeepSeek отвечает за официальный API и релиз. Hugging Face подтверждает доступность весов и лицензию. Provider отвечает только за свой маршрут. Локальный запуск означает, что runtime-ответственность переходит к вашей инфраструктуре.

Если в проекте уже есть DeepSeek-интеграция, миграцию стоит начинать не с переписывания всех prompt templates, а с инвентаризации route owner. Найдите, где используется официальный API, где gateway, где старые aliases, где локальные эксперименты, и только потом назначайте Flash или Pro. Без этой карты новая строка model ID может скрыть смену цены, логирования, support boundary или поведения fallback.

Flash или Pro: как выбрать первую ветку

Flash стоит тестировать первым, когда есть понятный acceptance check: классификация, извлечение, маршрутизация, массовые резюме, структурированный JSON, черновой анализ документов, первичная очередь ревью. Если ошибка ловится схемой, тестовым набором или выборочной проверкой, более дешевый маршрут дает больше итераций и позволяет измерить качество на большем объеме.

Матрица выбора DeepSeek V4 Preview между Flash и Pro по рабочей нагрузке

Pro нужен там, где слабый ответ стоит дорого. Это coding agents, multi-file debugging, архитектурные компромиссы, tool-heavy workflow, длинные контракты, отчеты с конфликтующими фактами и задачи, где человек тратит время на исправление модели. Если Pro уменьшает количество повторов и ручного ремонта, он может быть дешевле по accepted-output cost, даже если строка цены выше.

Нагрузка	Первый тест	Причина
Массовая классификация	`deepseek-v4-flash`	результат легко проверить и перезапустить
Документный screening	`deepseek-v4-flash`	throughput и цена важнее максимальной глубины
Агентный код и debugging	`deepseek-v4-pro`	плохой ответ сжигает инженерное время
Длинный синтез	Flash для простых, Pro для сложных	не надо платить Pro за легкие документы
Tool calling	сравнить оба на одной схеме	дисциплина аргументов зависит от конкретного workflow

API ID и старые алиасы

Новый код должен использовать явные V4 ID: deepseek-v4-pro или deepseek-v4-flash. В релизе также сказано, что deepseek-chat и deepseek-reasoner сейчас являются compatibility aliases, но после 2026-07-24 15:59 UTC должны стать недоступны. Эти алиасы помогают старым клиентам пережить переход, но не должны становиться новой production-конфигурацией.

Карта миграции API ID и старых алиасов DeepSeek V4 Preview

Для OpenAI-compatible клиентов официальный base URL у DeepSeek - https://api.deepseek.com. Это не означает, что любой provider использует тот же контракт. В конфигурации стоит хранить model ID, route owner, дату проверки цены, режим thinking, streaming, JSON/tool expectations и rollback plan. Старые сервисы с deepseek-chat или deepseek-reasoner надо отдельно найти до даты retirement.

hljs ts
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Summarize the document and cite evidence lines." }],
  stream: true,
  max_tokens: 4096,
});

Цена: только с датой проверки

Официальная страница pricing у DeepSeek на 8 мая 2026 года показывает для deepseek-v4-flash cache hit input $0.0028, cache miss input $0.14 и output $0.28 за 1M tokens. Для deepseek-v4-pro во время скидки указаны $0.003625, $0.435 и $0.87 за 1M tokens; оригинальная строка - $0.0145, $1.74 и $3.48. DeepSeek пишет, что 75% скидка для V4-Pro продлена до 2026-05-31 15:59 UTC.

Эти числа нельзя превращать в вечные обещания. Provider может показывать другую цену, bundle, кредит, региональную маршрутизацию, rate limit, логирование и поддержку. Материал provider доказывает только provider-контракт. Для публичных claims о DeepSeek API используйте DeepSeek docs и обязательно указывайте дату проверки.

Как проверять 1M контекст

1M контекст - это возможность принять длинный ввод, а не гарантия точного ответа. Нужна проверка recall на дальних позициях, cross-section reasoning, latency, timeout, max output 384K, стоимость принятого результата и стабильность маршрута. Особенно опасны задачи, где модель уверенно отвечает по началу документа, но теряет середину или конфликт в конце.

Воронка проверки 1M контекста DeepSeek V4 Preview

Проверка	Что доказывает	Сигнал отказа
Input acceptance	маршрут принимает нужный размер	reject, truncation, timeout, provider limit
Distant recall	модель достает факты из разных зон	цитирует начало и пропускает середину
Cross-section reasoning	связывает удаленные evidence blocks	игнорирует конфликтующие части
Latency envelope	подходит под SLA	p95 слишком высок или много timeout
Output boundary	max output 384K не ломает ответ	ответ обрывается или становится чрезмерным
Route stability	Preview/provider поведение управляемо	при смене route результат резко дрейфует

Открытые веса, provider и локальный запуск

Проверенная коллекция DeepSeek на Hugging Face включает DeepSeek-V4-Pro, Pro-Base, Flash и Flash-Base. Model cards описывают Preview series, MoE split, 1M context, thinking modes и MIT license. Это сильное evidence для open-weight availability, но оно не покупает GPU, память, serving stack, batching, observability и evaluation harness.

Локальный запуск полезен, когда нужен контроль, исследование, privacy-sensitive пилот или offline-sensitive процесс. Но это не бесплатная версия hosted API. Вы сами отвечаете за capacity planning, KV cache, quantization, runtime updates, monitoring, безопасность и качество. Если переходите с official API на provider или local, прогоните тот же evaluation suite заново.

Для локальной проверки не начинайте сразу с полного миллиона tokens. Сначала постройте ladder: 32K, 128K, 256K, затем более длинные документы. На каждом шаге фиксируйте память, p95 latency, качество recall, размер accepted output и частоту перезапуска. Такой порядок позволяет понять, где заканчивается преимущество модели и начинается ограничение вашей инфраструктуры.

Когда нужна статья про GPT vs DeepSeek

Когда работа остается внутри DeepSeek V4 Preview, ключевые решения такие: официальный статус, model ID, Pro vs Flash, API, веса, provider и 1M validation. Если задача стала vendor-selection между OpenAI и DeepSeek, лучше открыть sibling comparison: GPT-5.5 vs DeepSeek-V4. Там другой job: сравнить маршруты и ограничения между вендорами.

Чеклист перед переносом трафика

зафиксируйте deepseek-v4-flash или deepseek-v4-pro в config;
укажите route owner: official API, provider, Hugging Face weights или local serving;
прогоните один prompt/eval set по Flash и Pro;
добавьте recall test, если 1M context является причиной миграции;
считайте accepted-output cost, а не только token price;
тестируйте streaming, JSON, tools и thinking mode только там, где они реально нужны;
найдите старые deepseek-chat и deepseek-reasoner до retirement;
перепроверьте pricing и provider terms перед публичными claims.

Минимальный eval pack должен включать обычные короткие задачи, длинные документы, tool-call ветку, JSON ветку, failure-expensive примеры и один набор негативных случаев. Для каждого результата фиксируйте не только quality score, но и причину отказа: hallucination, lost-middle evidence, tool schema error, timeout, output truncation или manual-repair time. Тогда выбор Flash или Pro перестает быть мнением и становится управляемой таблицей.

FAQ

DeepSeek V4 Preview официальный?

Да. Релиз DeepSeek от 24 апреля 2026 года говорит, что V4 Preview officially live и open-sourced, а API docs дают V4 model IDs. Слово Preview нужно сохранять, потому что цены, алиасы и поведение могут меняться.

Какие API model ID использовать?

Используйте deepseek-v4-pro или deepseek-v4-flash. Не используйте deepseek-v4-preview. deepseek-chat и deepseek-reasoner - compatibility aliases с retirement после 2026-07-24 15:59 UTC.

Что тестировать первым: Flash или Pro?

Flash - для массовых, измеримых и чувствительных к цене задач. Pro - для сложного reasoning, кода, agents, длинного синтеза и задач, где ручная починка дороже токенов.

1M контекст готов для продакшена?

Не автоматически. Официальные документы поддерживают claim, но production требует проверки recall, latency, cost, max output 384K, provider limits и Preview stability.

Веса открыты?

У DeepSeek есть verified Hugging Face collection с Pro, Pro-Base, Flash и Flash-Base, model cards указывают MIT license. Это не равно готовому локальному production runtime.

Provider route считается официальным API?

Нет. Provider может быть удобен, но его цена, routing, fallback, logs, quotas и support - отдельный контракт. Для first-party claims используйте DeepSeek docs.

Можно ли локально использовать 1M context?

Можно оценивать, но это инфраструктурная задача. Начинайте с context ladder, измеряйте память, latency, recall и accepted-output cost, затем расширяйте окно.