На 8 мая 2026 года DeepSeek V4 Preview уже не выглядит слухом или неофициальным названием. У DeepSeek есть релиз от 24 апреля, API-документация с deepseek-v4-pro и deepseek-v4-flash, а также проверенные артефакты на Hugging Face. Практический вопрос для русскоязычного разработчика другой: какой маршрут тестировать первым и что именно этот маршрут доказывает.
| Маршрут | Когда начинать с него | Что проверить до продакшена |
|---|---|---|
| Chat или App | Нужно быстро потрогать поведение модели | лимиты, приватность, переносимость результата в API |
| Официальный API | Нужен контракт DeepSeek и точные model ID | Pro/Flash, 1M контекст, max output 384K, цена на дату проверки, streaming, thinking mode |
| Hugging Face веса | Нужны открытые веса и контроль исполнения | железо, inference stack, лицензия, latency, recall, отличие от hosted API |
| Provider | Уже есть gateway, региональный маршрут или billing у provider | собственные цены, лимиты, логи, fallback, свежесть модели и поддержка |
| Локальный запуск | Нужен контроль, исследование или offline-sensitive пилот | GPU, память, KV cache, обслуживание, мониторинг и оценка качества |
Правило первого теста простое. Если задача массовая, дешево проверяемая и чувствительная к latency, начинайте с deepseek-v4-flash. Если задача связана со сложным рассуждением, кодом, агентами, длинным синтезом или дорогой ручной проверкой, начинайте с deepseek-v4-pro. Не используйте deepseek-v4-preview как model ID и не считайте 1M контекст гарантией хорошего ответа.
Что подтверждает официальный релиз
Релиз DeepSeek от 24 апреля 2026 года фиксирует главное: V4 Preview официально запущен и open-sourced, а семейство состоит из DeepSeek-V4-Pro и DeepSeek-V4-Flash. Pro указан как MoE-модель с 1.6T total и 49B active parameters. Flash указан как 284B total и 13B active parameters. Оба варианта связаны с 1M контекстом и режимами thinking / non-thinking.
Это не делает Pro автоматическим выбором для всего. В российской выдаче много материалов быстро превращают релиз в гонку цен и параметров. Для внедрения полезнее другая рамка: Pro - первый кандидат для failure-expensive веток, Flash - первый кандидат для проверяемых массовых веток. Ценность статьи не в повторении числа 1.6T, а в том, чтобы понять, где это число снижает реальную стоимость принятого результата.
На практике легко смешать официальный релиз, provider-доступ, открытые веса и сравнения с другими моделями в один аргумент покупки. В продакшен-решении это четыре разных владельца контракта. DeepSeek отвечает за официальный API и релиз. Hugging Face подтверждает доступность весов и лицензию. Provider отвечает только за свой маршрут. Локальный запуск означает, что runtime-ответственность переходит к вашей инфраструктуре.
Если в проекте уже есть DeepSeek-интеграция, миграцию стоит начинать не с переписывания всех prompt templates, а с инвентаризации route owner. Найдите, где используется официальный API, где gateway, где старые aliases, где локальные эксперименты, и только потом назначайте Flash или Pro. Без этой карты новая строка model ID может скрыть смену цены, логирования, support boundary или поведения fallback.
Flash или Pro: как выбрать первую ветку
Flash стоит тестировать первым, когда есть понятный acceptance check: классификация, извлечение, маршрутизация, массовые резюме, структурированный JSON, черновой анализ документов, первичная очередь ревью. Если ошибка ловится схемой, тестовым набором или выборочной проверкой, более дешевый маршрут дает больше итераций и позволяет измерить качество на большем объеме.

Pro нужен там, где слабый ответ стоит дорого. Это coding agents, multi-file debugging, архитектурные компромиссы, tool-heavy workflow, длинные контракты, отчеты с конфликтующими фактами и задачи, где человек тратит время на исправление модели. Если Pro уменьшает количество повторов и ручного ремонта, он может быть дешевле по accepted-output cost, даже если строка цены выше.
| Нагрузка | Первый тест | Причина |
|---|---|---|
| Массовая классификация | deepseek-v4-flash | результат легко проверить и перезапустить |
| Документный screening | deepseek-v4-flash | throughput и цена важнее максимальной глубины |
| Агентный код и debugging | deepseek-v4-pro | плохой ответ сжигает инженерное время |
| Длинный синтез | Flash для простых, Pro для сложных | не надо платить Pro за легкие документы |
| Tool calling | сравнить оба на одной схеме | дисциплина аргументов зависит от конкретного workflow |
API ID и старые алиасы
Новый код должен использовать явные V4 ID: deepseek-v4-pro или deepseek-v4-flash. В релизе также сказано, что deepseek-chat и deepseek-reasoner сейчас являются compatibility aliases, но после 2026-07-24 15:59 UTC должны стать недоступны. Эти алиасы помогают старым клиентам пережить переход, но не должны становиться новой production-конфигурацией.

Для OpenAI-compatible клиентов официальный base URL у DeepSeek - https://api.deepseek.com. Это не означает, что любой provider использует тот же контракт. В конфигурации стоит хранить model ID, route owner, дату проверки цены, режим thinking, streaming, JSON/tool expectations и rollback plan. Старые сервисы с deepseek-chat или deepseek-reasoner надо отдельно найти до даты retirement.
hljs tsimport OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com",
});
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [{ role: "user", content: "Summarize the document and cite evidence lines." }],
stream: true,
max_tokens: 4096,
});
Цена: только с датой проверки
Официальная страница pricing у DeepSeek на 8 мая 2026 года показывает для deepseek-v4-flash cache hit input $0.0028, cache miss input $0.14 и output $0.28 за 1M tokens. Для deepseek-v4-pro во время скидки указаны $0.003625, $0.435 и $0.87 за 1M tokens; оригинальная строка - $0.0145, $1.74 и $3.48. DeepSeek пишет, что 75% скидка для V4-Pro продлена до 2026-05-31 15:59 UTC.
Эти числа нельзя превращать в вечные обещания. Provider может показывать другую цену, bundle, кредит, региональную маршрутизацию, rate limit, логирование и поддержку. Материал provider доказывает только provider-контракт. Для публичных claims о DeepSeek API используйте DeepSeek docs и обязательно указывайте дату проверки.
Как проверять 1M контекст
1M контекст - это возможность принять длинный ввод, а не гарантия точного ответа. Нужна проверка recall на дальних позициях, cross-section reasoning, latency, timeout, max output 384K, стоимость принятого результата и стабильность маршрута. Особенно опасны задачи, где модель уверенно отвечает по началу документа, но теряет середину или конфликт в конце.

| Проверка | Что доказывает | Сигнал отказа |
|---|---|---|
| Input acceptance | маршрут принимает нужный размер | reject, truncation, timeout, provider limit |
| Distant recall | модель достает факты из разных зон | цитирует начало и пропускает середину |
| Cross-section reasoning | связывает удаленные evidence blocks | игнорирует конфликтующие части |
| Latency envelope | подходит под SLA | p95 слишком высок или много timeout |
| Output boundary | max output 384K не ломает ответ | ответ обрывается или становится чрезмерным |
| Route stability | Preview/provider поведение управляемо | при смене route результат резко дрейфует |
Открытые веса, provider и локальный запуск
Проверенная коллекция DeepSeek на Hugging Face включает DeepSeek-V4-Pro, Pro-Base, Flash и Flash-Base. Model cards описывают Preview series, MoE split, 1M context, thinking modes и MIT license. Это сильное evidence для open-weight availability, но оно не покупает GPU, память, serving stack, batching, observability и evaluation harness.
Локальный запуск полезен, когда нужен контроль, исследование, privacy-sensitive пилот или offline-sensitive процесс. Но это не бесплатная версия hosted API. Вы сами отвечаете за capacity planning, KV cache, quantization, runtime updates, monitoring, безопасность и качество. Если переходите с official API на provider или local, прогоните тот же evaluation suite заново.
Для локальной проверки не начинайте сразу с полного миллиона tokens. Сначала постройте ladder: 32K, 128K, 256K, затем более длинные документы. На каждом шаге фиксируйте память, p95 latency, качество recall, размер accepted output и частоту перезапуска. Такой порядок позволяет понять, где заканчивается преимущество модели и начинается ограничение вашей инфраструктуры.
Когда нужна статья про GPT vs DeepSeek
Когда работа остается внутри DeepSeek V4 Preview, ключевые решения такие: официальный статус, model ID, Pro vs Flash, API, веса, provider и 1M validation. Если задача стала vendor-selection между OpenAI и DeepSeek, лучше открыть sibling comparison: GPT-5.5 vs DeepSeek-V4. Там другой job: сравнить маршруты и ограничения между вендорами.
Чеклист перед переносом трафика
- зафиксируйте
deepseek-v4-flashилиdeepseek-v4-proв config; - укажите route owner: official API, provider, Hugging Face weights или local serving;
- прогоните один prompt/eval set по Flash и Pro;
- добавьте recall test, если 1M context является причиной миграции;
- считайте accepted-output cost, а не только token price;
- тестируйте streaming, JSON, tools и thinking mode только там, где они реально нужны;
- найдите старые
deepseek-chatиdeepseek-reasonerдо retirement; - перепроверьте pricing и provider terms перед публичными claims.
Минимальный eval pack должен включать обычные короткие задачи, длинные документы, tool-call ветку, JSON ветку, failure-expensive примеры и один набор негативных случаев. Для каждого результата фиксируйте не только quality score, но и причину отказа: hallucination, lost-middle evidence, tool schema error, timeout, output truncation или manual-repair time. Тогда выбор Flash или Pro перестает быть мнением и становится управляемой таблицей.
FAQ
DeepSeek V4 Preview официальный?
Да. Релиз DeepSeek от 24 апреля 2026 года говорит, что V4 Preview officially live и open-sourced, а API docs дают V4 model IDs. Слово Preview нужно сохранять, потому что цены, алиасы и поведение могут меняться.
Какие API model ID использовать?
Используйте deepseek-v4-pro или deepseek-v4-flash. Не используйте deepseek-v4-preview. deepseek-chat и deepseek-reasoner - compatibility aliases с retirement после 2026-07-24 15:59 UTC.
Что тестировать первым: Flash или Pro?
Flash - для массовых, измеримых и чувствительных к цене задач. Pro - для сложного reasoning, кода, agents, длинного синтеза и задач, где ручная починка дороже токенов.
1M контекст готов для продакшена?
Не автоматически. Официальные документы поддерживают claim, но production требует проверки recall, latency, cost, max output 384K, provider limits и Preview stability.
Веса открыты?
У DeepSeek есть verified Hugging Face collection с Pro, Pro-Base, Flash и Flash-Base, model cards указывают MIT license. Это не равно готовому локальному production runtime.
Provider route считается официальным API?
Нет. Provider может быть удобен, но его цена, routing, fallback, logs, quotas и support - отдельный контракт. Для first-party claims используйте DeepSeek docs.
Можно ли локально использовать 1M context?
Можно оценивать, но это инфраструктурная задача. Начинайте с context ladder, измеряйте память, latency, recall и accepted-output cost, затем расширяйте окно.



