DeepSeek V4 Preview: Pro, Flash, contexto 1M, API y pesos abiertos

A 8 de mayo de 2026, DeepSeek V4 Preview ya es una ruta oficial, no solo un nombre que circula en redes. DeepSeek publicó la release del 24 de abril, documenta los model ID deepseek-v4-pro y deepseek-v4-flash, y mantiene pesos verificados en Hugging Face. La decisión práctica no es repetir que existe V4, sino decidir qué ruta prueba tu equipo primero.

Ruta	Cuándo empezar aquí	Qué validar antes de producción
Chat o App	Quieres tocar el comportamiento rápido	límites de superficie, privacidad, si el resultado se replica en API
API oficial	Necesitas contrato hosted de DeepSeek	model ID, contexto 1M, max output 384K, precio con fecha, streaming, thinking mode
Hugging Face	Necesitas pesos abiertos o control local	hardware, serving stack, licencia, recall, latencia, diferencia frente a API hosted
Provider	Ya compras por gateway o ruta regional	precio, cuota, logs, fallback, frescura del modelo y soporte del provider
Ejecución local	Necesitas control máximo u offline-sensitive pilot	GPU, memoria, KV cache, observabilidad, mantenimiento y evaluación

La primera regla es operativa. Si la tarea es masiva, medible, barata de revisar y sensible a latencia, prueba deepseek-v4-flash. Si la tarea exige razonamiento difícil, código, agentes, síntesis de documentos largos o revisión humana cara, prueba deepseek-v4-pro. No uses deepseek-v4-preview como model ID y no trates el contexto 1M como garantía de recall perfecto.

Qué confirma la release oficial

La release de DeepSeek del 24 de abril de 2026 dice que V4 Preview está oficialmente disponible y open-sourced. Presenta DeepSeek-V4-Pro y DeepSeek-V4-Flash. Pro aparece como un MoE de 1.6T parámetros totales y 49B activos; Flash aparece como 284B totales y 13B activos. Ambos se asocian con contexto 1M y modos thinking / non-thinking.

Eso fija el borde factual, pero no decide la arquitectura. Es fácil mezclar resumen automático, vídeos, medios, providers y Hugging Face como si fueran una sola fuente de verdad. Para implementar, conviene separar cuatro propietarios: DeepSeek para API oficial y release, Hugging Face para pesos y licencia, providers para su contrato propio, y tu infraestructura para ejecución local.

Si tu equipo ya usa DeepSeek, el primer paso no es reescribir todos los prompts. Primero inventaría el route owner: qué servicio llama a la API oficial, cuál pasa por gateway, dónde quedan deepseek-chat o deepseek-reasoner, y qué pruebas son locales. Sin ese mapa, cambiar el model ID puede ocultar cambios de precio, logging, fallback, soporte o comportamiento de cuota.

La diferencia Pro/Flash debe convertirse en una regla de ensayo. Flash no es solo una versión barata; es la ruta que permite medir más muestras cuando el error se detecta pronto. Pro no es solo una versión premium; es la ruta que puede reducir retrabajo cuando una mala respuesta consume tiempo humano.

Flash o Pro: primera prueba

Flash debe entrar primero en clasificación, extracción, routing, resumen masivo, salida estructurada, screening documental y trabajos donde una schema, un conjunto de tests o una cola de revisión detecta errores. Si Flash pasa el mismo listón de aceptación, el menor coste permite más validación y más capacidad de retry.

Matriz en español para elegir entre DeepSeek V4 Preview Flash y Pro

Pro debe entrar primero cuando el fallo cuesta caro: coding agents, depuración multiarchivo, decisiones de arquitectura, workflows con herramientas, documentos largos con conflictos, síntesis legal o técnica, y tareas donde revisar manualmente pesa más que los tokens. La comparación correcta es accepted-output cost, no solo precio por millón de tokens.

Carga	Primer modelo	Motivo
Clasificación masiva	`deepseek-v4-flash`	fácil de validar y repetir
Resumen con control de calidad	`deepseek-v4-flash`	throughput y coste pesan más
Agente de código	`deepseek-v4-pro`	un fallo consume tiempo de ingeniería
Síntesis de documentos largos	Flash para lo fácil, Pro para lo difícil	no todo debe pagar el coste Pro
Tool calling	comparar ambos con el mismo schema	la disciplina de argumentos depende de la tarea

API ID, alias antiguos y configuración

El código nuevo debe usar deepseek-v4-pro o deepseek-v4-flash. La release también explica que deepseek-chat y deepseek-reasoner son compatibility aliases y que quedarán inaccesibles después del 2026-07-24 15:59 UTC. Pueden ayudar a clientes antiguos, pero no son el nombre correcto para nueva configuración productiva.

Mapa de migración de API ID y alias antiguos de DeepSeek V4 Preview

Para clientes OpenAI-compatible, el base URL oficial de DeepSeek es https://api.deepseek.com. Ese dato no prueba el contrato de ningún provider. En configuración conviene separar model ID, route owner, fecha de precio, streaming, tools, JSON, thinking mode y rollback plan.

hljs ts
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Summarize the document and cite evidence lines." }],
  stream: true,
  max_tokens: 4096,
});

Precio y descuento con fecha

La tabla oficial de DeepSeek, revisada el 8 de mayo de 2026, muestra para deepseek-v4-flash cache hit input de $0.0028, cache miss input de $0.14 y output de $0.28 por 1M tokens. Para deepseek-v4-pro, la fila con descuento muestra $0.003625, $0.435 y $0.87; la fila original muestra $0.0145, $1.74 y $3.48. DeepSeek indica que el descuento del 75% para V4-Pro se extiende hasta el 2026-05-31 15:59 UTC.

Estos números son volátiles. Un provider puede añadir margen, crédito, bundle, ruta regional, fallback, logging, límite o soporte propio. Una página de provider prueba solo ese contrato. Para claims de la API oficial, usa documentos de DeepSeek y coloca la fecha de revisión cerca de la cifra.

Cómo validar el contexto 1M

El contexto 1M significa que la ruta puede aceptar entradas largas; no significa que todas las respuestas largas sean correctas. Hay que medir recall de hechos lejanos, razonamiento entre secciones, conflictos, latencia, timeouts, max output 384K, coste tras retries y estabilidad de la ruta durante el periodo Preview.

Embudo de validación del contexto 1M de DeepSeek V4 Preview

Prueba	Qué demuestra	Señal de fallo
Aceptación de entrada	admite el tamaño objetivo	rechazo, truncado, timeout
Recall lejano	recupera hechos de inicio, medio y final	cita solo el inicio
Razonamiento cruzado	combina evidencias distantes	ignora conflictos
Latencia	cabe en el SLA	p95 o timeout alto
Salida	max output 384K no rompe el flujo	respuesta cortada o excesiva
Estabilidad	Preview/provider no cambia la tarea	drift al cambiar ruta

Pesos abiertos, providers y local

La colección verificada de DeepSeek en Hugging Face incluye Pro, Pro-Base, Flash y Flash-Base. Las model cards describen la Preview series, el split MoE, el contexto 1M, los thinking modes y la licencia MIT. Eso prueba disponibilidad de pesos abiertos, no que tu endpoint local se comporte como la API oficial.

Ejecutar localmente significa asumir runtime ownership: GPU, memoria, KV cache, serving stack, batching, observabilidad, seguridad, actualizaciones y evaluación. Usar un provider también cambia de dueño contractual. Si pasas de API oficial a provider o local, repite el mismo evaluation suite antes de asumir equivalencia.

Para local no conviene empezar directamente con 1M completo. Construye una escalera: 32K, 128K, 256K y después documentos más largos. En cada escalón registra memoria, p95 latency, recall lejano, tasa de salida aceptada y retries. Así separas el límite del modelo del límite de tu serving stack.

Cuándo usar la comparación con GPT

Cuando la decisión sigue dentro de DeepSeek V4 Preview, basta con resolver estado oficial, ID, Flash/Pro, contexto 1M, pesos, provider y local. Si la decisión real es OpenAI frente a DeepSeek, usa la comparación hermana GPT-5.5 vs DeepSeek-V4. Esa ruta resuelve un trabajo distinto: elección entre proveedores y límites.

Checklist de producción

fija deepseek-v4-flash o deepseek-v4-pro en config;
registra si la ruta es API oficial, provider, Hugging Face o local;
usa el mismo prompt/eval set en Flash y Pro;
añade pruebas de recall lejano si 1M context motivó el cambio;
mide accepted-output cost, no solo precio token;
prueba streaming, JSON, tools y thinking mode solo donde la app los use;
busca clientes antiguos con deepseek-chat y deepseek-reasoner antes del retirement;
revisa precios, descuentos, provider terms y disponibilidad antes de claims públicos.

El paquete mínimo de evaluación debería tener tres capas. La regresión corta detecta cambios de modelo o provider. La capa de documentos largos mide lost-middle, recall lejano y cortes de salida. La capa de alto coste de fallo decide si una tarea puede quedarse en Flash o debe subir a Pro. Con esa separación, el periodo Preview se vuelve medible en lugar de depender de impresiones sueltas.

FAQ

¿DeepSeek V4 Preview es oficial?

Sí. La release de DeepSeek del 24 de abril de 2026 dice que V4 Preview está oficialmente disponible y open-sourced, y la documentación API lista model IDs V4. Mantén la etiqueta Preview porque precios, alias y comportamiento pueden cambiar.

¿Qué model ID debo usar en la API?

Usa deepseek-v4-pro o deepseek-v4-flash. No uses deepseek-v4-preview. deepseek-chat y deepseek-reasoner son compatibility aliases con retirada prevista después del 2026-07-24 15:59 UTC.

¿Flash o Pro primero?

Flash primero para tareas masivas, medibles, baratas de revisar y sensibles a latencia. Pro primero para razonamiento difícil, código, agentes, síntesis larga y trabajos donde corregir fallos cuesta caro.

¿El contexto 1M está listo para producción?

No automáticamente. Las fuentes oficiales respaldan la capacidad, pero producción exige pruebas de recall, latencia, coste, max output 384K, límites de provider y estabilidad de Preview.

¿Los pesos de DeepSeek V4 son abiertos?

La colección verificada de DeepSeek en Hugging Face incluye Pro, Pro-Base, Flash y Flash-Base, con model cards bajo licencia MIT. Eso no garantiza rendimiento local de producción.

¿OpenRouter u otro provider es API oficial?

No. Es un contrato de provider con precio, routing, fallback, logs, quota y soporte propios. Para first-party claims usa docs de DeepSeek.

¿Puedo correr 1M context localmente?

Puedes evaluarlo, pero depende de GPU, memoria, serving stack, latencia, recall y accepted-output cost. Empieza con una escalera de contexto antes de intentar 1M completo.