截至 2026 年 5 月 8 日,DeepSeek V4 Preview 已经不是传闻。DeepSeek 4 月 24 日的官方发布页明确写出 V4 Preview 已正式上线并开源,官方 API 也给出了 deepseek-v4-pro 和 deepseek-v4-flash 两个模型 ID。中文读者真正要解决的不是“有没有 V4”,而是先走官方 API、网页/App、Hugging Face 权重、第三方 Provider,还是本地自托管。
| 路线 | 什么时候先用 | 上线前必须确认 |
|---|---|---|
| 网页或 App | 只想最快摸到模型行为 | App 限制、隐私边界、是否能复现到 API |
| 官方 API | 要 DeepSeek 自己的托管合同和模型 ID | deepseek-v4-pro / deepseek-v4-flash、1M 上下文、384K 最大输出、价格日期、thinking mode、流式输出 |
| Hugging Face 权重 | 要开源权重控制权或本地研究 | 硬件、推理框架、许可证、长上下文召回、延迟、是否等价于官方 API |
| 第三方 Provider | 已有 Provider 账号或需要地区/网关路线 | Provider 自己的价格、限额、日志、fallback、模型新鲜度和支持政策 |
| 本地部署 | 需要最大控制或离线敏感流程 | GPU、显存、上下文可行性、维护成本、评测覆盖 |
第一轮测试可以按一个简单规则拆开:高吞吐、低延迟、能用测试集验收的任务,先测 Flash;代码、Agent、多跳推理、长文综合、人工返工成本高的任务,先测 Pro。不要把 deepseek-v4-preview 写进 model 字段,也不要把 1M 上下文当成自动可靠的召回能力。
官方到底发布了什么
DeepSeek 官方发布说明的价值在于锁定事实边界:发布时间是 2026 年 4 月 24 日,标题是 DeepSeek V4 Preview Release,发布说明写明 V4 Preview 已 officially live 并 open-sourced,同时列出 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash。两者都支持思考与非思考模式,官方 API 也使用明确的 V4 模型 ID。
Pro 与 Flash 的差异不是“一个高级、一个低级”这么粗。DeepSeek-V4-Pro 是 1.6T 总参数、49B 激活参数的 MoE 模型;DeepSeek-V4-Flash 是 284B 总参数、13B 激活参数。这个参数差异应该转成测试策略:Flash 用来跑可量化、可快速淘汰的量产任务,Pro 用来跑失败代价高、人工复核贵、上下文跨度大的任务。
真正容易踩坑的是把“1M 上下文”“开源”“低成本”“性能接近顶级模型”压成同一个采用理由。实现时必须把官方事实、市场解读、Provider 合同和本地部署风险拆开:官方事实来自 DeepSeek 与 Hugging Face,Provider 价格只证明 Provider 自己的路线,本地部署则是基础设施能力问题。
如果团队已经有旧的 DeepSeek 配置,先不要直接全量替换。更稳的做法是拉出一组固定样本:短输入、长输入、工具调用、JSON 输出、失败样本、人工高返工样本各一批;同一批样本同时跑 Flash、Pro 和现有生产模型。只有当 Flash 或 Pro 在质量、延迟、失败率和人工返工上都过线时,才把那一类工作负载迁过去。
Pro 与 Flash 应该怎么先测
Flash 适合先接入可以被自动验收的流程,例如分类、抽取、结构化输出、批量摘要、文档筛选、客服初分流和可复核的低风险生成。它的优势不是“永远够用”,而是当错误能被 schema、测试集、复核队列或二次验证挡住时,更低的成本与延迟可以让你跑更多样本。

Pro 应该先进入失败更贵的分支,例如代码 Agent、多文件 Debug、架构取舍、长上下文综合、跨章节事实冲突、工具调用链路和需要强推理稳定性的工作。Pro 的 token 价格可能更高,但如果它减少重试、返工和人工审稿,实际 accepted-output cost 反而可能更低。
| 工作负载 | 先测模型 | 判断理由 |
|---|---|---|
| 高量分类、标签、路由 | deepseek-v4-flash | 输出便宜,错误容易被规则或抽样发现 |
| 批量摘要与筛选 | deepseek-v4-flash | 吞吐和成本比单次推理深度更重要 |
| 代码 Agent 与复杂 Debug | deepseek-v4-pro | 一个脆弱答案可能浪费更多工程时间 |
| 长文综合 | Flash 先跑,困难样本升 Pro | 不让简单文档支付 Pro 成本,但保留强模型兜底 |
| 工具调用工作流 | 两者同 prompt、同 schema 对测 | 工具参数稳定性高度依赖具体任务 |
API ID、旧别名与迁移
新代码应该直接使用 deepseek-v4-pro 或 deepseek-v4-flash。官方发布页说明 deepseek-chat 和 deepseek-reasoner 目前是兼容别名,分别指向 V4-Flash 的非思考和思考模式,并计划在 2026-07-24 15:59 UTC 后不可访问。它们可以帮助旧服务过渡,但不适合作为新生产配置的长期名字。

如果使用 OpenAI-compatible 客户端,DeepSeek 官方 quick start 与价格页给出的 base URL 是 https://api.deepseek.com。这只证明 DeepSeek 官方 API 的入口,不证明任何第三方 Provider 的路径、价格或模型新鲜度。生产配置里要把模型 ID、base URL、路线来源、价格检查日期和回滚策略写清楚。
hljs tsimport OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com",
});
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [{ role: "user", content: "Summarize the document and cite evidence lines." }],
stream: true,
max_tokens: 4096,
});
价格与折扣只能按日期引用
DeepSeek 官方价表是引用托管 API 成本的主来源。截至 2026 年 5 月 8 日,deepseek-v4-flash 行显示 cache hit input 为每 1M tokens 0.0028 美元、cache miss input 为 0.14 美元、output 为 0.28 美元。deepseek-v4-pro 当前折扣行显示 cache hit input 0.003625 美元、cache miss input 0.435 美元、output 0.87 美元;原价行是 0.0145、1.74、3.48 美元,并且官方说明 75% 折扣延长到 2026-05-31 15:59 UTC。
这些数字必须写上检查日期,因为它们是易变事实。第三方 Provider 可能有不同加价、折扣、余额、地区路由、日志、限额和支持策略。Provider 的报价或接入说明能证明“这个 Provider 现在这么卖”,不能反推 DeepSeek 官方价表,也不能证明官方 API 的 SLA 或支持边界。
1M 上下文怎么验收
1M 上下文首先是输入能力,不等于长文任务已经完成。真正需要验收的是远端事实召回、跨段推理、冲突处理、延迟、输出上限、重试率、accepted-output cost 和路线稳定性。一个模型能接受长输入,仍然可能在中段事实、结尾事实或多处证据合并上失败。

| 检查点 | 证明什么 | 失败信号 |
|---|---|---|
| 长输入接受 | 路线能收下目标长度 | 拒绝、截断、超时、Provider 限制 |
| 远端召回 | 能找回前中后不同位置事实 | 只引用开头,忽略中后段证据 |
| 跨段推理 | 能合并多处证据 | 只按一个章节回答,漏掉冲突 |
| 延迟与成本 | 符合用户或批处理 SLA | p95 延迟、超时、重试成本过高 |
| 384K 输出边界 | 输出长度策略可控 | 生成过短、过长或被截断 |
| 路线稳定性 | Preview 与 Provider 差异可控 | 同一任务在路线切换后漂移 |
开源权重、Provider 与本地部署
DeepSeek 的 Hugging Face verified collection 包含 Pro、Pro-Base、Flash、Flash-Base,模型卡记录了 Preview 系列、MoE 参数、1M 上下文、思考模式与 MIT license。它能证明开源权重可用,但不能证明你的本地部署会拥有官方 API 的吞吐、延迟、上下文长度或工具行为。
本地部署的核心不是“免费替代官方 API”,而是把运行时责任转移给你自己:GPU、显存、KV cache、推理框架、批处理、监控、升级、评测和安全边界都要自己承担。Provider 路线也是另一份合同;它可能更方便,但必须重新检查价格、限额、日志、fallback、地区和支持。
如果要把 Hugging Face 权重放进内部评测,先从较短上下文开始,不要一上来就把 1M 当目标。先验证 32K、128K、256K 的召回和显存曲线,再决定是否值得扩大窗口。这样能把“模型支持长上下文”和“你的部署能稳定服务长上下文”分开,避免把基础设施失败误判成模型失败。
什么时候看 GPT 对比页
如果决策仍然是“DeepSeek V4 现在怎么用、先测 Pro 还是 Flash、1M 怎么验收”,就保持 DeepSeek-only 路线。如果问题变成 OpenAI 与 DeepSeek 的替换、并行或采购选择,就应该打开 sibling 对比路线:GPT-5.5 vs DeepSeek-V4。不要把跨厂商选择硬塞进 DeepSeek V4 Preview 的官方状态判断。
上线前检查表
- 把候选模型写成
deepseek-v4-flash或deepseek-v4-pro。 - 记录路线来源:官方 API、Provider、Hugging Face 权重或本地部署。
- 用同一 prompt set 对测 Flash 与 Pro。
- 如果 1M 上下文是切换理由,必须加入远端召回和跨段推理测试。
- 统计 accepted-output cost,而不是只看 token 单价。
- 对流式、工具调用、JSON 输出和 thinking mode 做实际集成测试。
- 给
deepseek-chat与deepseek-reasoner的旧服务加别名退休检查。 - 发布任何价格、折扣、Provider、限额或可用性说法前重新核对当前来源。
上线评测包最好分三层保存。第一层是稳定回归集,用来发现模型更新或 Provider 路由变化;第二层是长上下文集,用来观察远端事实召回、延迟和输出截断;第三层是高失败成本集,用来决定是否把任务从 Flash 升级到 Pro。每次 DeepSeek 调整 Preview、价格或别名时,至少重跑第一层和高风险分支。
迁移时不要只看平均分。把样本分成“Flash 可留”“必须升 Pro”“暂不迁移”三类,并记录原因:事实漏召回、工具参数错、JSON 不稳定、长输出截断、延迟超 SLA、人工修复过长、Provider 限额不可控。这样团队不会因为一次漂亮 demo 就把所有流量推给新模型,也不会因为某个困难样本失败就放弃 Flash 的成本优势。
对旧别名的处理也要进入发布计划。保留 deepseek-chat 或 deepseek-reasoner 的服务需要列出 owner、调用量、替换 ID、灰度比例、回滚方式和最终删除日期。若某个旧服务必须暂时保留兼容别名,就要在 2026-07-24 15:59 UTC 前完成二次检查,而不是等到别名不可访问后再定位故障。
验收数据表至少保留六列:模型、路线、输入长度、通过率、p95 延迟、人工修复分钟数。价格列也要拆成官方价表日期和实际 Provider 账单日期,因为两者不一定同步。只有当通过率、延迟、人工修复和账单都在同一张表里,Flash 与 Pro 的选择才不会变成单纯的参数或单价争论。
如果这些数据暂时拿不到,就先保持小流量灰度,不要把 Preview 当成默认生产基线;缺少证据的路线只适合继续评测,不适合对外承诺稳定迁移,也不适合替代既有可靠模型或核心生产链路。
FAQ
DeepSeek V4 Preview 是官方的吗?
是。DeepSeek 2026 年 4 月 24 日官方发布页说明 V4 Preview 已正式上线并开源,API 文档也列出 V4 模型 ID。发布时保留 Preview 限定,因为价格、别名和模型行为都可能继续变化。
正确的 API model ID 是什么?
新代码使用 deepseek-v4-pro 或 deepseek-v4-flash。不要使用 deepseek-v4-preview。deepseek-chat 和 deepseek-reasoner 只是兼容别名,并有 2026-07-24 15:59 UTC 后不可访问的退休安排。
先测 Flash 还是 Pro?
高量、低延迟、低成本且能客观验收的任务先测 Flash。复杂推理、代码、Agent、长文综合、失败返工成本高的任务先测 Pro。最好保留同一评测集,让简单分支留在 Flash,困难分支升 Pro。
1M 上下文是不是可以直接放进生产?
不是。官方与模型卡能支持 1M 上下文能力,但生产还要验证召回、延迟、成本、384K 最大输出、Provider 限制和 Preview 期间的稳定性。
DeepSeek V4 权重是开放的吗?
DeepSeek verified Hugging Face collection 包含 Pro、Pro-Base、Flash、Flash-Base,模型卡列出 MIT license。这证明权重可用,不证明本地部署已经具备官方 API 的运行时表现。
OpenRouter 或其他 Provider 算官方 API 吗?
不算。它们是 Provider 合同。价格、路由、fallback、日志、限额、支持和模型新鲜度都要单独检查。官方 DeepSeek 事实以 DeepSeek 文档为准。
本地可以跑 1M 上下文吗?
可以评估,但这是基础设施问题。先从较短上下文阶梯开始,记录显存、延迟、召回和成本,再决定是否扩大到 1M。



