图生视频如何保持同一角色：参考帧、路线选择与逐帧验收

想让一张角色图变成视频后仍然是“同一个人”，不要把全部希望押在一句“保持角色一致”。更可靠的做法是把任务拆成两层：Nano Banana Pro 只负责准备经过批准的静态参考帧；动作、运镜和时间连续性由单独的视频生成路线完成。

先做一个短诊断镜头，只放一个难动作和一个主要变化。生成后不要只看第一帧，而要同时检查首帧、动作最吃力的中间帧和末帧。如果脸型、发型轮廓、体型比例、标志性服装或画面语言中的关键一项漂移，这条片就没有通过。

最先做的事：写清“必须锁定什么、允许改变什么、绝对不能漂成什么”，再决定用首帧、首尾帧还是参考生视频。参考图不是保证书，而是交给视频模型的身份依据。

先分清三种“一致”

中文搜索结果常把“角色一致性”当成一个词，但制作时至少要分成三件事：

静态身份一致：几张角色图看起来是否属于同一角色。
片段内时间一致：角色在一条视频从头到尾运动时，脸、头发、身体和服装是否发生漂移。
片段间连续：上一条片的结尾与下一条片的开头，人物、构图、光线和动作是否接得上。

Nano Banana Pro 可以帮助你生成或修正静态角色锚点，但静态图通过不等于视频通过。遮挡、转身、快速动作、景别变化和镜头运动都会给视频模型增加新的不确定性。

首帧、首尾帧、参考生视频怎么选

先按控制问题选路线，不要先按模型名选。

路线	最适合的任务	你提供什么	它不能证明什么	何时升级
单首帧图生视频	一个短镜头；开场构图已确定；动作和运镜都较简单	一张与目标景别匹配的批准首帧	不能保证转身后仍是同一张脸，也不能规定结尾构图	中途身份漂移，或结尾必须落到指定姿态时
首帧 + 尾帧	起点和终点都必须命中；转场、产品落版或动作收势很重要	两张彼此不冲突的批准关键帧	不能控制中间每一帧，也不能自动解决两张图之间的身份冲突	中段仍变脸、换装或比例突变时
参考生视频	角色、服装、道具或风格信息需要在首帧之后继续可用	少量互补的参考图，按当前路线规则上传	不能据此承诺零漂移、隐私保留或商业使用权	多角度、多人同框或高强度动作仍反复失败时
更强的结构化或定制路线	长期连载、多镜头角色资产、困难角度或严格客户交付	角色设定包、镜头表、可能还需专用训练或人工修复	成本更高，也仍需逐镜头验收	最难必交镜头超过轻量路线能力时

Google 当前文档明确提供 Veo 的首尾帧输入方式，但这只能证明存在这种输入模式，不能证明角色必然保持一致，更不能代表所有平台、账号或模型都有相同参数。查看 Google 的首尾帧说明

用 Nano Banana Pro 准备“可验收”的参考帧

不要一上来生成七八张相似正脸。参考包的价值不在数量，而在于是否覆盖最难镜头所需的信息。

1. 先写锁定项与可变项

可直接复制下面这份角色锁定卡：

hljs text
必须锁定：
- 脸部几何：脸型、眼距、鼻梁、下颌
- 发型轮廓：分缝、长度、刘海、发色
- 身体比例：身高感、肩宽、四肢比例
- 标志物：外套版型、项链、眼镜、道具
- 画面语言：写实/动画、线条、材质、色彩密度

允许变化：
- 表情、姿势、动作
- 景别、机位、光线、场景
- 剧情要求的明确换装或道具变化

禁止漂移：
- 年龄感突然改变
- 左右特征互换
- 标志物消失或无理由变形
- 写实人物突然变成另一种渲染风格

锁定项应该少而关键。若你同时要求“脸完全不变、发型完全不变、衣服完全不变”，又要求大幅转身、强遮挡、极端表情和复杂运镜，模型收到的不是清晰任务，而是一组相互拉扯的约束。

2. 让参考角度服务于最难镜头

先保留一张清楚、无遮挡、身份最准确的主锚点。只有在镜头需要时，再补：

四分之三侧脸或正侧脸；
全身比例；
服装背面、鞋子或标志道具；
目标景别下的角色；
与最终画面一致的视觉风格。

几张互相矛盾的参考图比一张好参考更危险。脸型、年龄、发色、服装版型或画风不一致时，先在静态层修正，不要把冲突直接交给视频模型。

3. 先批准参考版本，再开始视频

给参考包编号，例如 CHAR-A-v03。记录哪些图通过、哪些图被拒绝，以及拒绝原因。后面一旦变脸，你才能判断是视频生成漂移，还是参考包本身已经含有两个不同角色。

一个可复现的最小测试

第一次不要生成完整剧情。用下面的顺序做一个可诊断测试：

选出项目里最难但仍能单独测试的一个镜头，例如“四分之三侧脸转向镜头，同时抬手拿起杯子”。
只保留一个主要变化：先测转头，就不要同时换装、换场景和做大幅推拉。
用与目标镜头相同景别的参考帧。全身动作不要只给大头照。
先生成最短可用诊断片，记录路线、模型、日期、参考版本和提示词版本。
抽取首帧、最难动作帧和末帧，按五个身份维度分别判定。
只修改失败维度或一个主要变量，再测一次；不要整段提示词全部重写。

提示词可以写动作、镜头和允许变化，但不要让长篇形容词代替视觉证据：

hljs text
使用已上传的角色参考。保持脸型、眼距、短黑发轮廓、深蓝短夹克
和银色圆形胸针不变。角色从四分之三侧面缓慢转向镜头并抬起右手，
中近景，机位不移动，背景和光线不改变。不要新增首饰，不要改变年龄感。

首帧、动作压力帧、末帧五维验收表

不要用“整体挺像”做结论。每一格只填“通过 / 轻微偏差 / 失败”，关键维度失败不能被其他四项的通过平均掉。

身份维度	首帧	动作压力帧	末帧	失败时先查什么
脸部几何				参考是否清楚；转头、遮挡或表情是否过强
发型轮廓				刘海、分缝、发长是否在参考间冲突
身体比例				参考景别是否匹配；动作是否造成肢体重绘
服装与标志物				小物件是否太细；背面信息是否缺失
画面语言				参考是否混入不同画风、材质或色彩逻辑

身份表之外，再单独记录：

动作是否符合提示；
运镜是否符合要求；
节奏与时长是否可用；
末帧构图是否命中；
是否出现闪烁、融化、穿帮或无关新增元素。

可直接复用的生产记录

hljs text
项目 / 镜头：
路线 / 模型 / 检查日期：
批准参考版本：
素材权利与同意状态：
最难必交镜头：
锁定身份特征：
允许变化：
禁止漂移：

首帧五维：脸 / 发型 / 体型 / 服装道具 / 画面语言
动作压力帧五维：脸 / 发型 / 体型 / 服装道具 / 画面语言
末帧五维：脸 / 发型 / 体型 / 服装道具 / 画面语言

动作 / 运镜 / 节奏 / 末帧构图：
总判定：通过 / 最小修复 / 切换路线 / 停止
最小减变量复测：
批准的下一镜头锚点或交接帧：
审核人 / 批准日期：

最小修复、切换与停止树

生成失败后按“缺什么证据”修，不要无限加提示词。

hljs text
关键身份维度失败？
├─ 参考帧本身不一致
│  └─ 修静态图或移除冲突参考，再测
├─ 参考角度与目标镜头不匹配
│  └─ 补目标角度/景别；一次只补必要证据
├─ 首帧正确，但动作中途漂移
│  └─ 缩短片段、减小动作或运镜，只重测该压力点
├─ 结尾构图必须准确
│  └─ 从单首帧切到首尾帧；先确认两端身份一致
├─ 身份信息需要贯穿首帧之后
│  └─ 切到当前确实支持的参考生视频路线
└─ 同一关键维度在“减变量测试”中连续失败两次
   └─ 切换更强路线、预算人工修复，或停止该镜头

这里的“两次”不是行业统一基准，而是一条成本控制规则：同一个关键缺陷在已经降低动作、镜头和参考冲突后仍复现，就说明继续扩写提示词的收益很低。最终停止线应由项目风险、预算和最难必交镜头决定。

多个片段如何交接，才不会把漂移传下去

把上一片段末帧直接作为下一片段首帧，看起来很顺，但也最容易把错误复制到后面。

正确的交接顺序是：

从上一片段抽取候选末帧；
用同一五维表核对它是否仍属于批准角色；
再检查构图、动作方向、光线和道具状态；
通过后才标记为 approved-handoff；
未通过时回到原始批准锚点，或先在静态层修复，不要继续串联。

跨片段还要保留一张简单的 continuity 表：上一镜头结束姿势、下一镜头开始姿势、视线方向、手中道具、服装状态、主光方向和背景位置。身份一致并不等于剪辑连续，两项必须分别验收。

真人肖像、儿童和客户素材：先停，再上传

以下任一情况出现时，不要先把素材扔进工具“试试看”：

可识别真人肖像，尤其是儿童；
客户尚未公开的产品、角色设定或广告素材；
授权角色、艺人形象或第三方品牌资产；
含身份证件、家庭环境、地理位置等隐私信息的照片；
团队无法确认平台、模型和中转路线会如何保留或使用上传内容。

先核对权利主体、明确同意、合同允许用途、平台条款、数据保留与删除方式、访问者以及最终发布范围。无法确认时，改用自创虚构角色、无害合成素材或经书面批准的替代图。这是一条制作停止规则，不是法律意见。

YingTu 现在能做什么，不能据此声称什么

截至 2026 年 7 月 28 日，YingTu 中文视频工作区可见文生视频和图生视频入口；图生视频界面可见单首帧、可选尾帧，以及 Veo 与 Wan 的不同路线说明，另有参考素材相关入口。页面也明确提示实际生成需要匹配路线的有效 API Key，并提供任务状态、预览和下载控件。

你可以把 YingTu 视频工作区当作一个有界测试入口，用无害素材验证首帧或首尾帧方向。但本次研究没有完成一条可用于证明角色一致性的 YingTu 成功输出，因此不能把“控件存在”“历史任务可见”或“可以下载”写成角色保持能力已经通过。模型、输入、分辨率、时长、价格和可用性也可能变化，使用前应以当前界面与路线文档为准。

常见问题

Nano Banana Pro 能直接把图片变成视频吗？

在这套流程里不能这样理解。Nano Banana Pro 是静态参考帧层，用来建立或修正角色锚点；真正的运动由单独的视频生成路线完成。不要把“静态人物很一致”当成“视频时间连续性已通过”。

固定同一个 seed，人物就会一直一样吗？

不能保证。seed 可能帮助复现某些生成条件，但它不能替代清晰的视觉参考，也不能消除动作、遮挡、镜头变化和时间生成带来的漂移。

参考图是不是越多越好？

不是。只增加能覆盖最难镜头的新角度、体型、服装或道具证据。相似正脸的重复价值很低；互相矛盾的脸型、发色和画风反而会让模型更难判断。

首尾帧都正确，中间就一定正确吗？

不一定。首尾帧路线主要约束两端，中间的转身、遮挡和动作仍可能变脸或换装，所以动作压力帧必须单独验收。

可以把上一条视频的最后一帧直接接到下一条吗？

只有最后一帧已经通过五维身份检查和 continuity 检查时才可以。漂移帧未经批准就继续传递，会让错误在后续片段中累积。

真人脸和客户 IP 能不能上传？

先停下来核对同意、授权、合同用途、隐私、保留与删除规则。任一项不清楚，就先用合成测试角色。能生成或能下载不等于有权上传、训练、修改或发布。

这篇文章是否证明 YingTu 已经成功保持同一角色？

没有。当前只验证到中文工作区存在相关输入和任务控件；本次没有运行成功的角色一致性输出测试。真正结论必须来自你自己的无害测试素材、任务结果和首中末帧验收记录。

资料与证据边界

Vidu 参考生视频页面：展示当前中文市场对“参考生视频”的主流输入表述；其效果描述属于产品方主张，不能代替独立验收。
Google 首尾帧视频生成文档：证明特定 Veo 路线提供首尾帧输入，不证明零漂移。
Morphic 角色一致性术语页：用于区分跨生成的一致性与片段内时间持续性；页面中的数量建议不作为本文的通用标准。
清华大学转载的 Vidu 主体参照报道：提供“先静态分镜、再图生视频”与主体参照的历史语境，不用于证明当前价格、免费状态或典型效果。

最可靠的结论仍然来自你的生产记录：哪个参考版本、哪条路线、哪个最难镜头、哪一维失败、减变量后是否复现，以及最终选择修复、切换还是停止。