想用Gemini生成高质量图片，却不知道怎么写提示词？你并不孤单。根据Google开发者社区的数据，超过67%的Gemini用户在图片生成时遇到"效果不理想"的问题，而其中85%是因为提示词写法不当。

与传统的关键词堆叠式图片生成不同，Gemini的核心优势在于强大的语言理解能力。Google官方研究表明，使用叙述性描述的提示词比零散关键词的生成质量提升85%。更重要的是，Gemini原生支持中文，理解准确率达到96.8%，这意味着你可以用自然的中文描述来创作图片。

本文将系统性地教你掌握Gemini图片生成的完整技巧。你将学会如何构建高效的中文提示词、获得20+即用模板、了解如何将成本从官方$0.24/张降到$0.05/张（节省79%），以及解决中国用户的访问障碍。无论你是内容创作者、开发者还是AI爱好者，读完本文后都能立即上手。

Gemini图片生成指令完全指南封面

Gemini图片生成指令基础入门

Gemini图片生成指令是向AI描述所需图像的自然语言文本。使用"生成"、"创建"、"绘制"等动词开头，支持中文在内的42种语言，中文理解准确率达96.8%。

Gemini的图片生成功能被Google内部称为"Nano Banana"，它代表了一种全新的AI创作范式。如果你想深入了解Nano Banana的完整功能，可以参考Nano Banana完整教程。与Midjourney或Stable Diffusion等工具需要学习特定的关键词语法不同，Gemini更像是在与一位理解自然语言的设计师对话。你可以用完整的句子描述你想要的画面，AI会理解你的意图并生成匹配的图像。

基本指令格式非常简单：以动作词开头，然后描述你想要的内容。例如"生成一张夕阳下的海滩照片"或"创建一个可爱的卡通柴犬形象"。Gemini会解析你的描述，理解主体、环境、风格等要素，然后生成图片。值得注意的是，Gemini总是同时返回文本和图像——它会先描述它理解的创作意图，然后展示生成结果。

从技术角度看，Gemini图片生成支持两种主要模式：文本到图像（从零开始生成）和图像+文本到图像（基于参考图进行编辑或风格迁移）。两种模式都使用相同的提示词语法，区别在于是否上传参考图片。对于开发者来说，还需要在API配置中设置responseModalities: ["TEXT", "IMAGE"]才能启用图片输出功能。

Nano Banana vs Nano Banana Pro：模型选择指南

Nano Banana（Gemini 2.5 Flash）适合日常快速生成，支持1K-2K分辨率，价格$0.134/张。Nano Banana Pro（Gemini 3 Pro）支持4K输出，适合专业场景，价格$0.24/张。

Google目前提供两个图片生成模型，理解它们的差异能帮助你做出更明智的选择。Nano Banana基于Gemini 2.5 Flash架构，专为快速、轻量的日常场景设计。它的优势在于响应速度快（平均10秒内）和成本低，适合社交媒体内容、日常创意探索、原型设计等场景。免费用户每天可生成约100张图片，足够大多数个人使用。

Nano Banana Pro则是专业级选择，基于Gemini 3 Pro架构。它支持高达4K（4096×4096像素）的输出分辨率，具备更精准的文字渲染能力（准确率95%+），以及"思考模式"——模型会先生成中间草图来优化构图，再输出最终高质量图像。这让它特别适合商业设计、品牌素材、需要精确文字的海报和信息图等场景。

特性	Nano Banana	Nano Banana Pro
模型ID	gemini-2.5-flash-image	gemini-3-pro-image-preview
最大分辨率	2K (2048×2048)	4K (4096×4096)
生成速度	~10秒	~25秒
官方价格	$0.134/张	$0.24/张
文字渲染	良好	优秀 (95%+准确率)
适用场景	日常创作、快速原型	商业设计、专业素材

选择建议：如果你主要是个人创作或快速迭代想法，Nano Banana完全够用且更经济。但如果需要印刷级质量、精确的文字内容或高分辨率输出，Nano Banana Pro是更好的投资。

完整参数详解：尺寸、比例、格式全覆盖

Gemini支持10种宽高比（1:1、16:9、9:16等）和三档分辨率（1K/2K/4K）。图片输出需在配置中设置responseModalities: ["TEXT", "IMAGE"]。

掌握Gemini的参数系统能让你更精确地控制输出结果。首先是宽高比，Gemini原生支持10种比例：1:1（方形，适合头像和产品图）、3:2和2:3（经典照片比例）、4:3和3:4（传统显示器比例）、16:9和9:16（视频和手机屏幕）、4:5和5:4（社交媒体优化）、以及21:9（超宽电影比例）。

分辨率方面，Gemini提供三个层级：1K（1024×1024像素，日常使用足够）、2K（2048×2048像素，高清展示）和4K（4096×4096像素，仅Nano Banana Pro支持，适合印刷和专业用途）。关于4K图片生成的详细指南，可以查看Gemini 4K图片生成API教程。值得注意的是，分辨率直接影响Token消耗和成本——1K图片消耗约1120 tokens，而4K图片消耗约2000 tokens。

参数类型	可选值	说明
宽高比	1:1, 3:2, 2:3, 4:3, 3:4, 4:5, 5:4, 9:16, 16:9, 21:9	通过提示词描述或API参数指定
分辨率	1K, 2K, 4K	4K仅Pro模型支持
输出格式	PNG, JPEG	默认PNG，JPEG文件更小
图片数量	1-4张	单次请求最多4张

在API调用时，还有一个关键配置经常被忽略：responseModalities参数。必须设置为["TEXT", "IMAGE"]才能启用图片输出，否则模型只会返回文本描述而不生成实际图片。这是新手最常遇到的"坑"之一。

中文提示词黄金结构：6要素写法

高质量中文提示词遵循6要素结构：背景设定+主体描述+环境细节+技术参数+风格指导+情感氛围。叙述性描述比关键词堆叠效果提升85%。

这是本文最核心的内容之一。与英文提示词不同，中文在Gemini中有独特的处理方式——模型会自动理解中文的语法结构、成语典故甚至文化背景。例如输入"水墨画风格"，Gemini会自动关联到传统国画的留白、晕染等技法，而不仅仅是黑白色调。

6要素结构是经过大量实测验证的高效框架：

背景设定：交代场景的时间、空间或情境。如"清晨的东京街头"比单独说"街头"能给模型更多上下文。
主体描述：详细描述画面的核心对象。不要只说"一个女孩"，而要说"一位穿着浅蓝色连衣裙、留着齐肩短发的年轻女性"。
环境细节：补充主体周围的元素。"周围是绽放的樱花树，地面有飘落的花瓣"比空洞的背景更能丰富画面。
技术参数：指定摄影或绘画的技术要求。"85mm人像镜头、f/1.8大光圈、柔和的散景效果"能让生成结果更专业。
风格指导：明确艺术风格或视觉基调。"吉卜力动画风格"、"赛博朋克风格"、"极简主义设计"等都是有效的风格指令。
情感氛围：描述画面想传达的情绪。"温馨治愈的感觉"、"神秘紧张的氛围"能让图片更有表现力。

一个完整的示例提示词：

清晨的东京涩谷街头，一位穿着浅蓝色连衣裙、留着齐肩短发的年轻女性，站在斑马线前等红灯。周围是来往的行人和闪烁的霓虹招牌，远处是109百货大楼。使用35mm广角镜头视角，街头摄影风格，带有淡淡的胶片颗粒感，营造出都市生活的平凡美好感。

这个提示词覆盖了全部6要素，生成的图片会比简单的"东京街头女孩"丰富得多。

20+即用中文提示词模板库

本节提供20+按场景分类的中文提示词模板，覆盖产品摄影、人像、风景、插画、商业设计等场景，可直接复制使用或根据需求修改。

Gemini提示词模板分类示意图

产品摄影类

电商白底图模板

一张专业的产品照片，[产品名称]置于纯白色背景上，产品居中，采用三点式柔光照明，45度角俯拍，展示产品的[关键特征]，商业级质感，适合电商详情页使用。

场景化产品图模板

[产品名称]放置在[场景描述]中，自然光从左侧45度角照入，背景略微虚化，突出产品质感和[核心卖点]，生活化的使用场景，温暖舒适的氛围。

人像摄影类

职业肖像模板

一位[年龄][性别]的[职业]，穿着[服装描述]，面带自信微笑，在[场景]中工作的半身照。使用85mm人像镜头，f/2.8光圈，柔和的自然光，专业商务摄影风格。

艺术人像模板

[人物描述]的艺术肖像，[姿态描述]，[服装或道具]。采用[光线类型]照明，[特定角度]拍摄，[艺术风格]风格，强调[情感或特质]。

插画设计类

扁平化图标模板

一个[主题]的扁平化图标设计，使用[主色调]和[辅助色]配色，简洁的几何形状，无渐变，线条粗细统一，适合APP界面使用，白色背景。

卡通角色模板

一只可爱的[动物/角色]，[动作描述]，大眼睛圆脸的卡通风格，[颜色]为主色调，简洁的线条，适合作为吉祥物或表情包，透明背景。

风景场景类

自然风光模板

[时间段]的[地点]风景，[天气状况]，[核心景物]占据画面[位置]，[前景元素]增加层次感，[摄影风格]，展现[情感氛围]。

城市夜景模板

[城市名]的夜景，从[视角]俯瞰，霓虹灯和车流光轨交织，[标志性建筑]在画面中，长曝光效果，现代都市的繁华与活力。

商业设计类

海报设计模板

[主题]的宣传海报，尺寸比例16:9，[主视觉元素]居中，预留顶部1/4空间放置标题文字"[标题内容]"，[配色方案]，[设计风格]，商业级排版。

社交媒体图模板

适合[平台]发布的[主题]配图，正方形比例，[视觉元素]，[色调]，简洁有冲击力，底部预留空间可加文字，适合移动端浏览。

特殊效果类

水墨画风格模板

[主题]的中国水墨画，留白构图，[墨色浓淡]的笔触，[景物]采用传统工笔或写意手法，宣纸质感，古典雅致的东方美学。

赛博朋克风格模板

[场景]的赛博朋克风格图像，霓虹灯光，雨夜反射，高科技低生活的对比，[主体]融入未来都市环境，紫色和青色为主色调，电影感构图。

进阶技巧：编辑、风格迁移与多图合成

Gemini支持5种高级功能：局部编辑（自然语言指定区域）、风格迁移（照片转艺术风格）、多图合成、角色一致性保持、以及最多14张参考图的多参考生成。

掌握这些进阶功能能让你的创作效率和质量再上一个台阶。

局部编辑是Gemini最强大的功能之一。与传统图片编辑软件需要手动选区不同，Gemini支持用自然语言指定修改区域。例如"把图片中人物的T恤颜色从蓝色改成红色"或"移除背景中的路人"。模型会自动识别你描述的区域并进行精确修改，其他部分保持不变。这对于快速迭代设计稿特别有用。

风格迁移让你可以将一张照片转换为任意艺术风格。上传一张普通照片，然后描述目标风格——"转换为梵高星空风格"、"变成日本浮世绘风格"、"改为皮克斯3D动画风格"——Gemini会保留原图的构图和主体，同时应用新的艺术风格。这比从零生成更能保持特定场景或人物的特征。

多图合成允许你组合多张图片的元素。例如"将图片A中的产品放入图片B的场景中"或"用图片C的光线效果重新渲染图片D"。Gemini最多支持3张输入图片进行合成，这对于产品合成、场景替换等商业需求非常实用。

角色一致性解决了AI图片生成的一大痛点：同一角色在不同图片中外观不一致。使用Gemini的多轮对话功能，你可以在保持角色特征的前提下，生成不同姿势、场景或表情的系列图片。这对于创建品牌IP、漫画角色或产品系列图特别重要。

多参考生成是专业用户的高级功能。你可以上传最多14张参考图片作为"灵感板"，然后描述你想要的新图片。Gemini会综合参考图的风格、色调、构图等元素，生成符合整体美学的新作品。注意每张参考图会增加约$0.08的成本。

成本优化攻略：从$0.24降到$0.05

官方4K图片$0.24/张，批量API可降至$0.12/张（50%折扣）。通过laozhang.ai等第三方平台可进一步降至$0.05/张，节省79%成本，无需信用卡。

理解Gemini的计费机制是成本优化的基础，详细的定价解读可参考Gemini API定价与限制指南。Google采用Token计费模式：输入Token（你的提示词）和输出Token（生成的图片）分别计价。一张1K-2K图片消耗约1120 tokens，4K图片约2000 tokens。按官方价格，输出图像Token的价格为$120/百万tokens，折算下来1K图片约$0.134，4K图片约$0.24。

批量API是官方提供的第一层优惠。如果你的需求不需要实时响应，可以使用Batch API提交请求，享受50%折扣。批量请求会在6小时内完成处理，适合后台批量生成、非交互式工作流等场景。

方案	1K-2K图片价格	4K图片价格	适用场景
官方实时API	$0.134	$0.24	实时交互需求
官方批量API	$0.067	$0.12	后台批量处理
laozhang.ai	$0.05（固定）	$0.05（固定）	成本敏感、中国用户

对于成本敏感的用户，第三方聚合平台提供了更经济的选择。以laozhang.ai为例，所有分辨率统一$0.05/张的固定价格，相比官方4K价格节省79%。平台通过批量采购和基础设施优化实现成本压缩，同时保持与官方相同的输出质量（因为底层调用的是同一个Google模型）。

需要说明的是，第三方平台的SLA可能与官方有所不同，且不适合对数据隐私有严格合规要求的企业场景。如果你需要官方级别的技术支持和服务承诺，官方API仍是更稳妥的选择。

Gemini图片生成成本对比：官方vs批量API vs第三方平台

常见问题完整排查指南

常见错误包括：返回空消息（模型选择错误）、违反内容政策（端点错误）、配置缺失（responseModalities未设置）。本节提供完整错误代码对照表。

在使用Gemini图片生成时，开发者经常会遇到一些令人困惑的错误。这里整理了最常见的问题及其解决方案。

问题1：API返回空消息，没有生成图片

这是最常见的问题，通常有两个原因：一是模型选择错误，使用了不支持图片输出的模型（如gemini-2.5-flash而非gemini-2.5-flash-image）；二是配置缺失，没有设置responseModalities参数。解决方案是确认使用正确的模型ID（gemini-2.5-flash-image或gemini-3-pro-image-preview），并在请求中添加"responseModalities": ["TEXT", "IMAGE"]。

问题2：提示被拒，显示违反内容政策

这个错误不一定意味着你的提示词有问题。很多情况下是因为使用了错误的API端点——文本生成端点无法处理图片请求，会默认返回安全策略错误。确保使用图片生成专用的端点，并检查提示词是否符合Google的内容政策（避免暴力、成人内容等）。

错误类型	可能原因	解决方案
返回空消息	模型ID错误	使用gemini-2.5-flash-image或gemini-3-pro-image-preview
返回空消息	配置缺失	添加responseModalities: ["TEXT", "IMAGE"]
违反内容政策	端点错误	使用图片生成专用端点
429 Rate Limit	超出配额	升级付费层级或使用第三方平台
图片比例错误	未指定比例	在提示词中明确宽高比或提供参考图

问题3：Rate Limit错误（429）

免费层级的限制较严格（约10 RPM、50-250 RPD）。如果频繁遇到限流，可以选择升级到付费层级（300 RPM、1500+ RPD），或使用第三方平台（通常无限速限制）。

问题4：生成的图片比例与预期不符

在编辑模式下，Gemini默认保持输入图片的比例。如果需要特定比例，可以在提示词中明确说明（如"生成一张16:9横版图片"），或提供一张具有目标比例的参考图。

中国用户无障碍使用方案

中国大陆无法直接访问Gemini API。通过laozhang.ai等第三方中转可实现20ms低延迟访问，无需VPN，支持支付宝付款。

这是中国开发者最关心的问题之一，我们在Gemini中国访问完整指南中有更详细的分析。由于网络限制，直接调用Google的Gemini API在中国大陆会遇到连接失败或超时问题。即使使用VPN，延迟也通常在200-400ms，影响用户体验和开发效率。

目前主流的解决方案有三种：

方案1：VPN/代理 最直接但体验最差的方案。优点是可以访问官方API，缺点是连接不稳定、延迟高、存在合规风险，且需要额外的代理成本。

方案2：香港/海外服务器中转 自建中转服务器，延迟可控制在50-100ms。需要一定的技术能力和运维成本，适合有技术团队的企业。

方案3：第三方中转平台 最便捷的方案。以laozhang.ai为例，平台在中国大陆部署了边缘节点，延迟约20ms，远低于VPN方案的200ms+。使用OpenAI兼容格式，迁移成本几乎为零——只需修改base_url即可。支持支付宝充值，最低5美元（约35元）起充，无需国际信用卡。

方案	延迟	稳定性	成本	适用人群
VPN直连	200-400ms	不稳定	VPN费用+官方API	临时测试
自建中转	50-100ms	取决于运维	服务器+官方API	技术团队
laozhang.ai	~20ms	99.5%+	$0.05/张	大多数开发者

需要注意的是，第三方中转服务的数据会经过中间节点，对数据隐私有严格要求的场景需要评估合规性。如果是个人项目或对延迟敏感的应用，第三方中转是目前最优的平衡方案。

API代码实战：Python/JavaScript示例

本节提供Python和JavaScript的完整代码示例，包含OpenAI兼容格式和原生Gemini格式，附错误处理和重试逻辑。

Python示例（OpenAI兼容格式）

这是最推荐的调用方式，与现有OpenAI代码完全兼容，迁移成本最低：

hljs python
from openai import OpenAI
import base64

# 初始化客户端（使用laozhang.ai中转或官方API）
client = OpenAI(
    api_key="sk-your-api-key",  # 从laozhang.ai或Google获取
    base_url="https://api.laozhang.ai/v1"  # 或官方端点
)

def generate_image(prompt: str, model: str = "gemini-2.5-flash-image"):
    """
    生成图片的基础函数

    Args:
        prompt: 中文提示词
        model: 模型ID，可选gemini-2.5-flash-image或gemini-3-pro-image-preview

    Returns:
        生成的图片数据
    """
    try:
        response = client.chat.completions.create(
            model=model,
            messages=[
                {
                    "role": "user",
                    "content": prompt
                }
            ],
            # 关键配置：启用图片输出
            extra_body={
                "responseModalities": ["TEXT", "IMAGE"]
            }
        )
        return response
    except Exception as e:
        print(f"生成失败: {e}")
        return None

# 使用示例
result = generate_image(
    "一只可爱的柴犬坐在樱花树下，水彩画风格，粉色和白色的花瓣飘落"
)

if result:
    print("生成成功！")
    # 处理返回的图片数据...

带重试逻辑的生产级代码

hljs python
import time
from typing import Optional
import logging

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

def generate_with_retry(
    prompt: str,
    max_retries: int = 3,
    retry_delay: float = 2.0
) -&gt; Optional[dict]:
    """
    带指数退避重试的图片生成

    生产环境推荐使用此函数，可应对临时网络问题和限流
    """
    for attempt in range(max_retries):
        try:
            response = client.chat.completions.create(
                model="gemini-2.5-flash-image",
                messages=[{"role": "user", "content": prompt}],
                extra_body={"responseModalities": ["TEXT", "IMAGE"]},
                timeout=60  # 图片生成可能需要较长时间
            )
            logger.info(f"第{attempt + 1}次尝试成功")
            return response

        except Exception as e:
            logger.warning(f"第{attempt + 1}次尝试失败: {e}")
            if attempt &lt; max_retries - 1:
                sleep_time = retry_delay * (2 ** attempt)  # 指数退避
                logger.info(f"等待{sleep_time}秒后重试...")
                time.sleep(sleep_time)
            else:
                logger.error("所有重试均失败")
                return None

    return None

JavaScript/Node.js示例

hljs javascript
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: 'sk-your-api-key',
  baseURL: 'https://api.laozhang.ai/v1'
});

async function generateImage(prompt) {
  try {
    const response = await client.chat.completions.create({
      model: 'gemini-2.5-flash-image',
      messages: [{ role: 'user', content: prompt }],
      // @ts-ignore - 启用图片输出
      responseModalities: ['TEXT', 'IMAGE']
    });

    console.log('生成成功:', response.choices[0].message);
    return response;
  } catch (error) {
    console.error('生成失败:', error.message);
    throw error;
  }
}

// 使用示例
generateImage('一个极简风格的科技公司logo，蓝色和白色配色，几何形状')
  .then(result =&gt; console.log('完成'))
  .catch(err =&gt; console.error('错误:', err));

FAQ：Gemini图片生成常见问题

Gemini图片生成免费吗？

Gemini在Google AI Studio中完全免费使用，适合测试和学习。通过API调用则需要付费，免费层级每天约可生成100张图片。新用户可获得$300赠金（90天有效期），足够进行充分的测试和小规模生产使用。

中文提示词效果好吗？

非常好。Gemini对中文的理解准确率达96.8%，支持繁简体自动识别、成语理解和文化背景适配。实测显示，中文提示词与英文提示词的生成质量差异小于5%，对于大多数场景完全够用。如果追求极致效果，可以将中文提示词翻译成英文后使用。

生成的图片版权归谁？

根据Google的服务条款，通过Gemini API生成的图片版权归用户所有，可用于商业用途。但需要注意：不能生成模仿特定艺术家风格的作品用于商业目的，也不能生成可能侵犯他人肖像权的内容。建议在商业使用前仔细阅读Google的使用政策。

如何提高文字渲染准确率？

使用Nano Banana Pro（gemini-3-pro-image-preview）可获得95%+的文字准确率。此外，建议将文字控制在25个字符以内、使用2-3个短语而非长句、在提示词中明确说明文字内容和位置。如果文字仍有错误，可以使用后续的编辑功能进行修正。

一次最多能生成几张图片？

单次请求最多生成4张图片。如果需要批量生成，建议使用异步批处理模式或循环调用。注意批量生成时要控制请求频率，避免触发限流。

Gemini能生成人像吗？

可以，但有限制。出于安全考虑，Gemini对人像生成有较严格的内容过滤，可能拒绝某些涉及真实人物、敏感姿态或争议性内容的请求。生成虚构人物、插画风格人物或明确标注为AI生成的肖像通常没有问题。

总结与行动指南

通过本文，你已经掌握了Gemini图片生成的完整知识体系：从基础的指令格式到高级的编辑功能，从中文提示词的6要素结构到20+即用模板，从成本优化策略到中国访问方案。

核心要点回顾：

Gemini更适合叙述性描述，而非关键词堆叠
使用6要素结构（背景+主体+环境+技术+风格+情感）构建高质量提示词
Nano Banana适合日常创作，Nano Banana Pro适合专业场景
通过批量API或第三方平台可大幅降低成本（最高节省79%）

推荐学习路径：

从模板库中选择一个场景，尝试生成第一张图片
理解6要素结构，尝试修改模板或创建自己的提示词
探索编辑和风格迁移等进阶功能
根据需求选择合适的成本优化方案

如果你正在寻找稳定、高性价比的Gemini图片生成服务，可以了解一下laozhang.ai。平台提供$0.05/张的固定价格、中国直连低延迟、OpenAI兼容格式，适合个人开发者和中小团队。详细价格和使用文档可查阅官方文档。

现在就开始你的Gemini图片创作之旅吧！

Gemini图片生成指令完全指南：20+中文提示词模板与实战技巧【2026最新】

Nano Banana Pro