AI图片生成18分钟

Gemini图片生成指令完全指南:20+中文提示词模板与实战技巧【2026最新】

掌握Gemini AI图片生成的完整技巧,从基础指令到高级编辑功能。提供20+即用中文提示词模板,详解成本优化方案(节省79%),附Python代码示例和中国访问解决方案。

🍌
PRO

Nano Banana Pro

4K-80%

Google Gemini 3 Pro · AI Inpainting

谷歌原生模型 · AI智能修图

100K+ Developers·10万+开发者信赖
20ms延迟
🎨4K超清
🚀30s出图
🏢企业级
Enterprise|支付宝·微信·信用卡|🔒 安全
127+一线企业正在使用
99.9% 可用·全球加速
限时特惠
$0.24¥1.7/张
$0.05
$0.05
per image · 每张
立省 80%
AI技术专家
AI技术专家·AI图片生成技术顾问

想用Gemini生成高质量图片,却不知道怎么写提示词?你并不孤单。根据Google开发者社区的数据,超过67%的Gemini用户在图片生成时遇到"效果不理想"的问题,而其中85%是因为提示词写法不当。

与传统的关键词堆叠式图片生成不同,Gemini的核心优势在于强大的语言理解能力。Google官方研究表明,使用叙述性描述的提示词比零散关键词的生成质量提升85%。更重要的是,Gemini原生支持中文,理解准确率达到96.8%,这意味着你可以用自然的中文描述来创作图片。

本文将系统性地教你掌握Gemini图片生成的完整技巧。你将学会如何构建高效的中文提示词、获得20+即用模板、了解如何将成本从官方$0.24/张降到$0.05/张(节省79%),以及解决中国用户的访问障碍。无论你是内容创作者、开发者还是AI爱好者,读完本文后都能立即上手。

Gemini图片生成指令完全指南封面

Gemini图片生成指令基础入门

Gemini图片生成指令是向AI描述所需图像的自然语言文本。使用"生成"、"创建"、"绘制"等动词开头,支持中文在内的42种语言,中文理解准确率达96.8%。

Gemini的图片生成功能被Google内部称为"Nano Banana",它代表了一种全新的AI创作范式。如果你想深入了解Nano Banana的完整功能,可以参考Nano Banana完整教程。与Midjourney或Stable Diffusion等工具需要学习特定的关键词语法不同,Gemini更像是在与一位理解自然语言的设计师对话。你可以用完整的句子描述你想要的画面,AI会理解你的意图并生成匹配的图像。

基本指令格式非常简单:以动作词开头,然后描述你想要的内容。例如"生成一张夕阳下的海滩照片"或"创建一个可爱的卡通柴犬形象"。Gemini会解析你的描述,理解主体、环境、风格等要素,然后生成图片。值得注意的是,Gemini总是同时返回文本和图像——它会先描述它理解的创作意图,然后展示生成结果。

从技术角度看,Gemini图片生成支持两种主要模式:文本到图像(从零开始生成)和图像+文本到图像(基于参考图进行编辑或风格迁移)。两种模式都使用相同的提示词语法,区别在于是否上传参考图片。对于开发者来说,还需要在API配置中设置responseModalities: ["TEXT", "IMAGE"]才能启用图片输出功能。

Nano Banana vs Nano Banana Pro:模型选择指南

Nano Banana(Gemini 2.5 Flash)适合日常快速生成,支持1K-2K分辨率,价格$0.134/张。Nano Banana Pro(Gemini 3 Pro)支持4K输出,适合专业场景,价格$0.24/张。

Google目前提供两个图片生成模型,理解它们的差异能帮助你做出更明智的选择。Nano Banana基于Gemini 2.5 Flash架构,专为快速、轻量的日常场景设计。它的优势在于响应速度快(平均10秒内)和成本低,适合社交媒体内容、日常创意探索、原型设计等场景。免费用户每天可生成约100张图片,足够大多数个人使用。

Nano Banana Pro则是专业级选择,基于Gemini 3 Pro架构。它支持高达4K(4096×4096像素)的输出分辨率,具备更精准的文字渲染能力(准确率95%+),以及"思考模式"——模型会先生成中间草图来优化构图,再输出最终高质量图像。这让它特别适合商业设计、品牌素材、需要精确文字的海报和信息图等场景。

特性Nano BananaNano Banana Pro
模型IDgemini-2.5-flash-imagegemini-3-pro-image-preview
最大分辨率2K (2048×2048)4K (4096×4096)
生成速度~10秒~25秒
官方价格$0.134/张$0.24/张
文字渲染良好优秀 (95%+准确率)
适用场景日常创作、快速原型商业设计、专业素材

选择建议:如果你主要是个人创作或快速迭代想法,Nano Banana完全够用且更经济。但如果需要印刷级质量、精确的文字内容或高分辨率输出,Nano Banana Pro是更好的投资。

完整参数详解:尺寸、比例、格式全覆盖

Gemini支持10种宽高比(1:1、16:9、9:16等)和三档分辨率(1K/2K/4K)。图片输出需在配置中设置responseModalities: ["TEXT", "IMAGE"]。

掌握Gemini的参数系统能让你更精确地控制输出结果。首先是宽高比,Gemini原生支持10种比例:1:1(方形,适合头像和产品图)、3:2和2:3(经典照片比例)、4:3和3:4(传统显示器比例)、16:9和9:16(视频和手机屏幕)、4:5和5:4(社交媒体优化)、以及21:9(超宽电影比例)。

分辨率方面,Gemini提供三个层级:1K(1024×1024像素,日常使用足够)、2K(2048×2048像素,高清展示)和4K(4096×4096像素,仅Nano Banana Pro支持,适合印刷和专业用途)。关于4K图片生成的详细指南,可以查看Gemini 4K图片生成API教程。值得注意的是,分辨率直接影响Token消耗和成本——1K图片消耗约1120 tokens,而4K图片消耗约2000 tokens。

参数类型可选值说明
宽高比1:1, 3:2, 2:3, 4:3, 3:4, 4:5, 5:4, 9:16, 16:9, 21:9通过提示词描述或API参数指定
分辨率1K, 2K, 4K4K仅Pro模型支持
输出格式PNG, JPEG默认PNG,JPEG文件更小
图片数量1-4张单次请求最多4张

在API调用时,还有一个关键配置经常被忽略:responseModalities参数。必须设置为["TEXT", "IMAGE"]才能启用图片输出,否则模型只会返回文本描述而不生成实际图片。这是新手最常遇到的"坑"之一。

中文提示词黄金结构:6要素写法

高质量中文提示词遵循6要素结构:背景设定+主体描述+环境细节+技术参数+风格指导+情感氛围。叙述性描述比关键词堆叠效果提升85%。

这是本文最核心的内容之一。与英文提示词不同,中文在Gemini中有独特的处理方式——模型会自动理解中文的语法结构、成语典故甚至文化背景。例如输入"水墨画风格",Gemini会自动关联到传统国画的留白、晕染等技法,而不仅仅是黑白色调。

6要素结构是经过大量实测验证的高效框架:

  1. 背景设定:交代场景的时间、空间或情境。如"清晨的东京街头"比单独说"街头"能给模型更多上下文。

  2. 主体描述:详细描述画面的核心对象。不要只说"一个女孩",而要说"一位穿着浅蓝色连衣裙、留着齐肩短发的年轻女性"。

  3. 环境细节:补充主体周围的元素。"周围是绽放的樱花树,地面有飘落的花瓣"比空洞的背景更能丰富画面。

  4. 技术参数:指定摄影或绘画的技术要求。"85mm人像镜头、f/1.8大光圈、柔和的散景效果"能让生成结果更专业。

  5. 风格指导:明确艺术风格或视觉基调。"吉卜力动画风格"、"赛博朋克风格"、"极简主义设计"等都是有效的风格指令。

  6. 情感氛围:描述画面想传达的情绪。"温馨治愈的感觉"、"神秘紧张的氛围"能让图片更有表现力。

一个完整的示例提示词:

清晨的东京涩谷街头,一位穿着浅蓝色连衣裙、留着齐肩短发的年轻女性,站在斑马线前等红灯。周围是来往的行人和闪烁的霓虹招牌,远处是109百货大楼。使用35mm广角镜头视角,街头摄影风格,带有淡淡的胶片颗粒感,营造出都市生活的平凡美好感。

这个提示词覆盖了全部6要素,生成的图片会比简单的"东京街头女孩"丰富得多。

20+即用中文提示词模板库

本节提供20+按场景分类的中文提示词模板,覆盖产品摄影、人像、风景、插画、商业设计等场景,可直接复制使用或根据需求修改。

Gemini提示词模板分类示意图

产品摄影类

电商白底图模板

一张专业的产品照片,[产品名称]置于纯白色背景上,产品居中,采用三点式柔光照明,45度角俯拍,展示产品的[关键特征],商业级质感,适合电商详情页使用。

场景化产品图模板

[产品名称]放置在[场景描述]中,自然光从左侧45度角照入,背景略微虚化,突出产品质感和[核心卖点],生活化的使用场景,温暖舒适的氛围。

人像摄影类

职业肖像模板

一位[年龄][性别]的[职业],穿着[服装描述],面带自信微笑,在[场景]中工作的半身照。使用85mm人像镜头,f/2.8光圈,柔和的自然光,专业商务摄影风格。

艺术人像模板

[人物描述]的艺术肖像,[姿态描述],[服装或道具]。采用[光线类型]照明,[特定角度]拍摄,[艺术风格]风格,强调[情感或特质]。

插画设计类

扁平化图标模板

一个[主题]的扁平化图标设计,使用[主色调]和[辅助色]配色,简洁的几何形状,无渐变,线条粗细统一,适合APP界面使用,白色背景。

卡通角色模板

一只可爱的[动物/角色],[动作描述],大眼睛圆脸的卡通风格,[颜色]为主色调,简洁的线条,适合作为吉祥物或表情包,透明背景。

风景场景类

自然风光模板

[时间段]的[地点]风景,[天气状况],[核心景物]占据画面[位置],[前景元素]增加层次感,[摄影风格],展现[情感氛围]。

城市夜景模板

[城市名]的夜景,从[视角]俯瞰,霓虹灯和车流光轨交织,[标志性建筑]在画面中,长曝光效果,现代都市的繁华与活力。

商业设计类

海报设计模板

[主题]的宣传海报,尺寸比例16:9,[主视觉元素]居中,预留顶部1/4空间放置标题文字"[标题内容]",[配色方案],[设计风格],商业级排版。

社交媒体图模板

适合[平台]发布的[主题]配图,正方形比例,[视觉元素],[色调],简洁有冲击力,底部预留空间可加文字,适合移动端浏览。

特殊效果类

水墨画风格模板

[主题]的中国水墨画,留白构图,[墨色浓淡]的笔触,[景物]采用传统工笔或写意手法,宣纸质感,古典雅致的东方美学。

赛博朋克风格模板

[场景]的赛博朋克风格图像,霓虹灯光,雨夜反射,高科技低生活的对比,[主体]融入未来都市环境,紫色和青色为主色调,电影感构图。

进阶技巧:编辑、风格迁移与多图合成

Gemini支持5种高级功能:局部编辑(自然语言指定区域)、风格迁移(照片转艺术风格)、多图合成、角色一致性保持、以及最多14张参考图的多参考生成。

掌握这些进阶功能能让你的创作效率和质量再上一个台阶。

局部编辑是Gemini最强大的功能之一。与传统图片编辑软件需要手动选区不同,Gemini支持用自然语言指定修改区域。例如"把图片中人物的T恤颜色从蓝色改成红色"或"移除背景中的路人"。模型会自动识别你描述的区域并进行精确修改,其他部分保持不变。这对于快速迭代设计稿特别有用。

风格迁移让你可以将一张照片转换为任意艺术风格。上传一张普通照片,然后描述目标风格——"转换为梵高星空风格"、"变成日本浮世绘风格"、"改为皮克斯3D动画风格"——Gemini会保留原图的构图和主体,同时应用新的艺术风格。这比从零生成更能保持特定场景或人物的特征。

多图合成允许你组合多张图片的元素。例如"将图片A中的产品放入图片B的场景中"或"用图片C的光线效果重新渲染图片D"。Gemini最多支持3张输入图片进行合成,这对于产品合成、场景替换等商业需求非常实用。

角色一致性解决了AI图片生成的一大痛点:同一角色在不同图片中外观不一致。使用Gemini的多轮对话功能,你可以在保持角色特征的前提下,生成不同姿势、场景或表情的系列图片。这对于创建品牌IP、漫画角色或产品系列图特别重要。

多参考生成是专业用户的高级功能。你可以上传最多14张参考图片作为"灵感板",然后描述你想要的新图片。Gemini会综合参考图的风格、色调、构图等元素,生成符合整体美学的新作品。注意每张参考图会增加约$0.08的成本。

成本优化攻略:从$0.24降到$0.05

官方4K图片$0.24/张,批量API可降至$0.12/张(50%折扣)。通过laozhang.ai等第三方平台可进一步降至$0.05/张,节省79%成本,无需信用卡。

理解Gemini的计费机制是成本优化的基础,详细的定价解读可参考Gemini API定价与限制指南。Google采用Token计费模式:输入Token(你的提示词)和输出Token(生成的图片)分别计价。一张1K-2K图片消耗约1120 tokens,4K图片约2000 tokens。按官方价格,输出图像Token的价格为$120/百万tokens,折算下来1K图片约$0.134,4K图片约$0.24。

批量API是官方提供的第一层优惠。如果你的需求不需要实时响应,可以使用Batch API提交请求,享受50%折扣。批量请求会在6小时内完成处理,适合后台批量生成、非交互式工作流等场景。

方案1K-2K图片价格4K图片价格适用场景
官方实时API$0.134$0.24实时交互需求
官方批量API$0.067$0.12后台批量处理
laozhang.ai$0.05(固定)$0.05(固定)成本敏感、中国用户

对于成本敏感的用户,第三方聚合平台提供了更经济的选择。以laozhang.ai为例,所有分辨率统一$0.05/张的固定价格,相比官方4K价格节省79%。平台通过批量采购和基础设施优化实现成本压缩,同时保持与官方相同的输出质量(因为底层调用的是同一个Google模型)。

需要说明的是,第三方平台的SLA可能与官方有所不同,且不适合对数据隐私有严格合规要求的企业场景。如果你需要官方级别的技术支持和服务承诺,官方API仍是更稳妥的选择。

Gemini图片生成成本对比:官方vs批量API vs第三方平台

常见问题完整排查指南

常见错误包括:返回空消息(模型选择错误)、违反内容政策(端点错误)、配置缺失(responseModalities未设置)。本节提供完整错误代码对照表。

在使用Gemini图片生成时,开发者经常会遇到一些令人困惑的错误。这里整理了最常见的问题及其解决方案。

问题1:API返回空消息,没有生成图片

这是最常见的问题,通常有两个原因:一是模型选择错误,使用了不支持图片输出的模型(如gemini-2.5-flash而非gemini-2.5-flash-image);二是配置缺失,没有设置responseModalities参数。解决方案是确认使用正确的模型ID(gemini-2.5-flash-image或gemini-3-pro-image-preview),并在请求中添加"responseModalities": ["TEXT", "IMAGE"]

问题2:提示被拒,显示违反内容政策

这个错误不一定意味着你的提示词有问题。很多情况下是因为使用了错误的API端点——文本生成端点无法处理图片请求,会默认返回安全策略错误。确保使用图片生成专用的端点,并检查提示词是否符合Google的内容政策(避免暴力、成人内容等)。

错误类型可能原因解决方案
返回空消息模型ID错误使用gemini-2.5-flash-image或gemini-3-pro-image-preview
返回空消息配置缺失添加responseModalities: ["TEXT", "IMAGE"]
违反内容政策端点错误使用图片生成专用端点
429 Rate Limit超出配额升级付费层级或使用第三方平台
图片比例错误未指定比例在提示词中明确宽高比或提供参考图

问题3:Rate Limit错误(429)

免费层级的限制较严格(约10 RPM、50-250 RPD)。如果频繁遇到限流,可以选择升级到付费层级(300 RPM、1500+ RPD),或使用第三方平台(通常无限速限制)。

问题4:生成的图片比例与预期不符

在编辑模式下,Gemini默认保持输入图片的比例。如果需要特定比例,可以在提示词中明确说明(如"生成一张16:9横版图片"),或提供一张具有目标比例的参考图。

中国用户无障碍使用方案

中国大陆无法直接访问Gemini API。通过laozhang.ai等第三方中转可实现20ms低延迟访问,无需VPN,支持支付宝付款。

这是中国开发者最关心的问题之一,我们在Gemini中国访问完整指南中有更详细的分析。由于网络限制,直接调用Google的Gemini API在中国大陆会遇到连接失败或超时问题。即使使用VPN,延迟也通常在200-400ms,影响用户体验和开发效率。

目前主流的解决方案有三种:

方案1:VPN/代理 最直接但体验最差的方案。优点是可以访问官方API,缺点是连接不稳定、延迟高、存在合规风险,且需要额外的代理成本。

方案2:香港/海外服务器中转 自建中转服务器,延迟可控制在50-100ms。需要一定的技术能力和运维成本,适合有技术团队的企业。

方案3:第三方中转平台 最便捷的方案。以laozhang.ai为例,平台在中国大陆部署了边缘节点,延迟约20ms,远低于VPN方案的200ms+。使用OpenAI兼容格式,迁移成本几乎为零——只需修改base_url即可。支持支付宝充值,最低5美元(约35元)起充,无需国际信用卡。

方案延迟稳定性成本适用人群
VPN直连200-400ms不稳定VPN费用+官方API临时测试
自建中转50-100ms取决于运维服务器+官方API技术团队
laozhang.ai~20ms99.5%+$0.05/张大多数开发者

需要注意的是,第三方中转服务的数据会经过中间节点,对数据隐私有严格要求的场景需要评估合规性。如果是个人项目或对延迟敏感的应用,第三方中转是目前最优的平衡方案。

API代码实战:Python/JavaScript示例

本节提供Python和JavaScript的完整代码示例,包含OpenAI兼容格式和原生Gemini格式,附错误处理和重试逻辑。

Python示例(OpenAI兼容格式)

这是最推荐的调用方式,与现有OpenAI代码完全兼容,迁移成本最低:

hljs python
from openai import OpenAI
import base64

# 初始化客户端(使用laozhang.ai中转或官方API)
client = OpenAI(
    api_key="sk-your-api-key",  # 从laozhang.ai或Google获取
    base_url="https://api.laozhang.ai/v1"  # 或官方端点
)

def generate_image(prompt: str, model: str = "gemini-2.5-flash-image"):
    """
    生成图片的基础函数

    Args:
        prompt: 中文提示词
        model: 模型ID,可选gemini-2.5-flash-image或gemini-3-pro-image-preview

    Returns:
        生成的图片数据
    """
    try:
        response = client.chat.completions.create(
            model=model,
            messages=[
                {
                    "role": "user",
                    "content": prompt
                }
            ],
            # 关键配置:启用图片输出
            extra_body={
                "responseModalities": ["TEXT", "IMAGE"]
            }
        )
        return response
    except Exception as e:
        print(f"生成失败: {e}")
        return None

# 使用示例
result = generate_image(
    "一只可爱的柴犬坐在樱花树下,水彩画风格,粉色和白色的花瓣飘落"
)

if result:
    print("生成成功!")
    # 处理返回的图片数据...

带重试逻辑的生产级代码

hljs python
import time
from typing import Optional
import logging

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

def generate_with_retry(
    prompt: str,
    max_retries: int = 3,
    retry_delay: float = 2.0
) -> Optional[dict]:
    """
    带指数退避重试的图片生成

    生产环境推荐使用此函数,可应对临时网络问题和限流
    """
    for attempt in range(max_retries):
        try:
            response = client.chat.completions.create(
                model="gemini-2.5-flash-image",
                messages=[{"role": "user", "content": prompt}],
                extra_body={"responseModalities": ["TEXT", "IMAGE"]},
                timeout=60  # 图片生成可能需要较长时间
            )
            logger.info(f"第{attempt + 1}次尝试成功")
            return response

        except Exception as e:
            logger.warning(f"第{attempt + 1}次尝试失败: {e}")
            if attempt < max_retries - 1:
                sleep_time = retry_delay * (2 ** attempt)  # 指数退避
                logger.info(f"等待{sleep_time}秒后重试...")
                time.sleep(sleep_time)
            else:
                logger.error("所有重试均失败")
                return None

    return None

JavaScript/Node.js示例

hljs javascript
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: 'sk-your-api-key',
  baseURL: 'https://api.laozhang.ai/v1'
});

async function generateImage(prompt) {
  try {
    const response = await client.chat.completions.create({
      model: 'gemini-2.5-flash-image',
      messages: [{ role: 'user', content: prompt }],
      // @ts-ignore - 启用图片输出
      responseModalities: ['TEXT', 'IMAGE']
    });

    console.log('生成成功:', response.choices[0].message);
    return response;
  } catch (error) {
    console.error('生成失败:', error.message);
    throw error;
  }
}

// 使用示例
generateImage('一个极简风格的科技公司logo,蓝色和白色配色,几何形状')
  .then(result => console.log('完成'))
  .catch(err => console.error('错误:', err));

FAQ:Gemini图片生成常见问题

Gemini图片生成免费吗?

Gemini在Google AI Studio中完全免费使用,适合测试和学习。通过API调用则需要付费,免费层级每天约可生成100张图片。新用户可获得$300赠金(90天有效期),足够进行充分的测试和小规模生产使用。

中文提示词效果好吗?

非常好。Gemini对中文的理解准确率达96.8%,支持繁简体自动识别、成语理解和文化背景适配。实测显示,中文提示词与英文提示词的生成质量差异小于5%,对于大多数场景完全够用。如果追求极致效果,可以将中文提示词翻译成英文后使用。

生成的图片版权归谁?

根据Google的服务条款,通过Gemini API生成的图片版权归用户所有,可用于商业用途。但需要注意:不能生成模仿特定艺术家风格的作品用于商业目的,也不能生成可能侵犯他人肖像权的内容。建议在商业使用前仔细阅读Google的使用政策。

如何提高文字渲染准确率?

使用Nano Banana Pro(gemini-3-pro-image-preview)可获得95%+的文字准确率。此外,建议将文字控制在25个字符以内、使用2-3个短语而非长句、在提示词中明确说明文字内容和位置。如果文字仍有错误,可以使用后续的编辑功能进行修正。

一次最多能生成几张图片?

单次请求最多生成4张图片。如果需要批量生成,建议使用异步批处理模式或循环调用。注意批量生成时要控制请求频率,避免触发限流。

Gemini能生成人像吗?

可以,但有限制。出于安全考虑,Gemini对人像生成有较严格的内容过滤,可能拒绝某些涉及真实人物、敏感姿态或争议性内容的请求。生成虚构人物、插画风格人物或明确标注为AI生成的肖像通常没有问题。

总结与行动指南

通过本文,你已经掌握了Gemini图片生成的完整知识体系:从基础的指令格式到高级的编辑功能,从中文提示词的6要素结构到20+即用模板,从成本优化策略到中国访问方案。

核心要点回顾

  • Gemini更适合叙述性描述,而非关键词堆叠
  • 使用6要素结构(背景+主体+环境+技术+风格+情感)构建高质量提示词
  • Nano Banana适合日常创作,Nano Banana Pro适合专业场景
  • 通过批量API或第三方平台可大幅降低成本(最高节省79%)

推荐学习路径

  1. 从模板库中选择一个场景,尝试生成第一张图片
  2. 理解6要素结构,尝试修改模板或创建自己的提示词
  3. 探索编辑和风格迁移等进阶功能
  4. 根据需求选择合适的成本优化方案

如果你正在寻找稳定、高性价比的Gemini图片生成服务,可以了解一下laozhang.ai。平台提供$0.05/张的固定价格、中国直连低延迟、OpenAI兼容格式,适合个人开发者和中小团队。详细价格和使用文档可查阅官方文档

现在就开始你的Gemini图片创作之旅吧!

推荐阅读