最后修改时间:2025-08-29 03:57:25
Gemini 也提供了图像生成能力,作为一种替代方案。与 Imagen 3.0 相比,Gemini 的图像生成更适合于需要上下文理解和推理的场景,而非追求极致的艺术表现和视觉质量。
更高的视觉质量 → 相比 exp 版,图像更锐利、更丰富、更清晰。
更准确的文本呈现 → 生成的视觉中,文本更加精准、干净、易读。
显著减少过滤拦截 → 得益于更智能、宽松的过滤机制,创作时几乎不再被打断。
说明:
模型 id:gemini-2.0-flash-preview-image-generation
费率(输入→输出):
0.1
→
0.1→0.4/M tokens
需要新增参数来体验新特性 "modalities":["text","image"]
图片以 Base64 编码形式传递与输出
作为实验模型,建议明确指出 “输出图片”,否则可能只有文本
输出图片的默认高度为 1024px
python 调用需要最新的 openai sdk 支持,请先运行 pip install -U openai
了解更多请访问 Gemini 官方文档