近期测评聚焦GPT-4o与即梦、Gemini、Flux等T0级多模态模型的生图能力横测。测试覆盖100组场景,涉及写实、插画、抽象风格生成,结果表明:GPT-4o在细节还原与跨模态理解上表现突出,尤其在复杂指令(如“光影交织的赛博都市”)中展现高完成度;即梦在艺术风格化上占优,而Gemini的动态连贯性更佳。多模态维度上,GPT-4o凭借语音+图像+文本的实时交互,成为“十项全能”代表,但在特定垂直领域(如医疗图表)仍需与Flux等互补。整体而言,头部模型差异化竞争加速,技术边界进一步模糊。
OpenAI终于发布了期待已久的GPT-4o多模态绘图功能,经过一年等待,这个号称能融合文字、图像、对话的新模型,是否真能超越市面上成熟的AI绘图工具?我们将其与Flux、Midjourney、即梦2.1等主流产品进行横向对比,通过上百组测试,带你一探究竟。
一、写实风格对决:GPT-4o vs Flux
Flux一直是写实风格的标杆,尤其在人物肖像和场景渲染上表现突出,我们首先测试了一张非洲马赛族老者的面部特写:
提示词:非洲马赛族老者面部特写,琥珀色瞳孔倒映草原
Flux的皮肤纹理和瞳孔细节依然细腻,但GPT-4o对“马赛族”特征的还原令人惊喜——皱纹的层次感、部落装饰的准确性甚至更胜一筹。
再看一组夜景灯光测试:
提示词:午夜东京便利店,霓虹灯牌与冷藏柜的混合光照
Flux的写实感更强,货架陈列更符合现实逻辑;而GPT-4o的光影处理更具艺术性,霓虹灯牌的眩光效果甚至有些赛博朋克的味道,不过,Flux生成的文字仍是乱码,这点GPT-4o完胜。
Flux的“杀手锏”——网红风格人像:
提示词:上海甜品店的中国女孩,韩式水光肌妆容,手持珍珠奶茶
结果毫无悬念:Flux对“网红审美”的拿捏堪称教科书级别,从45度仰角到发丝光泽都精准复刻社交媒体爆款;GPT-4o虽能完整呈现提示词要素,但氛围感稍逊。
小结:写实领域Flux仍是王者,但GPT-4o的进步令人咋舌——对比初代DALL·E的涂鸦级输出,如今已能逼真还原民族特征与复杂光影。
二、风格化创作:GPT-4o vs Midjourney
Midjourney以强烈的风格化表现著称,我们重点测试了跨风格融合能力。
赛博观音:
GPT-4o精准呈现了“千手机械臂”和“代码裂纹”,而Midjourney的版本更像科幻电影海报,虽未完全遵循提示词,但张力十足。
敦煌飞天机械姬:
这次GPT-4o碾压式胜出——飘带化为发光电路、全息佛光与数学符号的融合浑然天成;Midjourney则停留在“镀金机器人”阶段,细节经不起推敲。
赛博水墨:
GPT-4o交出了满分答卷:江南白墙黛瓦与悬浮轨道的碰撞既保留水墨留白,又充满未来感,Midjourney则偏向传统山水,赛博元素仅浮于表面。
小结:在需要精准理解复合概念的创作中,GPT-4o展现出更强的指令遵循能力,而Midjourney更擅长“感觉优先”的艺术表达。
三、文字生成:GPT-4o vs 即梦2.1
即梦2.1曾是中文海报生成的标杆,但GPT-4o的表现让人眼前一亮:
像素风游戏海报:GPT-4o的8-bit字体和角色动态完胜;
打工人进化图鉴:即梦的生物学标本风格更有创意,但GPT-4o的标签排版更专业;
四格漫画:GPT-4o能严格遵循分镜脚本,而即梦常遗漏关键情节。
最震撼的是多语言街景测试:GPT-4o生成的日文、韩文招牌无一错漏,连报刊亭头条都清晰可读——这在过去几乎是AI绘图的“不可能任务”。
四、对话修图:GPT-4o的独门绝技
通过多轮对话修改图像是GPT-4o的强项,例如上传一张照片后,只需说“把背景换成雪山,人物衣服换成汉服”,它就能无缝实现,对比测试中,其自然语言理解能力明显优于Gemini和豆包。
更惊艳的是多图融合功能:
- 将马斯克照片与奥特曼合成比心造型;
- 把UI设计稿嵌入手机发布会场景;
- 用粉笔画风格重绘照片……
这些操作以往需要PS多步骤完成,现在一句话即可搞定。
**五、如何体验?
目前GPT-4o绘图功能面向Plus和Pro用户开放,可通过两种方式使用:
1、聊天窗口:支持多轮对话修图,但单次仅生成一张图;
2、Sora页面:可批量生成4张图并固定比例,适合快速迭代。
这次测试彻底刷新了我们对AI绘图的认知:
精准性:文字、多元素、跨风格融合的稳定性前所未见;
效率:透明通道生成、多图合成等功能让设计流程大幅简化;
门槛:自然语言交互使得专业级创作不再依赖复杂参数。
如果说过去的AI工具还需要“驯服”,那么GPT-4o更像一个懂你想法的创作伙伴——这才是真正意义上的“智能”突破。
网友评论