OpenAI在凌晨发布了突破性的多模态模型GPT-4o,该版本不仅支持文本生成图像(文生图),还具备原生多模态能力,可无缝处理文本、语音、图像等多种输入方式。据悉,GPT-4o大幅优化了响应速度与交互流畅度,且免费向用户开放,显著降低AI技术的使用门槛。其核心升级包括跨模态理解能力的加强,例如能直接分析图像内容并生成图文结合的回答,同时语音交互的延迟大幅降低至人类对话水平。此次发布被业界视为OpenAI布局多模态生态的关键一步,通过技术普惠推动AIGC应用场景的拓展。网友实测反馈其生成效果稳定,尤其在复杂指令处理上展现出色逻辑性,进一步模糊了专业与普通用户之间的技术鸿沟。
身怀绝技的GPT-4o已经完美整合了图像生成功能,这意味着用户再也不需要在不同平台间来回切换——不论是Sora的画笔还是Dall·e3的调色盘,现在统统融入一场流畅的对话中,令人称奇的是,它不仅能够精准还原文字描述,更能准确把握提示语里的微妙细节,甚至可以根据聊天上下文和知识储备,将用户上传的图片转化为全新的视觉创意。
让我们直观感受这些令人惊艳的作品:
【图片位置1】
【图片位置2】
这次更新带来了六大突破性的提升:
文字融入画面就像诗人挥毫泼墨,GPT-4o将精确的文字符号自然地嵌入图像之中,看看这个路标,每个字母都分毫不差地还原了提示词的要求。
【图片位置3】
对话式创作更像是在与一位艺术家朋友交流,当你描述"想要一个穿皮夹克的摇滚精灵"时,它能记住这个角色形象,并在后续优化中保持一致性,比如先塑造出基本形象,再根据你的建议添加翅膀、调整发型,整个过程行云流水。
【图片位置4】
【图片位置5】
【图片位置6】
【图片位置7】
【图片位置8】
精准执行指令的能力堪称一绝,当其他模型还在为处理五六个对象发愁时,GPT-4o已经能游刃有余地驾驭十多个元素的复杂场景,每个物体与其属性的关系都被忠实地呈现。
【图片位置9】
情境学习让创作更加灵动,它能仔细品鉴用户上传的图片,将这些视觉元素悄然融入新的创作中,像是一位懂得"师法自然"的画家。
【图片位置10】
【图片位置11】
【图片位置12】
【图片位置13】
知识融合展现了真正的智能,GPT-4o让文字与图像之间的知识自由流动,创造出更具深度的作品。
【图片位置14】
风格化表现达到了令人惊叹的程度,从狗仔队偷拍到文艺复兴风格,它都能信手拈来,看看这个脑洞大开的场景:卡尔马克思拎着奢侈品购物袋在商场停车场"落荒而逃",简直就是当代艺术的注脚,还有那只在水洼中看见老虎倒影的小猫,涟漪间的虚实相生颇具禅意。
【图片位置15】
提示词:一张坦率的狗仔队风格的照片,卡尔马克思匆忙地穿过美国购物中心的停车场...
【图片位置16】
提示词:一只猫看着街道上的一滩水,但它的倒影是一只老虎...
这项创新功能已经向ChatGPT的Plus、Pro、Team及免费用户开放,企业版和教育版也将很快跟进,Sora用户同样可以体验这一神奇功能。
不妨现在就开启这段奇妙的视觉创作之旅吧!更多详情可参考OpenAI官网介绍:
https://openai.com/index/introducing-4o-image-generation/
网友评论