(以下内容从德邦证券《计算机:GPT-4o原生图像告别“AI味”,进阶为生产力工具》研报附件原文摘录)
投资要点:
GPT-4o集成多模态原生图像生成功能,效果良好引爆用户使用热情。北京时间3月26日,OpenAI推出GPT-4o原生图像生成,意味着图像生成不再依赖于单独的DALL-E3模型,而是直接集成到了GPT-4o的核心能力中,这种集成带来了更流畅的用户体验和更强大的图像生成、修改能力。据OpenAI官方说明,GPT-4o在多个方面相较于过去的模型进行了改进,具有如下突出优势:1)更好的文本集成:与过去那些难以生成清晰、恰当位置文字的AI模型不同,GPT-4o现在可以准确地将文字嵌入图像中;2)增强的上下文理解:GPT-4o通过利用聊天历史,允许用户在互动中不断细化图像,并保持多次生成之间的一致性;3)改进的多对象绑定:过去的模型在正确定位场景中的多个不同物体时存在困难,而GPT-4o现在可以一次处理多达10至20个物体;4)多样化风格适应:该模型可以生成或将图像转化为多种风格,支持从手绘草图到高清写实风格的转换。目前,该功能已经作为ChatGPT中的默认图像生成器向Plus、Pro、Team和免费用户陆续推出,企业和教育用户将很快允许访问。得益于超预期的效果,GPT-4o原生图像功能上线不到72小时,OpenAI CEO奥特曼宣布ChatGPT图像生成功能开始暂时受限。
GPT-4o基于自回归模型,相较扩散模型显现出更强的连贯性和更精准的编辑能力。与作为扩散模型运行的DALL-E不同,4o图像生成是一种原生嵌入在ChatGPT中的自回归模型。具体来看,OpenAI对整个模型进行了统一训练,使其能够同时理解文本、代码和图像等多种形式,GPT-4o在文本渲染方面进行了优化,并采用"自回归方法"生成图像,即从左到右、从上至下逐步构建画面,通过先理解整体结构,然后进行细节填充的方式,在处理复杂场景时图像质量和逻辑性更有保障。过往采用的生成式AI图像模型,例如OpenAI的DALL-E3使用的是扩散模型,即通过去除像素噪声来根据文本提示重建图像。这种根本性的差异带来了一些与之前的生成模型截然不同的新能力:1)图像到图像的转换:这项功能使得4o图像生成能够将一张或多张图像作为输入,并生成一张相关或经过修改的图像;2)超写实能力:在某些情况下,4o生成的图像看起来就像一张照片。3)指令遵循:4o图像生成能够遵循详细的指令,并渲染文本和说明性图表,具有更强的实用性。
我们认为,GPT-4o原生图片生成意味着模型即产品和生产力工具或将来临,利好下游AI应用以及衍生的巨量推理需求。首先,相较于过往文生图依赖于用户的Prompt,GPT-4o生图能力会对人类提出的Prompt进行细化,编写出一个更加详细的英文版提示词,这大幅降低了使用门槛,无需跳转到其他应用或使用复杂的工具。其次,它还会充分调用模型内已有的知识库和对话上下文,并对人们上传的参考图片预先进行转化处理,基于GPT本身对文字生成和语义理解的强大,GPT-4o在处理文字和图片融合的场景时,表现得异常强大,这对于海报制作、广告图制作效果明显。最后,它能生成非常逼真的图像,支持照片真实感和风格,减少“AI味”,使之成为真正有价值的AI应用。综合来看,我们认为,GPT-4o原生图片生成跨越了文生图的提示词和效果两大门槛,有望在广告等下游应用场景广泛使用,降低高质量广告等图片生成成本。而AI生成图片的普及,也需巨量的推理算力有效支撑,例如此次OpenAI GPUs未能广泛支撑用户对4o图片生成功能的需求,体现了推理算力对AI应用起到的重要保障作用。
投资建议。建议关注:AI多模态:虹软科技、万兴科技、中科创达、当虹科技、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技;AI应用:金山办公、致远互联、中科星图、金蝶国际、博睿数据、润达医疗、京北方、福昕软件、彩讯股份、鼎捷数智、汉得信息、用友网络、虹软科技、万兴科技、航天宏图、云从科技、光云科技、同花顺、新致软件、创业慧康、卫宁健康、嘉和美康等;AI算力:云天励飞、华丰科技、泰嘉股份、烽火通信、神州数码、海光信息、中科曙光、曙光数创、寒武纪等。
风险提示:AI商业化进展不及预期、AI技术迭代不及预期、下游竞争加剧等。
