谷歌发布Imagen 3,掀起AI图像生成器竞赛

币界网Published on 2024-08-16Last updated on 2024-08-16

币界网报道:

谷歌推出了其全新的文本到图像模型Imagen 3,为生成式人工智能领域忙碌的一周锦上添花。此版本建立在2023年12月推出的Imagen 2的成功之上,Imagen 2已经可以与Dall-E 3和MidJourney v5等行业重量级产品相媲美。

Imagen 3最初于5月发布,与前代产品相比,它在理解和执行复杂提示、生成细节改进的图像以及更好的提示遵守方面具有更强的能力。它非常通用,可以产生从照片真实感到艺术和3D构图的良好效果。

谷歌在其官方声明中表示:“Imagen 3是我们质量最高的文本到图像模型,能够生成比我们之前的模型具有更好细节、更丰富照明和更少干扰伪影的图像。”。

Imagen 3的快速改进使用户能够用自然语言描述所需的图像,而无需复杂的提示工程。该模型的训练还包含了更丰富的图像标题,使其能够捕捉到细微的细节,如特定的相机角度或构图,以及需要时的长文本提示。

这家科技巨头特别强调Imagen 3增强的文本渲染功能。虽然有了明显的改进,但我们的初步测试表明,它的功能与Dall-E 3、Auraflow或Flux等其他型号不太一样。

Imagen 3和Grok 2使用相同提示的世代

谷歌还强调了其在Imagen 3的开发和部署中对安全和责任的承诺。该公司实施了所谓的“广泛过滤和数据标记”流程,以尽量减少模型训练数据集中的有害内容。此外,谷歌表示,它进行了彻底的评估,包括红队演习,以识别和修复潜在的漏洞。

同样重要的是要注意,Imagen 3集成了谷歌的水印工具SynthID。SynthID将数字签名直接嵌入生成图像的像素中。这种水印人眼无法察觉,但可以通过专门的软件检测到,提供了一种识别人工智能生成内容的方法。

目前,Imagen 3可通过谷歌的ImageFX平台和Vertex AI获得。展望未来,谷歌计划在未来几个月内将Imagen 2的流行编辑功能,如修复(编辑图像中的元素)和外绘(扩展),引入Imagen 3。该公司还宣布打算在其更广泛的产品生态系统中扩展Imagen 3的可用性,包括集成到Gemini应用程序、谷歌工作区和谷歌广告中。

此次发布是谷歌更广泛战略的一部分,该战略旨在将Gemini和人工智能技术基本纳入其所有服务和硬件中。本周,该公司推出了新的Pixel 9系列,其设计以人工智能功能为核心。新的Pixel手机可以在本地处理某些生成性AI任务,包括基于文本的任务和小图像生成。

Imagen 3的发布正值人工智能图像生成领域的一系列活动。埃隆·马斯克的xAI最近推出了Grok 2,其特色是Flux.1图像生成器,该生成器因其能够生成高度逼真、未经审查的图像以及强大的文本生成功能而受到关注。

与此同时,该领域的另一个关键参与者MidJourney宣布即将对其型号进行v6.2更新。该公司还透露了计划在未来几个月发布的MidJourney v7的开发情况。Ideogram是人工智能图像生成领域的另一个竞争者,也暗示其模型即将更新。最后。开放模型倡议选择Flux.1作为开发其最先进的开源图像生成模型的基础。

由Ryan Ozawa编辑。

Related Reads

Trading

Spot
Futures

Hot Articles

Discussions

Welcome to the HTX Community. Here, you can stay informed about the latest platform developments and gain access to professional market insights. Users' opinions on the price of AI (AI) are presented below.

活动图片