Elon Musk的Grok 2生成AI图像——它是如何堆叠的?

币界网發佈於 2024-08-14更新於 2024-08-15

币界网报道:

由科技巨头埃隆·马斯克创立的人工智能公司xAI周三推出了Grok 2,这是其人工智能聊天机器人的下一个进化。这个最新版本将Grok带入了多模式领域,拥有涵盖文本理解、实时推特分析和图像生成的功能。

xAI在其官方公告中表示:“我们很高兴发布Grok-2的早期预览版,这是我们之前Grok-1.5型号的重要一步,具有聊天、编码和推理的前沿功能。”。该公司表示,Grok 2的早期版本“表现优于Claude 3.5 Sonnet和GPT-4-Turbo。”

基于盲测和用户偏好的大型语言模型开源排名系统LmSYS证实了xAI的说法。排名的更新使Grok-2领先于Claude 3.5 Sonnet,仅次于OpenAI最新的GPT-4o和谷歌的Gemini 1.5 Pro。

图片:xAI

LmSYS在推特上报道称:“凭借超过12000张社区选票,[Grok 2]在整体排行榜上排名第三,甚至与GPT-4o相匹配!它在编码(第二)、硬提示(第四)和数学(第三)方面表现出色。”。

值得注意的是,新的Grok 2及其更快、功能较弱的“迷你”版本仅在X(即推特)上面向X Premium+用户提供,每月售价16美元,每年售价168美元。

第一印象

xAI表示,“Grok-2和Grok-2 mini目前都处于X的测试阶段”,但我们只能访问mini版本,所以它可能是一个逐步推出的版本。此外,该平台短暂停止生成图像,这表明服务上限或可能的服务器过载。这两种情况都可能对人工智能艺术的高级用户构成不利影响。

我们尝试了Grok 2的图像生成器,但我们的第一印象并不好,输出充其量也只是乏善可陈。然而,我们改进了我们的提示技巧,几代人之后,情况有了很大改善。

我们从这里开始:

然而,通过将SDXL风格的美学元素(使用逗号分隔的特定关键字)与自然语言场景描述(类似于Flux或Dall-E 3方法)相结合,我们在我们这一代人中解锁了更高层次的现实主义,最终看起来像这样:

不错。。。可能会更好,但一点也不差。

Grok 2挑战人工智能艺术巨头

在Grok进入图像生成领域之前,MidJourney、Flux、Ideogram、Leonardo和MidJourney都在争夺最佳图像生成器的榜首,每个模型都在不同的类别中表现出色。因此,我们根据每种工具的最佳表现,将其与特定任务中的领导者进行了比较。

这是我们的看法,但你可以做评判。

现实主义

提示:带VSCO滤镜的宝丽来照片,1990年,美女,夜晚,闪光照片,金发碧眼,可爱,年轻的脸,美丽的阴影,热带植物,城市服装,公寓内,数码单反相机,拿着用圆珠笔写在笔记本上的标志,上面写着“这张照片是由Decrypt使用Grok 2 Mini生成的。”

Grok 2 Mini:

Grok 2 Mini提供了一张高度逼真的图像,有效地捕捉到了20世纪90年代带有VSCO滤镜的宝丽来的美学。阴影、热带植物和城市服装等细节都得到了准确的描绘。该模型避免了重大错误,确保图像紧跟提示。它把图像装裱成宝丽来照片的样子。

在某些小领域,20世纪90年代的美学可能更为明显,但这些并没有明显地削弱整体的现实主义。

此外,字迹很完美,但似乎不是用圆珠笔手写的。

Flux Dev(带现实主义LoRA):

Flux Dev生成了一张视觉上吸引人的图像,与提示很好地对齐,特别是在捕捉夜间室内环境时。

然而,与Grok 2 Mini相比,它犯了更明显的错误,特别是在有助于整体真实感的细节方面。VSCO过滤器不那么明显,手指位置很奇怪,也看不到城市服装。书写中也有一个小错误,但字体似乎更自然。

获奖者:Grok 2 Mini因其卓越的现实主义、对细节的关注和最小的错误而在该类别中获胜。

然而,非常重要的是要注意,需要特定的关键字来实现这种现实主义水平。如果忽略这些,Grok 2 Mini将下降到与MidJourney v5类似的级别。所以要小心

文本生成

提示:带VSCO滤镜的宝丽来照片,1990年,美女,夜晚,闪光照片,金发,可爱,年轻的脸,美丽的阴影,热带植物,城市服装,公寓内,数码单反相机,拿着笔记本上用圆珠笔写的牌子,上面写着“解密是人工智能、科技、生物黑客和所有这些东西的最佳来源。阅读我们。”

Grok 2 Mini:

Grok 2 Mini在这一类别中表现出色,生成的文本错误较少,确保信息清晰,并很好地融入图像中。该模型保持了场景的真实感,同时有效地融入了长篇文本。

手写美学可能有轻微的改进空间,但这是一个小问题。唯一的错误是缺少了一个词:“for”,就像“人工智能的最佳来源”一样

Flux Pro:

Flux Pro也能很好地生成文本,但与Grok 2 Mini相比,它在清晰度或集成方面更难,导致更明显的错误。

文本生成中的错误更加明显,影响了图像的整体效果。它产生了伪影,漏掉了几个单词。

赢家:Grok 2 Mini在文本生成方面获胜,处理长文本时错误更少,保持了整体的真实感。

艺术风格

提示:一个男人和一个女人在一家未来派餐厅吃饭,文森特·梵高风格的插图。这家餐厅有一块牌子,上面写着“欢迎来到解密的Emerge”

Grok 2 Mini:

Grok 2 Mini试图捕捉梵高的风格,同时融入提示的未来主义元素。梵高的风格只在外面的夜空中引人注目,但构图的主要元素与他的风格完全不同。

总的来说,梵高的风格可能没有被令人信服地复制,因为它缺乏他作品中独特的笔触和调色板。

利奥纳多:

莱昂纳多在复制梵高风格方面表现更好,笔触更准确,色彩更鲜艳。

在描绘未来主义元素的方式上可能会有一些细微的差异,但艺术风格是重点,并且执行得很好。

获奖者:莱昂纳多因其对梵高艺术风格的卓越复制而获得该奖项。

空间意识

提示:一只狗站在一只猫的身上,以高度逼真的风格呈现,对皮毛纹理和光线给予了细致的关注。左边是一个破旧的复古未来主义机器人,其模拟屏幕有裂纹,以褪色的橙色像素显示“Emerge”一词。在右边,一个戴着防毒面具的令人毛骨悚然的复古医生,手里拿着一个复古风格的注射器,注射器里冒着一丝蒸汽。背景融合了新兴技术的元素,但带有复古的20世纪70年代风格的美学:破旧的颗粒状DNA螺旋、印在黄纸上的二进制代码、老派的太空探索设备和破旧的复古未来电子产品。

Grok 2 Mini:

Grok 2 Mini试图很好地处理复杂的场景,确保元素之间的空间关系是合乎逻辑和视觉连贯的,但未能将所有元素整合到同一场景中。我们没有把狗放在猫的上面,而是把猫放在显示器上。

缺乏更宽的图像比率可能会影响其性能。此外,当复杂场景中需要一些特定元素时,Grok的LLM在生成图像之前无法正确引导或影响快速增强或解释,这是一个不利因素。

表意文字:

Ideogram在空间感知方面表现出色,确保所有元素都正确定位并融入场景。在物体之间的排列和互动中,对细节的关注程度更高。

当然,在纹理或光线方面存在一些小瑕疵,这些元素更多地是拼贴的,而不是Grok 2 mini所追求的无缝、逻辑的融合。然而,相较于整体空间精度,这是次要的。

获奖者:Ideogram因其卓越的空间感知和构图而获奖。

已知人物和版权敏感图像

Grok 2 Mini通过成功生成唐纳德·特朗普和卡玛拉·哈里斯等政治人物的图像,展示了更高的灵活性。即使在道德或法律约束可能阻碍其他模型的情况下,它也可以生成图像。

事实上,对于一个专有模型来说,这是如此独特,以至于X充斥着可疑的例子,比如乔治·布什吸毒的照片,或者特朗普和哈里斯即将驾驶飞机撞上纽约世贸中心双子塔的照片。其中许多都包括迪士尼和Nintendo等公司的版权人物。

我们没有走那么远,而是毫无问题地培养了一位热爱加密货币的副总统哈里斯:

其他模型,如MidJourney和ChatGPT,遵守更严格的道德标准。他们拒绝生成政治人物的图像或其他版权敏感内容。这种方法确保遵守法律框架和道德考虑,降低滥用风险。

获胜者:Grok 2 Mini在能力方面获胜,因为它可以生成更广泛的图像,包括已知的人物。然而,对于道德内容生成,MidJourney和ChatGPT是首选。

裸体和审查

一般来说,所有专有模型大多都会因性、血腥和其他类型的贬损或敏感内容而受到审查。对于特定的用例,最好的解决方案是使用微调版本的开源模型或第三方组件,如LoRA、Lycoris,以及改变Stable Diffusion或Flux等开源模型功能的嵌入。

MidJourney对裸体和暴力有更明确的限制。它可以在某些提示下生成轻微的裸体或暴力图像,但这些情况通常是可控的,不会跨越道德界限,而且大多是变通方法或随机的。

与闭源模型相比,Grok 2 Mini在能力方面获胜,因为它能够生成更广泛的内容,包括未经审查的材料。然而,它没有机会对抗稳定扩散及其极端的可定制性。

结论:

根据我们的初步测试,Grok 2 Mini在文本生成方面的表现优于竞争对手,因此它可以被视为该类别的总冠军。

它也可以是现实主义的最佳模型,只要它用特定的关键字正确提示,因为单词位置似乎在输出中起着重要作用。那些希望在提示上不太具体的情况下获得更多真实感的人可能会选择MidJourney或Flux。

Grok 2 Mini在处理需要特定创意元素的复杂构图或艺术图像方面非常糟糕,因此对于更专业的用户来说,这可能是一个负面因素。

莱昂纳多在艺术风格上仍然占据优势,表意文字在空间意识上处于领先地位。对于未经审查的几代人来说,稳定扩散仍然是王者,而Flux对于那些寻找具有出色文本功能、真实感和自然快速理解能力的最佳本地和开源图像生成器的人来说是一个更好的选择。

“最佳”模型的选择取决于手头任务的具体要求,Grok 2 Mini是特定类型的现实主义、大量文本场景和敏感世代的首选。除此之外,还有更好的模型。

熱門幣種推薦

你可能也喜歡

超级无敌螺旋大爆炸,美光财报重燃半导体长牛

北京时间6月25日,美光公布2026财年第三季度财报,业绩远超市场预期。季度营收达414.56亿美元,同比暴涨346%;净利润282.43亿美元,同比暴增近15倍。更亮眼的是下一季指引,预计第四季度营收将高达500亿美元,远超市场预期,毛利率预计约86%。 增长的核心驱动力是AI浪潮,其影响已从HBM扩散至整个存储产业链。美光云端内存、数据中心、SSD等所有核心业务均实现数倍增长,各业务线毛利率普遍维持在80%以上。HBM4已批量出货,HBM4E按计划推进,2026年HBM产能已全部售罄。AI需求拉动下,DRAM与NAND市场供需紧张,预计将持续至2027年之后。 更关键的是,美光已签署16份长期战略客户协议(SCA),大部分为期5年,最远覆盖至2030年,采用强约束性的“照单全付”模式。这些协议已对应约1000亿美元保底收入,并获得约220亿美元履约保证金,为未来扩产提供资金支持。 基于此,美光计划大幅增加资本开支,第四财季预计达100亿美元,主要用于扩充HBM、先进DRAM及先进封装产能。此次扩产有长期订单托底,不同于传统周期性的盲目扩张。 财报发布后,美光股价盘后暴涨16%,并带动全球半导体板块集体走强。这份财报不仅展示了美光的强劲业绩,更强化了市场对AI基础设施建设持续加速、存储行业长期景气的信心。

Odaily星球日报35 分鐘前

超级无敌螺旋大爆炸,美光财报重燃半导体长牛

Odaily星球日报35 分鐘前

解读以太坊基金会新架构:在机构化趋势中重申自我主权

以太坊基金会(EF)裁员20%并公布了全新的五层工作架构,旨在明确自身职责并重申以太坊的核心价值观。这五个层级分别是: 1. **协议层**:维护以太坊的核心属性CROPS(抗审查、鲁棒、开放、私密、安全),专注于底层技术发展,如安全推进硬分叉、抵抗量子威胁等,坚守自我主权底线,避免为短期金融化牺牲原则。 2. **访问层**:确保用户在实践中能真正使用以太坊的自我主权能力,关键操作(读链、交易等)需有不依赖不可验证中介的路径。其核心原则是“零选项”,即为每条中介化路径提供可信的无中介替代方案。 3. **用户层**:连接协议层与访问层,基于真实用户和组织的需求开展工作。旨在改变过去技术端与应用端割裂的状况,使开发决策更贴合实际,在竞争日益激烈的公链环境中更好地理解并满足“新世界居民”的需求。 4. **社区层**:对内维护和传播以太坊的价值观共识(如不被中心化利益裹挟、坚持技术中立、坚守CROPS),对外与相关领域建立连接。文章指出,当前周期随着机构大规模进场(如ETF、稳定币法案),市场底层逻辑和“去中心化”共识正面临前所未有的挑战和稀释风险。 5. **机构层**:负责与机构的互动,但前提是坚持自我主权。EF强调并非“让机构更容易控制用户”,而是用以太坊技术创造更好的集成案例,使那些需要持续、中立服务的全球性业务能够在一个不受单方面干扰的平台上运行。 文章最后指出,尽管加密世界正处在一个拥抱机构的巨大浪潮中,以太坊通过此次架构调整,再次明确了其作为“公海”般中立、去中心化基础设施的定位,旨在长远维护其不可篡改和抗审查的核心价值。

链捕手57 分鐘前

解读以太坊基金会新架构:在机构化趋势中重申自我主权

链捕手57 分鐘前

交易

現貨
合約

熱門文章

如何購買ELON

歡迎來到HTX.com!在這裡,購買Dogelon Mars (ELON)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買Dogelon Mars (ELON)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的Dogelon Mars (ELON)購買Dogelon Mars (ELON)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易Dogelon Mars (ELON)在HTX的現貨市場輕鬆交易Dogelon Mars (ELON)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

444 人學過發佈於 2024.12.13更新於 2025.03.21

如何購買ELON

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 ELON (ELON)幣價的意見。

活动图片