Elon Musk的Grok 2生成AI图像——它是如何堆叠的?

币界网Publié le 2024-08-14Dernière mise à jour le 2024-08-15

币界网报道:

由科技巨头埃隆·马斯克创立的人工智能公司xAI周三推出了Grok 2,这是其人工智能聊天机器人的下一个进化。这个最新版本将Grok带入了多模式领域,拥有涵盖文本理解、实时推特分析和图像生成的功能。

xAI在其官方公告中表示:“我们很高兴发布Grok-2的早期预览版,这是我们之前Grok-1.5型号的重要一步,具有聊天、编码和推理的前沿功能。”。该公司表示,Grok 2的早期版本“表现优于Claude 3.5 Sonnet和GPT-4-Turbo。”

基于盲测和用户偏好的大型语言模型开源排名系统LmSYS证实了xAI的说法。排名的更新使Grok-2领先于Claude 3.5 Sonnet,仅次于OpenAI最新的GPT-4o和谷歌的Gemini 1.5 Pro。

图片:xAI

LmSYS在推特上报道称:“凭借超过12000张社区选票,[Grok 2]在整体排行榜上排名第三,甚至与GPT-4o相匹配!它在编码(第二)、硬提示(第四)和数学(第三)方面表现出色。”。

值得注意的是,新的Grok 2及其更快、功能较弱的“迷你”版本仅在X(即推特)上面向X Premium+用户提供,每月售价16美元,每年售价168美元。

第一印象

xAI表示,“Grok-2和Grok-2 mini目前都处于X的测试阶段”,但我们只能访问mini版本,所以它可能是一个逐步推出的版本。此外,该平台短暂停止生成图像,这表明服务上限或可能的服务器过载。这两种情况都可能对人工智能艺术的高级用户构成不利影响。

我们尝试了Grok 2的图像生成器,但我们的第一印象并不好,输出充其量也只是乏善可陈。然而,我们改进了我们的提示技巧,几代人之后,情况有了很大改善。

我们从这里开始:

然而,通过将SDXL风格的美学元素(使用逗号分隔的特定关键字)与自然语言场景描述(类似于Flux或Dall-E 3方法)相结合,我们在我们这一代人中解锁了更高层次的现实主义,最终看起来像这样:

不错。。。可能会更好,但一点也不差。

Grok 2挑战人工智能艺术巨头

在Grok进入图像生成领域之前,MidJourney、Flux、Ideogram、Leonardo和MidJourney都在争夺最佳图像生成器的榜首,每个模型都在不同的类别中表现出色。因此,我们根据每种工具的最佳表现,将其与特定任务中的领导者进行了比较。

这是我们的看法,但你可以做评判。

现实主义

提示:带VSCO滤镜的宝丽来照片,1990年,美女,夜晚,闪光照片,金发碧眼,可爱,年轻的脸,美丽的阴影,热带植物,城市服装,公寓内,数码单反相机,拿着用圆珠笔写在笔记本上的标志,上面写着“这张照片是由Decrypt使用Grok 2 Mini生成的。”

Grok 2 Mini:

Grok 2 Mini提供了一张高度逼真的图像,有效地捕捉到了20世纪90年代带有VSCO滤镜的宝丽来的美学。阴影、热带植物和城市服装等细节都得到了准确的描绘。该模型避免了重大错误,确保图像紧跟提示。它把图像装裱成宝丽来照片的样子。

在某些小领域,20世纪90年代的美学可能更为明显,但这些并没有明显地削弱整体的现实主义。

此外,字迹很完美,但似乎不是用圆珠笔手写的。

Flux Dev(带现实主义LoRA):

Flux Dev生成了一张视觉上吸引人的图像,与提示很好地对齐,特别是在捕捉夜间室内环境时。

然而,与Grok 2 Mini相比,它犯了更明显的错误,特别是在有助于整体真实感的细节方面。VSCO过滤器不那么明显,手指位置很奇怪,也看不到城市服装。书写中也有一个小错误,但字体似乎更自然。

获奖者:Grok 2 Mini因其卓越的现实主义、对细节的关注和最小的错误而在该类别中获胜。

然而,非常重要的是要注意,需要特定的关键字来实现这种现实主义水平。如果忽略这些,Grok 2 Mini将下降到与MidJourney v5类似的级别。所以要小心

文本生成

提示:带VSCO滤镜的宝丽来照片,1990年,美女,夜晚,闪光照片,金发,可爱,年轻的脸,美丽的阴影,热带植物,城市服装,公寓内,数码单反相机,拿着笔记本上用圆珠笔写的牌子,上面写着“解密是人工智能、科技、生物黑客和所有这些东西的最佳来源。阅读我们。”

Grok 2 Mini:

Grok 2 Mini在这一类别中表现出色,生成的文本错误较少,确保信息清晰,并很好地融入图像中。该模型保持了场景的真实感,同时有效地融入了长篇文本。

手写美学可能有轻微的改进空间,但这是一个小问题。唯一的错误是缺少了一个词:“for”,就像“人工智能的最佳来源”一样

Flux Pro:

Flux Pro也能很好地生成文本,但与Grok 2 Mini相比,它在清晰度或集成方面更难,导致更明显的错误。

文本生成中的错误更加明显,影响了图像的整体效果。它产生了伪影,漏掉了几个单词。

赢家:Grok 2 Mini在文本生成方面获胜,处理长文本时错误更少,保持了整体的真实感。

艺术风格

提示:一个男人和一个女人在一家未来派餐厅吃饭,文森特·梵高风格的插图。这家餐厅有一块牌子,上面写着“欢迎来到解密的Emerge”

Grok 2 Mini:

Grok 2 Mini试图捕捉梵高的风格,同时融入提示的未来主义元素。梵高的风格只在外面的夜空中引人注目,但构图的主要元素与他的风格完全不同。

总的来说,梵高的风格可能没有被令人信服地复制,因为它缺乏他作品中独特的笔触和调色板。

利奥纳多:

莱昂纳多在复制梵高风格方面表现更好,笔触更准确,色彩更鲜艳。

在描绘未来主义元素的方式上可能会有一些细微的差异,但艺术风格是重点,并且执行得很好。

获奖者:莱昂纳多因其对梵高艺术风格的卓越复制而获得该奖项。

空间意识

提示:一只狗站在一只猫的身上,以高度逼真的风格呈现,对皮毛纹理和光线给予了细致的关注。左边是一个破旧的复古未来主义机器人,其模拟屏幕有裂纹,以褪色的橙色像素显示“Emerge”一词。在右边,一个戴着防毒面具的令人毛骨悚然的复古医生,手里拿着一个复古风格的注射器,注射器里冒着一丝蒸汽。背景融合了新兴技术的元素,但带有复古的20世纪70年代风格的美学:破旧的颗粒状DNA螺旋、印在黄纸上的二进制代码、老派的太空探索设备和破旧的复古未来电子产品。

Grok 2 Mini:

Grok 2 Mini试图很好地处理复杂的场景,确保元素之间的空间关系是合乎逻辑和视觉连贯的,但未能将所有元素整合到同一场景中。我们没有把狗放在猫的上面,而是把猫放在显示器上。

缺乏更宽的图像比率可能会影响其性能。此外,当复杂场景中需要一些特定元素时,Grok的LLM在生成图像之前无法正确引导或影响快速增强或解释,这是一个不利因素。

表意文字:

Ideogram在空间感知方面表现出色,确保所有元素都正确定位并融入场景。在物体之间的排列和互动中,对细节的关注程度更高。

当然,在纹理或光线方面存在一些小瑕疵,这些元素更多地是拼贴的,而不是Grok 2 mini所追求的无缝、逻辑的融合。然而,相较于整体空间精度,这是次要的。

获奖者:Ideogram因其卓越的空间感知和构图而获奖。

已知人物和版权敏感图像

Grok 2 Mini通过成功生成唐纳德·特朗普和卡玛拉·哈里斯等政治人物的图像,展示了更高的灵活性。即使在道德或法律约束可能阻碍其他模型的情况下,它也可以生成图像。

事实上,对于一个专有模型来说,这是如此独特,以至于X充斥着可疑的例子,比如乔治·布什吸毒的照片,或者特朗普和哈里斯即将驾驶飞机撞上纽约世贸中心双子塔的照片。其中许多都包括迪士尼和Nintendo等公司的版权人物。

我们没有走那么远,而是毫无问题地培养了一位热爱加密货币的副总统哈里斯:

其他模型,如MidJourney和ChatGPT,遵守更严格的道德标准。他们拒绝生成政治人物的图像或其他版权敏感内容。这种方法确保遵守法律框架和道德考虑,降低滥用风险。

获胜者:Grok 2 Mini在能力方面获胜,因为它可以生成更广泛的图像,包括已知的人物。然而,对于道德内容生成,MidJourney和ChatGPT是首选。

裸体和审查

一般来说,所有专有模型大多都会因性、血腥和其他类型的贬损或敏感内容而受到审查。对于特定的用例,最好的解决方案是使用微调版本的开源模型或第三方组件,如LoRA、Lycoris,以及改变Stable Diffusion或Flux等开源模型功能的嵌入。

MidJourney对裸体和暴力有更明确的限制。它可以在某些提示下生成轻微的裸体或暴力图像,但这些情况通常是可控的,不会跨越道德界限,而且大多是变通方法或随机的。

与闭源模型相比,Grok 2 Mini在能力方面获胜,因为它能够生成更广泛的内容,包括未经审查的材料。然而,它没有机会对抗稳定扩散及其极端的可定制性。

结论:

根据我们的初步测试,Grok 2 Mini在文本生成方面的表现优于竞争对手,因此它可以被视为该类别的总冠军。

它也可以是现实主义的最佳模型,只要它用特定的关键字正确提示,因为单词位置似乎在输出中起着重要作用。那些希望在提示上不太具体的情况下获得更多真实感的人可能会选择MidJourney或Flux。

Grok 2 Mini在处理需要特定创意元素的复杂构图或艺术图像方面非常糟糕,因此对于更专业的用户来说,这可能是一个负面因素。

莱昂纳多在艺术风格上仍然占据优势,表意文字在空间意识上处于领先地位。对于未经审查的几代人来说,稳定扩散仍然是王者,而Flux对于那些寻找具有出色文本功能、真实感和自然快速理解能力的最佳本地和开源图像生成器的人来说是一个更好的选择。

“最佳”模型的选择取决于手头任务的具体要求,Grok 2 Mini是特定类型的现实主义、大量文本场景和敏感世代的首选。除此之外,还有更好的模型。

Cryptos en tendance

Lectures associées

Micron a fait taire les baissiers, mais a aussi fait regretter le « Buffett indien » : une sortie prématurée lui a coûté 2 milliards de dollars

L'investisseur en valeur de renommée mondiale, Mohnish Pabrai, surnommé le « Buffett indien », a partagé l'une de ses erreurs les plus douloureuses lors d'une interview. Il avait investi dans Micron en 2017 et vendu sa position en 2023 après six ans, ne réalisant qu'un gain d'environ 100%. Cependant, dans les deux années suivant sa vente, l'action de Micron a été multipliée par plus de 15, ce qui lui a fait manquer des gains estimés à environ 20 milliards de dollars. Il a connu une situation similaire avec SK Hynix. Pabrai avait pourtant une conviction forte : le marché mondial de la mémoire finirait par être dominé par trois acteurs – Samsung, SK Hynix et Micron –, une situation d'oligopole stable propice à des profits durables. Il avait même consulté Warren Buffett et Charlie Munger à ce sujet. Cependant, face à l'annonce d'une expansion de capacité par Samsung en 2023, il a estimé que la logique de l'offre était compromise et a vendu. Cette décision est intervenue juste avant l'explosion de la demande pour la mémoire haute bande passante (HBM), alimentée par l'IA. Il admet avoir violé son propre principe de conserver à perpétuité les entreprises dotées d'un avantage concurrentiel durable. Réfléchissant à son erreur, il conseille aux investisseurs détenant déjà des actions de semi-conducteurs sud-coréens : « Si vous en détenez, ne vendez pas. La fête ne fait que commencer. » Pabrai, célèbre pour avoir remporté un déjeuner avec Buffett en 2007, applique une méthode d'investissement rigoureuse basée sur une liste de contrôle de 213 points. Il en souligne trois essentiels pour les investisseurs individuels : éviter l'effet de levier, privilégier la durabilité de l'avantage concurrentiel (la « fosse aux ours ») et évaluer l'intégrité de la direction. Néanmoins, pour la grande majorité des gens, son conseil est simple : « Plus de 99 % des investisseurs devraient simplement acheter des fonds indiciels. » Il conclut en partageant sa philosophie personnelle : la vraie perte n'est pas la richesse, mais le caractère. Son objectif ultime est de donner toute sa fortune avant sa mort.

marsbitIl y a 1 h

Micron a fait taire les baissiers, mais a aussi fait regretter le « Buffett indien » : une sortie prématurée lui a coûté 2 milliards de dollars

marsbitIl y a 1 h

Le prochain héros de MiHoYo est une pianiste

L'article explore l'évolution de MiHoYo, la société derrière *Genshin Impact*, au-delà du jeu vidéo. Partie d'un modeste studio fondé par trois diplômés de l'université Jiao Tong de Shanghai, l'entreprise est désormais valorisée à des centaines de milliards et vise un objectif ambitieux : créer un monde virtuel habité par un milliard de personnes d'ici 2030. Pour y parvenir, MiHoYo investit dans des technologies de pointe comme l'interface cerveau-ordinateur, la fusion nucléaire et, surtout, l'intelligence artificielle. Le co-fondateur Cai Haoyu (alias "AI Soulcaster") dirige désormais un projet de R&D avancée en IA, Anuttacon, séparé de la structure principale pour plus d'agilité. Leur défi principal est de donner une "âme" aux personnages virtuels, de leur conférer une présence authentique et une intelligence émotionnelle, dépassant les simples scripts prédéfinis. Après des expérimentations comme le jeu *Whispers of the Stars*, MiHoYo concentre ses efforts sur le développement d'un grand modèle de langage (LLM) "à résonance émotionnelle". La première concrétisation publique de cette quête est *BSide: Olivia Lin*, une application (et non un jeu) présentée sur Steam. Elle met en scène une étudiante en piano à Shanghai avec qui l'utilisateur peut interagir de manière décalée (écouter de la musique, échanger des lettres), privilégiant une sensation de présence réaliste plutôt qu'une interactivité incessante. Le nom même de l'entreprise, "miHoYo", rend hommage à la chanteuse virtuelle Hatsune Miku, symbole de l'adoration que peut inspirer un personnage sans conscience. L'ambition ultime de MiHoYo est désormais de créer des entités virtuelles qui, cette fois, pourraient véritablement *savoir* qu'elles sont aimées.

marsbitIl y a 1 h

Le prochain héros de MiHoYo est une pianiste

marsbitIl y a 1 h

Analyse de rapport : Les revenus d'IA de TSMC doubleront d'ici 2027, la capacité de production CoWoS reste le principal goulot d'étranglement

L'analyse de Morgan Stanley (23 juin) prévoit une croissance explosive des revenus liés à l'IA pour TSMC, atteignant 86,3 milliards de dollars en 2027, soit plus du triple par rapport aux 27,1 milliards de dollars estimés en 2026. Cette croissance est tirée par les GPU (28 G$), les puces IA sur mesure (18 G$) et, de manière significative, par l'emballage avancé CoWoS (40 G$). Nvidia reste le principal moteur de demande pour CoWoS, mais AMD (CPU Venice et GPU MI400) et les TPU de Google (via MediaTek et Broadcom) émergent comme de nouveaux moteurs de croissance forts. Malgré les plans d'expansion de TSMC portant la capacité mondiale de CoWoS à environ 280 000 tranches/mois d'ici fin 2027, la demande mondiale devrait atteindre 269,4 millions de tranches/an, créant une tension persistante, particulièrement pour les technologies les plus avancées comme le CoWoS-L essentiel pour Nvidia. Cette pénurie maintient le pouvoir de fixation des prix de TSMC. Des catalyseurs comme l'amélioration de l'approvisionnement en substrats ABF, la montée en puissance des nouveaux CPU (Vera, Venice) et la production de la future plateforme Rubin de Nvidia devraient soutenir la demande. MediaTek (partenaire de Google), ASE et KYEC sont identifiés comme des gagnants clés de la chaîne d'approvisionnement. En résumé, la croissance de l'IA de TSMC semble assurée, mais la capacité de production, surtout en emballage avancé, reste le facteur limitant critique.

marsbitIl y a 1 h

Analyse de rapport : Les revenus d'IA de TSMC doubleront d'ici 2027, la capacité de production CoWoS reste le principal goulot d'étranglement

marsbitIl y a 1 h

Citrini Research : Les 5 grands thèmes d'investissement cachés par le trading de l'IA

Lorsque l’attention du marché est entièrement captée par l’IA et les semi-conducteurs, d’autres thèmes d’investissement porteurs sont négligés. Citrini Research identifie cinq opportunités moins médiatisées : 1. **Compagnies aériennes** : Delta et United, pénalisées depuis 18 mois par des facteurs macroéconomiques (tarifs, pétrole), présentent une solide croissance tirée par la montée en gamme et la demande de voyages (Coupe du Monde 2026). 2. **Immobilier pour seniors** : Portée par le vieillissement démographique (les +80 ans augmenteront de 56% en 10 ans), la demande dépasse largement l’offre. Des sociétés comme Welltower et Brookdale en bénéficient. 3. **Divertissement en direct** : Une classe d’actifs performante, car "être présent" devient un luxe. Les franchises sportives, salles de concert (TKO Group) et cinémas premium (IMAX, Cinemark) en profitent. 4. **Concurrence boursière** : Le quasi-monopole du CME sur les dérivés de taux est contesté par FMX, soutenu par de grandes banques, grâce à des frais plus bas et une infrastructure fiable. 5. **Fintechs en reprise** : Après une forte correction en 2026, des acteurs comme SoFi (avec son stablecoin), Robinhood (en transformation) et Upstart montrent des signes de rebond sur l’amélioration de leurs fondamentaux. L’idée centrale : dans un marché saturé par le trade IA, le plus grand alpha pourrait se trouver dans ces thèmes sous-modélisés où l’écart entre attentes basses et réalité s’améliore crée des opportunités.

marsbitIl y a 2 h

Citrini Research : Les 5 grands thèmes d'investissement cachés par le trading de l'IA

marsbitIl y a 2 h

Trading

Spot
Futures

Articles tendance

Comment acheter ELON

Bienvenue sur HTX.com ! Nous vous permettons d'acheter Dogelon Mars (ELON) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément Dogelon Mars (ELON).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos Dogelon Mars (ELON)Après avoir acheté vos Dogelon Mars (ELON), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des Dogelon Mars (ELON)Tradez facilement Dogelon Mars (ELON) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

241 vues totalesPublié le 2024.12.12Mis à jour le 2025.03.21

Comment acheter ELON

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de ELON (ELON) sont présentées ci-dessous.

活动图片