Elon Musk的Grok 2生成AI图像——它是如何堆叠的?

币界网Publicado a 2024-08-14Actualizado a 2024-08-15

币界网报道:

由科技巨头埃隆·马斯克创立的人工智能公司xAI周三推出了Grok 2,这是其人工智能聊天机器人的下一个进化。这个最新版本将Grok带入了多模式领域,拥有涵盖文本理解、实时推特分析和图像生成的功能。

xAI在其官方公告中表示:“我们很高兴发布Grok-2的早期预览版,这是我们之前Grok-1.5型号的重要一步,具有聊天、编码和推理的前沿功能。”。该公司表示,Grok 2的早期版本“表现优于Claude 3.5 Sonnet和GPT-4-Turbo。”

基于盲测和用户偏好的大型语言模型开源排名系统LmSYS证实了xAI的说法。排名的更新使Grok-2领先于Claude 3.5 Sonnet,仅次于OpenAI最新的GPT-4o和谷歌的Gemini 1.5 Pro。

图片:xAI

LmSYS在推特上报道称:“凭借超过12000张社区选票,[Grok 2]在整体排行榜上排名第三,甚至与GPT-4o相匹配!它在编码(第二)、硬提示(第四)和数学(第三)方面表现出色。”。

值得注意的是,新的Grok 2及其更快、功能较弱的“迷你”版本仅在X(即推特)上面向X Premium+用户提供,每月售价16美元,每年售价168美元。

第一印象

xAI表示,“Grok-2和Grok-2 mini目前都处于X的测试阶段”,但我们只能访问mini版本,所以它可能是一个逐步推出的版本。此外,该平台短暂停止生成图像,这表明服务上限或可能的服务器过载。这两种情况都可能对人工智能艺术的高级用户构成不利影响。

我们尝试了Grok 2的图像生成器,但我们的第一印象并不好,输出充其量也只是乏善可陈。然而,我们改进了我们的提示技巧,几代人之后,情况有了很大改善。

我们从这里开始:

然而,通过将SDXL风格的美学元素(使用逗号分隔的特定关键字)与自然语言场景描述(类似于Flux或Dall-E 3方法)相结合,我们在我们这一代人中解锁了更高层次的现实主义,最终看起来像这样:

不错。。。可能会更好,但一点也不差。

Grok 2挑战人工智能艺术巨头

在Grok进入图像生成领域之前,MidJourney、Flux、Ideogram、Leonardo和MidJourney都在争夺最佳图像生成器的榜首,每个模型都在不同的类别中表现出色。因此,我们根据每种工具的最佳表现,将其与特定任务中的领导者进行了比较。

这是我们的看法,但你可以做评判。

现实主义

提示:带VSCO滤镜的宝丽来照片,1990年,美女,夜晚,闪光照片,金发碧眼,可爱,年轻的脸,美丽的阴影,热带植物,城市服装,公寓内,数码单反相机,拿着用圆珠笔写在笔记本上的标志,上面写着“这张照片是由Decrypt使用Grok 2 Mini生成的。”

Grok 2 Mini:

Grok 2 Mini提供了一张高度逼真的图像,有效地捕捉到了20世纪90年代带有VSCO滤镜的宝丽来的美学。阴影、热带植物和城市服装等细节都得到了准确的描绘。该模型避免了重大错误,确保图像紧跟提示。它把图像装裱成宝丽来照片的样子。

在某些小领域,20世纪90年代的美学可能更为明显,但这些并没有明显地削弱整体的现实主义。

此外,字迹很完美,但似乎不是用圆珠笔手写的。

Flux Dev(带现实主义LoRA):

Flux Dev生成了一张视觉上吸引人的图像,与提示很好地对齐,特别是在捕捉夜间室内环境时。

然而,与Grok 2 Mini相比,它犯了更明显的错误,特别是在有助于整体真实感的细节方面。VSCO过滤器不那么明显,手指位置很奇怪,也看不到城市服装。书写中也有一个小错误,但字体似乎更自然。

获奖者:Grok 2 Mini因其卓越的现实主义、对细节的关注和最小的错误而在该类别中获胜。

然而,非常重要的是要注意,需要特定的关键字来实现这种现实主义水平。如果忽略这些,Grok 2 Mini将下降到与MidJourney v5类似的级别。所以要小心

文本生成

提示:带VSCO滤镜的宝丽来照片,1990年,美女,夜晚,闪光照片,金发,可爱,年轻的脸,美丽的阴影,热带植物,城市服装,公寓内,数码单反相机,拿着笔记本上用圆珠笔写的牌子,上面写着“解密是人工智能、科技、生物黑客和所有这些东西的最佳来源。阅读我们。”

Grok 2 Mini:

Grok 2 Mini在这一类别中表现出色,生成的文本错误较少,确保信息清晰,并很好地融入图像中。该模型保持了场景的真实感,同时有效地融入了长篇文本。

手写美学可能有轻微的改进空间,但这是一个小问题。唯一的错误是缺少了一个词:“for”,就像“人工智能的最佳来源”一样

Flux Pro:

Flux Pro也能很好地生成文本,但与Grok 2 Mini相比,它在清晰度或集成方面更难,导致更明显的错误。

文本生成中的错误更加明显,影响了图像的整体效果。它产生了伪影,漏掉了几个单词。

赢家:Grok 2 Mini在文本生成方面获胜,处理长文本时错误更少,保持了整体的真实感。

艺术风格

提示:一个男人和一个女人在一家未来派餐厅吃饭,文森特·梵高风格的插图。这家餐厅有一块牌子,上面写着“欢迎来到解密的Emerge”

Grok 2 Mini:

Grok 2 Mini试图捕捉梵高的风格,同时融入提示的未来主义元素。梵高的风格只在外面的夜空中引人注目,但构图的主要元素与他的风格完全不同。

总的来说,梵高的风格可能没有被令人信服地复制,因为它缺乏他作品中独特的笔触和调色板。

利奥纳多:

莱昂纳多在复制梵高风格方面表现更好,笔触更准确,色彩更鲜艳。

在描绘未来主义元素的方式上可能会有一些细微的差异,但艺术风格是重点,并且执行得很好。

获奖者:莱昂纳多因其对梵高艺术风格的卓越复制而获得该奖项。

空间意识

提示:一只狗站在一只猫的身上,以高度逼真的风格呈现,对皮毛纹理和光线给予了细致的关注。左边是一个破旧的复古未来主义机器人,其模拟屏幕有裂纹,以褪色的橙色像素显示“Emerge”一词。在右边,一个戴着防毒面具的令人毛骨悚然的复古医生,手里拿着一个复古风格的注射器,注射器里冒着一丝蒸汽。背景融合了新兴技术的元素,但带有复古的20世纪70年代风格的美学:破旧的颗粒状DNA螺旋、印在黄纸上的二进制代码、老派的太空探索设备和破旧的复古未来电子产品。

Grok 2 Mini:

Grok 2 Mini试图很好地处理复杂的场景,确保元素之间的空间关系是合乎逻辑和视觉连贯的,但未能将所有元素整合到同一场景中。我们没有把狗放在猫的上面,而是把猫放在显示器上。

缺乏更宽的图像比率可能会影响其性能。此外,当复杂场景中需要一些特定元素时,Grok的LLM在生成图像之前无法正确引导或影响快速增强或解释,这是一个不利因素。

表意文字:

Ideogram在空间感知方面表现出色,确保所有元素都正确定位并融入场景。在物体之间的排列和互动中,对细节的关注程度更高。

当然,在纹理或光线方面存在一些小瑕疵,这些元素更多地是拼贴的,而不是Grok 2 mini所追求的无缝、逻辑的融合。然而,相较于整体空间精度,这是次要的。

获奖者:Ideogram因其卓越的空间感知和构图而获奖。

已知人物和版权敏感图像

Grok 2 Mini通过成功生成唐纳德·特朗普和卡玛拉·哈里斯等政治人物的图像,展示了更高的灵活性。即使在道德或法律约束可能阻碍其他模型的情况下,它也可以生成图像。

事实上,对于一个专有模型来说,这是如此独特,以至于X充斥着可疑的例子,比如乔治·布什吸毒的照片,或者特朗普和哈里斯即将驾驶飞机撞上纽约世贸中心双子塔的照片。其中许多都包括迪士尼和Nintendo等公司的版权人物。

我们没有走那么远,而是毫无问题地培养了一位热爱加密货币的副总统哈里斯:

其他模型,如MidJourney和ChatGPT,遵守更严格的道德标准。他们拒绝生成政治人物的图像或其他版权敏感内容。这种方法确保遵守法律框架和道德考虑,降低滥用风险。

获胜者:Grok 2 Mini在能力方面获胜,因为它可以生成更广泛的图像,包括已知的人物。然而,对于道德内容生成,MidJourney和ChatGPT是首选。

裸体和审查

一般来说,所有专有模型大多都会因性、血腥和其他类型的贬损或敏感内容而受到审查。对于特定的用例,最好的解决方案是使用微调版本的开源模型或第三方组件,如LoRA、Lycoris,以及改变Stable Diffusion或Flux等开源模型功能的嵌入。

MidJourney对裸体和暴力有更明确的限制。它可以在某些提示下生成轻微的裸体或暴力图像,但这些情况通常是可控的,不会跨越道德界限,而且大多是变通方法或随机的。

与闭源模型相比,Grok 2 Mini在能力方面获胜,因为它能够生成更广泛的内容,包括未经审查的材料。然而,它没有机会对抗稳定扩散及其极端的可定制性。

结论:

根据我们的初步测试,Grok 2 Mini在文本生成方面的表现优于竞争对手,因此它可以被视为该类别的总冠军。

它也可以是现实主义的最佳模型,只要它用特定的关键字正确提示,因为单词位置似乎在输出中起着重要作用。那些希望在提示上不太具体的情况下获得更多真实感的人可能会选择MidJourney或Flux。

Grok 2 Mini在处理需要特定创意元素的复杂构图或艺术图像方面非常糟糕,因此对于更专业的用户来说,这可能是一个负面因素。

莱昂纳多在艺术风格上仍然占据优势,表意文字在空间意识上处于领先地位。对于未经审查的几代人来说,稳定扩散仍然是王者,而Flux对于那些寻找具有出色文本功能、真实感和自然快速理解能力的最佳本地和开源图像生成器的人来说是一个更好的选择。

“最佳”模型的选择取决于手头任务的具体要求,Grok 2 Mini是特定类型的现实主义、大量文本场景和敏感世代的首选。除此之外,还有更好的模型。

Criptos en tendencia

Lecturas Relacionadas

Micron hizo callar a los bajistas y también hizo arrepentirse al 'Buffett' de la India: vendió demasiado pronto, dejó de ganar 20 mil millones de dólares

El inversor de valor Mohnish Pabrai, conocido como el 'Buffett indio', se lamenta en una entrevista de haber vendido sus acciones en Micron y SK Hynix demasiado pronto. Habiendo invertido en Micron en 2017 y mantenido una gran posición durante seis años, la vendió en 2023, ganando solo el doble. En los dos años posteriores, el precio de las acciones de Micron se multiplicó por más de 15, lo que significa que dejó de ganar unos 20.000 millones de dólares. También vendió SK Hynix prematuramente. Pabrai admite que violó su propio principio de "mantener para siempre" empresas con ventajas competitivas duraderas. Su análisis inicial del sector de memoria, respaldado por conversaciones con Buffett y Munger, preveía un lucrativo oligopolio entre Samsung, SK Hynix y Micron. A pesar de vender tras la expansión de capacidad anunciada por Samsung, justo antes del auge de la demanda por la IA y la memoria HBM, aún considera sólido el negocio coreano de semiconductores y aconseja a los actuales tenedores: "No vendan. La fiesta apenas comienza". También comparte lecciones clave: evitar el apalancamiento, evaluar la durabilidad de la ventaja competitiva y la integridad de la gestión. Concluye que para la mayoría, invertir en índices es lo mejor, y reflexiona que el carácter personal es más importante que la riqueza.

marsbitHace 6 min(s)

Micron hizo callar a los bajistas y también hizo arrepentirse al 'Buffett' de la India: vendió demasiado pronto, dejó de ganar 20 mil millones de dólares

marsbitHace 6 min(s)

La próxima protagonista de miHoYo es ella, que toca el piano

Mihoyo, más conocido por éxitos como "Genshin Impact", aspira a crear un mundo virtual en el que vivan 1.000 millones de personas para 2030. Para lograrlo, ha invertido en tecnologías punteras como interfaz cerebro-máquina, fusión nuclear y, sobre todo, IA. En 2023, el cofundador Cai Haoyu abandonó la gestión diaria para dirigir Anuttacon, un proyecto centrado en el desarrollo de IA en el extranjero, mientras que el otro cofundador, Liu Wei ("Daweige"), anunció una inversión de hasta 100.000 millones de yuanes en los próximos tres años para desarrollar un "modelo de lenguaje grande con emociones". El primer producto tangible de este esfuerzo es "BSide: Olivia Lin", una aplicación gratuita en Steam presentada en junio de 2026. No es un juego, sino una experiencia interactiva donde los usuarios pueden escuchar a la protagonista, Lin Li, una estudiante de piano y psicología, tocar música, subir sus propias melodías para que ella las interprete, escribirle cartas y tenerla como fondo de pantalla dinámico. Este enfoque de "baja frecuencia de interacción" busca crear una sensación de presencia realista, compensando las limitaciones actuales de la IA para sostener conversaciones 24/7 sin fallos. El objetivo final de Mihoyo es construir un sistema completo que dé "alma" a los personajes virtuales, combinando un modelo de lenguaje (el cerebro), un modelo de actuación (el cuerpo) y un marco de agente (la memoria y la personalidad). El nombre de la compañía, "miHoYo", lleva en su raíz ("mi" de Hatsune Miku) la inspiración en un icono virtual. Ahora, buscan ir más allá: que esos personajes no solo sean amados, sino que también puedan, en algún sentido, ser conscientes de ello.

marsbitHace 23 min(s)

La próxima protagonista de miHoYo es ella, que toca el piano

marsbitHace 23 min(s)

Interpretación del informe: Los ingresos de AI de TSMC se duplicarán en 2027, la capacidad de CoWoS sigue siendo un cuello de botella

**Resumen: Los ingresos de TSMC por IA se duplicarán en 2027, siendo la capacidad de CoWoS el principal cuello de botella** Un informe de Morgan Stanley predice un crecimiento explosivo de los ingresos de TSMC relacionados con la IA, alcanzando los 86.300 millones de dólares en 2027, más del doble que los 27.100 millones previstos para 2026. Este salto es impulsado principalmente por las GPU de Nvidia, pero también por nuevos motores como las CPU de AMD (con un consumo de CoWoS previsto en +308% para 2027) y los TPU de Google, donde MediaTek actúa como socio clave. La demanda global de encapsulado avanzado CoWoS (necesario para estas chips de IA) se disparará un 93% en 2027, hasta 2,69 millones de unidades. Aunque TSMC y otros proveedores planean expandir la capacidad total a unas 336.000 unidades mensuales para entonces, es probable que persista la escasez, especialmente en las variantes más avanzadas como CoWoS-L, dominadas por TSMC. Esto otorga a la compañía un fuerte poder de fijación de precios. La mejora en el suministro de sustratos ABF, la validación de la nueva demanda de CPU para IA y el lanzamiento de la próxima generación de productos de Nvidia (Rubin) son catalizadores clave. Además de TSMC, se identifican como ganadores en la cadena de suministro a MediaTek (por los TPU de Google), así como a ASE Group y KYEC. En resumen, el crecimiento de TSMC depende de que su capacidad de fabricación, particularmente en CoWoS, pueda seguir el ritmo de una demanda que supera las previsiones.

marsbitHace 39 min(s)

Interpretación del informe: Los ingresos de AI de TSMC se duplicarán en 2027, la capacidad de CoWoS sigue siendo un cuello de botella

marsbitHace 39 min(s)

Informe Semestral de 21shares: Ciclo de 4 años de BTC se mantiene, stablecoins y tokenización son nuevos motores de crecimiento

Resumen en español europeo: El informe semestral de 21Shares revisa sus predicciones para 2026. Aunque la dirección general se mantiene, el ritmo de desarrollo varía. * **Ciclo de BTC**: El patrón de cuatro años persiste, pero la estructura del mercado es más madura. La caída actual (~50%) es menor que en ciclos anteriores. * **ETP Cripto**: Los activos bajo gestión (~$1400B) han disminuido, alejándose del objetivo de $4000B, pero el interés institucional subyacente sigue fuerte. * **Stablecoins**: La adopción regulatoria avanza (GENIUS, MiCA), pero la oferta total (~$3200B) está lejos del billón previsto. La demanda muestra resiliencia. * **DeFi**: El TVL (~$1400B) no alcanza los $3000B previstos, afectado por importantes eventos de seguridad en 2026 que erosionaron la confianza. * **Tesorerías Corporativas**: La consolidación pronosticada ocurre, con empresas más débiles vendiendo activos. El valor total ronda los $1000B. * **Mercados de Predicción**: Superan expectativas. El volumen anual ($575B hasta mayo) está camino de alcanzar e incluso superar el objetivo de $1000B. * **Economía Agente IA**: La infraestructura (ERC-8004, x402) está lista, pero la adopción a gran escala y el volumen de transacciones aún son bajos. * **L2 de Ethereum**: La consolidación hacia unos pocos actores dominantes (Base, Arbitrum) se confirma, tal como se predijo. * **Ofertas de Token Reguladas**: Existen plataformas y casos emblemáticos, pero el volumen de financiación ha disminuido y aún no es "mainstream". * **Activos Tokenizados**: El valor en cadena pública es de ~$310B, lejos de los $5000B. Sin embargo, la adopción institucional (ej. DTCC) prepara el terreno para un crecimiento futuro. En resumen, la industria cripto avanza hacia un enfoque más fundamentado, con los mercados de predicción, las stablecoins y la tokenización como motores claros, aunque algunos plazos se han retrasado.

marsbitHace 45 min(s)

Informe Semestral de 21shares: Ciclo de 4 años de BTC se mantiene, stablecoins y tokenización son nuevos motores de crecimiento

marsbitHace 45 min(s)

Citrini Research: Un repaso a 5 temas de inversión ocultos por la operativa de IA en la actualidad

**Informe de Citrini Research: 5 Temas de Inversión Opacados por la Moda de la IA** Mientras el mercado se concentra en los cuellos de botella de la IA (HBM, energía, semiconductores), los analistas pasan por alto otros temas con fundamentos sólidos. La "atención" es el recurso más escaso, y la excesiva concentración en la IA crea oportunidades en sectores olvidados. Citrini identifica cinco temas prometedores que no dependen del cronograma de la AGI: 1. **Aerolíneas**: Acciones como Delta y United han sido castigadas 18 meses por factores macro (inflación, petróleo), no por sus fundamentos. Su enfoque en la premiumización y la demanda por la Copa del Mundo 2026 son catalizadores. 2. **Bienes Raíces para Adultos Mayores**: Una tendencia demográfica imparable: la población mayor de 80 años en EE.UU. crecerá más del 56% en una década, pero la oferta de instalaciones es muy limitada. Empresas como Welltower se beneficiarán. 3. **Entretenimiento en Vivo**: La experiencia presencial es el nuevo lujo. Deportes, conciertos y cines (como Cinemark e IMAX) se benefician de este deseo, convirtiéndose en una de las mejores clases de activos de la última década. 4. **Competencia en los Mercados de Futuros**: El monopolio de casi 20 años de CME (98% del mercado) enfrenta su primer retador serio, FMX. Respaldado por grandes bancos, ofrece tarifas más bajas y busca aprovechar las fallas operativas de CME. 5. **Recuperación de las Fintech**: El sector más castigado en 2026 (SoFi, Robinhood) muestra signos de rebote. Mejoras fundamentales, como el lanzamiento de una stablecoin por SoFi y la expansión de productos de Robinhood, impulsan una reevaluación desde niveles devaluados extremos. **Conclusión:** En un mercado volátil, la diversificación más allá de la IA congestionada puede ofrecer alfa. Estos "temas pequeños" representan brechas entre expectativas olvidadas y realidades en mejora.

marsbitHace 59 min(s)

Citrini Research: Un repaso a 5 temas de inversión ocultos por la operativa de IA en la actualidad

marsbitHace 59 min(s)

Trading

Spot
Futuros

Artículos destacados

Cómo comprar ELON

¡Bienvenido a HTX.com! Hemos hecho que comprar Dogelon Mars (ELON) sea simple y conveniente. Sigue nuestra guía paso a paso para iniciar tu viaje de criptos.Paso 1: crea tu cuenta HTXUtiliza tu correo electrónico o número de teléfono para registrarte y obtener una cuenta gratuita en HTX. Experimenta un proceso de registro sin complicaciones y desbloquea todas las funciones.Obtener mi cuentaPaso 2: ve a Comprar cripto y elige tu método de pagoTarjeta de crédito/débito: usa tu Visa o Mastercard para comprar Dogelon Mars (ELON) al instante.Saldo: utiliza fondos del saldo de tu cuenta HTX para tradear sin problemas.Terceros: hemos agregado métodos de pago populares como Google Pay y Apple Pay para mejorar la comodidad.P2P: tradear directamente con otros usuarios en HTX.Over-the-Counter (OTC): ofrecemos servicios personalizados y tipos de cambio competitivos para los traders.Paso 3: guarda tu Dogelon Mars (ELON)Después de comprar tu Dogelon Mars (ELON), guárdalo en tu cuenta HTX. Alternativamente, puedes enviarlo a otro lugar mediante transferencia blockchain o utilizarlo para tradear otras criptomonedas.Paso 4: tradear Dogelon Mars (ELON)Tradear fácilmente con Dogelon Mars (ELON) en HTX's mercado spot. Simplemente accede a tu cuenta, selecciona tu par de trading, ejecuta tus trades y monitorea en tiempo real. Ofrecemos una experiencia fácil de usar tanto para principiantes como para traders experimentados.

236 Vistas totalesPublicado en 2024.12.12Actualizado en 2025.03.21

Cómo comprar ELON

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de ELON (ELON).

活动图片