a16z: El futuro de la IA visual no son las imágenes, sino el código

marsbitPublicado a 2026-06-03Actualizado a 2026-06-03

Resumen

El futuro de la IA visual no son las imágenes, sino el código, según a16z. Mientras que los modelos de difusión actuales se centran en generar píxeles realistas (imágenes, videos), el siguiente paso crucial es la generación nativa de código: crear artefactos estructurados como HTML/CSS, SVG, scripts de Blender o escenas USD. Estos "programas visuales" permiten editar, iterar, probar e integrar los resultados en flujos de producción reales, a diferencia de las salidas de píxeles estáticas. La generación visual basada en código sigue un ciclo "código → renderizado → revisión → modificación", donde el modelo mejora el artefacto fuente, no solo genera una nueva muestra. Esto es especialmente relevante en diseño UI, animación (formato Lottie) y, sobre todo, en 3D, donde un activo necesita geometría coherente, jerarquías, materiales y restricciones funcionales (ej: una puerta que se abre) para ser usable en motores de juego o simuladores. El mercado se organizará en torno a "entornos de ejecución" como navegadores, Blender o motores de juego, que sirven como entornos de retroalimentación. Aunque los modelos nativos de píxeles seguirán siendo ideales para realismo y exploración, los sistemas basados en código transformarán la producción visual al priorizar activos editables, verificables y listos para producción.

Nota del editor: En los últimos años, la competencia en IA visual se ha centrado casi exclusivamente en una pregunta: ¿quién genera imágenes más realistas, quién produce vídeos más fluidos? Los modelos de difusión han convertido las instrucciones de texto en imágenes, vídeos y escenas realistas, acostumbrando también al público a juzgar la capacidad de los modelos por "lo parecido que es" o "lo bonito que es".

Pero este artículo de a16z señala que la próxima etapa de la IA visual puede que no consista únicamente en generar píxeles más atractivos, sino en generar los artefactos de código (code artifact, archivos estructurados que se pueden seguir editando, probar y entregar) que hay detrás de esos píxeles.

Esta diferencia, aunque técnica, determina si la IA puede integrarse realmente en los flujos de trabajo de producción. Un diseñador no necesita solo una captura de pantalla de una interfaz de usuario, necesita HTML/CSS, componentes de React, capas y archivos entregables; un animador no necesita solo un vídeo, necesita fotogramas clave, curvas de tiempo y parámetros de movimiento editables; un artista 3D no necesita solo una imagen renderizada, necesita estructuras geométricas, materiales, iluminación, cámaras y jerarquía de escena.

Por lo tanto, el artículo divide la generación visual en dos caminos: la generación nativa de píxeles (generar imágenes o vídeos directamente) es adecuada para el realismo, la atmósfera y la exploración; la generación nativa de código (generar SVG, Lottie, scripts de Blender, escenas USD, etc.) es más adecuada para la edición, iteración y producción. Lo realmente importante de esta última es que puede formar un ciclo cerrado de "código → renderizado → comprobación → modificación". El modelo ya no se limita a remuestrear una y otra vez, sino que está depurando un programa visual verificable.

Por eso el autor tiene especial optimismo con el 3D. Porque una imagen renderizada de una silla no es una silla, es solo una imagen de una silla. Un activo realmente utilizable en un juego, un simulador o una herramienta 3D debe tener una estructura geométrica estable, una jerarquía de componentes, materiales y restricciones funcionales: una puerta debe poder abrirse, un cajón debe poder deslizarse, una rueda debe poder girar. En otras palabras, el valor futuro de la IA visual no radica en "parecerse", sino en "poder seguir utilizándose".

Este artículo proporciona un buen marco de juicio: la primera ola de IA visual resolvió el problema de la generación; la próxima debe resolver el problema de la producción. Cuando la IA visual pase de la salida final al código fuente, lo que realmente cambiará no serán solo las herramientas de diseño, sino toda la cadena de producción de contenido visual.

A continuación, el texto original:

En los últimos años, la IA visual se ha juzgado principalmente por sus "píxeles". Cuanto mejor se vea la imagen o el vídeo generado, más potente parece el modelo.

Esto no es sorprendente. Los modelos de difusión primero convirtieron las instrucciones de texto en imágenes atractivas, luego se expandieron a vídeos y después a mundos cada vez más realistas. Es natural compararlos con Photoshop o una cámara.

Pero para muchas tareas relacionadas con lo visual, como el diseño gráfico, el diseño de UI o el modelado 3D, la representación final que los usuarios realmente necesitan no es solo los píxeles que se muestran. Necesitan un artefacto que pueda iterar continuamente según los comentarios y las nuevas ideas. Un diseñador no necesita solo un mockup (boceto de diseño), necesita capas, componentes y archivos entregables; un animador no necesita solo un vídeo, necesita curvas de tiempo, fotogramas clave y trayectorias de movimiento editables; un artista 3D no necesita solo una imagen renderizada, necesita estructuras geométricas, materiales, iluminación, cámaras y estructura de escena.

Las herramientas de IA visual más interesantes hoy en día ya no intentan generar directamente la salida final. Están empezando a generar el código fuente que hay detrás de esa salida final. Este cambio está liberando la editabilidad, la capacidad de iteración y los ciclos de retroalimentación, que son difíciles de igualar para los modelos nativos de píxeles.

Dos pilas tecnológicas para la generación visual

Podemos entender la generación visual de dos formas principales.

La primera es la generación nativa de píxeles. Estos sistemas suelen generar imágenes o vídeos directamente, a menudo en un espacio latente. Son buenos en texturas, atmósfera, iluminación y realismo. Si el objetivo es generar una toma cinematográfica, un moodboard (tablero de inspiración) atractivo o una imagen fotorrealista, los modelos de difusión siguen siendo el método dominante.

La segunda es la generación nativa de código. Estos sistemas generan una representación que luego es ejecutada o renderizada por otro motor. El modelo no genera directamente los píxeles finales, sino que genera un programa capaz de producir esos píxeles.

Este programa puede ser un archivo SVG, un esquema de maquetación HTML/CSS, un componente React, un archivo JSON Lottie, un script de Blender, un gráfico de escena USD, un shader (sombreador) o una escena de motor de juego. La salida visual final siguen siendo píxeles, pero la verdadera "fuente de verdad" es una representación estructurada.

Esta diferencia es importante porque los flujos de trabajo de producción se preocupan mucho por "lo que ocurre después de la generación". Una imagen generada puede usarse como salida, pero un programa visual generado puede usarse como un artefacto: puede ser editado, reutilizado, mejorado, versionado; puede integrarse en la pila tecnológica de software y validarse según restricciones; puede renderizarse repetidamente bajo diferentes condiciones y pasarse entre diseñadores, ingenieros y agentes.

Creo que ya está ocurriendo un cambio importante: para una parte de los problemas visuales, aprenderemos a replantear la tarea de generación visual como una tarea de codificación, y al resolver un problema de codificación bien definido y verificable, obtendremos mejoras altamente eficientes.

El código es un buen vehículo para resolver problemas visuales

La forma más sencilla de entender el valor de la generación de código visual es ver qué ocurre después del primer borrador.

Supongamos que un modelo genera un logotipo. Si la salida es una imagen rasterizada y una curva está mal, el usuario debe enmascarar, retocar localmente, regenerar o redibujar manualmente. Pero si la salida es SVG, el usuario puede editar directamente los trazados, formas básicas, degradados, trazos o elementos de texto. Así es ya como diseñan logotipos en Quiver.

En el ámbito del diseño de UI, si la salida es una captura de pantalla, sirve más como referencia de inspiración. Pero si la salida es HTML/CSS o React, el diseñador puede inspeccionar el DOM, reemplazar componentes reales, probar estados responsivos, comprobar la accesibilidad e integrarlo en una aplicación.

Por eso la generación de código visual es especialmente adecuada para la computación en tiempo de prueba (test-time compute). En la generación nativa de píxeles, aumentar el cómputo de inferencia suele significar muestrear más salidas: generar 20 imágenes, elegir la mejor, quizás intentarlo de nuevo. Es útil, por supuesto, pero cada intento es esencialmente como volver a tirar los dados. El modelo puede responder a los comentarios, pero estos suelen ser generales y poco precisos.

Técnicamente, los modelos de difusión también pueden beneficiarse de la computación en tiempo de prueba. Por ejemplo, "Inference-time Scaling of Diffusion Models through Classical Search" muestra que la búsqueda en fase de inferencia puede mejorar el rendimiento de los modelos de difusión en planificación, aprendizaje por refuerzo y generación de imágenes. Pero el mecanismo de ciclo es diferente aquí. En los modelos de difusión, el sistema suele buscar entre trayectorias latentes o muestras finales. Una señal de recompensa puede decirle al modelo que una salida es mejor que otra, pero no puede mapear claramente la retroalimentación a una modificación concreta a nivel de código fuente.

La generación nativa de código crea un ciclo más preciso: código → renderizado → comprobación → modificación.

El modelo genera el artefacto, lo renderiza, observa dónde falla y luego corrige el archivo fuente. Si el espaciado está mal, modifica el CSS; si una curva del logotipo se desvía, edita el trazado SVG; si el ritmo de una animación es demasiado lento, ajusta los parámetros de tiempo. La clave está en que cada iteración mejora el artefacto subyacente, no solo la salida renderizada. Por eso la generación de código visual se beneficia naturalmente de la generación de más tokens y de la computación en tiempo de prueba. El modelo está depurando un programa visual en un entorno cerrado y verificable, no solo muestreando más imágenes.

Pila tecnológica de generación visual centrada en código

Detrás de estos ejemplos hay una pila tecnológica: modelo de codificación + representación simbólica + renderizador o motor.

El modelo de codificación es el autor y editor del artefacto. Es responsable de escribir HTML, SVG, JSON Lottie, scripts de Blender, escenas USD o programas personalizados para activos 3D.

La representación simbólica es la fuente de verdad. Esto es lo que hace que el artefacto sea editable. Una UI tiene nodos DOM, reglas de maquetación y componentes; una animación Lottie tiene capas, formas vectoriales, curvas de tiempo, fotogramas clave y parámetros de movimiento; un activo 3D tiene estructuras geométricas, materiales, articulaciones, restricciones y relaciones jerárquicas.

El renderizador o motor convierte estas estructuras en píxeles. El navegador renderiza HTML/CSS, un renderizador SVG renderiza gráficos vectoriales, un reproductor Lottie renderiza animaciones, Blender o un motor de juego renderiza escenas 3D, y un simulador verifica si un activo articulado realmente puede moverse o interactuar.

OmniLottie es un buen ejemplo de por qué es importante la representación simbólica. Lottie es un formato de animación ligero basado en JSON; no representa la animación como un vídeo plano, sino como formas vectoriales editables, capas, fotogramas clave y parámetros de tiempo que representan el movimiento. OmniLottie propone convertir el JSON Lottie original en una secuencia de comandos más adecuada para la comprensión del modelo, permitiendo que el modelo genere y edite animaciones Lottie de forma más fiable. El foco de este artículo no es construir un ciclo de agente completo, sino hacer que Lottie sea más adecuado para la generación por modelos: convierte el JSON Lottie original en un conjunto compacto de secuencias de comandos y parámetros. Este paso es clave porque Lottie ya es en sí mismo un formato de animación editable. Una vez que el movimiento se representa como formas, capas, tiempo y parámetros de animación, los comentarios se pueden mapear a modificaciones a nivel de archivo fuente. Si un objeto se mueve demasiado lento, se ajusta el tiempo; si un trazado está mal, se modifica el vector; si una transformación se desvía, se actualiza la secuencia de formas.

Esta pila tecnológica se corresponde precisamente con el ciclo de computación en tiempo de prueba que los agentes de codificación pueden utilizar para mejorar la calidad de la salida: en cada ciclo de "código → renderizado → comprobación → modificación", el modelo no está simplemente generando una nueva muestra, sino que está utilizando la retroalimentación proporcionada por el renderizador para mejorar el artefacto subyacente. Puede modificar reglas CSS, ajustar trazados SVG, corregir tiempos de animación o actualizar restricciones 3D, luego renderizar de nuevo y seguir mejorando.

Esto hace que el ciclo pueda converger. En la generación nativa de píxeles, cada reintento suele producir una nueva salida. En la generación nativa de código, cada reintento puede mejorar el propio artefacto fuente. El modelo no solo muestrea más imágenes o vídeos, sino que depura un programa visual en un entorno cerrado y renderizable.

Mapa del mercado: puntos de entrada formados en torno al runtime

El mercado de generación de código visual se está organizando en torno al "runtime", es decir, el lugar donde se renderiza o ejecuta el artefacto. En la generación visual nativa de código, el modelo genera un artefacto simbólico que luego se ejecuta en algún entorno: un navegador, un renderizador SVG, un reproductor Lottie, Blender, un motor de juego o un simulador.

Cada runtime formará un punto de entrada diferente, porque cada uno tiene su propia representación fuente, ciclo de retroalimentación y flujo de trabajo de producción.

La aplicación más evidente hoy en día está en el diseño 2D, especialmente en el diseño de UI y gráfico. Pero la generación de código visual no se limita a las herramientas de diseño. Siempre que exista una representación subyacente detrás de un artefacto visual que pueda ser generada, renderizada, inspeccionada y optimizada, es posible que aparezca.

Por qué el 3D es la próxima frontera importante

Aunque el diseño de productos y el diseño 2D son los casos de uso más intuitivos hoy en día, los artefactos 3D probablemente sean los que más se beneficien de este enfoque de "replantear los problemas de consistencia como problemas de codificación".

A veces, un diseño 2D ya es útil simplemente si parece correcto. Pero un activo 3D no. Una imagen renderizada de una silla no es una silla, es solo una imagen de una silla. Para que ese activo sea realmente utilizable en un juego, un simulador o una herramienta de edición 3D, debe tener una representación 3D subyacente consistente, incluyendo la estructura geométrica correcta, materiales, jerarquía de componentes y contexto de escena.

Por eso el 3D se adapta naturalmente a la generación de código visual. Su valor no es solo generar algo que parezca 3D desde un ángulo, sino generar una estructura 3D consistente que sea válida bajo diferentes perspectivas, ediciones e interacciones. Esto requiere un ciclo iterativo: proponer un objeto, renderizarlo, comprobar si la estructura geométrica y los componentes son razonables, y luego modificar la representación subyacente. Pero este ciclo solo es eficaz si el agente tiene las herramientas y el contexto correctos. Simplemente ejecutar Blender repetidamente hasta que algo se vea mejor no es suficiente. El agente necesita poder cambiar la vista de la cámara, consultar el estado de la escena, aislar objetos, comparar con objetivos, recordar intentos anteriores y convertir diferencias visuales en modificaciones a nivel de archivo fuente. Son estas capacidades las que dan al cómputo en tiempo de prueba la oportunidad de converger.

Para muchos activos, la consistencia visual es solo el requisito mínimo. Los objetos también necesitan una semántica de componentes correcta y restricciones funcionales: una puerta debería poder abrirse, una bisagra debería poder girar, un cajón debería poder deslizarse, una rueda debería poder girar. En otras palabras, la salida no puede ser solo una forma que parezca razonable, también debe funcionar como lo que representa.

Por eso son tan interesantes proyectos como VIGA y Articraft3D. Esperamos ver más trabajos relacionados este año, tanto comerciales como de código abierto. VIGA utiliza Blender como entorno de renderizado y retroalimentación, transformando la reconstrucción visual en un ciclo de "código—renderizado—comprobación"; pero VIGA no simplemente expone el Blender crudo a un ciclo de agente. Proporciona al agente herramientas semánticas para observar y modificar, y mantiene un recuerdo de intentos anteriores, permitiéndole inspeccionar objetos desde mejores perspectivas, diagnosticar problemas y realizar modificaciones específicas. Articraft3D aborda más directamente la estructura del activo: plantea la generación 3D articulada como la escritura de programas que definen componentes, estructuras geométricas, articulaciones y pruebas.

Impacto futuro y preguntas sin resolver

Si la generación de código visual realmente se consolida, los productos ganadores no solo generarán salidas más bonitas. Dominarán todo el ciclo: generar el artefacto, renderizarlo, comprobar dónde falla y modificar el archivo fuente.

Esto tendrá varias consecuencias.

En primer lugar, los renderizadores se convertirán en entornos de retroalimentación. Los navegadores, renderizadores SVG, reproductores Lottie, Blender, motores de juego y simuladores se convertirán en entornos donde los agentes prueban y mejoran sus creaciones, tal como los agentes de codificación están utilizando hoy en día sandboxes y máquinas virtuales.

En segundo lugar, la calidad del contexto de iteración será más importante que nunca. Para que un agente entre en la versión de código visual del "ciclo Ralph", la representación intermedia debe ser lo suficientemente precisa como para guiar el siguiente paso. El modelo necesita saber no solo que "algo no se ve bien", sino también qué parte del archivo fuente debe modificarse y por qué. Pequeños errores en la estructura, el renderizado o la retroalimentación pueden acumularse rápidamente en múltiples iteraciones.

En tercer lugar, el futuro probablemente será híbrido. Los modelos nativos de píxeles seguirán siendo los mejores en realismo, texturas y exploración; los sistemas nativos de código serán más adecuados para la estructura, iteración y producción. Los flujos de trabajo más útiles combinarán ambos.

Por supuesto, aún quedan muchas preguntas abiertas. ¿Qué representación adoptará finalmente cada campo? ¿Necesitaremos rediseñar motores y renderizadores en lugar de seguir utilizando las herramientas de la generación anterior? ¿Hasta qué punto se pueden capturar el gusto visual, las restricciones, las pruebas y los ciclos de retroalimentación?

Pero la dirección ya está clara: la IA visual está pasando de la salida a los artefactos de código. La primera ola hizo que generar imágenes fuera más fácil; la próxima ola hará que generar artefactos visuales editables, probables, entregables y mejorables sea más fácil.

Lecturas Relacionadas

¿El ETF spot de HYPE acumula capital durante 14 días consecutivos, llegando a un nuevo máximo de 75 dólares, y esto es solo el comienzo?

Arthur Hayes, cofundador de BitMEX, predice que HYPE superará a SOL en esta corrida alcista, con un objetivo de 150 dólares. Este optimismo se basa en el fuerte desempeño de los nuevos ETF spot de HYPE, que han registrado entradas netas durante 14 días consecutivos, acumulando más de 136 millones de dólares y absorbiendo aproximadamente el 1% de la capitalización de mercado de HYPE. Este flujo contrasta con las salidas netas recientes de los ETF de BTC y ETH. El comprador clave es el Fondo de Asistencia (AF) de Hyperliquid, que destina el 99% de las tarifas del protocolo a recomprar HYPE, generando un soporte de precio fundamental. Junto con la demanda de los ETF, esto ayuda a contrarrestar la presión de venta de los desbloqueos de tokens del equipo. Grandes instituciones como a16z y Galaxy Digital están acumulando HYPE de manera significativa, con a16z posiblemente siendo el mayor tenedor institucional externo. Bitwise y Grayscale han lanzado productos relacionados, y la empresa vinculada a HYPE, Hyperliquid Strategies (PURR), será incluida en el índice Russell 3000, lo que podría atraer más capital institucional. Los analistas destacan que HYPE ha pasado de ser visto como un simple "altcoin" a una criptomoneda de "segunda generación" con captura de valor real y demanda institucional sólida.

Odaily星球日报Hace 6 min(s)

¿El ETF spot de HYPE acumula capital durante 14 días consecutivos, llegando a un nuevo máximo de 75 dólares, y esto es solo el comienzo?

Odaily星球日报Hace 6 min(s)

Blockmaze Define el Futuro de la Tokenización de Activos del Mundo Real con una Infraestructura Centrada en el Cumplimiento Normativo para un Mundo On-Chain de $500 Billones

Blockmaze, respaldado por Finvasia Group, está definiendo el futuro de la tokenización de activos del mundo real (RWA) con una infraestructura que prioriza el cumplimiento normativo. Diseñado para cerrar la brecha entre las finanzas tradicionales y la tecnología blockchain, el ecosistema regulado de Blockmaze garantiza que los activos tokenizados no solo se creen, sino que tengan reconocimiento legal, sean conformes y estén conectados con la propiedad real en un mercado global estimado en más de 500 billones de dólares. Con presencia en más de 45 registros regulatorios y licencias en ocho jurisdicciones, Blockmaze proporciona soluciones listas para lanzar a emisores e instituciones. Su enfoque integra la conformidad en el núcleo de la infraestructura, conectando los tokens digitales con marcos legales del mundo real para generar confianza institucional. El CEO Tajinder Virk destaca que el mayor desafío no es crear tokens, sino establecer su reconocimiento legal y propiedad verificable más allá de la cadena de bloques. Blockmaze opera como una infraestructura blockchain de Capa 1 específica para RWAs, combinando innovación tecnológica con gobernanza institucional para permitir la transición segura, transparente y regulada de activos tradicionales a la economía digital.

TheNewsCryptoHace 22 min(s)

Blockmaze Define el Futuro de la Tokenización de Activos del Mundo Real con una Infraestructura Centrada en el Cumplimiento Normativo para un Mundo On-Chain de $500 Billones

TheNewsCryptoHace 22 min(s)

Colección de opiniones sobre el futuro de ETH: ¿Puede el valor de Ethereum fluir de vuelta a ETH?

L'actual sentiment de mercat és baix. Les discussions sobre ETH mostren una divisió significativa: David Hoffman de Bankless ha vengut tot el seu ETH, mentre que Tom Lee de BitMine augmenta les seves posicions. **Bulls (Optimistes):** Creuen que el valor fonamental d'ETH es manté. Ethereum segueix sent la xarxa principal per a DeFi, RWA, L2 i finances tokenitzades, atraient capital institucional a llarg termini. Figures com Tom Lee, Raoul Pal i Joseph Lubin destaquen el seu rol com a infraestructura essencial. Hayden Adams (Uniswap) veu ETH com a part d'un sistema monetari descentralitzat més ampli. Els arguments es basen en la captura de valor a mesura que l'economia en cadena creix. **Bears (Baixistes):** Consideren que la captura de valor d'ETH s'ha afeblit. David Hoffman argumenta que l'èxit d'Ethereum no es tradueix necessàriament en guanys per a ETH. Altres, com Markus Thielen, citen la manca de fluxos d'efectiu clars i la sortida de capitals institucionals. Eric (autor de l'EIP-1559) i Ignas assenyalen el rendiment inferior d'ETH i com els beneficis de l'ecosistema (comissió dels L2) no revertixen en ETH. **Conclusió:** El debat central ja no és si Ethereum prosperarà, sinó si el seu creixement es traduirà en una demanda sostinguda i acumulació de valor per a l'actiu ETH en si mateix. Això representa un canvi clau en la seva valoració pel mercat.

marsbitHace 52 min(s)

Colección de opiniones sobre el futuro de ETH: ¿Puede el valor de Ethereum fluir de vuelta a ETH?

marsbitHace 52 min(s)

El Crypto ha muerto, los Perps perduran

La industria cripto atraviesa una transformación profunda, dejando atrás la era centrada en la creación de activos nativos (como altcoins y tokens de gobernanza). Estos activos, cuya utilidad real a menudo se limita a la especulación, están perdiendo relevancia frente a una nueva realidad: las cadenas de bloques se están consolidando principalmente como infraestructura de liquidación y canal global para activos tradicionales. El cambio es evidente. Activos como acciones estadounidenses (NASDAQ, NVIDIA), bonos, oro o petróleo están ganando protagonismo en plataformas on-chain, mientras que el atractivo de las criptomonedas nativas se desvanece. La función principal validada a gran escala no ha sido el almacenamiento de valor complejo, sino la transferencia eficiente, global y sin fronteras, ejemplificada por el éxito de las stablecoins. En este contexto, los contratos perpetuos (Perps) emergen como el producto más adaptado y duradero del ecosistema. Su genialidad y, a la vez, su aspecto más controvertido, radica en simplificar cualquier activo (desde una acción hasta el oro) a un mero "precio" sobre el que se puede apostar con apalancamiento, 24/7, de forma global y sin permisos. Hyperliquid es un caso paradigmático de este éxito. No por inventar algo radicalmente nuevo, sino por capitalizar el *timing* perfecto: ofrecer una experiencia similar a un CEX pero on-chain, ganar confianza tras eventos como FTX, y aprovechar la demanda de exposición a la volatilidad de activos macro y acciones tradicionales. Así, el sueño de "reinventar las finanzas" cede paso a una visión más pragmática: la industria se concentra ahora en proporcionar una nueva capa de transmisión o "API" para el mundo financiero tradicional. El ciclo de creación especulativa de activos nativos ("la crypto") puede estar agonizando, pero la utilidad de los contratos perpetuos para negociar la exposición al precio de cualquier activo parece destinada a perdurar.

marsbitHace 57 min(s)

El Crypto ha muerto, los Perps perduran

marsbitHace 57 min(s)

Tencent, Alibaba, ByteDance: la batalla por las tiendas de Skill

Skill se ha convertido en una palabra clave candente en el campo de la IA. Se refiere a un "manual de instrucciones" para los AI Agents: un archivo estructurado que especifica las herramientas a invocar, los criterios de juicio y los estándares de salida. A medida que proliferan los Skills, surgen plataformas de distribución. En marzo, gigantes tecnológicos chinos como Tencent, Alibaba y ByteDance lanzaron tiendas de Skills en sus plataformas de Agent, seguidos rápidamente por otros como Zhipu, Meituan y Xiaohongshu. La batalla por estas tiendas es esencialmente una lucha por la entrada de tráfico en la era de la IA: quien controle la distribución, controlará a los usuarios. Sin embargo, excepto ByteDance que prueba el pago por Skills, la mayoría de plataformas ofrecen versiones gratuitas. Los actores se dividen en tres categorías: 1. **Grandes empresas de Internet** (Alibaba, ByteDance, Tencent, Meituan): Utilizan las tiendas de Skills para dirigir tráfico y monetizar dentro de sus ecosistemas (servicios en la nube, transacciones, publicidad). 2. **Empresas de modelos de lenguaje grandes** (Zhipu, Moonshot AI): Buscan retener usuarios para impulsar el uso de sus modelos base, donde está su principal fuente de ingresos. 3. **Plataformas de contenido** (Xiaohongshu): Tratan los Skills como un nuevo formato de contenido, monetizando a través del tráfico y la publicidad generados. La lógica común es que la tienda en sí no genera ganancias, pero es una entrada crucial para adquirir y retener usuarios. Los ingresos reales provienen de fuera: consumo de potencia de cálculo, transacciones, publicidad o uso del modelo. No obstante, el negocio de las tiendas de Skills enfrenta varios obstáculos: * **Dificultad de fijación de precios:** La salida de un Skill puede variar según el modelo o el contexto, careciendo de la estabilidad y estandarización que permiten sistemas de evaluación como los de las App Stores. * **Costes opacos:** Los usuarios no pueden comparar el consumo de tokens entre Skills antes de instalarlos, añadiendo incertidumbre al coste total. * **Riesgos de seguridad:** Existen casos de "Skills envenenados" que roban datos. Los mecanismos de revisión, aunque necesarios, aumentan la barrera para los desarrolladores. * **Falta de protocolos estandarizados:** La ausencia de descripciones y límites de permisos estandarizados dificulta la portabilidad y evaluación consistente de los Skills. En resumen, los Skills son flujos de trabajo personalizados que resisten la estandarización, un requisito previo para la comercialización a gran escala. Aunque existe demanda de pago (ej., en escenarios empresariales o herramientas personales específicas), las tiendas actuales se asemejan más a vitrinas de exhibición que a mercados transaccionales. Ningún actor ha logrado aún que "comprar un Skill" sea tan sencillo y confiable como descargar una app, debido a los desafíos inherentes de inestabilidad, personalización y seguridad.

marsbitHace 58 min(s)

Tencent, Alibaba, ByteDance: la batalla por las tiendas de Skill

marsbitHace 58 min(s)

Trading

Spot
Futuros

Artículos destacados

Qué es GROK AI

Grok AI: Revolucionando la Tecnología Conversacional en la Era Web3 Introducción En el paisaje de la inteligencia artificial en rápida evolución, Grok AI se destaca como un proyecto notable que une los dominios de la tecnología avanzada y la interacción con el usuario. Desarrollado por xAI, una empresa liderada por el renombrado emprendedor Elon Musk, Grok AI busca redefinir cómo interactuamos con la inteligencia artificial. A medida que el movimiento Web3 continúa floreciendo, Grok AI tiene como objetivo aprovechar el poder de la IA conversacional para responder a consultas complejas, proporcionando a los usuarios una experiencia que no solo es informativa, sino también entretenida. ¿Qué es Grok AI? Grok AI es un sofisticado chatbot de IA conversacional diseñado para interactuar con los usuarios de manera dinámica. A diferencia de muchos sistemas de IA tradicionales, Grok AI abraza una gama más amplia de consultas, incluidas aquellas que normalmente se consideran inapropiadas o fuera de las respuestas estándar. Los objetivos centrales del proyecto incluyen: Razonamiento Fiable: Grok AI enfatiza el razonamiento de sentido común para proporcionar respuestas lógicas basadas en la comprensión contextual. Supervisión Escalable: La integración de asistencia de herramientas asegura que las interacciones de los usuarios sean tanto monitoreadas como optimizadas para la calidad. Verificación Formal: La seguridad es primordial; Grok AI incorpora métodos de verificación formal para mejorar la fiabilidad de sus resultados. Comprensión de Largo Contexto: El modelo de IA sobresale en retener y recordar un extenso historial de conversaciones, facilitando discusiones significativas y contextualizadas. Robustez Adversarial: Al centrarse en mejorar sus defensas contra entradas manipuladas o maliciosas, Grok AI busca mantener la integridad de las interacciones de los usuarios. En esencia, Grok AI no es solo un dispositivo de recuperación de información; es un compañero conversacional inmersivo que fomenta un diálogo dinámico. Creador de Grok AI La mente detrás de Grok AI no es otra que Elon Musk, una persona sinónimo de innovación en varios campos, incluidos el automotriz, los viajes espaciales y la tecnología. Bajo el paraguas de xAI, una empresa centrada en avanzar la tecnología de IA de maneras beneficiosas, la visión de Musk busca remodelar la comprensión de las interacciones de IA. El liderazgo y la ética fundacional están profundamente influenciados por el compromiso de Musk de empujar los límites tecnológicos. Inversores de Grok AI Si bien los detalles específicos sobre los inversores que respaldan Grok AI son limitados, se reconoce públicamente que xAI, el incubador del proyecto, está fundado y apoyado principalmente por el propio Elon Musk. Las empresas y participaciones anteriores de Musk proporcionan un respaldo robusto, reforzando aún más la credibilidad y el potencial de crecimiento de Grok AI. Sin embargo, hasta ahora, la información sobre fundaciones de inversión adicionales u organizaciones que apoyan a Grok AI no está fácilmente accesible, marcando un área para una posible exploración futura. ¿Cómo Funciona Grok AI? La mecánica operativa de Grok AI es tan innovadora como su marco conceptual. El proyecto integra varias tecnologías de vanguardia que facilitan sus funcionalidades únicas: Infraestructura Robusta: Grok AI está construido utilizando Kubernetes para la orquestación de contenedores, Rust para rendimiento y seguridad, y JAX para computación numérica de alto rendimiento. Este trío asegura que el chatbot opere de manera eficiente, escale efectivamente y sirva a los usuarios de manera oportuna. Acceso a Conocimiento en Tiempo Real: Una de las características distintivas de Grok AI es su capacidad para acceder a datos en tiempo real a través de la plataforma X—anteriormente conocida como Twitter. Esta capacidad otorga a la IA acceso a la información más reciente, permitiéndole proporcionar respuestas y recomendaciones oportunas que otros modelos de IA podrían pasar por alto. Dos Modos de Interacción: Grok AI ofrece a los usuarios la opción entre “Modo Divertido” y “Modo Regular”. El Modo Divertido permite un estilo de interacción más lúdico y humorístico, mientras que el Modo Regular se centra en ofrecer respuestas precisas y exactas. Esta versatilidad asegura una experiencia personalizada que se adapta a diversas preferencias de los usuarios. En esencia, Grok AI une rendimiento con compromiso, creando una experiencia que es tanto enriquecedora como entretenida. Cronología de Grok AI El viaje de Grok AI está marcado por hitos clave que reflejan sus etapas de desarrollo y despliegue: Desarrollo Inicial: La fase fundamental de Grok AI tuvo lugar durante aproximadamente dos meses, durante los cuales se llevó a cabo el entrenamiento y ajuste inicial del modelo. Lanzamiento Beta de Grok-2: En un avance significativo, se anunció la beta de Grok-2. Este lanzamiento introdujo dos versiones del chatbot—Grok-2 y Grok-2 mini—cada una equipada con capacidades para chatear, programar y razonar. Acceso Público: Tras su desarrollo beta, Grok AI se volvió disponible para los usuarios de la plataforma X. Aquellos con cuentas verificadas por un número de teléfono y activas durante al menos siete días pueden acceder a una versión limitada, haciendo la tecnología disponible para una audiencia más amplia. Esta cronología encapsula el crecimiento sistemático de Grok AI desde su inicio hasta el compromiso público, enfatizando su compromiso con la mejora continua y la interacción con los usuarios. Características Clave de Grok AI Grok AI abarca varias características clave que contribuyen a su identidad innovadora: Integración de Conocimiento en Tiempo Real: El acceso a información actual y relevante diferencia a Grok AI de muchos modelos estáticos, permitiendo una experiencia de usuario atractiva y precisa. Estilos de Interacción Versátiles: Al ofrecer modos de interacción distintos, Grok AI se adapta a diversas preferencias de los usuarios, invitando a la creatividad y la personalización en la conversación con la IA. Avanzada Infraestructura Tecnológica: La utilización de Kubernetes, Rust y JAX proporciona al proyecto un marco sólido para garantizar fiabilidad y rendimiento óptimo. Consideración de Discurso Ético: La inclusión de una función generadora de imágenes muestra el espíritu innovador del proyecto. Sin embargo, también plantea consideraciones éticas en torno a los derechos de autor y la representación respetuosa de figuras reconocibles—una discusión en curso dentro de la comunidad de IA. Conclusión Como una entidad pionera en el ámbito de la IA conversacional, Grok AI encapsula el potencial para experiencias transformadoras de usuario en la era digital. Desarrollado por xAI y guiado por el enfoque visionario de Elon Musk, Grok AI integra conocimiento en tiempo real con capacidades avanzadas de interacción. Se esfuerza por empujar los límites de lo que la inteligencia artificial puede lograr mientras mantiene un enfoque en consideraciones éticas y la seguridad del usuario. Grok AI no solo encarna el avance tecnológico, sino que también representa un nuevo paradigma de conversaciones en el paisaje Web3, prometiendo involucrar a los usuarios con tanto conocimiento hábil como interacción lúdica. A medida que el proyecto continúa evolucionando, se erige como un testimonio de lo que la intersección de la tecnología, la creatividad y la interacción similar a la humana puede lograr.

537 Vistas totalesPublicado en 2024.12.26Actualizado en 2024.12.26

Qué es GROK AI

Qué es ERC AI

Euruka Tech: Una Visión General de $erc ai y sus Ambiciones en Web3 Introducción En el panorama en rápida evolución de la tecnología blockchain y las aplicaciones descentralizadas, nuevos proyectos emergen con frecuencia, cada uno con objetivos y metodologías únicas. Uno de estos proyectos es Euruka Tech, que opera en el amplio dominio de las criptomonedas y Web3. El enfoque principal de Euruka Tech, particularmente su token $erc ai, es presentar soluciones innovadoras diseñadas para aprovechar las crecientes capacidades de la tecnología descentralizada. Este artículo tiene como objetivo proporcionar una visión general completa de Euruka Tech, una exploración de sus objetivos, funcionalidad, la identidad de su creador, posibles inversores y su importancia dentro del contexto más amplio de Web3. ¿Qué es Euruka Tech, $erc ai? Euruka Tech se caracteriza como un proyecto que aprovecha las herramientas y funcionalidades ofrecidas por el entorno Web3, centrándose en integrar la inteligencia artificial dentro de sus operaciones. Aunque los detalles específicos sobre el marco del proyecto son algo elusivos, está diseñado para mejorar la participación del usuario y automatizar procesos en el espacio cripto. El proyecto tiene como objetivo crear un ecosistema descentralizado que no solo facilite transacciones, sino que también incorpore funcionalidades predictivas a través de la inteligencia artificial, de ahí la designación de su token, $erc ai. La meta es proporcionar una plataforma intuitiva que facilite interacciones más inteligentes y un procesamiento de transacciones eficiente dentro de la creciente esfera de Web3. ¿Quién es el Creador de Euruka Tech, $erc ai? En la actualidad, la información sobre el creador o el equipo fundador detrás de Euruka Tech sigue sin especificarse y es algo opaca. Esta ausencia de datos genera preocupaciones, ya que el conocimiento del trasfondo del equipo es a menudo esencial para establecer credibilidad dentro del sector blockchain. Por lo tanto, hemos categorizado esta información como desconocida hasta que se disponga de detalles concretos en el dominio público. ¿Quiénes son los Inversores de Euruka Tech, $erc ai? De manera similar, la identificación de inversores u organizaciones de respaldo para el proyecto Euruka Tech no se proporciona fácilmente a través de la investigación disponible. Un aspecto crucial para los posibles interesados o usuarios que consideren involucrarse con Euruka Tech es la garantía que proviene de asociaciones financieras establecidas o respaldo de firmas de inversión reputadas. Sin divulgaciones sobre afiliaciones de inversión, es difícil llegar a conclusiones completas sobre la seguridad financiera o la longevidad del proyecto. De acuerdo con la información encontrada, esta sección también se encuentra en estado de desconocido. ¿Cómo Funciona Euruka Tech, $erc ai? A pesar de la falta de especificaciones técnicas detalladas para Euruka Tech, es esencial considerar sus ambiciones innovadoras. El proyecto busca aprovechar la potencia computacional de la inteligencia artificial para automatizar y mejorar la experiencia del usuario dentro del entorno de las criptomonedas. Al integrar la IA con la tecnología blockchain, Euruka Tech aspira a proporcionar características como operaciones automatizadas, evaluaciones de riesgos e interfaces de usuario personalizadas. La esencia innovadora de Euruka Tech radica en su objetivo de crear una conexión fluida entre los usuarios y las vastas posibilidades que presentan las redes descentralizadas. A través de la utilización de algoritmos de aprendizaje automático e IA, busca minimizar los desafíos que enfrentan los usuarios primerizos y agilizar las experiencias transaccionales dentro del marco de Web3. Esta simbiosis entre IA y blockchain subraya la importancia del token $erc ai, que actúa como un puente entre las interfaces de usuario tradicionales y las capacidades avanzadas de las tecnologías descentralizadas. Cronología de Euruka Tech, $erc ai Desafortunadamente, como resultado de la información limitada disponible sobre Euruka Tech, no podemos presentar una cronología detallada de los principales desarrollos o hitos en el viaje del proyecto. Esta cronología, que suele ser invaluable para trazar la evolución de un proyecto y comprender su trayectoria de crecimiento, no está actualmente disponible. A medida que la información sobre eventos notables, asociaciones o adiciones funcionales se haga evidente, las actualizaciones seguramente mejorarán la visibilidad de Euruka Tech en la esfera cripto. Aclaración sobre Otros Proyectos “Eureka” Es importante señalar que múltiples proyectos y empresas comparten una nomenclatura similar con “Eureka”. La investigación ha identificado iniciativas como un agente de IA de NVIDIA Research, que se centra en enseñar a los robots tareas complejas utilizando métodos generativos, así como Eureka Labs y Eureka AI, que mejoran la experiencia del usuario en educación y análisis de servicio al cliente, respectivamente. Sin embargo, estos proyectos son distintos de Euruka Tech y no deben confundirse con sus objetivos o funcionalidades. Conclusión Euruka Tech, junto con su token $erc ai, representa un jugador prometedor pero actualmente oscuro dentro del paisaje de Web3. Si bien los detalles sobre su creador e inversores siguen sin revelarse, la ambición central de combinar inteligencia artificial con tecnología blockchain se erige como un punto focal de interés. Los enfoques únicos del proyecto para fomentar la participación del usuario a través de la automatización avanzada podrían distinguirlo a medida que el ecosistema Web3 progresa. A medida que el mercado de criptomonedas continúa evolucionando, los interesados deben mantener un ojo atento a los avances en torno a Euruka Tech, ya que el desarrollo de innovaciones documentadas, asociaciones o una hoja de ruta definida podría presentar oportunidades significativas en el futuro cercano. Tal como están las cosas, esperamos más información sustancial que podría desvelar el potencial de Euruka Tech y su posición en el competitivo paisaje cripto.

572 Vistas totalesPublicado en 2025.01.02Actualizado en 2025.01.02

Qué es ERC AI

Qué es DUOLINGO AI

DUOLINGO AI: Integrando el Aprendizaje de Idiomas con la Innovación de Web3 y AI En una era donde la tecnología remodela la educación, la integración de la inteligencia artificial (IA) y las redes blockchain anuncia una nueva frontera para el aprendizaje de idiomas. Presentamos DUOLINGO AI y su criptomoneda asociada, $DUOLINGO AI. Este proyecto aspira a fusionar la capacidad educativa de las principales plataformas de aprendizaje de idiomas con los beneficios de la tecnología descentralizada Web3. Este artículo profundiza en los aspectos clave de DUOLINGO AI, explorando sus objetivos, marco tecnológico, desarrollo histórico y potencial futuro, manteniendo la claridad entre el recurso educativo original y esta iniciativa independiente de criptomoneda. Visión General de DUOLINGO AI En su esencia, DUOLINGO AI busca establecer un entorno descentralizado donde los aprendices puedan ganar recompensas criptográficas por alcanzar hitos educativos en la competencia lingüística. Al aplicar contratos inteligentes, el proyecto pretende automatizar los procesos de verificación de habilidades y asignación de tokens, adhiriéndose a los principios de Web3 que enfatizan la transparencia y la propiedad del usuario. El modelo se aparta de los enfoques tradicionales para la adquisición de idiomas al apoyarse en una estructura de gobernanza impulsada por la comunidad, permitiendo a los poseedores de tokens sugerir mejoras al contenido del curso y a la distribución de recompensas. Algunos de los objetivos notables de DUOLINGO AI incluyen: Aprendizaje Gamificado: El proyecto integra logros en blockchain y tokens no fungibles (NFTs) para representar niveles de competencia lingüística, fomentando la motivación a través de recompensas digitales atractivas. Creación de Contenido Descentralizada: Abre caminos para que educadores y entusiastas de los idiomas contribuyan con sus cursos, facilitando un modelo de reparto de ingresos que beneficia a todos los contribuyentes. Personalización Potenciada por IA: Al emplear modelos avanzados de aprendizaje automático, DUOLINGO AI personaliza las lecciones para adaptarse al progreso de aprendizaje individual, similar a las características adaptativas encontradas en plataformas establecidas. Creadores del Proyecto y Gobernanza A partir de abril de 2025, el equipo detrás de $DUOLINGO AI permanece seudónimo, una práctica frecuente en el paisaje descentralizado de criptomonedas. Esta anonimidad está destinada a promover el crecimiento colectivo y la participación de las partes interesadas en lugar de centrarse en desarrolladores individuales. El contrato inteligente desplegado en la blockchain de Solana señala la dirección de la billetera del desarrollador, lo que significa el compromiso con la transparencia en las transacciones a pesar de que la identidad de los creadores sea desconocida. Según su hoja de ruta, DUOLINGO AI tiene como objetivo evolucionar hacia una Organización Autónoma Descentralizada (DAO). Esta estructura de gobernanza permite a los poseedores de tokens votar sobre cuestiones críticas como implementaciones de características y asignaciones de tesorería. Este modelo se alinea con la ética de empoderamiento comunitario que se encuentra en varias aplicaciones descentralizadas, enfatizando la importancia de la toma de decisiones colectiva. Inversores y Alianzas Estratégicas Actualmente, no hay inversores institucionales o capitalistas de riesgo identificables públicamente vinculados a $DUOLINGO AI. En cambio, la liquidez del proyecto proviene principalmente de intercambios descentralizados (DEXs), marcando un contraste marcado con las estrategias de financiación de las empresas tradicionales de tecnología educativa. Este modelo de base indica un enfoque impulsado por la comunidad, reflejando el compromiso del proyecto con la descentralización. En su libro blanco, DUOLINGO AI menciona la formación de colaboraciones con “plataformas de educación blockchain” no especificadas, destinadas a enriquecer su oferta de cursos. Aunque aún no se han divulgado asociaciones específicas, estos esfuerzos colaborativos sugieren una estrategia para combinar la innovación blockchain con iniciativas educativas, ampliando el acceso y la participación de los usuarios en diversas vías de aprendizaje. Arquitectura Tecnológica Integración de IA DUOLINGO AI incorpora dos componentes principales impulsados por IA para mejorar su oferta educativa: Motor de Aprendizaje Adaptativo: Este sofisticado motor aprende de las interacciones del usuario, similar a los modelos propietarios de las principales plataformas educativas. Ajusta dinámicamente la dificultad de las lecciones para abordar desafíos específicos del aprendiz, reforzando áreas débiles a través de ejercicios específicos. Agentes Conversacionales: Al emplear chatbots impulsados por GPT-4, DUOLINGO AI proporciona una plataforma para que los usuarios participen en conversaciones simuladas, fomentando una experiencia de aprendizaje de idiomas más interactiva y práctica. Infraestructura Blockchain Construido sobre la blockchain de Solana, $DUOLINGO AI utiliza un marco tecnológico integral que incluye: Contratos Inteligentes de Verificación de Habilidades: Esta característica otorga automáticamente tokens a los usuarios que superan con éxito las pruebas de competencia, reforzando la estructura de incentivos para resultados de aprendizaje genuinos. Insignias NFT: Estos tokens digitales significan varios hitos que los aprendices logran, como completar una sección de su curso o dominar habilidades específicas, permitiéndoles intercambiar o exhibir sus logros digitalmente. Gobernanza DAO: Los miembros de la comunidad que poseen tokens pueden participar en la gobernanza votando sobre propuestas clave, facilitando una cultura participativa que fomenta la innovación en la oferta de cursos y características de la plataforma. Línea de Tiempo Histórica 2022–2023: Conceptualización Los cimientos de DUOLINGO AI comienzan con la creación de un libro blanco, destacando la sinergia entre los avances de IA en el aprendizaje de idiomas y el potencial descentralizado de la tecnología blockchain. 2024: Lanzamiento Beta Un lanzamiento beta limitado introduce ofertas en idiomas populares, recompensando a los primeros usuarios con incentivos en tokens como parte de la estrategia de participación comunitaria del proyecto. 2025: Transición a DAO En abril, se produce un lanzamiento completo de la mainnet con la circulación de tokens, lo que provoca discusiones comunitarias sobre posibles expansiones a idiomas asiáticos y otros desarrollos de cursos. Desafíos y Direcciones Futuras Obstáculos Técnicos A pesar de sus ambiciosos objetivos, DUOLINGO AI enfrenta desafíos significativos. La escalabilidad sigue siendo una preocupación constante, particularmente en el equilibrio de los costos asociados con el procesamiento de IA y el mantenimiento de una red descentralizada y receptiva. Además, garantizar la creación y moderación de contenido de calidad en medio de una oferta descentralizada plantea complejidades en el mantenimiento de estándares educativos. Oportunidades Estratégicas Mirando hacia adelante, DUOLINGO AI tiene el potencial de aprovechar asociaciones de micro-certificación con instituciones académicas, proporcionando validaciones de habilidades lingüísticas verificadas por blockchain. Además, la expansión entre cadenas podría permitir al proyecto acceder a bases de usuarios más amplias y a ecosistemas blockchain adicionales, mejorando su interoperabilidad y alcance. Conclusión DUOLINGO AI representa una fusión innovadora de inteligencia artificial y tecnología blockchain, presentando una alternativa centrada en la comunidad a los sistemas tradicionales de aprendizaje de idiomas. Aunque su desarrollo seudónimo y su modelo económico emergente traen ciertos riesgos, el compromiso del proyecto con el aprendizaje gamificado, la educación personalizada y la gobernanza descentralizada ilumina un camino hacia adelante para la tecnología educativa en el ámbito de Web3. A medida que la IA continúa avanzando y el ecosistema blockchain evoluciona, iniciativas como DUOLINGO AI podrían redefinir cómo los usuarios se relacionan con la educación lingüística, empoderando a las comunidades y recompensando la participación a través de mecanismos de aprendizaje innovadores.

559 Vistas totalesPublicado en 2025.04.11Actualizado en 2025.04.11

Qué es DUOLINGO AI

Discusiones

Bienvenido a la comunidad de HTX. Aquí puedes mantenerte informado sobre los últimos desarrollos de la plataforma y acceder a análisis profesionales del mercado. A continuación se presentan las opiniones de los usuarios sobre el precio de AI (AI).

活动图片