Por | AIX Finance, Autor | Lei Jing, Editor | Jin Yufan
El círculo de IA ha tenido movimientos frecuentes recientemente, y Tencent Hunyuan Hy3 preview también se ha presentado oficialmente.
El 23 de abril, Tencent Hunyuan lanzó oficialmente y de código abierto el nuevo modelo de lenguaje Hy3 preview. Según la introducción oficial, el modelo adopta una arquitectura de expertos mixtos que fusiona pensamiento rápido y lento, con un total de 295B parámetros, 21B parámetros activados, y admite una longitud de contexto máxima de 256K. Este es el modelo más inteligente hasta la fecha, según lo denominado oficialmente por Hunyuan.
Hace tres meses, Yao Shunyu se unió a Tencent con el framework ReAct y experiencia práctica de OpenAI, liderando la reconstrucción de la infraestructura de pre-entrenamiento y aprendizaje por refuerzo. Hy3 preview es la primera respuesta tras esta reconstrucción. Oficialmente se indicó que el modelo ha logrado una mejora significativa en capacidades como el razonamiento complejo, el seguimiento de instrucciones, el aprendizaje contextual, la generación de código y los agentes inteligentes.
Según los datos y resultados de evaluación divulgados oficialmente, Hy3 preview muestra una fuerza impresionante en múltiples pruebas básicas, aunque quizás no alcance el nivel más alto de la industria en todas las dimensiones, es suficiente para satisfacer las necesidades prácticas en la mayoría de los escenarios.
En cuanto a la eficiencia operativa práctica y la estabilidad, Hy3 preview también ha logrado avances. Los datos oficiales muestran que este modelo reduce la latencia del primer Token en un 54% y el tiempo de extremo a extremo en un 47%, mejorando significativamente la velocidad de respuesta. Al mismo tiempo, la tasa de éxito de las tareas también ha aumentado, y ya puede impulsar de manera estable flujos de trabajo complejos de Agent, cubriendo varios escenarios comerciales como el procesamiento de documentos y el análisis de datos.
Además, su costo de inferencia también ha disminuido. En la API de Tencent Cloud, la entrada es tan baja como 1.2 yuanes por millón de Tokens, y el paquete personal mínimo es de 28 yuanes/mes, situándose en el grupo de precios más bajos entre modelos de tamaño similar. Actualmente, Hy3 preview ya está disponible en productos centrales de Tencent como Tencent Cloud, Yuanbao, WorkBuddy, entre otros.
A continuación, basándonos en las cuatro direcciones mencionadas oficialmente, probaremos el rendimiento del modelo grande Hunyuan en aplicaciones prácticas.
Capacidad de razonamiento: Puede descomponer lógica compleja, pero仍需加强仍需加强 (aún necesita fortalecer) la identificación de trampas
Primero probamos la capacidad de razonamiento del modelo. Los problemas de razonamiento lógico son uno de los tipos favoritos de los internautas para probar el "coeficiente intelectual" del modelo. En esta ronda, primero probamos el clásico "problema del lavado de autos" dentro de Yuanbao.
En este clásico problema con trampa, Hy3 preview inicialmente no respondió correctamente. Dio un razonamiento claro y organizado para sugerir caminar, pasando por alto el punto clave que es "lavar el auto". Después de recordarle nuevamente la necesidad de lavar el auto, finalmente dio la respuesta correcta.
Es importante señalar que en pruebas prácticas de otros internautas, Hy3 preview ha mostrado casos en los que puede responder correctamente directamente, lo que indica que su capacidad para identificar trampas no es lo suficientemente estable.
Probemos con otro acertijo. En este problema, es necesario entender la lógica real: los huevos que se rompen, se fríen y se comen son el mismo lote. Pero Hy3 preview no se dio cuenta de esto, creyó que los huevos fritos aún existían y podían comerse.
Luego, aumentamos la dificultad con un problema de lógica más complejo en su proceso de derivación. La dificultad de este problema radica en que no hay información de ubicación directa, es necesario confiar en condiciones implícitas para hacer eliminaciones, y es fácil pasar por alto información clave.
En este escenario, Hy3 preview dio la respuesta correcta. Primero desglosó las pistas una por una, extrayendo las relaciones de exclusión mutua entre personas y profesiones, luego bloqueó las identidades mediante eliminación. A continuación, determinó secuencialmente la pertenencia de algunos puestos y luego complementó gradualmente combinando las reglas.
En general, Hy3 preview tiene una fuerte capacidad de deducción lógica racional convencional, pero aún es insuficiente en pensamiento inverso, identificación de trampas y flexibilidad de pensamiento en escenarios de la vida real. Frente a acertijos con trampa, tiende a limitarse a la lógica literal convencional, ignorando las trampas del problema y los escenarios reales, con una reacción mediocre. Sin embargo, al enfrentar problemas de razonamiento lógico complejo con condiciones ocultas y derivaciones tediosas, puede descomponer las pistas, derivar capa por capa, mostrando un rendimiento sólido en análisis lógico y derivación paso a paso.
Aprendizaje contextual y seguimiento de instrucciones: Extracción de información, rendimiento estable en escenarios de interferencia
Esta ronda prueba dos habilidades básicas del modelo: si puede captar la instrucción real y si puede entenderla rápidamente.
Tencent dio cinco escenarios en su blog oficial, como planificación de proyectos, resumen de viajes, registros de lectura, etc. Seleccionamos dos escenarios para probar prácticamente.
Escenario 1: Extracción de información de actas de reuniones desordenadas
Dimos una transcripción caótica de una grabación de reunión, mezclada con interrupciones, desvíos del tema, correcciones repetidas, etc., y le pedimos que extractara tres tipos de información.
La respuesta dada por Hy3 preview enumeró con precisión estos tres tipos de información, mostrando una buena capacidad de captura de información.
Escenario 2: Comprensión y seguimiento de nuevas reglas lingüísticas
Creamos un lenguaje simple, le mostramos las reglas mediante ejemplos y le dimos tres nuevas oraciones para que tradujera.
En esta ronda, Hy3 preview pudo completar con precisión los requisitos relacionados, ejecutando cada detalle según las reglas.
En general, Hy3 preview puede entender los requisitos de las instrucciones, excluir efectivamente la información interferente, y es adecuado para escenarios prácticos con interferencia de información compleja, captura de información, etc.
Código y agente: Uso de herramientas relativamente maduro, integridad en la entrega de tareas insuficiente
La capacidad de código y la capacidad de agente son dimensiones importantes para evaluar si un asistente de IA es bueno. Esto prueba tanto la profundidad de comprensión de las necesidades del usuario por parte del modelo, como la capacidad de planificación, uso de herramientas y cierre de tareas del Agent en misiones de múltiples pasos. En esta ronda, diseñamos tres tareas para WorkBuddy (asistente de IA de Tencent).
Primera tarea, pedimos a WorkBuddy que rastreara la condición del aire de cinco ciudades en el último año y generara un informe de análisis basado en los datos de calidad del aire.
Según la presentación en la página, el producto terminado es aceptable. La estructura de secciones como cambio de estaciones, gráficos de radar, gráficos de tendencias, mapas de calor de correlación, etc., está completa, la presentación visual es ordenada, y los gráficos también tienen funciones básicas de interacción. Esto indica que su capacidad de ejecución a nivel de presentación front-end cumple con los estándares.
Pero hay dos problemas principales: primero, debido a obstáculos en la fase de obtención de datos, Hy3 preview solo obtuvo 224 días de datos válidos, una brecha grande, lo que afectó la credibilidad de las tablas posteriores; segundo, el prompt requería claramente escribir un párrafo de conclusiones de análisis, y aunque Hy3 preview reservó el área correspondiente en la página, el contenido real estaba en blanco. Esto significa que tiene conciencia del cierre de la tarea, pero la capacidad de entrega final aún es insuficiente.
Segunda tarea, le pedimos que construyera un pequeño juego de la serpiente (Snake).
El resultado final fue relativamente maduro, con gráficos finos, lógica completa, y puede funcionar normalmente. Pero hay que señalar que Snake pertenece a tareas de reglas cerradas, con requisitos claros y sin necesidad de llamar a datos externos, los criterios de evaluación son relativamente claros, es un escenario de aplicación donde los agentes son más hábiles. El rendimiento de WorkBuddy en esta tarea solo puede reflejar la capacidad dentro de su zona de confort, verificando que tiene cierto valor práctico.
Tercera tarea, aumentamos la dificultad, pidiéndole que analizara una tarea compleja abierta: analizar la evolución del modelo comercial de la industria AI Coding, hacer un inventario del historial de desarrollo desde 2023 hasta ahora, y encontrar los puntos de inflexión clave de la industria y los factores impulsores centrales.
Esta es una tarea compleja abierta, no hay una respuesta estándar unificada, la calidad del resultado depende del juicio del Agent, la capacidad de filtrado de información y la capacidad de expresión.
A nivel de ejecución, WorkBuddy pudo llamar automáticamente múltiples herramientas, primero revisar el plan de ejecución y luego implementarlo, todo el proceso tomó aproximadamente media hora.
Pero el resultado final no fue impresionante, solo construyó un marco básico, el contenido real no era lo suficientemente sólido. Se puede ver que, aunque domina el método para descomponer problemas de investigación, no sabe cómo refinar estas dimensiones en puntos de investigación valiosos.
En general, WorkBuddy ya posee la capacidad que debería tener un asistente de codificación diario, pero en la ejecución profunda de tareas complejas y la entrega final, aún hay espacio para mejorar.
Diálogo natural: El sabor a IA se reduce notablemente
Finalmente, veamos si Yuanbao tiene "sabor humano". Esta ronda se prueba a través de dos escenarios: conversación casual y escritura creativa.
Escenario 1: Conversación casual
La documentación oficial menciona que Hy3 preview puede entender mejor la intención del usuario de desahogarse, puede承接 (asumir/sostener) las emociones del usuario, evitando respuestas sermoniantes y estereotipadas.
En las pruebas prácticas, el rendimiento de Hy3 preview确实贴合 (realmente se ajusta) a este posicionamiento. No comenzó enumerando un montón de sugerencias, sino que primero analizó objetivamente las posibles razones subyacentes, y luego preguntó si había sucedido algo. El tono general es温和 (suave), con bastante mesura, tiene una sensación natural en escenarios de conversación casual.
Escenario 2: Escritura creativa
En esta ronda, diseñamos dos tareas, probando su narrativa y capacidad expresiva.
Primero le pedimos que escribiera una historia donde el protagonista no apareciera en absoluto, pero los lectores pudieran saber claramente quién era, qué experimentó y por qué era importante después de leer.
El producto entregado por Yuanbao tiene una lógica autoconsistente, una narrativa fluida y un alto grado de finalización, casi sin la sensación de套路感 (patrón/cliché) común en la escritura de IA.
Luego, le pedimos que imitara el estilo de escritura de "Those Years of the Ming Dynasty" para escribir historias históricas de personajes de otras dinastías.
Al escribir, la IA容易将文风复刻表现为刻板的模仿 (fácilmente manifiesta la replicación del estilo como una imitación rígida), solo se queda copiando el marco de escritura sin poder digerir el estilo del artículo. Pero según los resultados generados, Hy3 preview tiene una fuerte capacidad de replicación de estilo, cumpliendo overall con los requisitos. Capturó el estilo de narrar la historia de manera通俗 (popular) del libro original, presentando bien toda la historia.
Esta ronda de evaluación fue la más sorprendente. En general, en la expresión del lenguaje natural, Hy3 preview ya se ha liberado del tono estereotipado correcto pero insípido, pudiendo escribir textos con alta legibilidad.
Conclusión
Después de probar en cuatro dimensiones, la impresión que da Hy3 preview es "estable pero no sorprendente".
No mostró un rendimiento abrumador en ningún aspecto particular, pero tampoco tiene defectos obvios. Colocado en el ranking general de los modelos grandes nacionales, puede que no sea el más impresionante, pero cumple con el estándar de modelo práctico que puede funcionar.
Alejando un poco la perspectiva, el verdadero significado de Hy3 preview quizás no esté en el modelo mismo.
En los últimos dos años, Tencent ha estado relatively pasivo en el campo de batalla de los modelos grandes. A finales de enero de este año, Ma Huateng admitió públicamente en la reunión anual que Tencent se había movido lentamente en IA. Un ritmo tecnológico relativamente lento y la falta de un modelo de referencia que el mundo exterior pudiera recordar, eran los dos principales problemas que enfrentaba Tencent. El lanzamiento de Hy3 preview marca un punto de inflexión en la historia de IA de Tencent, y también le da a Tencent un modelo de IA que todo su ecosistema puede usar.
Actualmente, Hy3 preview es solo una versión preliminar, la retroalimentación de la comunidad de código abierto aún se está recopilando, y la experiencia práctica de uso en productos como Yuanbao, QQ, Tencent Docs aún necesita tiempo para ser probada. Según lo divulgado oficialmente, se lanzarán posteriormente modelos con un tamaño de parámetros mayor.
Pero al menos, la IA de Tencent已经开始撕掉 (ya comenzó a despegar) la etiqueta de "pasivo" de los últimos dos años.


















