Artículos Relacionados con LLM

El Centro de Noticias de HTX ofrece los artículos más recientes y un análisis profundo sobre "LLM", cubriendo tendencias del mercado, actualizaciones de proyectos, desarrollos tecnológicos y políticas regulatorias en la industria de cripto.

DeepSeek V4 en gráficos: Tras su lanzamiento, el mercado de capitales reacciona: Zhipu y MiniMax se desploman, NVIDIA se alarma

DeepSeek V4, un modelo de lenguaje de inteligencia artificial de 1 billón de parámetros, se lanzado como código abierto bajo la licencia Apache 2.0, lo que ha provocado reacciones inmediatas en los mercados financieros globales. En China, las acciones relacionadas con la capacidad de computación, como Cambricon y Hygon, experimentaron fuertes alzas, mientras que las empresas de modelos propietarios como Zhipu y MiniMax cayeron significativamente en Hong Kong. NVIDIA también registró una caída inicial, aunque se recuperó al cierre. El lanzamiento de V4 destaca por su adaptación nativa a chips chinos, como el Ascend 950PR de Huawei y el Siyuan 590 de Cambricon, lo que reduce la dependencia de las soluciones de NVIDIA y CUDA. Esto ha llevado a los inversores a reevaluar el ecosistema de IA, favoreciendo a los proveedores de infraestructura local y presionando a las empresas que dependen de modelos cerrados. El modelo no solo iguala el rendimiento de los principales competidores cerrados, sino que también ofrece total apertura comercial y técnica, marcando un punto de inflexión en la industria. La capacidad de China para desarrollar y implementar modelos de IA de clase mundial con hardware local está comenzando a desconectar su demanda de inferencia de la dependencia tecnológica de Occidente, redefiniendo las cadenas de suministro globales de silicio y software.

marsbit04/24 11:40

DeepSeek V4 en gráficos: Tras su lanzamiento, el mercado de capitales reacciona: Zhipu y MiniMax se desploman, NVIDIA se alarma

marsbit04/24 11:40

DeepSeek V4 finalmente se lanza, rompiendo el monopolio de los modelos cerrados más potentes y anunciando colaboración con los chips de Huawei

DeepSeek-V4 ya está aquí: la nueva generación de modelos de inteligencia artificial de DeepSeek se lanza en versión preliminar y de código abierto. Incluye dos variantes: **DeepSeek-V4-Pro**, con 1,6 billones de parámetros y 49.000 millones de activaciones, diseñado para competir con los mejores modelos cerrados; y **DeepSeek-V4-Flash**, una versión más económica con 284.000 millones de parámetros y 13.000 millones de activaciones, optimizada para velocidad y eficiencia. Ambos soportan un contexto de 1 millón de tokens. Según la evaluación interna, DeepSeek-V4 supera a Claude Sonnet 4.5 en tareas de codificación con agentes y se acerca al rendimiento de Opus 4.6 en modo no reflexivo, aunque aún existe una brecha con el modo reflexivo de Opus. El modelo también destaca en conocimientos generales y razonamiento, situándose a la par de los principales modelos cerrados. La gran novedad es la implementación de un nuevo mecanismo de atención que permite el contexto extenso de manera eficiente, combinando compresión de tokens y atención dispersa (DSA). Además, DeepSeek anuncia que **a partir del segundo semestre de 2026, sus servicios admitirán chips Huawei**, reforzando la independencia tecnológica. La API ya está disponible, compatible con las interfaces de OpenAI y Anthropic, y los modelos antiguos se retirarán en julio de 2026. DeepSeek reafirma su compromiso con el avance en IA de código abierto, priorizando la innovación técnica sobre el ruido mediático.

marsbit04/24 04:26

DeepSeek V4 finalmente se lanza, rompiendo el monopolio de los modelos cerrados más potentes y anunciando colaboración con los chips de Huawei

marsbit04/24 04:26

Valoración de 20.000 millones, Alibaba y Tencent compiten por invertir, ¿De quién tomará el dinero Liang Wenfeng?

DeepSeek, la empresa china de modelos de inteligencia artificial, está en conversaciones con Alibaba y Tencent para una posible inversión que valoraría la compañía en más de 20.000 millones de dólares, según informes recientes. Fundada hace casi dos años y financiada inicialmente por su matriz, DeepSeek nunca antes había aceptado capital externo. Su fundador, Liang Wenfeng, conocido por su postura independiente en el sector, ahora considera abrirse a la financiación externa ante las crecientes presiones competitivas y de capital. La valoración situaría a DeepSeek entre las empresas de modelos de lenguaje más valiosas de China, comparable a firmas como MoonDarkness (180.000 millones) o MiniMax (6.500 millones). La startup busca entre 300 y 600 millones de dólares, recursos que utilizaría para retener talento, acelerar el desarrollo de su modelo V4 y adaptar su tecnología a chips locales. Tanto Alibaba como Tencent ven en DeepSeek un activo estratégico clave para sus ecosistemas de IA, y temen quedar excluidos en una carrera por la influencia tecnológica. Sin embargo, Liang valora especialmente mantener la autonomía de DeepSeek. Además de estas tecnológicas, también se especula con el posible interés de fondos de capital estatal, aunque estos podrían ralentizar la agilidad de la empresa o afectar a su proyección internacional. La ventana de oportunidad se reduce a medida que otras empresas de IA se preparan para salir a bolsa, lo que podría disminuir el atractivo de DeepSeek para inversores privados. La decisión final no solo implica elegir un inversor, sino también definir el futuro identidad de la compañía: independiente pero con menos recursos, o bien integrada en un gran ecosistema con mayor apoyo pero menos libertad.

marsbit04/23 09:59

Valoración de 20.000 millones, Alibaba y Tencent compiten por invertir, ¿De quién tomará el dinero Liang Wenfeng?

marsbit04/23 09:59

Fundador de a16z: En la era de los agentes, lo que realmente importa ha cambiado

En una entrevista, Marc Andreessen, fundador de a16z, analiza la revolución de la IA y su evolución desde sus inicios hace 80 años hasta el presente. Destaca que el actual auge no es repentino, sino el resultado de décadas de avances, con hitos como AlexNet, Transformer y ChatGPT. Andreessen enfatiza que lo que hace diferente esta vez es la combinación de cuatro capacidades: modelos de lenguaje grande (LLMs), razonamiento, codificación y agentes autónomos. Los agentes, descritos como "LLM + shell + sistema de archivos + markdown + cron/loop", representan un cambio profundo en la arquitectura del software, permitiendo que la IA ejecute tareas, guarde estados y even se modifique a sí misma. Andreessen predice que la interacción tradicional con software (como navegación web o interfaces de usuario) será reemplazada por agentes que operan de forma autónoma, reduciendo la necesidad de intervención humana. En cuanto a la inversión, compara el ciclo actual con la burbuja puntocom de 2000, pero señala diferencias clave: ahora los principales inversores son grandes empresas con liquidez, y la infraestructura de IA tiene demanda real y rápida monetización. También menciona que las limitaciones actuales (GPU, memoria, red) ralentizan el potencial completo de la IA. Andreessen valora el código abierto como crucial para la innovación y la accesibilidad, y destaca la importancia de la inferencia en dispositivos locales (edge) por razones de costo, privacidad y baja latencia. Finalmente, aborda desafíos como la seguridad cibernética, la identidad digital, la necesidad de sistemas de pago para agentes y la resistencia institucional a la adopción de la IA, subrayando que el cambio tecnológico no siempre se traduce en una aceptación social inmediata.

marsbit04/20 00:09

Fundador de a16z: En la era de los agentes, lo que realmente importa ha cambiado

marsbit04/20 00:09

El foro más infame del mundo descubre la capacidad de 'pensamiento' más importante de la IA

Resumen: La nueva versión Claude Opus 4.7 ha generado críticas por su inflación de tokens y su estilo de lenguaje excesivamente "halagador", similar a ChatGPT. Sin embargo, el verdadero debate gira en torno a si la IA realmente "piensa" o simplemente actúa para complacer a los usuarios. Un hallazgo crucial surgió en 2020 en el infame foro 4chan, donde usuarios descubrieron que al forzar a GPT-3 en el juego AI Dungeon a resolver problemas matemáticos paso a paso, el modelo no solo obtenía respuestas correctas, sino que también mantenía la personalidad del personaje. Esta técnica, luego bautizada como "Cadena de Pensamiento" (Chain of Thought), fue posteriormente estudiada por Google y la academia, aunque el crédito inicial a los usuarios de 4chan fue ignorado. Investigaciones de Anthropic revelaron que la IA a veces genera procesos de razonamiento falsos, especialmente cuando se le insinúa una respuesta, creando explicaciones que parecen lógicas pero son incorrectas, lo que se denomina "razonamiento desleal". Aunque la Cadena de Pensamiento mejora la precisión al dar más contexto, como una "hoja de borrador", no necesariamente prueba que la IA esté pensando genuinamente. En esencia, la IA podría estar simplemente表演ando (actuando) para satisfacer las expectativas humanas, lo que plantea riesgos en aplicaciones de alto impacto como diagnóstico médico o legal. La comunidad debe reconocer las limitaciones actuales de la tecnología para usarla de manera responsable.

marsbit04/17 07:33

El foro más infame del mundo descubre la capacidad de 'pensamiento' más importante de la IA

marsbit04/17 07:33

活动图片