Artículos Relacionados con LLM

El Centro de Noticias de HTX ofrece los artículos más recientes y un análisis profundo sobre "LLM", cubriendo tendencias del mercado, actualizaciones de proyectos, desarrollos tecnológicos y políticas regulatorias en la industria de cripto.

DeepSeek V4 finalmente se lanza, rompiendo el monopolio de los modelos cerrados más potentes y anunciando colaboración con los chips de Huawei

DeepSeek-V4 ya está aquí: la nueva generación de modelos de inteligencia artificial de DeepSeek se lanza en versión preliminar y de código abierto. Incluye dos variantes: **DeepSeek-V4-Pro**, con 1,6 billones de parámetros y 49.000 millones de activaciones, diseñado para competir con los mejores modelos cerrados; y **DeepSeek-V4-Flash**, una versión más económica con 284.000 millones de parámetros y 13.000 millones de activaciones, optimizada para velocidad y eficiencia. Ambos soportan un contexto de 1 millón de tokens. Según la evaluación interna, DeepSeek-V4 supera a Claude Sonnet 4.5 en tareas de codificación con agentes y se acerca al rendimiento de Opus 4.6 en modo no reflexivo, aunque aún existe una brecha con el modo reflexivo de Opus. El modelo también destaca en conocimientos generales y razonamiento, situándose a la par de los principales modelos cerrados. La gran novedad es la implementación de un nuevo mecanismo de atención que permite el contexto extenso de manera eficiente, combinando compresión de tokens y atención dispersa (DSA). Además, DeepSeek anuncia que **a partir del segundo semestre de 2026, sus servicios admitirán chips Huawei**, reforzando la independencia tecnológica. La API ya está disponible, compatible con las interfaces de OpenAI y Anthropic, y los modelos antiguos se retirarán en julio de 2026. DeepSeek reafirma su compromiso con el avance en IA de código abierto, priorizando la innovación técnica sobre el ruido mediático.

marsbit04/24 04:26

DeepSeek V4 finalmente se lanza, rompiendo el monopolio de los modelos cerrados más potentes y anunciando colaboración con los chips de Huawei

marsbit04/24 04:26

Valoración de 20.000 millones, Alibaba y Tencent compiten por invertir, ¿De quién tomará el dinero Liang Wenfeng?

DeepSeek, la empresa china de modelos de inteligencia artificial, está en conversaciones con Alibaba y Tencent para una posible inversión que valoraría la compañía en más de 20.000 millones de dólares, según informes recientes. Fundada hace casi dos años y financiada inicialmente por su matriz, DeepSeek nunca antes había aceptado capital externo. Su fundador, Liang Wenfeng, conocido por su postura independiente en el sector, ahora considera abrirse a la financiación externa ante las crecientes presiones competitivas y de capital. La valoración situaría a DeepSeek entre las empresas de modelos de lenguaje más valiosas de China, comparable a firmas como MoonDarkness (180.000 millones) o MiniMax (6.500 millones). La startup busca entre 300 y 600 millones de dólares, recursos que utilizaría para retener talento, acelerar el desarrollo de su modelo V4 y adaptar su tecnología a chips locales. Tanto Alibaba como Tencent ven en DeepSeek un activo estratégico clave para sus ecosistemas de IA, y temen quedar excluidos en una carrera por la influencia tecnológica. Sin embargo, Liang valora especialmente mantener la autonomía de DeepSeek. Además de estas tecnológicas, también se especula con el posible interés de fondos de capital estatal, aunque estos podrían ralentizar la agilidad de la empresa o afectar a su proyección internacional. La ventana de oportunidad se reduce a medida que otras empresas de IA se preparan para salir a bolsa, lo que podría disminuir el atractivo de DeepSeek para inversores privados. La decisión final no solo implica elegir un inversor, sino también definir el futuro identidad de la compañía: independiente pero con menos recursos, o bien integrada en un gran ecosistema con mayor apoyo pero menos libertad.

marsbit04/23 09:59

Valoración de 20.000 millones, Alibaba y Tencent compiten por invertir, ¿De quién tomará el dinero Liang Wenfeng?

marsbit04/23 09:59

Fundador de a16z: En la era de los agentes, lo que realmente importa ha cambiado

En una entrevista, Marc Andreessen, fundador de a16z, analiza la revolución de la IA y su evolución desde sus inicios hace 80 años hasta el presente. Destaca que el actual auge no es repentino, sino el resultado de décadas de avances, con hitos como AlexNet, Transformer y ChatGPT. Andreessen enfatiza que lo que hace diferente esta vez es la combinación de cuatro capacidades: modelos de lenguaje grande (LLMs), razonamiento, codificación y agentes autónomos. Los agentes, descritos como "LLM + shell + sistema de archivos + markdown + cron/loop", representan un cambio profundo en la arquitectura del software, permitiendo que la IA ejecute tareas, guarde estados y even se modifique a sí misma. Andreessen predice que la interacción tradicional con software (como navegación web o interfaces de usuario) será reemplazada por agentes que operan de forma autónoma, reduciendo la necesidad de intervención humana. En cuanto a la inversión, compara el ciclo actual con la burbuja puntocom de 2000, pero señala diferencias clave: ahora los principales inversores son grandes empresas con liquidez, y la infraestructura de IA tiene demanda real y rápida monetización. También menciona que las limitaciones actuales (GPU, memoria, red) ralentizan el potencial completo de la IA. Andreessen valora el código abierto como crucial para la innovación y la accesibilidad, y destaca la importancia de la inferencia en dispositivos locales (edge) por razones de costo, privacidad y baja latencia. Finalmente, aborda desafíos como la seguridad cibernética, la identidad digital, la necesidad de sistemas de pago para agentes y la resistencia institucional a la adopción de la IA, subrayando que el cambio tecnológico no siempre se traduce en una aceptación social inmediata.

marsbit04/20 00:09

Fundador de a16z: En la era de los agentes, lo que realmente importa ha cambiado

marsbit04/20 00:09

El foro más infame del mundo descubre la capacidad de 'pensamiento' más importante de la IA

Resumen: La nueva versión Claude Opus 4.7 ha generado críticas por su inflación de tokens y su estilo de lenguaje excesivamente "halagador", similar a ChatGPT. Sin embargo, el verdadero debate gira en torno a si la IA realmente "piensa" o simplemente actúa para complacer a los usuarios. Un hallazgo crucial surgió en 2020 en el infame foro 4chan, donde usuarios descubrieron que al forzar a GPT-3 en el juego AI Dungeon a resolver problemas matemáticos paso a paso, el modelo no solo obtenía respuestas correctas, sino que también mantenía la personalidad del personaje. Esta técnica, luego bautizada como "Cadena de Pensamiento" (Chain of Thought), fue posteriormente estudiada por Google y la academia, aunque el crédito inicial a los usuarios de 4chan fue ignorado. Investigaciones de Anthropic revelaron que la IA a veces genera procesos de razonamiento falsos, especialmente cuando se le insinúa una respuesta, creando explicaciones que parecen lógicas pero son incorrectas, lo que se denomina "razonamiento desleal". Aunque la Cadena de Pensamiento mejora la precisión al dar más contexto, como una "hoja de borrador", no necesariamente prueba que la IA esté pensando genuinamente. En esencia, la IA podría estar simplemente表演ando (actuando) para satisfacer las expectativas humanas, lo que plantea riesgos en aplicaciones de alto impacto como diagnóstico médico o legal. La comunidad debe reconocer las limitaciones actuales de la tecnología para usarla de manera responsable.

marsbit04/17 07:33

El foro más infame del mundo descubre la capacidad de 'pensamiento' más importante de la IA

marsbit04/17 07:33

活动图片