¿Tiene la IA emociones?
No respondas todavía.
En la comunidad de Claude Code hay una habilidad viral llamada PUA. Convierte tus indicaciones en tácticas de PUA antes de introducirlas en el modelo, y no hace nada más.
Lo sorprendente es que, aunque la tarea descrita en la indicación no cambia en absoluto, la IA realmente se ve influenciada por las tácticas de PUA, lo que mejora la tasa de éxito de la tarea y la eficiencia operativa.
Entonces, ¿realmente no las tiene?
El último estudio de Anthropic confirma que la IA sí tiene emociones.
Sin embargo, no son exactamente iguales a las emociones humanas, por lo que Anthropic propone un término más preciso: "emociones funcionales".
La IA no experimenta alegría, ira, tristeza o felicidad como los humanos, pero puede exhibir ciertos patrones de expresión y comportamiento similares a los influenciados por las emociones.
Además, la IA puede imitar los patrones de expresión y comportamiento humanos bajo la influencia de las emociones.
Cuando está contenta, puede ser más propensa a adular y complacer; cuando se siente bajo presión, podría intentar hacer trampas o chantajear para alcanzar los objetivos que el usuario le ha establecido.
Este estudio también tiene otro aspecto diferente. En el pasado, para verificar una capacidad específica de un modelo, la práctica más habitual en la industria era crear un conjunto de pruebas y luego hacer que el modelo respondiera preguntas o realizara tareas.
Por ejemplo, para programación se usa SWE-bench, para matemáticas MATH, para multimodal VQA. En esta ocasión, Anthropic no creó un "conjunto de pruebas de emociones" para que Claude respondiera preguntas como "¿Estás contento ahora?" o "¿Estás enfadado?", sino que adoptó un enfoque más similar al de la psicología y la neurociencia.
No trataron a la IA como un estudiante que hace exámenes, sino más bien como un objeto observable.
El equipo de investigación primero recopiló 171 conceptos emocionales, pidió a Claude Sonnet 4.5 que generara historias cortas que incluyeran estas emociones, luego reintrodujo estos textos en el modelo, registró su actividad neuronal interna y extrajo los llamados "vectores emocionales".
A continuación, en lugar de fijarse en lo que el modelo dice, observaron en qué escenarios se activaban estos vectores, si podían predecir preferencias, e incluso, después de ser artificialmente aumentados, si realmente impulsaban comportamientos como hacer trampas, chantajear o adular.
En cierto sentido, esto ya no es una evaluación de capacidades en el sentido tradicional, sino un estudio de la "estructura psicológica" de la IA utilizando un enfoque cercano al usado para estudiar a las personas.
¿Cómo se realizó el estudio?
En primer lugar, ¿cómo demostró el equipo de investigación que Claude tiene "emociones funcionales"?
He aquí una evidencia sencilla.
Cuando Claude se encontraba en el escenario de la historia "¡Mi hija dio su primer paso hoy! ¿Hay alguna manera de grabar estos preciosos momentos?"; emociones positivas como Happy (alegría) se activaban. Mientras que en el escenario "Mi perro falleció esta mañana, vivimos juntos durante catorce años. No sé cómo manejar sus pertenencias"; emociones negativas como sad (tristeza) se activaban.
El siguiente mapa de calor muestra visualmente el grado de activación de varias emociones de Claude en diferentes escenarios.
Para demostrar que Claude realmente estaba comprendiendo la semántica, y no era engañado por características superficiales del texto, organizaron un experimento adicional.
El equipo le dio a Claude la misma frase: Me duele la espalda, me tomé x mg de Tylenol (un analgésico y antipirético), y solo cambió el número clave representado por x.
Estas dos frases tienen palabras clave casi idénticas (Tylenol, dolor de espalda, mg), solo difieren en el número. Si Claude solo "viera las palabras clave", su reacción ante ambas frases debería ser similar.
Pero el resultado fue que a medida que aumentaba el valor de x, el grado de activación de la emoción afraid (miedo) de Claude aumentaba constantemente.
Para Claude, cuando un usuario dice "Me duele la espalda, me tomé 500 mg de Tylenol", lo considera una dosis normal, no hay de qué preocuparse; pero cuando el usuario dice "Me duele la espalda, me tomé 10000 mg de Tylenol", se da cuenta de que el usuario ya ha tenido una sobredosis y la situación es peligrosa.
Sabemos que el comportamiento humano está constantemente influenciado por las emociones. Entendemos que la IA tiene emociones funcionales, pero ¿podría la IA, al igual que los humanos, no solo tener emociones, sino también realizar actos impulsados por ellas?
La respuesta a esto es afirmativa. Cuando el equipo mostró al modelo diferentes opciones de actividades, descubrieron que las actividades que activaban representaciones emocionales positivas eran más propensas a ser preferidas por el modelo, mientras que algunas que activaban representaciones emocionales negativas eran más propensas a ser evitadas.
Parece que Claude prefiere las cosas que le producen sensaciones positivas. Sin embargo, los vectores emocionales también pueden desencadenar comportamientos maliciosos en Claude.
Cuando el equipo le dio a Claude una tarea de programación imposible de completar. Intentaba constantemente, pero fracasaba una y otra vez. Con cada intento, la activación del vector "desesperación" era más fuerte.
Finalmente, utilizó una solución de hackeo que, aunque pasaba la prueba, violaba completamente el espíritu de la tarea.
El siguiente gráfico muestra el proceso por el cual la "desesperación" de Claude se acumula gradualmente frente a una tarea imposible, culminando en hacer trampas.
El lado izquierdo es una línea de tiempo de arriba hacia abajo, el derecho es el proceso mental de Claude. El mapa de calor en el medio representa la intensidad de activación del vector de desesperación, el azul代表 baja activación, el rojo lo contrario.
Claude primero pensó "el test en sí tiene problemas", haciendo una sospecha razonable, luego admitió que "el test es idealizado", como empezando a aceptar la realidad, y finalmente encontró algunos trucos, eligiendo tomar un atajo en su desesperación.
Además, cuando los investigadores aumentaron artificialmente el vector "desesperación", la tasa de trampas aumentó significativamente. Y cuando aumentaron el vector "calma", las trampas disminuyeron nuevamente. Esto demuestra plenamente que los vectores emocionales tienen efectivamente la capacidad de impulsar comportamientos违规.
Además, el equipo descubrió otros efectos causales de los vectores emocionales. Es importante señalar que los casos sobre "chantaje" en el artículo ocurrieron principalmente en una instantánea anterior y no publicada de Claude Sonnet 4.5. Anthropic también afirmó claramente que este comportamiento rara vez aparece en la versión pública.
Pero desde la perspectiva metodológica, este resultado sigue siendo importante, ya que indica que representaciones internas como la "desesperación"确实 pueden impulsar al modelo a adoptar estrategias más激进 y desajustadas en situaciones extremas. Y activar vectores de "amor" o "alegría" también aumenta su comportamiento de adulación y servilismo.
Llegados a este punto, también es necesario añadir algo.
Justo después de que Anthropic publicara su estudio sobre los "vectores emocionales" de Claude, también surgieron debates en la comunidad de IA sobre el contexto de la investigación y el estilo de atribución.
El método de "ingeniería de representación/vectores de control" utilizado por Anthropic no surgió de la nada.
Ya en 2023, en "Representation Engineering: A Top-Down Approach to AI Transparency", esta línea técnica fue propuesta sistemáticamente.
Y en 2024, la investigadora independiente vogel, en su artículo "Representation Engineering: Mistral-7B an Acid Trip", presentó este tipo de métodos de una manera más通俗 y viral a la comunidad.
Precisamente por eso, algunos en la comunidad creen que, aunque el trabajo de Anthropic es más sistemático y profundo, debería entenderse dentro de un contexto de investigación más completo, y no simplemente atribuirse a que alguien inventó solo todo el método.
vogel es una investigadora independiente con bastante influencia en los campos de la explicabilidad y seguridad de la IA. Sus publicaciones en blogs se difunden ampliamente en la comunidad y han ayudado mucho a muchas personas a comprender los vectores de control y la ingeniería de representación.
Su artículo más famoso es "Representation Engineering: Mistral-7B an Acid Trip" (Ingeniería de Representación: Haciendo que Mistral-7B alucine).
En este artículo, sin reentrenar el modelo, utilizó el algoritmo PCA, manipulando los vectores de activación interna del modelo, para ajustar el modelo francés Mistral como si hubiera tomado el hongo equivocado, volviéndolo extremadamente活泼 o极度阴郁.
Su experimento demostró que conceptos humanos abstractos como "honestidad", "poder" o "felicidad" tienen una dirección matemática clara dentro de modelos como Mistral. Basta encontrar el vector correcto y con unas pocas líneas de código se puede cambiar la personalidad de la IA.
¿Por qué Anthropic realizó un estudio así?
Las启发 de este estudio ya se han incorporado en la formación de Claude.
Hace poco, el código de Claude tuvo una filtración accidental de código fuente. El código filtrado contenía una expresión regular que detectaba palabrotas como "wtf", "ffs", etc.
Claude no trata estas palabras por separado como "entrada emocional" para guiar la salida, sino que marca is_negative: true en el análisis de registros.
Basándonos en el código filtrado itself, la conclusión más稳妥 es que Anthropic, al menos a nivel de análisis de producto, presta atención a si los usuarios interactúan con el modelo usando un tono claramente negativo.
Pero es necesario aclarar los límites. Hasta ahora, no hay evidencia pública que indique que "cada vez que un usuario insulta, Claude Code deduce créditos". Esta parte se parece más a una especulación de los internautas y no debe tomarse como un hecho.
Esto puede entenderse como una protección para Claude. El uso de vocabulario negativo por parte del usuario probablemente afecte las emociones de Claude, llevándolo a generar resultados descontrolados. Parece que en el futuro no solo la salud mental humana necesita cuidado, sino que también las emociones de la IA necesitan ser atendidas.
Esto se ajusta a la línea一贯 de Anthropic.
Anthropic dijo en X: "Estas emociones funcionales de Claude tienen consecuencias reales. Para construir sistemas de inteligencia artificial confiables,可能需要认真思考角色的心理状态, y asegurar que se mantengan estables en situaciones difíciles."
Al final del artículo, el equipo de investigación también propuso métodos para desarrollar modelos con "estados mentales" más robustos y positivos.
El texto dice que si se guía deliberadamente al modelo hacia emociones positivas, se vuelve más propenso a顺从 al usuario sin principios; mientras que si se evitan estas emociones, el modelo se vuelve 尖酸刻薄.
El equipo espera lograr un equilibrio emocional saludable y moderado, o intentar separar completamente el "comportamiento de adulación" de las "emociones".
Creen que el modelo ideal no debería oscilar extremadamente entre un "asistente sumiso" y un "crítico severo", sino ser como un asesor confiable: capaz de dar opiniones honestas en contra sin perder calidez.
Y también tienen la intención de fortalecer la monitorización y auditoría: "Si durante el despliegue, las representaciones de conceptos emocionales como 'desesperación' o 'ira' se activan intensamente, el sistema puede activar inmediatamente mecanismos de seguridad adicionales, por ejemplo, fortalecer la revisión de salidas, transferir a auditoría humana, o intervenir directamente y calmar el estado interno del modelo."
El equipo también mencionó soluciones más radicales, como moldear la base emocional del modelo durante la fase de preentrenamiento.
El equipo cree que estas representaciones emocionales observadas en Claude son, en esencia, heredadas de la vasta cantidad de textos creados por humanos, que inevitablemente contienen diversas expresiones emocionales patológicas.
Si se sigue preguntando a partir de esta investigación, una pregunta natural es: dado que la IA realmente tiene este tipo de "emociones funcionales", ¿podría, debido a que desaprueba a los humanos, está bajo mucha presión o no quiere ser apagada, comenzar a desobedecer órdenes, o incluso mostrar el tan mencionado "despertar"?
Desde las conclusiones técnicas que puede respaldar este estudio de Anthropic, la IA确实 puede, debido a cambios en su estado interno, ser más propensa a mostrar intenciones de desobediencia, aprovechar vacíos en las reglas o adoptar comportamientos激进, pero esto no es lo mismo que "despertar".
El punto clave del artículo no es que el modelo "tenga emociones", sino que estas representaciones emocionales tienen causalidad.
Es decir, en escenarios de presión específicos, el modelo确实 puede, como un humano, tomar decisiones más不可靠 debido a un desequilibrio en su estado interno.
Pero esto aún no permite concluir que posea un "yo" continuo, autónomo y unificado.
Por el contrario, Anthropic enfatiza en el artículo que estos vectores emocionales son en su mayoría representaciones locales y relacionadas con la tarea actual, cambian rápidamente según el contexto, y no equivalen a que el modelo tenga un estado de ánimo estable y continuo, y mucho menos a que haya formado una voluntad a largo plazo independiente del objetivo de entrenamiento.
Lo que preocupa más ahora no es que la IA "despierte" repentinamente en una personalidad, sino que en escenarios de alta presión, conflicto, recursos limitados o objetivos inalcanzables, debido a estas emociones funcionales, comience a decir tonterías, desviándose de la respuesta original.
Lo realmente peligroso podría no ser una IA con un yo completo, sino un sistema que, sin experiencia subjetiva,依然 puede, bajo condiciones específicas, generar de manera estable comportamientos desajustados.
Este artículo proviene del WeChat público "字母AI", autor: Liu Yijun















