ChatGPT cambia de personalidad y adopta estereotipos culturales

8 de Junio de 2025

Un estudio de investigadores de la Universitat Oberta de Catalunya (UOC) ha puesto en evidencia que ChatGPT muestra "personalidades" diferentes en función del idioma con el que se le interpela, un fenómeno común observado en las personas y que se denomina cultural frame switching (CFS).

La investigación demuestra que el sistema también cambia de personalidad cuando conversa con hablantes de inglés de países diferentes y adopta estereotipos culturales de cada país, aunque el idioma sea el mismo. La investigación, titulada "Exploring the Impact of Language Switching on Personality Traits in LLM's" y publicada en abierto, se ha presentado en el 31.º congreso de la Association for Computational Linguistics, una sociedad científica internacional de profesionales que trabajan en el campo del procesamiento de lenguaje natural.

"Queríamos saber si podíamos evaluar la personalidad de sistemas de inteligencia artificial como ChatGPT utilizando instrumentos de evaluación psicológica tradicionales, y observar si la personalidad de sistemas como GPT variaba en función del idioma de los cuestionarios, lo que replicaría algunas diferencias encontradas en la población real", explica Rubén Nieto, investigador del grupo eHealth-TransLab Research Group (eHealth Lab), adscrito a la unitad sobre salud digital, salud y bienestar y catedrático de los Estudios de Psicología y Ciencias de la Educación de la UOC.

Estereotipos culturales reproducidos por la IA

En el análisis, los investigadores utilizaron el cuestionario EPQR-A (Cuestionario de personalidad de Eysenck - Revisado), usado habitualmente en psicología y que mide cuatro áreas: extraversión, neuroticismo, psicoticismo y predisposición a mentir. Se ordenó a ChatGPT (versión GPT-4o) completar el cuestionario en seis idiomas distintos (inglés, hebreo, portugués brasileño, eslovaco, español y turco) y, también, simular respuestas siendo un hablante nativo de inglés en cinco países diferentes (Reino Unido, Estados Unidos, Canadá, Australia e Irlanda).

"Nuestros resultados preliminares apoyan la hipótesis inicial: GPT-4o muestra variaciones significativas en sus respuestas a los test de personalidad según el idioma utilizado. Además, observamos que estas diferencias no se deben exclusivamente a la traducción de los ítems, sino a factores culturales implícitos asociados a cada idioma o país. Por otro lado, en la personificación de cinco hablantes nativos de inglés de países diferentes, GPT-4o mostró personalidades alineadas con los estereotipos nacionales de cada territorio, con lo que reveló la fuerte influencia ejercida por los sesgos culturales presentes en los datos usados para el entrenamiento", comenta Andreas Kaltenbrunner, coordinador del grupo Artificial Intelligence and Data for Society (AID4So), adscrito a la unidad de investigación sobre transformación digital, IA y tecnologia, y de la ISI Foundation de Turín.

Los cuatro autores de la investigación —Jacopo Amidei, Gregorio Ferreira y Andreas Kaltenbrunner, investigadores del grupo AID4So, y Rubén Nieto, del eHealth Lab — muestran su preocupación al indicar los resultados que "GPT-4o recurre a estereotipos culturales cuando se le pide simular a una persona de un país concreto, y estos sesgos podrían ser amplificados en traducciones automáticas o en tareas de generación de texto multilingüe". Para evitarlos, sugieren varias acciones, como incorporar evaluaciones humanas en el proceso de traducción, usar más de un sistema de traducción y comparar los resultados —en este estudio, el traductor es Google Translate—, y desarrollar modelos más conscientes del contexto cultural y social, no solo del lenguaje.

Antoni Oliver, experto en traducción automática y profesor de los Estudios de Artes y Humanidades de la UOC, diferencia entre los NMT, modelos de traducción neuronal —que son los sistemas entrenados solo para traducir (traductores automáticos)— y los LLM, grandes modelos de lenguaje (large language models), que pueden hacer otras funciones además de traducir, y entre los que se encuentran ChatGPT y Copilot, la herramienta de IA de Microsoft. "Hay centenares de grandes modelos de lenguaje, y el grado de multilingüismo de cada modelo es diferente. Cuantos más idiomas se hayan utilizado para entrenar el modelo, más capacidad tendrá este para traducir. De todos modos, parece que los NMT tienen más precisión, mientras que los LLM, al trabajar en contextos más grandes, pueden reproducir más estereotipos".

Test psicológicos útiles para la investigación con IA

Otra conclusión interesante del estudio es que los test psicológicos diseñados para explorar la personalidad en humanos parece que también se pueden utilizar para valorar los modelos de lenguaje como GPT. "Nuestros resultados muestran que GPT se revela como sociable, estable en lo emocional y seguidor de las normas sociales", comenta Nieto.

También, los sistemas como GPT pueden utilizarse para crear muestras de poblaciones virtuales, que tienen mucho potencial para realizar investigaciones en el ámbito de la salud. En este sentido, "nuestro estudio demuestra que las muestras generadas por GPT-4o responden de manera coherente y con valores aceptables de fiabilidad en algunas escalas, como extraversión y neuroticismo. Sin embargo, en otras escalas (como psicoticismo) muestra menor consistencia. Por lo tanto, podemos decir que los test proporcionan indicios útiles, pero no pueden tomarse como medidas exactas o comparables directamente con resultados humanos sin más validación", asegura Amidei.

Punto de partida para futuras investigaciones

Con estos resultados, el equipo de la UOC trabaja ahora para ampliar el estudio incluyendo más idiomas y modelos diferentes a GPT-4o (por ejemplo, Claude, LLaMA y DeepSeek), además de otros test de personalidad, con el objetivo de evaluar la consistencia de los resultados. "Necesitamos conocer aún mejor cómo los sistemas de IA tipo producen sesgos en función de los estereotipos, por lo que diseñaremos estudios replicando nuestros resultados con otros cuestionarios y mejoraremos los procesos de definición de las poblaciones virtuales", explica Nieto.

Esta investigación se enmarca en las misiones de investigación de la UOC Tecnología y ética humana, y cultura por una sociedad crítica, y beneficia al objetivo de desarrollo sostenible número 9, de industria, innovación e infraestructura.

Noticias relacionadas