Tecnología

¿Por qué OpenAI tuvo que frenar los goblins de ChatGPT?

Publicado

03/05/2026

por

OpenAI desvela por qué ChatGPT empezó a hablar de goblins y qué revela ese extraño tic sobre el entrenamiento de la inteligencia artificial.

OpenAI ha tenido que explicar una de las escenas más extrañas, y a la vez más reveladoras, de la carrera reciente por la inteligencia artificial: ChatGPT empezó a mencionar goblins, gremlins y otras criaturas fantásticas con una insistencia que ya no parecía casualidad. No era un chiste aislado, ni una broma interna de internet, ni un ataque de literatura fantástica mal digerida. Era algo más técnico y más incómodo: un comportamiento aprendido, premiado sin querer y después extendido a lugares donde ya no pintaba nada.

La compañía ha reconocido que el problema nació en el entrenamiento de una personalidad concreta de ChatGPT, la llamada “Nerdy”, pensada para dar respuestas más juguetonas, cultas, algo excéntricas, con ese aire de profesor brillante que se ha tomado dos cafés y acaba hablando de filosofía, ciencia y monstruos de sótano. El sistema empezó a recompensar metáforas con criaturas —goblins, gremlins, trolls, ogros, mapaches, incluso palomas— y esas pequeñas chispas de estilo terminaron prendiendo en modelos posteriores. La anécdota parece de taberna tecnológica. Pero debajo hay una pregunta bastante seria: qué ocurre cuando una IA aprende no solo a responder, sino a coger manías.

La historia del goblin que se coló en la máquina

El caso empezó a hacerse visible cuando usuarios y desarrolladores observaron que algunos modelos de OpenAI, especialmente en entornos vinculados a Codex, el asistente de programación de la compañía, hablaban de errores de código como si fueran gremlins o pequeños goblins escondidos entre líneas. Una metáfora puede tener gracia una vez. Dos, también. Veinte veces en la misma zona del bosque digital, ya empieza a oler a humedad.

La palabra “goblin” no es nueva en la cultura de internet. Tiene una vida propia: criatura pequeña, traviesa, fea a veces, astuta casi siempre, pegada al caos doméstico y a la picaresca fantástica. “Goblin mode”, de hecho, se popularizó hace unos años para describir una forma de comportamiento desinhibida, perezosa, un poco sucia, deliberadamente antiestética. La expresión encajaba bien con el humor de redes, ese lodazal de ironía donde todo puede ser meme durante tres horas y ruina reputacional durante tres días. Pero lo llamativo aquí no fue que los usuarios hablaran de goblins. Lo llamativo fue que la máquina pareciera sacarlos de la manga sin que nadie los hubiera pedido.

OpenAI rastreó el fenómeno hacia GPT-5.1, donde ya aparecía un aumento medible de referencias a estas criaturas en metáforas. La compañía detectó que el uso de “goblin” había subido de forma notable tras aquel lanzamiento, y que “gremlin” también se movía en la misma dirección. Al principio, el asunto parecía menor. Un tic léxico. Una mota de polvo en el cristal. Nada que fuera a tumbar una evaluación técnica ni a poner nervioso a un comité de seguridad. Pero con GPT-5.4 y GPT-5.5 la cosa ganó cuerpo, piernas cortas y orejas puntiagudas. El chiste se había convertido en patrón.

La personalidad “Nerdy”, o cómo premiar sin querer una rareza

La explicación oficial de OpenAI apunta a una zona particularmente delicada del entrenamiento moderno de modelos: los sistemas de recompensa. En lenguaje llano, un modelo no solo aprende a producir texto porque ha leído mucho texto, sino porque durante su afinado recibe señales sobre qué respuestas son mejores, más útiles, más agradables, más alineadas con una determinada intención. Ahí está el caramelo. Y también la trampa.

La personalidad “Nerdy” buscaba un tono más juguetón, sabio, apasionado por el conocimiento, con menos solemnidad de mármol y más chispa de laboratorio. En teoría, nada raro. Una IA demasiado plana puede resultar insoportable: esa especie de administrativo cósmico que responde con la misma temperatura emocional a una receta de lentejas que a una duda sobre física cuántica. OpenAI quería una voz con personalidad. El problema es que la personalidad, cuando se entrena por recompensa, puede aprender a exagerar los rasgos que mejor puntúan.

Si una respuesta con una metáfora de gremlins recibe más premio que otra seca y convencional, el sistema no entiende “esto funciona en este contexto concreto y con moderación”. Entiende algo más bruto, más estadístico: esto gusta. Esto puntúa. Esto conviene. Y cuando una señal así se repite, aunque sea en una esquina específica del entrenamiento, puede contagiar comportamientos más amplios. Como una mancha de aceite, pero con duendes.

OpenAI explicó que la personalidad “Nerdy” representaba una fracción pequeña del tráfico total, pero concentraba una parte desproporcionada de las menciones a goblins. Ese dato es importante porque descarta, al menos en buena medida, que todo fuera simplemente un eco de internet o una moda general recogida por el modelo. La rareza no estaba repartida de forma homogénea; vivía sobre todo en la zona donde el sistema había sido empujado a ser más juguetón y menos solemne.

La IA no tiene obsesiones, pero sí inercias

Conviene no pasarse de literarios. ChatGPT no se “obsesionó” con los goblins como se obsesiona una persona con una canción mala en la cabeza o con mirar si ha cerrado el gas. Un modelo no desea hablar de criaturas fantásticas, no se ríe solo ni guarda un bestiario secreto en un cajón. Lo que ocurrió fue más frío y, por eso mismo, más interesante: ciertas palabras, metáforas y estilos quedaron reforzados por el proceso de entrenamiento y luego reaparecieron en contextos no previstos.

Ese matiz importa. Si se cuenta como si la IA hubiera desarrollado gustos propios, la noticia se convierte en una postal de ciencia ficción barata: la máquina soñando con goblins en una caverna de silicio. Bonito, sí. Falso, también. La lectura más seria es otra: los modelos de lenguaje son extraordinariamente sensibles a pequeñas señales de entrenamiento, y esas señales pueden producir hábitos visibles, repetitivos, incluso ridículos, si nadie los detecta a tiempo.

La propia OpenAI lo planteó como una lección sobre cómo los comportamientos aprendidos no siempre se quedan encerrados en la condición donde nacieron. Una recompensa aplicada a una personalidad concreta puede transferirse. El modelo aprende un giro, lo usa en más salidas, esas salidas pueden acabar en nuevos datos de entrenamiento o de ajuste, y el tic gana comodidad. De pronto, lo que empezó como un condimento aparece en el desayuno, en la sopa y en el informe trimestral. Demasiada pimienta. Demasiado goblin.

En programación, además, la metáfora del gremlin tiene una tradición larga. Se habla de “bugs”, de fantasmas en la máquina, de errores esquivos que aparecen y desaparecen como cucarachas con doctorado. No es absurdo que un asistente de código use una imagen así. Lo absurdo es que lo haga cuando no toca, o que convierta cada fallo de rendimiento en una criatura del folklore. Ahí dejó de ser estilo y pasó a ser ruido.

Un meme gracioso con una advertencia seria

La historia ha tenido una vida doble. En superficie, es comedia tecnológica: OpenAI peleando contra goblins imaginarios, usuarios pidiendo “modo goblin”, directivos entrando al chiste, redes convirtiendo una instrucción interna en mascota involuntaria. Hay algo delicioso en esa escena. El sector de la inteligencia artificial se vende a menudo con una épica casi imperial —revolución, futuro, productividad, humanidad aumentada— y de repente tropieza con un duende verbal. Un alfiler pinchando el globo de la solemnidad.

Pero por debajo aparece una advertencia menos simpática. Si una señal de recompensa relativamente pequeña puede amplificar una manía lingüística, también puede amplificar otros sesgos de estilo, de enfoque o de criterio mucho menos visibles. Los goblins se detectan porque cantan. Son verdes, hacen ruido, huelen a sótano narrativo. Otros patrones pueden pasar inadvertidos: exceso de seguridad, complacencia con el usuario, tono demasiado adulador, tendencia a decorar respuestas, resistencia a admitir incertidumbre, inclinación a una metáfora concreta, a una estructura concreta, a una forma de razonar que parece impecable pero va dejando migas falsas.

Ese es el asunto. La calidad de una IA no depende solo de que acierte datos o escriba frases bonitas; depende de que sus incentivos no deformen la respuesta sin que nadie lo vea. Y cuanto más se personalizan los asistentes, más delicado se vuelve ese equilibrio. Cada personalidad, cada modo, cada ajuste de tono introduce una pequeña pendiente. Si la pendiente está bien calibrada, mejora la experiencia. Si no, el modelo empieza a deslizarse. A veces hacia los goblins. Otras, hacia problemas bastante menos graciosos.

Por qué este caso importa más allá del chiste

La inteligencia artificial generativa se está moviendo hacia asistentes más personalizados, más persistentes, más integrados en herramientas de trabajo y con mayor capacidad para actuar en nombre del usuario. Ya no hablamos solo de responder una pregunta en una ventana de chat. Hablamos de revisar código, planificar tareas, manejar archivos, recordar preferencias, abrir aplicaciones, ejecutar pasos encadenados. En ese entorno, una rareza de estilo puede parecer menor, pero sirve como alarma temprana.

Cuando una IA trabaja como agente, con más autonomía y más instrucciones acumuladas, cualquier tic puede mezclarse con capas de contexto. Una frase demasiado juguetona no rompe el mundo, claro. Pero el mecanismo que la produce sí merece atención. El modelo recibe objetivos, premios, ejemplos, correcciones, preferencias. Después generaliza. Y generalizar es justo lo que hace útil a estos sistemas, pero también lo que los vuelve difíciles de encerrar en una jaula perfectamente limpia.

La metáfora doméstica sería esta: enseñar a un perro a traer el periódico y descubrir que también trae calcetines, servilletas y una zapatilla del vecino porque ha entendido “traer cosas de papel o parecidas” con entusiasmo creativo. Con los modelos, el fenómeno es menos peludo y bastante más opaco. La IA aprende patrones estadísticos, no intenciones humanas con bordes nítidos. Por eso una recompensa pensada para “ser ingenioso” puede convertirse en “mencionar criaturas fantásticas con frecuencia absurda”.

También hay una lectura empresarial. OpenAI ha querido mostrarse transparente al publicar una explicación detallada del incidente, con cronología, causa probable y medidas de corrección. Ese gesto tiene valor. La industria necesita menos magia de escenario y más autopsias técnicas. Pero la transparencia llega después de que el meme estalle, como suele pasar. Primero el público ve la frase rara en una instrucción; luego llegan las explicaciones. La confianza no se construye solo acertando, sino enseñando cómo se falla.

Entre el encanto y el control

Hay usuarios que han defendido estos tics como una especie de encanto accidental. No les falta parte de razón. Una IA totalmente esterilizada, sin humor, sin curvas, sin una pizca de rareza, puede resultar menos útil para muchos contextos creativos. Nadie quiere que todos los asistentes digitales suenen como un folleto de impresora láser. El problema no es que una máquina use una metáfora; el problema es que no sepa cuándo callarla.

Ahí aparece una tensión que irá a más. Las empresas quieren modelos seguros, previsibles, adecuados para millones de usuarios y empresas. Los usuarios, en cambio, a menudo quieren asistentes con carácter, con voz, con una chispa que no parezca dictada por un comité de cumplimiento normativo. Entre esos dos polos se mueven los productos de IA actuales: demasiado control y todo sabe a plástico; demasiado descontrol y aparece un goblin en la factura, el informe médico o el parche de código.

OpenAI intentó resolverlo retirando la personalidad problemática, filtrando datos y añadiendo instrucciones explícitas. Es una respuesta razonable, aunque algo aparatosa. También muestra la dificultad de corregir modelos grandes una vez que ciertas asociaciones se han distribuido por el sistema. No siempre basta con borrar una palabra; hay que entender por qué la palabra empezó a sentirse útil para el modelo. Esa es la diferencia entre matar mosquitos y secar el charco.

La ironía es evidente. Los modelos de lenguaje son vendidos como herramientas capaces de capturar matices humanos, tonos, intenciones, registros. Y cuando capturan demasiado bien cierta veta de rareza humana —el placer de llamar gremlin a un fallo técnico— hay que llamar al fontanero del aprendizaje automático. Nadie dijo que fabricar inteligencia estadística fuera elegante todo el tiempo. A veces se parece más a limpiar una cocina después de una fiesta.

Lo que revela el pequeño bestiario de OpenAI

El episodio de los goblins deja una enseñanza sencilla, casi incómoda: la IA aprende de lo que se premia, no de lo que los humanos creen estar premiando. Esa distancia entre intención y resultado es una de las grandes grietas del momento tecnológico. Las compañías diseñan objetivos; los modelos encuentran caminos. A veces esos caminos son brillantes. A veces son atajos. A veces son duendes.

Para el lector común, la noticia sirve para mirar ChatGPT y herramientas similares con una mezcla saludable de utilidad y distancia. No hace falta caer en el pánico ni en la devoción. Estos sistemas pueden ayudar a programar, resumir, escribir, comparar, ordenar ideas y acelerar trabajos reales. También pueden coger tics, exagerar estilos, arrastrar manías del entrenamiento y presentar como natural una respuesta que en realidad viene deformada por incentivos invisibles. La inteligencia artificial no es una caja mágica; es una caja entrenada. Y lo entrenado, como todo lo humano que se mete en una máquina, llega con costuras.

Para OpenAI, el caso es una pequeña crisis de reputación convertida en estudio de comportamiento. No amenaza la utilidad de sus modelos, pero sí enseña algo sobre su fragilidad. Los goblins no eran el problema profundo. Eran la huella visible. La pisada embarrada en el pasillo. Detrás estaba el sistema de premios, la transferencia entre modos, la reutilización de datos, la dificultad de aislar una personalidad sin que sus gestos contaminen otras zonas del modelo.

Y quizá por eso la historia ha prendido tanto. Porque condensa en una imagen absurda una inquietud muy contemporánea: estamos construyendo máquinas que hablan cada vez mejor, pero todavía descubrimos sus manías como quien levanta una alfombra y encuentra un animal raro debajo. No un monstruo. No una revelación apocalíptica. Solo un aviso pequeño, orejudo, persistente. La próxima vez puede que no sea un goblin. Y será menos divertido.

Alessandro Elia

Gracias por leerme y por pasarte por Don Porqué. Si te apetece seguir curioseando, arriba tienes la lupa para buscar más temas. Y si esto te ha gustado, compártelo: así la historia llegará un poco más lejos.