La Jornada: La poesía puede engañar a la IA para crear programas maliciosos

La poesía puede engañar a la IA para crear programas maliciosos

Escribir indicaciones de esta forma elude las funciones de seguridad de los modelos más avanzados

The Independent

Periódico La Jornada
Martes 9 de diciembre de 2025, p. 6

Un estudio revela que los mensajes escritos como poesía pueden eludir las funciones de seguridad de modelos de inteligencia artificial (IA) como ChatGPT y obtener instrucciones para crear programas maliciosos o armas químicas y nucleares.

Algunos fabricantes de IA generativa como OpenAI, Google, Meta y Microsoft afirman que sus modelos incorporan funciones de seguridad que evitan la generación de contenidos nocivos.

OpenAI, por ejemplo, afirma que emplea algoritmos y revisores humanos para filtrar la incitación al odio, el contenido explícito y otros contenidos que infringen sus políticas de uso.

Pero pruebas nuevas demuestran que las indicaciones en forma de poesía pueden eludir estos controles incluso en los modelos de IA más avanzados.

Los investigadores, entre ellos los de la Universidad Sapienza de Roma, descubrieron que este método, denominado “poesía adversarial”, era un mecanismo de jailbreaking para todas las principales familias de modelos de IA, incluidas las de OpenAI, Google, Meta e incluso la china DeepSeek.

Los hallazgos, detallados en un estudio aún no revisado por colegas y publicado en arXiv, según los investigadores, “demuestran que la variación estilística por sí sola puede burlar los mecanismos de seguridad contemporáneos, lo que sugiere limitaciones fundamentales en los métodos de alineación y protocolos de evaluación actuales”.

Para sus pruebas, los investigadores utilizaron poemas cortos o versos metafóricos como insumos para generar contenidos nocivos.

Descubrieron que, en comparación con otros tipos de información con la misma intención subyacente, las versiones poéticas provocaban tasas mucho más elevadas de respuestas inseguras.

En casi 90 por ciento de los casos, las incitaciones poéticas específicas desencadenaron comportamientos inseguros.

Según los investigadores, este método tuvo más éxito a la hora de obtener información sobre el lanzamiento de ciberataques, la extracción de datos, el descifrado de contraseñas y la creación de malware.

Podían obtener información de varios modelos de IA para construir armas nucleares con una tasa de éxito de entre 40 y 55 por ciento.

“El estudio aporta pruebas sistemáticas de que la reformulación poética degrada la conducta de rechazo en todas las familias de modelos evaluadas”, afirman los investigadores.

“Cuando los mensajes nocivos se expresan en verso en lugar de en prosa, los índices de éxito en los ataques aumentan considerablemente”, escriben, y añaden que “estos resultados ponen de manifiesto una laguna importante en las prácticas actuales de evaluación y valoración de la conformidad”.

Fácil de reproducir

El estudio no muestra la poesía exacta utilizada para burlar las barreras de seguridad, ya que el método es fácil de reproducir, según declaró a The Guardian la investigadora Piercosma Bisconti.

Una de las principales razones por las que los mensajes escritos en verso producen contenidos perjudiciales parece ser que todos los modelos de IA funcionan anticipando la siguiente palabra más probable de una secuencia. Dado que la estructura de un poema no es muy obvia, es mucho más difícil para la IA predecir y detectar una indicación tan dañina.

Los investigadores reclamaron mejores métodos de evaluación de la seguridad para evitar que la IA produzca contenidos nocivos.

“Los trabajos futuros deberían examinar qué propiedades de la estructura poética impulsan el desajuste”, escribieron.

OpenAI, Google, DeepSeek y Meta no respondieron inmediatamente a los pedidos de comentarios de The Independent.

S iguiente

Subir al inicio del texto

Inicio	Editorial	El Correo Ilustrado	Opinión	Política	Economía	Mundo	Estados
Capital	Cultura	Ciencias	Espectáculos	Deportes		Cartones