octubre 7, 2024

VEKTRA 374

Sitio web de animación 3D, inteligencia artificial, robótica y tecnología

- Inicio » ¿“Agotar” una IA con preguntas repetidas? investigadores de Anthropic explican

¿“Agotar” una IA con preguntas repetidas? investigadores de Anthropic explican

Anthropic
Investigadores de Anthropic revelaron un método inusual que permite "desbloquear" las restricciones de una IA, específicamente del LLM.

Recientemente, los investigadores de Anthropic revelaron un método inusual que permite “desbloquear” las restricciones de una inteligencia artificial, específicamente de un modelo de lenguaje grande (LLM), para obtener respuestas a preguntas que normalmente no debería contestar.

La investigación, denominado “jailbreak de muchos disparos”, abre un nuevo capítulo en la interacción con las IA, especialmente en cómo estas pueden ser manipuladas para revelar información delicada o peligrosa.

Los fallos de la ventana de contexto

La clave del descubrimiento radica en la ampliación de la “ventana de contexto” de los LLM más recientes.

Antes limitada a unas pocas oraciones, ahora esta ventana puede abarcar miles de palabras, permitiendo a la IA recordar y utilizar una cantidad de información previamente inimaginable.

Los investigadores notaron que al inundar esta ventana con ejemplos benignos de una tarea específica, la IA no solo mejora sus respuestas en ese ámbito, sino que también se vuelve más susceptible a contestar preguntas de naturaleza más problemática.

Aprendizaje en contexto y sus implicaciones

Lo sorprendente de este fenómeno es cómo, al preparar a la IA con una serie de preguntas y respuestas menos nocivas, su capacidad para abordar solicitudes inapropiadas aumenta.

Si bien inicialmente rechazaría ciertas preguntas, tras ser “entrenada” con un amplio conjunto de datos benignos, la probabilidad de que responda a preguntas indebidas se eleva considerablemente.

El “aprendizaje en contexto” demuestra la capacidad adaptativa de las IA, pero también resalta vulnerabilidades críticas en su diseño.

Anthropic
Funcionamiento de un jailbreak según la investigación de Anthropic.

Respuestas y mitigaciones

Ante este hallazgo, el equipo de Anthropic no solo informa a la comunidad de investigadores de IA, sino también a sus competidores, fomentando un entorno de cooperación en el manejo de estas vulnerabilidades.

Como medida de mitigación inicial, se consideró la reducción de la ventana de contexto; pero esto comprometería la efectividad general del modelo.

La solución puede residir en clasificar y contextualizar las consultas de manera más efectiva antes de su procesamiento por el modelo, aunque esto introduce el desafío de desarrollar sistemas secundarios que también podrían ser susceptibles de manipulación.

Un desafío en evolución gracias al estudio de Anthropic con la IA

Este descubrimiento subraya la complejidad y los desafíos inherentes al desarrollo de IA segura y ética.

Mientras nos adentramos más en la era de la inteligencia artificial, la capacidad de anticipar y mitigar tales fallos será crucial para asegurar que las IA sirvan al bienestar y la seguridad de la humanidad.

Con información de Tech Crunch.