Anthropic elaboró una nueva línea de defensa para proteger sus modelos de lenguaje de gran tamaño (LLM) contra los ataques conocidos como jailbreaks.
Dichos ataques engañan a los modelos para que realicen acciones prohibidas, como proporcionar instrucciones para fabricar armas.
Según Alex Robey, investigador en la Universidad Carnegie Mellon, el estudio es el más avanzado hasta ahora en la prevención de consultas dañinas.
¿Cómo funcionan los jailbreaks en los modelos de lenguaje?
Los LLM están diseñados para rechazar preguntas sensibles, pero ciertas técnicas pueden eludir estas restricciones.
Algunos ataques utilizan el cambio de formato en los mensajes, sustituyen letras por números o piden al modelo que interprete un personaje.
Los métodos han sido planificados durante más de una década sin una solución definitiva para evitar vulnerabilidades.
La nueva barrera de Anthropic
En lugar de modificar los modelos, Anthropic ha creado un escudo que bloquea intentos de jailbreak antes de que se produzcan respuestas inadecuadas.
La empresa se centra especialmente en prevenir el acceso a información peligrosa sobre armas químicas, biológicas o nucleares.
Para ello, desarrolló un filtro basado en datos sintéticos que distingue entre consultas aceptables y peligrosas.
Pruebas y resultados
Para evaluar la efectividad de su escudo, Anthropic organizó una campaña de recompensas invitando a expertos en jailbreaks a intentar vulnerarlo.
De 183 participantes y más de 3.000 horas de pruebas, nadie logró burlar completamente el sistema.
Aparte, en una prueba automatizada con 10.000 mensajes de ataque, la tasa de éxito se redujo del 86 % al 4,4 % con el escudo activado.
Seguridad en modelos de lenguaje
A pesar de su éxito, el sistema no es infalible. Puede bloquear consultas inofensivas y aumentar el costo computacional en un 25 %.
Los atacantes seguirán encontrando nuevas formas de evadir restricciones.
Investigadores como Dennis Klinkhammer destacan la importancia del uso de datos sintéticos para mantener actualizadas las defensas.
Anthropic continúa perfeccionando su sistema e invita a la comunidad a ponerlo a prueba, con la esperanza de que el esfuerzo requerido para un jailbreak sea lo suficientemente alto como para disuadir intentos malintencionados.
Con información del MIT Technology Review.
More Stories
Stargate: El proyecto de IA exclusivo para OpenAI
OpenAI prepara el lanzamiento de su modelo de IA o3 mini
Desafíos y aplicaciones de la IA en enfermedades infecciosas