febrero 5, 2025

VEKTRA 374

Sitio web de animación 3D, inteligencia artificial, robótica y tecnología

Anthropic refuerza la seguridad de los modelos de lenguaje

modelos de lenguaje
Anthropic elaboró una nueva línea de defensa para proteger sus modelos de lenguaje de gran tamaño contra ataques conocidos como jailbreaks.

Anthropic elaboró una nueva línea de defensa para proteger sus modelos de lenguaje de gran tamaño (LLM) contra los ataques conocidos como jailbreaks.

Dichos ataques engañan a los modelos para que realicen acciones prohibidas, como proporcionar instrucciones para fabricar armas.

Según Alex Robey, investigador en la Universidad Carnegie Mellon, el estudio es el más avanzado hasta ahora en la prevención de consultas dañinas.

¿Cómo funcionan los jailbreaks en los modelos de lenguaje?

Los LLM están diseñados para rechazar preguntas sensibles, pero ciertas técnicas pueden eludir estas restricciones.

Algunos ataques utilizan el cambio de formato en los mensajes, sustituyen letras por números o piden al modelo que interprete un personaje.

Los métodos han sido planificados durante más de una década sin una solución definitiva para evitar vulnerabilidades.

La nueva barrera de Anthropic

En lugar de modificar los modelos, Anthropic ha creado un escudo que bloquea intentos de jailbreak antes de que se produzcan respuestas inadecuadas.

La empresa se centra especialmente en prevenir el acceso a información peligrosa sobre armas químicas, biológicas o nucleares.

Para ello, desarrolló un filtro basado en datos sintéticos que distingue entre consultas aceptables y peligrosas.

modelos de lenguaje

Pruebas y resultados

Para evaluar la efectividad de su escudo, Anthropic organizó una campaña de recompensas invitando a expertos en jailbreaks a intentar vulnerarlo.

De 183 participantes y más de 3.000 horas de pruebas, nadie logró burlar completamente el sistema.

Aparte, en una prueba automatizada con 10.000 mensajes de ataque, la tasa de éxito se redujo del 86 % al 4,4 % con el escudo activado.

Seguridad en modelos de lenguaje

A pesar de su éxito, el sistema no es infalible. Puede bloquear consultas inofensivas y aumentar el costo computacional en un 25 %.

Los atacantes seguirán encontrando nuevas formas de evadir restricciones.

Investigadores como Dennis Klinkhammer destacan la importancia del uso de datos sintéticos para mantener actualizadas las defensas.

Anthropic continúa perfeccionando su sistema e invita a la comunidad a ponerlo a prueba, con la esperanza de que el esfuerzo requerido para un jailbreak sea lo suficientemente alto como para disuadir intentos malintencionados.

Con información del MIT Technology Review.