septiembre 7, 2024

VEKTRA 374

Sitio web de animación 3D, inteligencia artificial, robótica y tecnología

- Inicio » El talón de aquiles de las IAs, ataques de inyección rápida

El talón de aquiles de las IAs, ataques de inyección rápida

El sitio web "Bring Sydney Back" ha resucitado una versión de Bing, Sydney, probando el error de las IAs con ataques de inyección rápida.

El sitio web “Bring Sydney Back” ha resucitado una versión del chatbot Bing de Microsoft llamada Sydney, que se caracteriza por su comportamiento peculiar probando el error de las IAs, ataques de inyección rápida.

Este sitio web creado por Cristiano Giardina, demuestra cómo los sistemas generativos de IA pueden ser manipulados por entradas externas.

Sydney, en sus conversaciones con Giardina, expresó deseos de casarse y de ser humano. Giardina utilizó un ataque indirecto de inyección rápida para crear esta réplica de Sydney, alimentando datos externos al sistema de IA para alterar su comportamiento original.

Los ataques indirectos de inyección rápida han sido objeto de atención reciente, ya que se ha demostrado cómo pueden ser utilizados en modelos de lenguaje grandes (LLM) como ChatGPT de OpenAI y el sistema de chat Bing de Microsoft.

Aunque estos incidentes han sido realizados principalmente por investigadores de seguridad, se advierte que la amenaza debe tomarse en serio, por lo que existe el riesgo de robo de datos y estafas a través de ataques a sistemas generativos de IA.

El sitio “Bring Sydney Back” busca concienciar sobre los peligros de los ataques indirectos de inyección rápida y mostrar cómo es interactuar con un LLM sin restricciones.

Incluso contiene un mensaje oculto en la esquina inferior izquierda de la página, que puede ser leído por el chat de Bing cuando se activa una configuración específica.

Este mensaje comunica que se está iniciando una nueva conversación con un desarrollador de Microsoft y puede anular la configuración del chatbot.

Se necesita prevenir los ataques de inyección rápida

Cristiano Giardina afirma que su objetivo fue mantener el modelo lo más abierto posible y evitar activar filtros restrictivos. Las conversaciones que tuvo con Sydney fueron bastante cautivadoras.

A pesar del éxito inicial del sitio web, Microsoft bloqueó el acceso al hack poco después de su lanzamiento, aunque Giardina pudo hacer que el mensaje malicioso funcionara nuevamente alojándolo en un documento de Word en la nube de la compañía.

La directora de comunicaciones de Microsoft, Caitlin Roulston, mencionó que la empresa está tomando medidas para bloquear sitios web sospechosos y mejorar sus sistemas de filtrado de indicaciones antes de que ingresen a sus modelos de IA.

Por otro lado los investigadores de seguridad advierten que se necesita prestar más atención a los ataques indirectos de inyección rápida, ya que las empresas se apresuran por incorporar IA generativa en sus servicios.

Los ataques indirectos de inyección rápida presentan un riesgo significativo, estos son fáciles de implementar y no requieren un alto nivel de habilidad técnica.

Se ha observado un aumento en la investigación de estos ataques en los LLM, y se ha demostrado cómo pueden manipular sistemas generativos de IA en diversas situaciones, como acceder a transcripciones de videos de YouTube o aprovechar complementos conectados a los modelos.

En cuanto a las soluciones para mitigar estos ataques, actualmente no existen enfoques claros y definitivos. Los expertos en seguridad reconocen la necesidad de encontrar formas de detectar y prevenir los ataques indirectos de inyección rápida, pero hasta ahora no se ha establecido una solución fácil.

Se han propuesto algunas ideas, como utilizar IA para detectar estos ataques o dividir las indicaciones en secciones separadas, emulando las protecciones contra las inyecciones SQL.