El medio The New York Times ha tomado medidas enérgicas contra la práctica de usar inteligencia artificial (IA) para raspar y absorber su contenido, en un intento de proteger su modelo de negocio.
A principios de agosto, el periódico actualizó sus términos de servicio para prohibir expresamente el raspado de sus artículos e imágenes con fines de entrenamiento de IA, en un momento en que varias empresas tecnológicas han estado beneficiándose de aplicaciones de lenguaje de IA, como ChatGPT y Google Bard, desarrolladas a través de la recolección no autorizada de datos en línea.
Los nuevos términos de servicio establecen que el contenido del New York Times, incluidos artículos, videos, imágenes y metadatos, no puede ser utilizado para entrenar modelos de IA sin un permiso expreso por escrito.
La sección 2.1 de los términos subraya que el contenido es solo para “uso personal y no comercial” y excluye específicamente el uso en el desarrollo de programas de software, incluido el entrenamiento de sistemas de aprendizaje automático o IA.
La sección 4.1 refuerza esta restricción al señalar que nadie puede usar el contenido del Times para desarrollar programas de software sin su consentimiento por escrito.
The New York Times intenta proteger su trabajo de la IA
El periódico advierte sobre las posibles consecuencias de infringir estas restricciones, que podrían incluir sanciones civiles, penales y administrativas, así como multas para los usuarios y aquellos que los respalden.
Aunque estos términos son amenazantes, históricamente, las restricciones similares no han detenido la práctica generalizada de recolectar datos en línea para entrenar modelos de aprendizaje automático.
Los modelos de lenguaje más avanzados, como GPT-4 de OpenAI, Claude 2 de Anthropic, Llama 2 de Meta y PaLM 2 de Google, se han entrenado utilizando conjuntos de datos recopilados de Internet mediante el aprendizaje no supervisado.
Este proceso implica la alimentación de datos web en redes neuronales, permitiendo a las IA comprender el lenguaje a través del análisis de relaciones entre palabras.
El uso de datos raspados para entrenar IA ha suscitado controversia y ha llevado a demandas, como una que acusa a OpenAI de plagio.
La Associated Press y otras organizaciones de noticias han pedido un marco legal para proteger el contenido utilizado en aplicaciones de IA.
OpenAI en previsión de desafíos legales, ha propuesto un método que los sitios web pueden utilizar para bloquear su rastreador web de entrenamiento de IA a través de robots.txt.
Aunque esto ha llevado a algunos sitios y autores a bloquear el rastreador, los datos que ya se han recopilado se han integrado en modelos como GPT-4, incluyendo contenido del New York Times.
El futuro verá si los proveedores de IA respetan los deseos de los propietarios de contenido en futuras iteraciones de modelos, o si nuevas demandas y regulaciones se harán necesarias.
Con información de Ars Technica.
More Stories
OpenAI apuesta por la robótica con nuevo fichaje de Orion de Meta
Refuerce la seguridad de Gmail con la Protección Avanzada
Adobe insta a los artistas a adoptar la IA para no quedarse atrás