Estallan revueltas de datos contra la IA

Durante más de 20 años, Kit Loffstadt ha estado escribiendo fanfiction explorando universos alternativos para héroes de «Star Wars» y villanos de «Buffy the Vampire Slayer», compartiendo sus historias de forma gratuita en línea.

Pero en mayo, la Sra. Loffstadt dejó de publicar sus creaciones después de enterarse de que una empresa de datos había copiado sus historias y las había introducido en la tecnología de inteligencia artificial subyacente a ChatGPT, el chatbot viral. Consternada, escondió su escritura detrás de una cuenta bloqueada.

Loffstadt también ayudó a organizar un acto de rebelión el mes pasado contra los sistemas de IA. Junto con docenas de otros escritores de fanfiction, ha publicado una avalancha de historias irreverentes en línea para abrumar y confundir los servicios de recopilación de datos que impulsan el trabajo de los escritores en tecnología de IA.

“Cada uno de nosotros debe hacer todo lo posible para mostrarles que el resultado de nuestra creatividad no es cosechar máquinas como ellos desean”, dijo la Sra. Loffstadt, una actriz de doblaje de 42 años de South Yorkshire en Gran Bretaña.

Los escritores de fanfiction son solo un grupo que ahora está organizando revueltas contra los sistemas de inteligencia artificial a medida que la fiebre tecnológica se ha apoderado de Silicon Valley y del mundo. En los últimos meses, empresas de redes sociales como Reddit y Twitter, medios de comunicación como The New York Times y NBC News, autores como Paul Tremblay y la actriz Sarah Silverman se han opuesto a que la IA absorba sus datos sin permiso. .

Sus protestas tomaron diferentes formas. Los escritores y artistas están bloqueando sus archivos para proteger su trabajo o boicoteando ciertos sitios web que publican contenido generado por IA, mientras que empresas como Reddit quieren cobrar por acceder a sus datos. Este año se han presentado al menos 10 demandas contra empresas de IA, acusándolas de entrenar sus sistemas en el trabajo creativo de artistas sin su consentimiento. La semana pasada, la Sra. Silverman y los autores Christopher Golden y Richard Kadrey demandaron a OpenAI, el creador de ChatGPT, y a otros por el uso de su trabajo por parte de la IA.

En el corazón de las rebeliones se encuentra una nueva comprensión de que la información en línea (historias, obras de arte, artículos de noticias, publicaciones en tableros de mensajes y fotos) puede tener un valor significativo sin explotar.

La nueva ola de IA, conocida como «IA generativa» por el texto, las imágenes y otros contenidos que genera, se basa en sistemas complejos, como grandes modelos de lenguaje, capaces de producir prosa humana. Estos modelos están entrenados en hordas de todo tipo de datos para que puedan responder a las preguntas de las personas, imitar estilos de escritura o producir comedia y poesía.

Esto provocó la búsqueda de más datos por parte de las empresas tecnológicas para impulsar sus sistemas de IA. Google, Meta y OpenAI básicamente utilizaron información de todo Internet, incluidas grandes bases de datos de fan fiction, tesoros de artículos de noticias y colecciones de libros, la mayoría de los cuales estaban disponibles gratuitamente en línea. En la jerga de la industria tecnológica, esto se llama «raspar» Internet.

GPT-3 de OpenAI, un sistema de inteligencia artificial lanzado en 2020, cubre 500 mil millones de «fichas», cada una de las cuales representa partes de palabras que se encuentran principalmente en línea. Algunos modelos de IA abarcan más de un billón de tokens.

La práctica del raspado de Internet es antigua y ha sido ampliamente divulgada por empresas y organizaciones sin fines de lucro que lo han hecho. Pero esto no fue bien entendido o visto como particularmente problemático por las empresas propietarias de los datos. Eso cambió después del lanzamiento de ChatGPT en noviembre, y el público aprendió más sobre los modelos de IA subyacentes que impulsaron los chatbots.

«Lo que está sucediendo aquí es una realineación fundamental del valor de los datos», dijo Brandon Duderstadt, fundador y director ejecutivo de Nomic, una empresa de IA. «Antes, la idea era obtener valor de los datos haciéndolos abiertos a todos y mostrando anuncios. Ahora la idea es bloquear sus datos, porque puede extraer mucho más valor cuando los usa como entrada para su AI»

Las protestas por los datos pueden tener poco efecto a largo plazo. Los gigantes tecnológicos con mucho dinero como Google y Microsoft ya están sentados sobre montañas de información patentada y tienen los recursos para autorizar más. Pero a medida que la era del contenido fácil de rascar llega a su fin, es posible que las pequeñas empresas emergentes de IA y las organizaciones sin fines de lucro que esperaban competir con las grandes corporaciones no puedan obtener suficiente contenido para formar sus sistemas.

En un comunicado, OpenAI dijo que ChatGPT fue capacitado en «contenido con licencia, contenido disponible públicamente y contenido creado por entrenadores humanos de IA». Añadió: «Respetamos los derechos de los creadores y autores, y esperamos seguir trabajando con ellos para proteger sus intereses».

Google dijo en un comunicado que está participando en discusiones sobre cómo los editores podrían administrar su contenido en el futuro. “Creemos que todos se benefician de un ecosistema de contenido vibrante”, dijo la compañía. Microsoft no respondió a una solicitud de comentarios.

Las revueltas de datos estallaron el año pasado después de que ChatGPT se convirtiera en un fenómeno global. En noviembre, un grupo de programadores presentó una propuesta de demanda colectiva contra Microsoft y OpenAI, alegando que las empresas violaron sus derechos de autor después de que su código se usara para capacitar a un asistente de programación impulsado por IA.

En enero, Getty Images, que proporciona fotos y videos, demandó a Stability AI, una compañía de inteligencia artificial que crea imágenes a partir de descripciones de texto, alegando que la startup usó fotos con derechos de autor del autor para entrenar sus sistemas.

Luego, en junio, Clarkson, un bufete de abogados de Los Ángeles, presentó una propuesta de demanda colectiva de 151 páginas contra OpenAI y Microsoft, describiendo cómo OpenAI recopiló datos de menores y dijo que el web scraping violaba la ley de protección de datos de derechos de autor y constituía un «robo». El martes, la firma presentó una denuncia similar contra Google.

“La rebelión de datos que estamos viendo en todo el país es la forma en que la sociedad cuestiona esta idea de que Big Tech simplemente tiene derecho a tomar cualquier información de cualquier fuente y hacerla propia”, dijo Ryan Clarkson, fundador de Clarkson.

Eric Goldman, profesor de la Facultad de Derecho de la Universidad de Santa Clara, dijo que los argumentos de la demanda eran amplios y que era poco probable que el tribunal los aceptara. Pero la ola de litigios apenas comienza, dijo, con una «segunda y tercera ola» por venir que definiría el futuro de la IA.

Las grandes empresas también se oponen a los raspadores de IA. En abril, Reddit dijo que quería cobrar por el acceso a su interfaz de programación de aplicaciones, o API, el método por el cual terceros pueden descargar y analizar la vasta base de datos de conversaciones de persona a persona de la red social.

Steve Huffman, director ejecutivo de Reddit, dijo en ese momento que su empresa no «necesitaba regalar todo este valor a algunas de las empresas más grandes del mundo de forma gratuita».

Ese mismo mes, Stack Overflow, un sitio de preguntas y respuestas para programadores de computadoras, dijo que también pediría a las empresas de inteligencia artificial que pagaran por los datos. El sitio tiene casi 60 millones de preguntas y respuestas. Su movimiento fue informado anteriormente. por Cableado.

Las organizaciones de noticias también se resisten a los sistemas de IA. En un memorando interno sobre el uso de la IA generativa en junio, el Times dijo que las empresas de IA deberían «respetar nuestra propiedad intelectual». Un portavoz del Times se negó a dar más detalles.

Para artistas y escritores individuales, luchar contra los sistemas de inteligencia artificial ha significado repensar dónde publican.

Nicholas Kole, de 35 años, ilustrador de Vancouver, Columbia Británica, estaba alarmado por cómo un sistema de inteligencia artificial podía replicar su estilo artístico distintivo y sospechaba que la tecnología había rayado su trabajo. Planea continuar publicando sus creaciones en Instagram, Twitter y otros sitios de redes sociales para atraer clientes, pero ha dejado de publicar en sitios como ArtStation que publican contenido generado por IA junto con contenido generado por el hombre.

“Se siente como un vuelo gratis de parte mía y de otros artistas”, dijo Kole. «Pone un pozo de temor existencial en mi estómago».

En Archive of Our Own, una base de datos de fanfiction con más de 11 millones de historias, los escritores han presionado cada vez más al sitio para que prohíba el raspado de datos y las historias generadas por IA.

En mayo, cuando algunas cuentas de Twitter compartieron ejemplos de ChatGPT que imitaban el estilo de fan fiction popular publicado en Archive of Our Own, decenas de escritores se levantaron en armas. Bloquearon sus historias y escribieron contenido subversivo para engañar a los rastreadores de IA. También presionaron a los ejecutivos de Archive of Our Own para que dejaran de permitir contenido generado por IA.

Betsy Rosenblatt, quien brinda asesoramiento legal a Archive of Our Own y es profesora de la Facultad de Derecho de la Universidad de Tulsa, dijo que el sitio tenía una política de «máxima inclusión» y no quería poder discernir qué historias se han escrito. . con IA

Para la Sra. Loffstadt, la escritora de fanfiction, la lucha contra la IA se produjo mientras escribía una historia sobre «Horizon Zero Dawn», un videojuego en el que los humanos luchan contra robots impulsados por IA en un mundo posapocalíptico. En el juego, dijo, algunos robots eran buenos y otros malos.

Pero en el mundo real, dice, «gracias a la arrogancia y la codicia corporativas, están retorcidos para hacer cosas malas».