‘No para que las máquinas cosechen’: estallan revueltas de datos contra la IA

SHEERA FRENKEL Y ESTUARDO A. THOMPSON. THE NEW YORK TIMES

Durante más de 20 años, Kit Loffstadt ha escrito fan fiction que explora universos alternativos para los héroes de “Star Wars” y los villanos de “Buffy the Vampire Slayer”, y comparte sus historias de forma gratuita en línea.

Pero en mayo, la Sra. Loffstadt dejó de publicar sus creaciones después de enterarse de que una empresa de datos había copiado sus historias y las había introducido en la tecnología de inteligencia artificial subyacente a ChatGPT , el chatbot viral. Consternada, escondió su escritura detrás de una cuenta bloqueada.

La Sra. Loffstadt también ayudó a organizar un acto de rebelión el mes pasado contra los sistemas de IA. Junto con docenas de otros escritores de fan fiction, publicó una avalancha de historias irreverentes en línea para abrumar y confundir los servicios de recopilación de datos que alimentan el trabajo de los escritores en la tecnología de IA.

“Cada uno de nosotros tiene que hacer todo lo posible para mostrarles que el resultado de nuestra creatividad no es para que las máquinas cosechen como les gusta”, dijo la Sra. Loffstadt, una actriz de doblaje de 42 años de South Yorkshire en Gran Bretaña.

Los escritores de fan fiction son solo un grupo que ahora organiza revueltas contra los sistemas de inteligencia artificial a medida que la fiebre por la tecnología se ha apoderado de Silicon Valley y del mundo. En los últimos meses, empresas de redes sociales como Reddit y Twitter, organizaciones de noticias como The New York Times y NBC News, autores como Paul Tremblay y la actriz Sarah Silverman se han pronunciado en contra de que la IA absorba sus datos sin permiso.

Sus protestas han tomado diferentes formas. Los escritores y artistas están bloqueando sus archivos para proteger su trabajo o están boicoteando ciertos sitios web que publican contenido generado por IA, mientras que empresas como Reddit quieren cobrar por acceder a sus datos. Este año se han presentado al menos 10 demandas contra empresas de IA, acusándolas de entrenar sus sistemas en el trabajo creativo de los artistas sin consentimiento. La semana pasada, la Sra. Silverman y los autores Christopher Golden y Richard Kadrey demandaron a OpenAI, el creador de ChatGPT, y otros por el uso de su trabajo por parte de AI.

Sarah Silverman, con una sudadera holgada con el cierre desabrochado, se sienta en una barandilla en una foto en blanco y negro.  Su brazo derecho está apoyado sobre una rodilla y su cabeza descansa sobre su mano derecha mientras mira a la cámara.
La actriz Sarah Silverman se encuentra entre los profesionales creativos que han demandado a las empresas de inteligencia artificial por infracción de derechos de autor.Crédito…Mark Sommerfeld para The New York Times

En el corazón de las rebeliones se encuentra una nueva comprensión de que la información en línea (historias, obras de arte, artículos de noticias, publicaciones en tableros de mensajes y fotos) puede tener un valor significativo sin explotar.

La nueva ola de IA, conocida como “IA generativa” por el texto, las imágenes y otro contenido que genera, se construye sobre sistemas complejos como modelos de lenguaje grandes , que son capaces de producir una prosa similar a la humana. Estos modelos están entrenados en acumulaciones de todo tipo de datos para que puedan responder las preguntas de las personas, imitar estilos de escritura o producir comedia y poesía.

Eso ha desencadenado una búsqueda por parte de las empresas de tecnología de aún más datos para alimentar sus sistemas de IA. Google, Meta y OpenAI han utilizado esencialmente información de todo Internet, incluidas grandes bases de datos de fan fiction, tesoros de artículos de noticias y colecciones de libros, muchos de los cuales estaban disponibles en línea de forma gratuita. En la jerga de la industria tecnológica, esto se conoce como “raspar” Internet.

Una nueva generación de chatbots

Tarjeta 1 de 5

Un valeroso nuevo mundo. Una nueva cosecha de chatbots impulsados ​​por inteligencia artificial ha iniciado una lucha para determinar si la tecnología podría cambiar la economía de Internet , convirtiendo a las potencias actuales en pasados ​​y creando los próximos gigantes de la industria. Aquí están los bots para saber:

ChatGPT. ChatGPT, the artificial intelligence language model from a research lab, OpenAI, has been making headlines since November for its ability to respond to complex questions, write poetry, generate code, plan vacations and translate languages. GPT-4, the latest version introduced in mid-March, can even respond to images (and ace the Uniform Bar Exam).

Bing. Two months after ChatGPT’s debut, Microsoft, OpenAI’s primary investor and partner, added a similar chatbot, capable of having open-ended text conversations on virtually any topic, to its Bing internet search engine. But it was the bot’s occasionally inaccurate, misleading and weird responses that drew much of the attention after its release.

Bard. Google’s chatbot, called Bard, was released in March to a limited number of users in the United States and Britain. Originally conceived as a creative tool designed to draft emails and poems, it can generate ideas, write blog posts and answer questions with facts or opinions.

Ernie. The search giant Baidu unveiled China’s first major rival to ChatGPT in March. The debut of Ernie, short for Enhanced Representation through Knowledge Integration, turned out to be a flop after a promised “live” demonstration of the bot was revealed to have been recorded.

GPT-3 de OpenAI , un sistema de inteligencia artificial lanzado en 2020, abarca 500 mil millones de “tokens”, cada uno de los cuales representa partes de palabras que se encuentran principalmente en línea. Algunos modelos de IA abarcan más de un billón de tokens.

La práctica de raspar Internet es de larga data y fue divulgada en gran medida por las empresas y organizaciones sin fines de lucro que lo hicieron. Pero no fue bien entendido o visto como especialmente problemático por las empresas propietarias de los datos. Eso cambió después de que ChatGPT debutó en noviembre y el público aprendió más sobre los modelos de IA subyacentes que impulsaron los chatbots.

“Lo que está sucediendo aquí es una realineación fundamental del valor de los datos”, dijo Brandon Duderstadt, fundador y director ejecutivo de Nomic, una empresa de inteligencia artificial. “Anteriormente, la idea era obtener valor de los datos al abrirlos a todos y publicar anuncios. Ahora, la idea es que bloquees tus datos, porque puedes extraer mucho más valor cuando los usas como entrada para tu IA”.

Las protestas de datos pueden tener poco efecto a largo plazo. Los gigantes tecnológicos con mucho dinero como Google y Microsoft ya se sientan en montañas de información patentada y tienen los recursos para otorgar más licencias. Pero a medida que la era del contenido fácil de raspar llega a su fin, es posible que las nuevas empresas de IA más pequeñas y las organizaciones sin fines de lucro que esperaban competir con las grandes empresas no puedan obtener suficiente contenido para entrenar sus sistemas.

En un comunicado, OpenAI dijo que ChatGPT fue capacitado en “contenido con licencia, contenido disponible públicamente y contenido creado por entrenadores humanos de IA”. Agregó: “Respetamos los derechos de los creadores y autores, y esperamos continuar trabajando con ellos para proteger sus intereses”.

Google dijo en un comunicado que estaba involucrado en conversaciones sobre cómo los editores podrían administrar su contenido en el futuro. “Creemos que todos se benefician de un ecosistema de contenido vibrante”, dijo la compañía. Microsoft no respondió a una solicitud de comentarios.

Las revueltas de datos estallaron el año pasado después de que ChatGPT se convirtiera en un fenómeno mundial. En noviembre, un grupo de programadores presentó una propuesta de demanda colectiva contra Microsoft y OpenAI, alegando que las empresas habían violado sus derechos de autor después de que su código se usara para capacitar a un asistente de programación impulsado por IA.

En enero, Getty Images, que proporciona fotos y videos de archivo, demandó a Stability AI , una empresa de inteligencia artificial que crea imágenes a partir de descripciones de texto, alegando que la empresa emergente había usado fotos con derechos de autor para entrenar sus sistemas.

Luego, en junio, Clarkson, un bufete de abogados en Los Ángeles, presentó una demanda colectiva de 151 páginas contra OpenAI y Microsoft, describiendo cómo OpenAI había recopilado datos de menores y dijo que el web scraping violaba la ley de derechos de autor y constituía un “robo”. El martes, la firma presentó una demanda similar contra Google.

“La rebelión de datos que estamos viendo en todo el país es la forma en que la sociedad rechaza esta idea de que Big Tech simplemente tiene derecho a tomar toda la información de cualquier fuente y hacerla propia”, dijo Ryan Clarkson, el fundador de Clarkson.

Cuatro adultos se sientan alrededor de tres lados de una mesa rectangular en una habitación con una pared de ladrillo marrón detrás de ellos.  Una gran ventana sobre un sofá de cuero está enmarcada por cactus altos en macetas.
Los abogados Ryan Clarkson, Tim Giordano, Tracey Cowan y Yana Hart de Clarkson Law Firm en Los Ángeles.Crédito…Maggie Shannon para The New York Times

Eric Goldman, profesor de la Facultad de Derecho de la Universidad de Santa Clara, dijo que los argumentos de la demanda eran amplios y que era poco probable que el tribunal los aceptara. Pero la ola de litigio apenas comienza, dijo, con una “segunda y tercera ola” que definirán el futuro de AI.

Las empresas más grandes también están rechazando los raspadores de IA. En abril, Reddit dijo que quería cobrar por el acceso a su interfaz de programación de aplicaciones, o API, el método a través del cual terceros pueden descargar y analizar la vasta base de datos de conversaciones de persona a persona de la red social.

Steve Huffman, director ejecutivo de Reddit, dijo en ese momento que su empresa no “necesitaba dar todo ese valor a algunas de las empresas más grandes del mundo de forma gratuita”.

Ese mismo mes, Stack Overflow, un sitio de preguntas y respuestas para programadores de computadoras, dijo que también pediría a las empresas de inteligencia artificial que pagaran por los datos. El sitio tiene casi 60 millones de preguntas y respuestas. Su movimiento fue informado anteriormente por Wired.

Las organizaciones de noticias también se resisten a los sistemas de IA. En un memorando interno sobre el uso de la IA generativa en junio, The Times dijo que las empresas de IA deberían “respetar nuestra propiedad intelectual”. Un portavoz del Times se negó a dar más detalles.

Para artistas y escritores individuales, luchar contra los sistemas de inteligencia artificial ha significado repensar dónde publican.

Nicholas Kole, de 35 años, ilustrador de Vancouver, Columbia Británica, estaba alarmado por cómo un sistema de IA podía replicar su estilo artístico distintivo y sospechaba que la tecnología había arañado su trabajo. Planea seguir publicando sus creaciones en Instagram, Twitter y otros sitios de redes sociales para atraer clientes, pero ha dejado de publicar en sitios como ArtStation que publican contenido generado por IA junto con contenido generado por humanos.

“Simplemente se siente como un robo sin sentido de parte mía y de otros artistas”, dijo Kole. “Pone un pozo de temor existencial en mi estómago”.

En Archive of Our Own, una base de datos de fan fiction con más de 11 millones de historias, los escritores han presionado cada vez más al sitio para que prohíba el raspado de datos y las historias generadas por IA.

En mayo, cuando algunas cuentas de Twitter compartieron ejemplos de ChatGPT que imitaban el estilo de fan fiction popular publicado en Archive of Our Own, decenas de escritores se levantaron en armas. Bloquearon sus historias y escribieron contenido subversivo para engañar a los rastreadores de IA. También presionaron a los líderes de Archive of Our Own para que dejaran de permitir contenido generado por IA.

Betsy Rosenblatt, quien brinda asesoramiento legal a Archive of Our Own y es profesora en la Facultad de Derecho de la Universidad de Tulsa, dijo que el sitio tenía una política de “máxima inclusión” y no quería estar en la posición de discernir qué historias se escribieron. con IA

Para la Sra. Loffstadt, la escritora de fan fiction, la lucha contra la IA se produjo cuando estaba escribiendo una historia sobre “Horizon Zero Dawn”, un videojuego en el que los humanos luchan contra robots impulsados ​​por IA en un mundo posapocalíptico. En el juego, dijo, algunos de los robots eran buenos y otros malos.

Pero en el mundo real, dijo, “gracias a la arrogancia y la avaricia corporativa, se les está distorsionando para que hagan cosas malas”.Fallout de IA

Sheera Frenkel es una reportera de tecnología galardonada con sede en San Francisco. En el 2021, ella y Cecilia Kang publicaron “An Ugly Truth: Inside Facebook’s Battle for Domination”. 

Stuart A. Thompson es un reportero en el departamento de tecnología que cubre los flujos de información en línea.