Cómo los gigantes tecnológicos toman atajos para recopilar datos para la IA

(CADÉ METZ, CECILIA KANG, SHEERA FRENKEL, STUART THOMPSON Y NICO GRANT. THE NEW YORK TIMES)

El laboratorio de inteligencia artificial había agotado todas las reservas de textos confiables en inglés en Internet mientras desarrollaba su último sistema de inteligencia artificial. Necesitaba más datos para entrenar la próxima versión de su tecnología, muchos más.

Entonces los investigadores de OpenAI crearon una herramienta de reconocimiento de voz llamada Whisper. Podría transcribir el audio de vídeos de YouTube, generando un nuevo texto conversacional que haría que un sistema de inteligencia artificial fuera más inteligente.

Algunos empleados de OpenAI discutieron cómo tal medida podría ir en contra de las reglas de YouTube, dijeron tres personas con conocimiento de las conversaciones. YouTube, propiedad de Google, prohíbe el uso de sus vídeos para aplicaciones “independientes” de la plataforma de vídeos.

Al final, un equipo de OpenAI transcribió más de un millón de horas de vídeos de YouTube, dijeron las personas. El equipo incluía a Greg Brockman, presidente de OpenAI, quien personalmente ayudó a recopilar los videos, dijeron dos de las personas. Luego, los textos se introdujeron en un sistema llamado GPT-4 , que fue ampliamente considerado como uno de los modelos de inteligencia artificial más poderosos del mundo y fue la base de la última versión del chatbot ChatGPT.

La carrera por liderar la IA se ha convertido en una búsqueda desesperada de los datos digitales necesarios para hacer avanzar la tecnología. Para obtener esos datos, empresas de tecnología como OpenAI, Google y Meta han tomado atajos, ignorado las políticas corporativas y debatido sobre cómo doblar la ley, según un análisis del New York Times.

En Meta, propietaria de Facebook e Instagram, directivos, abogados e ingenieros discutieron el año pasado comprar la editorial Simon & Schuster para conseguir obras largas, según grabaciones de reuniones internas obtenidas por The Times. También acordaron recopilar datos protegidos por derechos de autor de Internet, incluso si eso significaba enfrentar demandas. Negociar licencias con editores, artistas, músicos y la industria de las noticias llevaría demasiado tiempo, dijeron.

Al igual que OpenAI, Google transcribió vídeos de YouTube para recopilar texto para sus modelos de IA, dijeron cinco personas con conocimiento de las prácticas de la empresa. Eso potencialmente violó los derechos de autor de los videos, que pertenecen a sus creadores.

El año pasado, Google también amplió sus condiciones de servicio. Una motivación para el cambio, según miembros del equipo de privacidad de la compañía y un mensaje interno visto por The Times, fue permitir que Google pudiera acceder a Google Docs, reseñas de restaurantes en Google Maps y otro material en línea disponibles públicamente para obtener más información. Productos de IA.

Las acciones de las empresas ilustran cómo la información en línea (noticias, obras de ficción, publicaciones en foros, artículos de Wikipedia, programas de computadora, fotografías, podcasts y fragmentos de películas) se ha convertido cada vez más en el elemento vital de la floreciente industria de la inteligencia artificial. La creación de sistemas innovadores depende de tener suficientes datos para enseñar a las tecnologías a producir instantáneamente textos, imágenes, sonidos y videos que se parezcan a lo que crea un ser humano.

El volumen de datos es crucial. Los principales sistemas de chatbot han aprendido de conjuntos de textos digitales que abarcan hasta tres billones de palabras, o aproximadamente el doble de la cantidad de palabras almacenadas en la Biblioteca Bodleian de la Universidad de Oxford, que ha recopilado manuscritos desde 1602. Los datos más preciados, dijeron los investigadores de IA, son altos. -información de calidad, como libros y artículos publicados, que han sido cuidadosamente escritos y editados por profesionales.

Durante años, Internet (con sitios como Wikipedia y Reddit ) fue una fuente aparentemente interminable de datos. Pero a medida que la IA avanzó, las empresas de tecnología buscaron más repositorios. Google y Meta, que tienen miles de millones de usuarios que generan consultas de búsqueda y publicaciones en redes sociales todos los días, se vieron en gran medida limitados por las leyes de privacidad y sus propias políticas a la hora de aprovechar gran parte de ese contenido para la IA.

Su situación es urgente. Las empresas tecnológicas podrían acceder a datos de alta calidad en Internet a partir de 2026, según Epoch, un instituto de investigación. Las empresas utilizan los datos más rápido de lo que se producen.

“La única forma práctica de que existan estas herramientas es si se pueden entrenar con cantidades masivas de datos sin tener que licenciar esos datos”, dijo Sy Damle, un abogado que representa a Andreessen Horowitz, una firma de capital de riesgo de Silicon Valley, sobre los modelos de IA. el año pasado en una discusión pública sobre la ley de derechos de autor. “Los datos necesarios son tan enormes que ni siquiera las licencias colectivas pueden funcionar”.

Las empresas tecnológicas están tan hambrientas de nuevos datos que algunas están desarrollando información “sintética”. No se trata de datos orgánicos creados por humanos, sino de texto, imágenes y códigos que producen los modelos de IA; en otras palabras, los sistemas aprenden de lo que ellos mismos generan.

OpenAI dijo que cada uno de sus modelos de IA “tiene un conjunto de datos único que seleccionamos para ayudarlos a comprender el mundo y seguir siendo globalmente competitivos en la investigación”. Google dijo que sus modelos de inteligencia artificial “están entrenados en algunos contenidos de YouTube”, lo que estaba permitido en virtud de acuerdos con los creadores de YouTube, y que la compañía no utilizó datos de aplicaciones de oficina fuera de un programa experimental. Meta dijo que había “realizado inversiones agresivas” para integrar la IA en sus servicios y que tenía miles de millones de imágenes y videos compartidos públicamente de Instagram y Facebook para entrenar sus modelos.

Para los creadores, el uso cada vez mayor de sus obras por parte de empresas de inteligencia artificial ha provocado demandas por derechos de autor y licencias. El Times demandó a OpenAI y Microsoft el año pasado por utilizar artículos de noticias protegidos por derechos de autor sin permiso para entrenar chatbots de IA. OpenAI y Microsoft han dicho que el uso de los artículos era un “uso justo” o estaba permitido por la ley de derechos de autor, porque transformaron las obras para un propósito diferente.

Más de 10.000 grupos comerciales, autores, empresas y otros enviaron comentarios el año pasado sobre el uso de obras creativas mediante modelos de IA a la Oficina de Derechos de Autor , una agencia federal que está preparando una guía sobre cómo se aplica la ley de derechos de autor en la era de la IA.

Justine Bateman, cineasta, ex actriz y autora de dos libros, dijo a la Oficina de Derechos de Autor que los modelos de IA estaban tomando contenido, incluidos sus escritos y películas, sin permiso ni pago.

“Este es el robo más grande en los Estados Unidos, punto”, dijo en una entrevista.

‘La escala es todo lo que necesitas’

Jared Kaplan, físico teórico de la Universidad Johns Hopkins, escribió un artículo clave sobre IA y datos. También es el director científico de la startup de inteligencia artificial Anthropic.Crédito…Chris J. Ratcliffe/Bloomberg

En enero de 2020, Jared Kaplan, físico teórico de la Universidad Johns Hopkins, publicó un artículo innovador sobre IA que avivó el apetito por los datos en línea.

Su conclusión fue inequívoca: cuantos más datos hubiera para entrenar un modelo de lenguaje grande (la tecnología que impulsa los chatbots en línea), mejor funcionaría. Así como un estudiante aprende más leyendo más libros, los modelos de lenguaje grandes pueden identificar mejor patrones en el texto y ser más precisos con más información.

“Todo el mundo quedó muy sorprendido de que estas tendencias (estas leyes de escala, como las llamamos) fueran básicamente tan precisas como lo que se ve en la astronomía o la física”, dijo el Dr. Kaplan, quien publicó el artículo con nueve investigadores de OpenAI. (Ahora trabaja en la startup de IA Anthropic).

“La escala es todo lo que necesitas” pronto se convirtió en el lema de la IA

Los investigadores han utilizado durante mucho tiempo grandes bases de datos públicas de información digital para desarrollar IA, incluidas Wikipedia y Common Crawl, una base de datos de más de 250 mil millones de páginas web recopiladas desde 2007. Los investigadores a menudo “limpiaron” los datos eliminando discursos de odio y otros textos no deseados antes de usarlos. para entrenar modelos de IA.

En 2020, los conjuntos de datos eran pequeños para los estándares actuales. Una base de datos que contenía 30.000 fotografías del sitio web de fotografía Flickr se consideró un recurso vital en ese momento.

Después del artículo del Dr. Kaplan, esa cantidad de datos ya no era suficiente. Todo se convirtió en “simplemente hacer las cosas realmente grandes”, dijo Brandon Duderstadt, director ejecutivo de Nomic, una empresa de inteligencia artificial en Nueva York.

Antes de 2020, la mayoría Modelos de IA utilizó relativamente pocos datos de entrenamiento.

El artículo de Kaplan, publicado en 2020, condujo a una nueva era definida por GPT-3, un modelo de lenguaje grande, donde los investigadores comenzaron a incluir más datos en sus modelos……muchos, muchos más datos.

Cuando OpenAI presentó GPT-3 en noviembre de 2020, se entrenó con la mayor cantidad de datos hasta la fecha: alrededor de 300 mil millones de “tokens”, que son esencialmente palabras o fragmentos de palabras. Después de aprender de esos datos, el sistema generó texto con una precisión asombrosa, escribiendo publicaciones de blogs, poesía y sus propios programas de computadora.

En 2022, DeepMind, un laboratorio de inteligencia artificial propiedad de Google, fue más allá. Probó 400 modelos de IA y varió la cantidad de datos de entrenamiento y otros factores. Los modelos de mejor rendimiento utilizaron incluso más datos de los que el Dr. Kaplan había predicho en su artículo. Un modelo, Chinchilla, fue entrenado con 1,4 billones de tokens.

Pronto fue superado. El año pasado, investigadores de China lanzaron un modelo de inteligencia artificial, Skywork , que se entrenó con 3,2 billones de tokens de textos en inglés y chino. Google también presentó un sistema de inteligencia artificial, PaLM 2 , que superó los 3,6 billones de tokens .

En mayo, Sam Altman , director ejecutivo de OpenAI, reconoció que las empresas de IA consumirían todos los datos viables en Internet.

“Eso se acabará”, dijo en un discurso en una conferencia tecnológica.

Altman había visto el fenómeno de cerca. En OpenAI, los investigadores habían recopilado datos durante años, los limpiaron y los introdujeron en una gran cantidad de texto para entrenar los modelos lingüísticos de la empresa. Habían extraído el repositorio de códigos informáticos GitHub, aspirado bases de datos de movimientos de ajedrez y extraído datos que describían exámenes de secundaria y tareas del sitio web Quizlet.

A finales de 2021, esos suministros se agotaron, dijeron ocho personas con conocimiento de la empresa, que no estaban autorizadas a hablar públicamente.

OpenAI estaba desesperado por obtener más datos para desarrollar su modelo de IA de próxima generación, GPT-4. Entonces los empleados discutieron sobre la transcripción de podcasts, audiolibros y videos de YouTube, dijeron las personas. Hablaron de crear datos desde cero con sistemas de inteligencia artificial. También consideraron comprar empresas emergentes que hubieran recopilado grandes cantidades de datos digitales.

OpenAI finalmente creó Whisper, la herramienta de reconocimiento de voz, para transcribir videos y podcasts de YouTube, dijeron seis personas. Pero YouTube prohíbe a las personas no sólo usar sus videos para aplicaciones “independientes”, sino también acceder a sus videos por “cualquier medio automatizado (como robots, botnets o scrapers)”.

Los empleados de OpenAI sabían que estaban entrando en un área legal gris, dijeron las personas, pero creían que entrenar a la IA con los videos era un uso legítimo. Brockman, presidente de OpenAI, figuraba en un artículo de investigación como creador de Whisper. Él personalmente ayudó a recopilar videos de YouTube y los incorporó a la tecnología, dijeron dos personas.

Brockman remitió las solicitudes de comentarios a OpenAI, que dijo que utiliza “numerosas fuentes” de datos.

El año pasado, OpenAI lanzó GPT-4, que se basó en más de un millón de horas de videos de YouTube que Whisper había transcrito. Brockman dirigió el equipo que desarrolló GPT-4.

Algunos empleados de Google sabían que OpenAI había recopilado vídeos de YouTube para obtener datos, dijeron dos personas con conocimiento de las empresas. Pero no detuvieron a OpenAI porque Google también había utilizado transcripciones de vídeos de YouTube para entrenar sus modelos de IA, dijeron las personas. Es posible que esa práctica haya violado los derechos de autor de los creadores de YouTube. Entonces, si Google hiciera un escándalo por OpenAI, podría haber una protesta pública contra sus propios métodos, dijeron las personas.

Matt Bryant, portavoz de Google, dijo que la compañía no tenía conocimiento de las prácticas de OpenAI y prohibía la “exploración o descarga no autorizada de contenido de YouTube”. Google toma medidas cuando tiene una base legal o técnica clara para hacerlo, dijo.

Las reglas de Google le permitieron aprovechar los datos de los usuarios de YouTube para desarrollar nuevas funciones para la plataforma de vídeo. Pero no estaba claro si Google podría utilizar los datos de YouTube para crear un servicio comercial más allá de la plataforma de vídeo, como un chatbot.

Geoffrey Lottenberg, abogado de propiedad intelectual del bufete de abogados Berger Singerman, dijo que el lenguaje de Google sobre lo que podía y no podía hacer con las transcripciones de vídeos de YouTube era vago.

“La cuestión de si los datos podrían utilizarse para un nuevo servicio comercial está abierta a interpretación y podría ser objeto de litigio”, dijo.

A finales de 2022, después de que OpenAI lanzara ChatGPT y desencadenara una carrera en toda la industria para ponerse al día , los investigadores e ingenieros de Google discutieron cómo aprovechar otros datos de los usuarios. Miles de millones de palabras se encuentran en los documentos de Google y otras aplicaciones gratuitas de Google. Pero las restricciones de privacidad de la compañía limitaron cómo podían usar los datos, dijeron tres personas con conocimiento de las prácticas de Google.

Después de que OpenAI lanzó ChatGPT, los investigadores e ingenieros de Google discutieron cómo aprovechar los datos de otros usuarios para desarrollar productos de inteligencia artificial, dijeron personas con conocimiento de las discusiones.Crédito…Jason Henry para Los New York Times

En junio, el departamento legal de Google pidió al equipo de privacidad que redactara un texto para ampliar el uso que la compañía podría dar a los datos de los consumidores, según dos miembros del equipo de privacidad y un mensaje interno visto por The Times.

A los empleados se les dijo que Google quería utilizar el contenido disponible públicamente en Google Docs, Google Sheets y aplicaciones relacionadas para una variedad de productos de inteligencia artificial. Los empleados dijeron que no sabían si la empresa había entrenado previamente a la IA con dichos datos.

En ese momento, la política de privacidad de Google decía que la compañía podía utilizar información disponible públicamente sólo para “ayudar a entrenar los modelos lingüísticos de Google y crear funciones como Google Translate”.

El equipo de privacidad redactó nuevos términos para que Google pudiera aprovechar los datos para sus “modelos de IA y crear productos y funciones como Google Translate, Bard y capacidades de IA en la nube”, que era una colección más amplia de tecnologías de IA.

“¿Cuál es el objetivo final aquí?” preguntó un miembro del equipo de privacidad en un mensaje interno. “¿Hasta qué punto vamos?”

Al equipo se le dijo específicamente que publicara los nuevos términos el fin de semana del 4 de julio, cuando la gente normalmente se concentraba en el feriado, dijeron los empleados. La política revisada debutó el 1 de julio, al comienzo del fin de semana largo.

Cómo Google puede utilizar sus datos

Estos son los cambios que Google realizó en su política de privacidad el año pasado para sus aplicaciones gratuitas para consumidores.

Google utiliza información para mejorar nuestros servicios y desarrollar nuevos productos, funciones y tecnologías que beneficien a nuestros usuarios y al público. Por ejemplo, utilizamos información disponible públicamente para ayudar a entrenar los modelos de inteligencia artificial lingüística de Google y crear productos y funciones como Google Translate , Bard y capacidades de inteligencia artificial en la nube .

En agosto, dos miembros del equipo de privacidad dijeron que presionaron a los gerentes sobre si Google podría comenzar a usar datos de las versiones gratuitas para consumidores de Google Docs, Google Sheets y Google Slides. No recibieron respuestas claras, dijeron.

Bryant dijo que los cambios en la política de privacidad se habían realizado para mayor claridad y que Google no utilizó información de Google Docs o aplicaciones relacionadas para entrenar modelos de lenguaje “sin el permiso explícito” de los usuarios, refiriéndose a un programa voluntario que permite a los usuarios realizar pruebas experimentales. características.

“No comenzamos a entrenar sobre tipos adicionales de datos basados ​​en este cambio de lenguaje”, dijo.

Mark Zuckerberg, director ejecutivo de Meta, había invertido en IA durante años, pero de repente se quedó atrás cuando OpenAI lanzó ChatGPT en 2022. Inmediatamente presionó para igualar y superar a ChatGPT , llamando a ejecutivos e ingenieros a todas horas de la noche para impulsarlos a desarrollar un chatbot rival, dijeron tres empleados actuales y anteriores, que no estaban autorizados a discutir conversaciones confidenciales.

Pero a principios del año pasado, Meta había topado con el mismo obstáculo que sus rivales: datos insuficientes.

Ahmad Al-Dahle, vicepresidente de IA generativa de Meta, dijo a los ejecutivos que su equipo había utilizado casi todos los libros, ensayos, poemas y artículos de noticias disponibles en inglés en Internet para desarrollar un modelo, según grabaciones de reuniones internas, que fueron compartido por un empleado.

Meta no podría igualar ChatGPT a menos que obtuviera más datos, dijo Al-Dahle a sus colegas. En marzo y abril de 2023, algunos de los líderes de desarrollo empresarial, ingenieros y abogados de la empresa se reunieron casi a diario para abordar el problema.

Algunos debatieron pagar 10 dólares por libro por los derechos de licencia completos de los nuevos títulos. Hablaron de comprar Simon & Schuster, que publica autores como Stephen King, según las grabaciones.

También hablaron de cómo habían resumido libros, ensayos y otros trabajos de Internet sin permiso y discutieron cómo chupar más, incluso si eso significaba enfrentar demandas. Un abogado advirtió sobre preocupaciones “éticas” en torno a la apropiación de propiedad intelectual de los artistas, pero fue recibido en silencio, según las grabaciones.

Zuckerberg exigió una solución, dijeron los empleados.

“La capacidad que Mark busca en el producto es algo que actualmente no podemos ofrecer”, dijo un ingeniero.

Mark Zuckerberg, director ejecutivo de Meta, presionó a su empresa para que se pusiera al día en IA generativa después de que OpenAI lanzara ChatGPT.Crédito…Jason Andrew para The New York Times

Si bien Meta opera redes sociales gigantes, no tenía una gran cantidad de publicaciones de usuarios a su disposición, dijeron dos empleados. Muchos usuarios de Facebook habían eliminado sus publicaciones anteriores y la plataforma no era el lugar donde la gente escribía contenido tipo ensayo, dijeron.

Meta también se vio limitada por los cambios de privacidad que introdujo después de un escándalo de 2018 por compartir los datos de sus usuarios con Cambridge Analytica, una empresa de elaboración de perfiles de votantes.

Zuckerberg dijo en una reciente llamada a inversionistas que los miles de millones de videos y fotos compartidos públicamente en Facebook e Instagram son “mayores que el conjunto de datos Common Crawl”.

Durante sus conversaciones grabadas, los ejecutivos de Meta hablaron sobre cómo habían contratado contratistas en África para agregar resúmenes de ficción y no ficción. Los resúmenes incluían contenido protegido por derechos de autor “porque no tenemos forma de no recopilarlo”, dijo un gerente en una reunión.

Los ejecutivos de Meta dijeron que OpenAI parecía haber utilizado material protegido por derechos de autor sin permiso. A Meta le llevaría demasiado tiempo negociar licencias con editores, artistas, músicos y la industria de las noticias, dijeron, según las grabaciones.

“Lo único que nos impide ser tan buenos como ChatGPT es literalmente el volumen de datos”, dijo en una reunión Nick Grudin, vicepresidente de asociación y contenido global.

OpenAI parecía estar tomando material protegido por derechos de autor y Meta podría seguir este “precedente de mercado”, añadió.

Los ejecutivos de Meta acordaron apoyarse en una decisión judicial de 2015 que involucraba al Authors Guild versus Google , según las grabaciones. En ese caso, a Google se le permitió escanear, digitalizar y catalogar libros en una base de datos en línea después de argumentar que había reproducido sólo fragmentos de las obras en línea y había transformado los originales, lo que lo convertía en uso legítimo.

El uso de datos para entrenar sistemas de inteligencia artificial, dijeron los abogados de Meta en sus reuniones, también debería ser un uso legítimo.

Según las grabaciones, al menos dos empleados expresaron su preocupación por el uso de la propiedad intelectual y por no pagar a los autores y otros artistas de manera justa o en absoluto. Un empleado relató una discusión separada sobre datos protegidos por derechos de autor con altos ejecutivos, incluido Chris Cox, director de productos de Meta, y dijo que nadie en esa reunión consideró la ética del uso de los trabajos creativos de las personas.

Altman de OpenAI tenía un plan para hacer frente a la inminente escasez de datos.

Empresas como la suya, dijo en la conferencia de mayo, eventualmente entrenarían su IA con texto generado por IA, también conocido como datos sintéticos.

Dado que un modelo de IA puede producir texto similar al humano, sostienen Altman y otros, los sistemas pueden crear datos adicionales para desarrollar mejores versiones de sí mismos. Esto ayudaría a los desarrolladores a crear tecnología cada vez más potente y reducir su dependencia de los datos protegidos por derechos de autor.

“Mientras se pueda superar el horizonte de eventos de datos sintéticos, donde el modelo es lo suficientemente inteligente como para generar buenos datos sintéticos, todo estará bien”, dijo Altman.

Los investigadores de IA han explorado datos sintéticos durante años. Pero construir un sistema de IA que pueda entrenarse a sí mismo es más fácil de decir que de hacer. Los modelos de IA que aprenden de sus propios resultados pueden quedar atrapados en un bucle en el que refuerzan sus propias peculiaridades, errores y limitaciones.

“Los datos que estos sistemas necesitan son como un camino a través de la jungla”, dijo Jeff Clune, ex investigador de OpenAI que ahora enseña ciencias de la computación en la Universidad de Columbia Británica. “Si sólo se entrenan con datos sintéticos, pueden perderse en la jungla”.

Para combatir esto, OpenAI y otros están investigando cómo dos modelos de IA diferentes podrían trabajar juntos para generar datos sintéticos que sean más útiles y confiables. Un sistema produce los datos, mientras que un segundo juzga la información para separar lo bueno de lo malo. Los investigadores están divididos sobre si este método funcionará.

No obstante, los ejecutivos de IA están avanzando a toda velocidad.

“Todo debería estar bien”, dijo Altman en la conferencia.IA y datos

Una versión anterior de este artículo indicaba erróneamente el editor de los libros de JK Rowling. Sus obras han sido publicadas por Scholastic, Little, Brown y otros. No fueron publicados por Simon & Schuster.

Cade Metz escribe sobre inteligencia artificial, coches sin conductor, robótica, realidad virtual y otras áreas tecnológicas emergentes. 

Cecilia Kang informa sobre tecnología y política regulatoria y reside en Washington DC. Ha escrito sobre tecnología durante más de dos décadas. 

Sheera Frenkel es una reportera que vive en el Área de la Bahía de San Francisco y cubre las formas en que la tecnología afecta la vida cotidiana con un enfoque en las empresas de redes sociales, incluidas Facebook, Instagram, Twitter, TikTok, YouTube, Telegram y WhatsApp. 

Stuart A. Thompson escribe sobre cómo se difunde información falsa y engañosa en línea y cómo afecta a personas de todo el mundo. Se centra en la desinformación, la desinformación y otros contenidos engañosos.

Nico Grant es un reportero de tecnología que cubre Google desde San Francisco. Anteriormente, pasó cinco años en Bloomberg News, donde se centró en Google y la computación en la nube.