13 julio, 2023

Empieza la IA basura a contaminar internet

ROBERT MCMILLAN. THE WALL STREET JOURNAL

Cuando escuchó por primera vez sobre las habilidades lingüísticas similares a las humanas del bot de inteligencia artificial ChatGPT, Jennifer Stevens se preguntó qué significaría para la revista de jubilación que edita.

Ahora pasa mucho tiempo filtrando artículos inútiles de Inteligencia Artificial sometidos a consideración.

Personas como Stevens, editora ejecutiva de International Living, figuran entre las que ven una creciente cantidad de contenido generado por IA que está tan por debajo de sus estándares que lo consideran un nuevo tipo de spam.

La tecnología está impulsando un auge de inversión. Puede responder a preguntas, producir imágenes e incluso generar ensayos basados en indicaciones sencillas. Algunas de estas técnicas prometen mejorar el análisis de datos y eliminar tareas de escritura mundanas, similar a la forma en que la calculadora cambió las matemáticas, pero también muestran el potencial de que el spam generado por IA aumente y potencialmente se propague a través de internet.

A principios de mayo, NewsGuard, una empresa de calificación de sitios de noticias, encontró 49 sitios web de noticias falsas que usaban IA para generar contenido. Para finales de junio, el número ascendía a 277, refirió Gordon Crovitz, cofundador de la empresa.

“Esto está creciendo exponencialmente”, declaró. Los sitios parecen haber sido creados para ganar dinero a través de la red de publicidad en línea de Google, apuntó Crovitz, ex columnista y editor en The Wall Street Journal.

Los investigadores también señalan al potencial de las tecnologías de IA para ser utilizadas para crear desinformación política y mensajes dirigidos utilizados por piratas informáticos. La empresa de ciberseguridad Zscaler dice que es demasiado pronto para decir si los delincuentes están utilizando la IA de forma generalizada, pero la empresa anticipa que se utilice para crear páginas web de phishing falsas de alta calidad, diseñadas para engañar a las víctimas para que descarguen software malicioso o revelar sus nombres de usuario y contraseñas en línea.

En YouTube, la fiebre del oro de ChatGPT está en pleno apogeo. Docenas de videos que ofrecen consejos sobre cómo ganar dinero con la tecnología OpenAI han sido visto cientos de miles de veces. Muchos sugieren esquemas cuestionables que involucran contenido basura. Algunos dicen a los espectadores que pueden ganar miles de dólares a la semana, instándolos a escribir libros electrónicos o vender publicidad en blogs llenos de contenido generado por IA que luego podría generar ingresos publicitarios al aparecer en las búsquedas de Google.

Google señaló en un comunicado que trabaja para proteger sus resultados de búsqueda del spam y la manipulación, y que usar contenido generado por IA para manipular las clasificaciones de los resultados de búsqueda es una violación de las políticas de spam de la compañía Alphabet.

ChatGPT es bueno para predecir las siguientes palabras en oraciones, pero ocasionalmente produce respuestas incorrectas, reconoció una vocera de OpenAI. “Mucha gente piensa en ello como un motor de búsqueda, pero no lo es”.

A principios de este año, la revista de ciencia ficción Clarkesworld temporalmente tuvo que dejar de aceptar en línea artículos sometidos a consideración porque estaba inundada por cientos de historias generadas por IA, dijo Neil Clarke, editor de Clarkesworld.

Indicó que la avalancha fue provocada por videos en línea que recomendaban usar ChatGPT para crear historias que considerara Clarkesworld.

Clarke, al igual que otros editores entrevistados por el Journal, dijo que su revista rechaza todas las historias escritas por AI y que son fáciles de identificar.

Tienen “ortografía y gramática perfectas, pero una historia completamente incoherente”, expuso. A menudo comienzan con un gran problema, como que el mundo se va a acabar, pero luego, mil palabras más tarde, el problema se resuelve de alguna manera, sin explicación, anotó.

“Todos están escritos de una manera bastante insulsa y genérica”, expresó Stevens, de International Living. “Son gramaticalmente correctos, pero simplemente se sienten muy predecibles y para nosotros son realmente inútiles”.

Si el internet se llena cada vez más de contenido generado por IA, podría convertirse en un problema para las propias empresas de IA. Esto se porque sus grandes modelos de lenguaje, el software que forma la base de los chatbots como ChatGPT, se entrenan con conjuntos de datos públicos.

A medida que estos conjuntos de datos se llenen cada vez más con contenido generado por IA, a los investigadores les preocupa que los modelos de lenguaje se vuelvan menos útiles, un fenómeno conocido como “colapso del modelo”.

Así como escanear e imprimir repetidamente la misma foto terminará por reducir su detalle, el colapso del modelo ocurre cuando los grandes modelos de aprendizaje se vuelven menos útiles a medida que digieren datos que han creado, anotó Ilia Shumailov, investigador del Grupo de Aprendizaje Teórico y Aplicado de Máquinas de la Universidad de Oxford, quien recientemente coescribió un artículo sobre este fenómeno.

Y no es sólo el contenido de spam lo que contribuirá al colapso del modelo también es el uso cada vez mayor de la IA para generar contenido en general, advirtió Shumailov.

El mes pasado, los investigadores de la École Polytechnique Fédérale de Lausana contrataron a escritores independientes en línea para resumir sinopsis publicados en el New England Journal of Medicine y descubrieron que más de un tercio de ellos usaba contenido generado por IA.

Shumailov cree que el colapso del modelo es inevitable, pero que existen varias posibles soluciones técnicas al problema. Por ejemplo, las empresas que tienen acceso a contenido generado por humanos aún podrán construir modelos de lenguaje grande de alta calidad.

“No es necesariamente algo malo”, manifestó. “Tal vez nos deshagamos de los captchas y se vuelva normal ser una computadora en internet”, expuso, refiriéndose a los acertijos con imágenes que imponen los sitios web para distinguir a las computadoras de los humanos.