(MICHAEL PEEL. THE FINANCIAL TIMES)
Al uso de datos generados por computadora para entrenar modelos de Inteligencia Artificial (IA) corre el riesgo de producir resultados sin sentido, de acuerdo con una nueva investigación que pone de relieve los inminentes retos para la tecnología emergente.
Las principales empresas de IA, como OpenAI y Microsoft, han probado el uso de datos “sintéticos” —información creada por sistemas de IA para luego entrenar también modelos de lenguaje de gran tamaño (LLM)— a medida que alcanzan los límites del material creado por humanos que puede mejorar esta tecnología de vanguardia.
En una investigación que se publicó en la revista científica Nature se sugiere que el uso de ese tipo de datos podría conducir a una rápida degradación de los modelos de IA. Una prueba en la que se utilizó texto sintético sobre arquitectura medieval se convirtió en un debate sobre liebres después de menos de 10 generaciones de resultados.
El trabajo subraya por qué los desarrolladores de IA se han apresurado a comprar grandes cantidades de datos generados por humanos para el entrenamiento, y plantea interrogantes sobre qué va a ocurrir una vez que se agoten esas fuentes finitas.
“Los datos sintéticos son asombrosos si logramos hacerlos funcionar”, dijo Ilia Shumailov, autor principal de la investigación. “Pero lo que estamos diciendo es que nuestros datos sintéticos actuales probablemente sean erróneos en algunos aspectos. Lo más sorprendente es lo rápido que ocurren estas cosas”.
El artículo de Nature explora la tendencia de los modelos de IA a colapsar con el tiempo, debido a la inevitable acumulación y amplificación de errores de sucesivas generaciones de entrenamiento.
“Los modelos pierden utilidad porque se ven abrumados por todos los errores y conceptos erróneos introducidos por las generaciones anteriores, y por los propios modelos”, explica Shumailov, quien realizó el trabajo en la Universidad de Oxford con colegas del Imperial College London de Cambridge, Edimburgo y Toronto.
En el caso de la liebre, el primer texto de entrada examinaba la construcción de torres de iglesias inglesas durante los siglos XIV y XV. En la primera generación de entrenamiento, el resultado ofreció información sobre las basílicas de Roma y Buenos Aires. La quinta generación empezó a divagar sobre la traducción lingüística, mientras que la novena generación enumeraba lagomorfos con colas de distintos colores.
Otro ejemplo es cómo un modelo de inteligencia artificial entrenado a partir de sus propios resultados destroza un conjunto de datos de imágenes de razas de perros, según un artículo complementario en Nature de Emily Wenger de la Universidad de Duke en Estados Unidos.
Hasta ahora, no había sido fácil mitigar el problema, mencionó Wenger. Una técnica que ya han implementado las principales empresas de tecnología es incorporar una “marca de agua”, que señala el contenido generado por IA para excluirlo de los conjuntos de datos de entrenamiento.
“Una consecuencia clave del colapso del modelo es que existe una ventaja de ser el primero en actuar en la construcción de modelos generativos de IA”, dijo Wenger.