OpenAI presenta tecnología de inteligencia artificial que recrea voces humanas

(CADE METZ) THE NEW YOR TIMES)

Primero, OpenAI ofrecía una herramienta que permitía a las personas crear imágenes digitales simplemente describiendo lo que querían ver. Luego, construyó una tecnología similar que generaba videos en movimiento completo como algo sacado de una película de Hollywood.

Ahora ha presentado una tecnología que puede recrear la voz de alguien.

La startup de inteligencia artificial de alto perfil dijo el viernes que un pequeño grupo de empresas estaba probando un nuevo sistema OpenAI, Voice Engine, que puede recrear la voz de una persona a partir de una grabación de 15 segundos. Si carga una grabación suya y un párrafo de texto, puede leer el texto usando una voz sintética que suena como la suya.

El texto no tiene que estar en su idioma nativo. Si habla inglés, por ejemplo, puede recrear su voz en español, francés, chino o muchos otros idiomas.

Utilizando la breve grabación anterior, Voice Engine de OpenAI creó una versión sintética de la voz del hombre. Aquí, la voz creada por la IA lee un texto completamente nuevo. (Livox, vía OpenAI)

OpenAI no comparte la tecnología más ampliamente porque todavía está tratando de comprender sus peligros potenciales. Al igual que los generadores de imágenes y vídeos, un generador de voz podría ayudar a difundir desinformación en las redes sociales. También podría permitir a los delincuentes hacerse pasar por personas en línea o durante llamadas telefónicas.

La compañía dijo que estaba particularmente preocupada de que este tipo de tecnología pudiera usarse para romper los autenticadores de voz que controlan el acceso a cuentas bancarias en línea y otras aplicaciones personales.

“Esto es algo delicado y es importante hacerlo bien”, dijo en una entrevista Jeff Harris, gerente de producto de OpenAI.

La compañía está explorando formas de poner marcas de agua en las voces sintéticas o agregar controles que impidan que las personas usen la tecnología con las voces de políticos u otras figuras prominentes.

El mes pasado, OpenAI adoptó un enfoque similar cuando presentó su generador de vídeo, Sora. Mostró la tecnología pero no la hizo pública.

OpenAI se encuentra entre las muchas empresas que han desarrollado una nueva generación de tecnología de IA que puede generar voces sintéticas de forma rápida y sencilla. Entre ellos se incluyen gigantes tecnológicos como Google y empresas emergentes como ElevenLabs, con sede en Nueva York. (El New York Times ha demandado a OpenAI y su socio, Microsoft, por acusaciones de infracción de derechos de autor que involucran sistemas de inteligencia artificial que generan texto).

Las empresas pueden utilizar estas tecnologías para generar audiolibros, dar voz a chatbots en línea o incluso crear un DJ de estación de radio automatizado. Desde el año pasado, OpenAI ha utilizado su tecnología para impulsar una versión de ChatGPT que habla . Y desde hace mucho tiempo ofrece a las empresas una variedad de voces que pueden usarse para aplicaciones similares. Todos ellos fueron construidos a partir de clips proporcionados por actores de doblaje.

Pero la compañía aún no ha ofrecido una herramienta pública que permita a individuos y empresas recrear voces a partir de un clip corto como lo hace Voice Engine. La capacidad de recrear cualquier voz de esta manera, afirmó Harris, es lo que hace que la tecnología sea peligrosa. La tecnología podría ser particularmente peligrosa en un año electoral, afirmó.

En enero, los residentes de New Hampshire recibieron mensajes de llamadas automáticas que los disuadieron de votar en las primarias estatales en una voz que probablemente fue generada artificialmente para sonar como la del presidente Biden . Posteriormente, la Comisión Federal de Comunicaciones prohibió este tipo de llamadas .

Harris dijo que OpenAI no tenía planes inmediatos de ganar dinero con la tecnología. Dijo que la herramienta podría ser particularmente útil para las personas que perdieron la voz por enfermedad o accidente.

Demostró cómo se había utilizado la tecnología para recrear la voz de una mujer después de que un cáncer cerebral la dañara. Ahora podía hablar, dijo, después de proporcionar una breve grabación de una presentación que había hecho cuando era estudiante de secundaria.

Crédito…Jason Henry para Los New York Times