(CNN) – OpenAI presentó una nueva herramienta de inteligencia artificial que puede imitar voces humanas con una precisión sorprendente. El generador de voz de IA tiene una variedad de usos potenciales, incluso para servicios de accesibilidad, pero también podría generar preocupaciones sobre desinformación y otras formas de abuso.
OpenAI compartió muestras el viernes de las primeras pruebas de la herramienta, llamada Voice Engine, que utiliza una muestra de 15 segundos de alguien hablando para generar una réplica convincente de su voz. Luego, los usuarios pueden proporcionar un párrafo de texto y la herramienta lo leerá con la voz generada por IA.
Ya hay varios servicios de voces generadas por inteligencia artificial disponibles para el público pero, como sucedió con el innovador chatbot ChatGPT, OpenAI demostró ser particularmente hábil para lograr una adopción generalizada de herramientas de IA.
Una herramienta de conversión de texto a voz basada en inteligencia artificial podría ayudar con la traducción, podría ayudar a los niños a leer e incluso ayudar a las personas que han perdido la capacidad de hablar, dice la compañía. Pero a algunos escépticos les preocupa que también pueda alimentar la creación de desinformación o facilitar la difusión de estafas.
OpenAI dice que Voice Engine es utilizado actualmente solo por un “pequeño grupo de socios confiables”, incluidas empresas de tecnología de educación y salud, y utilizará sus pruebas para determinar si se permite y cómo sería un uso más generalizado. Esos evaluadores acordaron no recrear las voces de las personas sin su consentimiento explícito e identificar claramente a los oyentes que lo que están escuchando es generado por IA, según la compañía.
“Reconocemos que generar un discurso que se parezca a las voces de las personas tiene serios riesgos, que son especialmente importantes en un año electoral”, afirmó OpenAI en una publicación de blog. La compañía reconoció la necesidad de realizar cambios importantes a medida que el audio generado por IA esté más disponible, aunque no planea lanzar Voice Engine al público de inmediato. Por ejemplo, la empresa sugirió eliminar gradualmente la autenticación basada en voz para las cuentas bancarias.
“Cualquier implementación amplia de tecnología de voz sintética debe ir acompañada de experiencias de autenticación de voz que verifiquen que el hablante original está agregando conscientemente su voz al servicio y una lista de voces prohibidas que detecte y evite la creación de voces que sean demasiado similares a voces prominentes”, dijo OpenAI.
Voice Engine puede utilizar una muestra de voz en un idioma para crear una réplica de voz que pueda hablar en varios otros idiomas.
La publicación de su blog incluye un ejemplo de un clip de audio de un humano leyendo un pasaje sobre la amistad, junto con audio generado por IA que suena como si la misma persona leyera el mismo pasaje en español, mandarín, alemán, francés y japonés. En cada una de las muestras generadas por IA se mantiene el tono y el acento del hablante original.
La vista previa de Voice Engine se produce mientras los usuarios esperan el lanzamiento público de Sora, la herramienta de video generada con inteligencia artificial que OpenAI presentó el mes pasado. Sora puede crear videos de 60 segundos de apariencia realista a partir de instrucciones de texto, con la capacidad de presentar escenas con múltiples personajes, movimientos movimiento y detalles del fondo elaborados. ChatGPT de OpenAI también puede generar imágenes a partir de un mensaje de texto.
Por otra parte, OpenAI también anunció este lunes que pondrá ChatGPT a disposición de cualquier persona sin la necesidad de registrarse para utilizar el servicio.
La compañía señaló que puede usar cualquier texto cargado en ChatGPT para mejorar sus modelos, pero dijo que esto se puede desactivar a través de la configuración incluso sin una cuenta. Sin embargo, sin una cuenta, los usuarios no podrán guardar ni revisar el historial de chat ni acceder a diversas funciones, incluidas conversaciones de voz e instrucciones personalizadas.
Samantha Kelly de CNN contribuyó a este informe.