Generar el habla con diferentes ritmos y pausas hace que suene más parecida a la humana, según una evaluación de una inteligencia artificial entrenada en el habla tomada de YouTube y podcasts.
La mayoría de los sistemas de conversión de texto en voz inteligencia artificial se entrenan con conjuntos de datos de habla actuada, lo que puede hacer que el resultado suene rebuscado y unidimensional. El habla más natural suele mostrar una amplia gama de ritmos y patrones para transmitir diferentes significados y emociones.
Inteligencia artificial que imita el habla
Ahora, Alexander Rudnicky, de la Universidad Carnegie Mellon de Pittsburgh (Pensilvania), y sus colegas han utilizado casi 900 horas de conversaciones de YouTube y podcasts para entrenar a una IA de conversión de texto en habla.
“Esto permite sintetizar el habla de un modo que refleja mejor cómo hablan los humanos”, dice Rudnicky.
Un usuario selecciona la voz que utilizará la IA proporcionándole una muestra del habla de alguien para que la imite, como la grabación que aparece a continuación.
Muestra de voz:
El modelo de inteligencia artificial trocea los nuevos datos de voz en fragmentos discretos y, a continuación, utiliza una red neuronal para producir nuevas vocalizaciones prediciendo qué fragmento de voz -o de silencio- es más probable que sea el siguiente en una secuencia. Es similar al funcionamiento de los generadores de texto de IA como ChatGPT.
Esto permite que el modelo reciba instrucciones escritas, como “sí, así que todas las conferencias están abiertas a cualquiera que sea capaz de pagar el viaje y el billete”, y genere el discurso utilizando los patrones característicos de la voz elegida, como en el ejemplo siguiente.
Voz generada por la IA:
Las personas reclutadas en la plataforma de crowdsourcing Amazon Mechanical Turk juzgaron la naturalidad del discurso artificial en una escala de cinco puntos que iba de 1 (malo) a 5 (excelente), dándole una puntuación media de 3,89. Esto es mejor que otras voces creadas por IA, la más cercana de las cuales obtuvo un 3,84. El habla humana real obtuvo una puntuación de 4,01.
Producir la vocalización poco a poco hace que el modelo sea más rápido que otros que generan secuencias enteras de una sola vez, lo que podría hacerlo más adecuado para aplicaciones como chatbots de audio o servicios de streaming.
Aunque el modelo puede producir un habla con un sonido bastante natural, sigue siendo sólo una prueba de concepto, dice Rudnicky, y podría mejorarse mucho entrenándolo con más horas de datos.
“Está claro que no han llegado al punto en que suene totalmente humano, pero van en la dirección correcta”, afirma David Beavan del Instituto Alan Turing de Londres.
La capacidad de reflejar los patrones del habla humana y cómo cambian en distintas circunstancias podría ser útil, dice Beavan. Algunas situaciones exigen determinadas formas de hablar, como cuando te acabas de despertar por la mañana y probablemente apreciarías una voz de IA más sensible, o cuando se trata de una emergencia y podrías querer una voz que transmita una sensación de urgencia, dice.
Con información Alex Wilkins