WaveNet

De Wikipedia, la enciclopedia libre

WaveNet es una red neuronal profunda para generar audio muestra a muestra. Está creada por investigadores de la empresa de inteligencia artificial de Londres DeepMind. La técnica, descrita en un artículo en septiembre de 2016, es capaz de generar sonidos realistas como voces humanas modelando formas de onda directamente mediante redes neuronales entrenadas directamente a partir de muestras del habla humana real.[1]​ Pruebas realizadas con inglés y mandarín, mostraron que el sistema superaba los sistemas de síntesis del habla (text-to-speech, TTS) de Google, aunque aún es menos convincente que el discurso humano real.[2]​ La capacidad de Wavenet para generar formas de onda permite modelar cualquier clase de audio, incluyendo música.[3]​ Una empresa emergente canadiense llamada Lyrebird-AI ofrece tecnología similar, basada en un modelo de aprendizaje profundo diferente.[4]

Historia[editar]

Generar el discurso a partir de texto es una tarea cada vez más común debido a la popularidad de software como Apple Siri, Cortana, Amazon Alexa o el Ayudante de Google.[2]

La mayoría de tales sistemas utilizan una variante de una técnica que usa fragmentos de sonidos concatenados para formar sonidos y palabras reconocibles.[5]​ El más común de estos se llama síntesis concatenativa del habla.[6]​ Consta de biblioteca grande de fragmentos del habla, grabados de un hablante, que se concatenan para producir sonidos y palabras completos. El resultado no suena natural, con una cadencia y tono extraños.[7]​ La dependencia respecto a la biblioteca que haya sido grabada también lo hace difícil de modificar o cambiar la voz.[8]

Otra técnica, conocida como TTS paramétrica, utiliza modelos matemáticos para recrear sonidos que se reúnen en palabras y frases.[9]​ La información necesaria para generar los sonidos debe estar almacenada en los parámetros del modelo. Las características del habla producida están controladas mediante las entradas al modelo, mientras el habla se genera típicamente con una técnica de voz sintética denominada vocoder. Esto puede también resultar en que el sonido resulte antinatural.

Diseño[editar]

WaveNet es un tipo de red neuronal conocido como red neuronal convolucional profunda. En WaveNet, la red toma las muestras de una señal como una entrada y sintetiza muestra a muestra la salida. Lo hace por muestreo de una distribución mediante una softmax (por tanto, categórica) de unas muestras codificadas utilizando una transformación μ-ley y cuantizada según 256 valores posibles.[10]

En el artículo de 2016, a la red se le suministraron formas de onda reales de habla inglesa y mandarín. Cuando estas entradas pasan a través de la red, ésta aprende un conjunto de reglas para describir cómo evoluciona la forma de onda en el tiempo. La red entrenada puede entonces crear nuevas formas de onda como habla a una frecuencia de muestreo de 16,000 muestras por segundo. Estos formas de onda incluyen ruidos de los labios y respiraciones realistas - pero no conforme a cualquier lengua.[11]

WaveNet tiene capacidad para modelar voces diferentes, con el acento y tono de la entrada correlacionada con la entrada. Por ejemplo, si está entrenada con alemán, produce habla en alemán.[12]​ Esta capacidad de clonar las voces ha levantado preocupaciones éticas sobre la capacidad de WaveNet para imitar las voces de personas vivas.

Esta capacidad también significa que si a la WaveNet se le dan otras entradas -como música- su producción será musical. En el momento de su publicación, DeepMind mostró que WaveNet podría producir formas de ondas sonoras como música clásica.[13]

Aplicaciones[editar]

Cuando se publicó, DeepMind dijo que WaveNet requirió demasiada potencia computacional para ser utilizada en aplicaciones de la vida real.[14]​ Pero en octubre de 2017, Google anunció un rendimiento 1.000 veces mejor junto con una mejor calidad de la voz. WaveNet era entonces utilizada para generar voces del Ayudante de Google para EE. UU.[15]​ En la conferencia anual de desarrolladores en mayo de 2018, se anunció que estaban disponibles nuevas voces del Ayudante de Google, hechas posible por WaveNet. WaveNet redujo mucho el número de grabaciones sonoras requeridas para crear el modelo de voz.[16]

Referencias[editar]

  1. Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew et al. (12 de septiembre de 2016). WaveNet: A Generative Model for Raw Audio 1609. Bibcode:2016arXiv160903499V. arXiv:1609.03499. 
  2. a b Kahn, Jeremy (9 de septiembre de 2016). «Google’s DeepMind Achieves Speech-Generation Breakthrough». Bloomberg.com. Consultado el 6 de julio de 2017. 
  3. Meyer, David (9 de septiembre de 2016). «Google's DeepMind Claims Massive Progress in Synthesized Speech». Fortune. Consultado el 6 de julio de 2017. 
  4. Gholipour, Bahar (2 de mayo de 2017). «New AI Tech Can Mimic Any Voice». Scientific American (en inglés). Consultado el 6 de julio de 2017. 
  5. Condliffe, Jamie (9 de septiembre de 2016). «When this computer talks, you may actually want to listen». MIT Technology Review (en inglés). Consultado el 6 de julio de 2017. 
  6. Hunt, A. J.; Black, A. W. (May 1996). «Unit selection in a concatenative speech synthesis system using a large speech database». 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings 1: 373-376. ISBN 0-7803-3192-3. doi:10.1109/ICASSP.1996.541110. 
  7. Coldewey, Devin (9 de septiembre de 2016). «Google’s WaveNet uses neural nets to generate eerily convincing speech and music». TechCrunch. Consultado el 6 de julio de 2017. 
  8. van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (8 de septiembre de 2016). «WaveNet: A Generative Model for Raw Audio». DeepMind. Archivado desde el original el 27 de mayo de 2017. Consultado el 6 de julio de 2017. 
  9. «Statistical parametric speech synthesis». Speech Communication 51 (11): 1039-1064. 2009. 
  10. WaveNet: A Generative Model for Raw Audio 1609. 12 de septiembre de 2016. Bibcode:2016arXiv160903499V. 
  11. «Are you sure you're talking to a human? Robots are starting to sounding eerily lifelike» (en inglés estadounidense). 9 de septiembre de 2016. Consultado el 6 de julio de 2017. 
  12. Coldewey, Devin (9 de septiembre de 2016). «Google’s WaveNet uses neural nets to generate eerily convincing speech and music». TechCrunch. Consultado el 6 de julio de 2017. 
  13. van den Oord, Aäron (8 de septiembre de 2016). «WaveNet: A Generative Model for Raw Audio». DeepMind. Archivado desde el original el 27 de mayo de 2017. Consultado el 6 de julio de 2017. 
  14. «Adobe Voco 'Photoshop-for-voice' causes concern» (en inglés británico). 7 de noviembre de 2016. Consultado el 6 de julio de 2017. 
  15. «WaveNet launches in the Google Assistant». Archivado desde el original el 2 de agosto de 2019. Consultado el 13 de noviembre de 2018. 
  16. «Try the all-new Google Assistant voices right now» (en inglés). 9 de mayo de 2018. Consultado el 10 de mayo de 2018.