Inma Hernáez Rioja, Eva Navas Cordón, Jon Sanchez de la Fuente, Ibon Saratxaga Couceiro
Tú también eres tu voz
Grupo Aholab Signal Processing Laboratory
- Cathedra
Fecha de primera publicación: 06/02/2020
La voz es el instrumento del habla, nuestra herramienta de comunicación más potente. En nuestro cerebro se forman los mensajes dando forma a deseos, intenciones, frustraciones y toda una infinita gama de sentimientos. Los mensajes se transmiten fielmente a los tendones, músculos y órganos que conforman lo que llamamos el apartado fonador, para generar –casi sin esfuerzo en un ser humano sano- una compleja señal acústica portadora de toda esa información. No solo usamos la voz para dar órdenes. De la voz del amigo podemos intuir su estado de ánimo, de la de nuestra hija al levantarse sabemos que llegó tarde anoche a casa, del saludo de la madre notamos si otra vez tiene catarro. Podemos identificar a nuestros seres queridos entre un mar de voces, y reconocemos sin necesidad de mirar y con facilidad al camarero, al primo que hace tiempo que no vemos, al profesor que tuvimos en la universidad. La voz es tan nuestra como lo es nuestra cara, y dice de nosotros tanto como una huella dactilar… ¡o quizá más!
No existen muchos datos al respecto, pero según el Instituto Nacional de Estadística (2008), en España hay más de 400.000 personas que presentan dificultades para hablar (más precisamente ‘para producir mensajes hablados’). La pérdida del habla y/o de la voz puede tener muy diversos orígenes. A veces se produce de forma repentina (debido a una operación quirúrgica, asociada a un ictus u otro tipo de accidente) y otras veces la pérdida es progresiva, en general debido a enfermedades con degeneración de aparato motor (como en el ELA o en la enfermedad de Parkinson). En todos los casos se genera una situación de discapacidad comunicativa con diferentes niveles de afección y consecuencias: en algunos casos, la persona no puede hablar nada o casi nada, pero quizás puede escribir en un teclado o manejar un ordenador (por ejemplo, los enfermos de ELA en fases avanzadas); en otros casos puede hablar y, aunque su habla ya no es tan inteligible, todavía puede comunicarse con sus familiares (como en la ELA inicial); en ocasiones, incluso se puede aprender a hablar con otra voz (como es el caso de las personas laringectomizadas, que aprenden habilidosamente a sustituir las cuerdas vocales extirpadas haciendo vibrar… ¡un segmento del esófago!).
Las nuevas tecnologías tienen (deberían tener) mucho que aportar en estas situaciones de discapacidad comunicativa. En particular, la síntesis del habla, que engloba un conjunto de técnicas que permiten generar voz artificial a partir de su representación textual. Mucha gente se sorprendería de saber que, hoy en día, se pueden conseguir voces artificiales prácticamente indistinguibles de las naturales, usando para lograrlo Redes Neuronales Profundas. Estas redes que, simplificando mucho, podemos decir que tratan de simular el funcionamiento de las conexiones neuronales del cerebro humano, requieren de gran cantidad de datos para aprender: por ejemplo, para lograr la calidad de la voz de Siri son necesarias unas 15 horas de grabaciones de alta calidad de voz natural (y de una sola persona). Una vez que la red ha aprendido a ‘hablar’ (en realidad aprende a leer un texto en voz alta) es posible enseñarle nuevas voces o nuevos estilos o acentos, o incluso nuevos idiomas, necesitando para ello menos horas de grabaciones. De todas maneras, las redes neuronales siempre aprenderán mejor con más datos.
Esta capacidad de ‘adaptar’ o ‘personalizar’ una voz sintética para una persona determinada, utilizando una muestra relativamente reducida de la voz de dicha persona, puede ser aprovechada para proporcionar herramientas de comunicación personalizadas. En particular, puede beneficiar al colectivo de personas con enfermedades degenerativas (ELA, Parkinson) y a todas aquellas que realicen las grabaciones necesarias en el momento del diagnóstico, cuando todavía mantienen su capacidad de hablar. La realidad, sin embargo, es bien distinta: cuando una persona adquiere en el mercado una herramienta de Comunicación Aumentativa y Alternativa (así se llaman estos programas de ordenador que ofrecen diferentes formas de interacción: teclado, voz, movimiento de la pupila) dispone de un número reducido de voces sintéticas. Puede ocurrir, por ejemplo, que un niño o una niña con parálisis cerebral tenga que usar la voz de una persona adulta, o que una persona de edad avanzada use la voz de una persona joven. Es más, al disponer de un número bastante reducido de opciones, dos o más personas que usan la misma herramienta pueden estar dialogando con la misma voz. Podemos imaginar cómo nos sentiríamos si, mirarnos en el espejo, viéramos que de repente tenemos barba, nuestras cejas ya no son espesas, nuestra nariz no es fina sino gruesa y nuestra cara es redondeada en lugar de alargada. Y, para colmo, ¡es idéntica a la cara de la persona de al lado!
El proyecto AhoMyTTS (que nació con el nombre de ZureTTS) tiene como principal objetivo proporcionar voces sintéticas personalizadas a las personas con discapacidad oral. Para ofrecer una aplicación que pueda ser utilizada en un dispositivo móvil, no utiliza técnicas basadas en redes neuronales, sino otras basadas en modelado estadístico. Además, con estas técnicas, se puede realizar una buena personalización con aproximadamente 20 minutos de grabaciones. Cualquier persona puede entrar en el portal, realizar las grabaciones de 100 frases cuidadosamente elegidas para maximizar el número de combinaciones de sonidos y generar su propia voz personalizada. Esta voz, además de poder ser de utilidad para la propia persona en caso de encontrarse en riesgo de perder la suya, quedará disponible para que otras personas que ya no están en condiciones de realizar las grabaciones puedan elegir una voz sintética con la que se sientan identificadas. Varias personas que están sufriendo la pérdida de su voz han utilizado las voces generadas en este proyecto y consideran que ha sido una gran ayuda para conservar su identidad en la comunicación diaria.