Materia

Contenido de XSL

Tecnologías del Habla

Datos generales de la materia

Modalidad: Presencial
Idioma: Inglés

Descripción y contextualización de la asignatura

El objetivo de la asignatura es que los y las estudiantes se familiaricen con las aplicaciones fundamentales del procesado de la señal de voz, como son la síntesis y el reconocimiento automático del habla. Con un enfoque práctico, se analizarán los principales paradigmas que se han dado en ambas tecnologías, se describirán los procedimientos para la generación de estos sistemas con la necesaria creación de recursos y BD de voz y los estudiantes practicarán con sistemas reales. Adicionalmente se revisarán brevemente otras aplicaciones relacionadas con el procesamiento de la voz como el reconocimiento de locutor o de la emoción, la conversión de voz o la diarización entre otras.

Para cursar esta asignatura el estudiante debe dominar los modelos básicos de producción del habla, los conceptos de análisis temporal y frecuencial de la señal y los fundamentos de digitalización de señales.

Profesorado

Nombre	Institución	Categoría	Doctor/a	Perfil docente	Área	Email
NAVAS CORDON, EVA	Universidad del País Vasco/Euskal Herriko Unibertsitatea	Profesorado Agregado	Doctora	No bilingüe	Teoría de la Señal y Comunicaciones	eva.navas@ehu.eus
SARATXAGA COUCEIRO, IBON	Universidad del País Vasco/Euskal Herriko Unibertsitatea	Profesorado Agregado	Doctor	Bilingüe	Ingeniería Telemática	ibon.saratxaga@ehu.eus

Competencias

Denominación	Peso
Comprender e interpretar los principales parámetros utilizados en la representación de la señal de voz.	25.0 %
Conocer las estrategias fundamentales empleadas en los sistemas de síntesis y de reconocimiento de la señal de voz.	25.0 %
Comprender la terminología empleada en el campo del tratamiento de la señal de voz, de forma que sea capaz de interpretar un trabajo de investigación descrito en una revista	25.0 %
Manejar las herramientas informáticas básicas para el procesado y tratamiento de la señal de voz.	25.0 %

Tipos de docencia

Tipo	Horas presenciales	Horas no presenciales	Horas totales
Magistral	15	22.5	37.5
P. Ordenador	30	45	75

Sistemas de evaluación

Denominación	Ponderación mínima	Ponderación máxima
Examen tipo test	30.0 %	60.0 %
Exposiciones	20.0 %	40.0 %
Informes/Memoria de Prácticas	20.0 %	50.0 %

Resultados del aprendizaje de la asignatura

• RA1 Demostrar comprensión de los problemas relacionados con el modelado acústico de la señal de voz.

• RA2 Manejar herramientas de análisis y procesado de la señal de voz.

• RA3 Demostrar comprensión sobre los sistemas de reconocimiento automático del habla, del hablante y de síntesis de voz, así como las técnicas utilizadas para la evaluación de los mismos.

• RA4 Desarrollar un sistema básico de reconocimiento del habla.

• RA5 Extraer información de un artículo científico y presentarla de forma oral a un público interdisciplinar e internacional.

Convocatoria ordinaria: orientaciones y renuncia

Para la evaluación del alumnado en convocatoria ordinaria se utilizarán diferentes herramientas:

- Examen escrito

Al final del curso se realizará un examen escrito. En él el alumnado deberá demostrar su dominio de los conceptos explicados en las clases magistrales y que se encuentran descritos en los apuntes proporcionados. El examen podrá contener una parte de respuesta tipo test y otra parte de desarrollo.

- Trabajos de prácticas

Las prácticas se realizarán parcialmente durante las clases presenciales. El estudiante deberá entregar obligatoriamente una memoria de las prácticas realizadas, según las indicaciones proporcionadas. Las prácticas obligatorias deberán ser entregadas en las fechas indicadas durante el curso.

- Presentación oral

Al comienzo del curso se propondrán temas que deberán ser trabajados por los estudiantes. Al finalizar el curso se realizarán presentaciones orales de dichos trabajos. Se evaluarán tanto las presentaciones realizadas como el documento descriptivo del trabajo.

Para renunciar a la convocatoria ordinaria el alumno o alumna deberá comunicarlo al profesorado de la asignatura con dos semanas de antelación a la finalización del curso.

Convocatoria extraordinaria: orientaciones y renuncia

En la convocatoria extraordinaria, el alumnado será evaluado de las mismas competencias que en la convocatoria ordinaria, para lo cual se establecen las siguientes herramientas de evaluación:

- Examen escrito que abarcará los conceptos impartidos en las clases magistrales. El examen podrá tener una parte de tipo test y otra parte de desarrollo.

- Prácticas de laboratorio: se deberán entregar obligatoriamente las memorias de las prácticas propuestas durante el curso.

- Presentación oral: Se realizará una presentación oral sobre un tema elegido por el alumno o alumna y se entregará un documento con la descripción del trabajo realizado.

Temario

1. Modelado de voz

2. Síntesis de voz

3. Reconocimiento de voz

4. Otras tecnologías de voz

Bibliografía

Materiales de uso obligatorio

Los estudiantes dispondrán en eGela (http://egela.ehu.eus/) de los siguientes materiales

docentes necesarios para el desarrollo de la asignatura:

- Transparencias con el contenido teórico de la asignatura, temas T1-T4.

- Guión de prácticas, un fichero por práctica con una introducción teórica y la descripción del trabajo a realizar en el laboratorio.

- Señales necesarias, programas de matlab, scripts de linux y otras herramientas necesarias

para el desarrollo de las prácticas.

Bibliografía básica

- J. G. Proakis, D. G. Manolakis. Digital signal processing. Principles, algorithms and applications (4th edition). Pearson Prentice Hall, 2007. (ISBN: 978-0131873742)

- L. R. Rabiner, R. W. Schafer. Digital processing of speech signal. Prentice-Hall, 1978. (ISBN: 978-0132136037)

- X. Huang, A. Acero, H. Hon. Spoken Language Processing: A Guide to Theory, Algorithm and System Development. Prentice Hall, 2001. (ISBN: 978-0130226167)

- A. V. Oppenheim, R. W. Schafer. Discrete-Time signal processing (3rd edition). Pearson Prentice Hall, 2009. (ISBN: 978-0131988422)

- D. Jurafsky, J. H. Martin. Speech and Language Processing (2nd edition). Prentice Hall, 2008. (ISBN: 978-0131873216)

Bibliografía de profundización

- P. Taylor. Text-to-Speech Synthesis. Cambridge University Press, 2009. (ISBN: 978-0521899277)

- L. Rabiner, B. H. Juang. Fundamentals of Speech Recognition. CRC Press, 1993. (ISBN: 78-0130151575)

- D. Yu, L. Deng. Automatic Speech Recognition: A Deep Learning Approach. Springer, 2015. (ISBN: 978-1447157786)

- W. C. Chu. Speech Coding Algorithms: Foundation and Evolution of Standardized Coders. Wiley-Interscience, 2003. (ISBN: 978-0471373124)

Revistas

Computer Speech and Language

Speech Communication

IEEE Transactions on Audio, Speech & Language Processing

IEEE Transactions on Systems, Man and Cybernetics-Part B

IEEE Transactions on Multimedia

Journal of the Acoustical Society of America

Enlaces

- Speech Technologies

http://www.speech.cs.cmu.edu/ news:comp.speech http://festvox.org/

- Review of Speech Synthesis Technology

http://www.acoustics.hut.fi/publications/files/theses/lemmetty_mst/contents.html

- Speech Technology Hyperlinks Page

http://www.speech.cs.cmu.edu/comp.speech/Section5/speechlinks.html

- Demos de sistemas TTS

http://www.acapela-group.com/text-to-speech-interactive-demo.html

http://www.loquendo.com/en/demo-center/tts-demo/

http://enterprisecontent.nuance.com/vocalizer5-network-demo/index.html

http://aholab.ehu.es/tts/tts_en.html

Contenido de XSL

Sugerencias y solicitudes

Barra de búsqueda

Máster en Análisis y Procesamiento del Lenguaje

Materia

Contenido de XSL

Tecnologías del Habla

Datos generales de la materia

Descripción y contextualización de la asignatura

Profesorado

Competencias

Tipos de docencia

Sistemas de evaluación

Resultados del aprendizaje de la asignatura

Convocatoria ordinaria: orientaciones y renuncia

Convocatoria extraordinaria: orientaciones y renuncia

Temario

Bibliografía

Materiales de uso obligatorio

Bibliografía básica

Bibliografía de profundización

Revistas

Enlaces

Contenido de XSL

Barra de búsqueda

Ruta de navegación

Materia

Contenido de XSL

Tecnologías del Habla

Datos generales de la materia

Descripción y contextualización de la asignatura

Profesorado

Competencias

Tipos de docencia

Sistemas de evaluación

Resultados del aprendizaje de la asignatura

Convocatoria ordinaria: orientaciones y renuncia

Convocatoria extraordinaria: orientaciones y renuncia

Temario

Bibliografía

Materiales de uso obligatorio

Bibliografía básica

Bibliografía de profundización

Revistas

Enlaces

Contenido de XSL