Materia

Contenido de XSL

Aprendizaje Automático (II)

Datos generales de la materia

Modalidad: Presencial
Idioma: Inglés

Descripción y contextualización de la asignatura

El curso pone el foco en un conjunto de t¿icas inspiradas en la inteligencia artificial y la estad¿ica. En la ¿ltima d¿da, estos campos han experimentado un crecimiento notable, particularmente relacionado con el an¿sis de grandes cantidades de datos mediante t¿icas y algoritmos de base matem¿ca, estad¿ica y de optimizaci¿eur¿ica. La aplicaci¿e t¿icas de aprendizaje autom¿co est¿mpliamente expandido en ¿as como la bioinform¿ca, finanzas, y tambi¿el procesamiento de textos.

El alumnado estudiar¿as principales t¿icas para la miner¿de datos, y aumentar¿us habilidades en usos de populares herramientas de software que implementan estas t¿icas. Todo ello mediante la demostraci¿obre aplicaciones reales de procesamiento de texto.

Profesorado

Nombre	Institución	Categoría	Doctor/a	Perfil docente	Área	Email
INZA CANO, IÑAKI	Universidad del País Vasco/Euskal Herriko Unibertsitatea	Profesorado Pleno	Doctor	Bilingüe	Ciencia de la Computación e Inteligencia Artificial	inaki.inza@ehu.eus

Competencias

Denominación	Peso
Habilidad para manejar las estrategias y herramientas basadas en conocimiento para el procesamiento del lenguaje humano.	30.0 %
Habilidad para el manejo y la adaptación de los métodos simbólicos y basados en corpus (aprendizaje automático) más relevantes para la investigación en las tecnologías de la lengua.	70.0 %

Tipos de docencia

Tipo	Horas presenciales	Horas no presenciales	Horas totales
Magistral	10	15	25
P. Ordenador	20	30	50

Resultados del aprendizaje de la asignatura

* Conocimiento de los principales escenarios de aprendizaje autom¿co.

* Identificar el tipo de t¿ica a aplicar en cada escenario de clasificaci¿* Conocer los pasos b¿cos, standard, de un pipeline-flujo de an¿sis de datos,

* Uso de librer¿ de R-project para la creaci¿e un corpus y su "document-term matrix" asociada, y la posterior aplicaci¿e t¿icas de aprendizaje autom¿co sobre ella.

Temario

1- Términos generales sobre "data science": IA y "data science".

2- Principales escenarios de clasificación: clasificación supervisada, clasificación no-supervisada, weakly-supervised classification. Para cada escenario: estructura de la matriz de datos, tipo de anotación, aplicaciones reales.

3- One-class classification and outlier detection. Detección de documentos-outlier. Utilidad en NLP. Software, R packages.

4- Clasificación semi-supervisada. Aprendizaje con documentos sin anotación. Utilidad en NLP. Software: R-RSSL package.

5- Uso de test estadísticos para la comparativa de modelos. Sofware: R, páginas web online

6- Técnicas de selección de variables (si tiempo)

7- Técnicas de filtrado "generalistas". Preprocesado: datos perdidos, one-hot-encoding, discretización, desbalanceo de clases... (si tiempo)

8- "A short introduction to the tm (text mining) package in R: text processing". Cómo construir mediante operadores de text-mining un corpus, transformarlo a una document-term matrix para su posterior análisis posterior. A partir de text en ficheros, html, twitter, etc... Tutorial con R.

9- "The machine learning approach: clustering words and classifying documents with R". Tutorial con el paquete R-caret.

10- "First steps on deep learning for NLP by R’s h2o package (+word2vec)". Tutorial con R. Trabajo voluntario.

Bibliografía

Bibliografía básica

*M. Kuhn, K. Johnson (2013). Applied Predictive Modeling. Springer.

*ParallelDots, online text analysis APIs for several tasks: sentiment analysis, tags' prediction, keyword generator, entity extraction, comparing similarity of texts, different emotions analysis, intent analysis, abusive text prediction, etc. https://www.paralleldots.com/text-analysis-apis

* sentiment140: an interesting project for automatic sentiment categorization of tweets: http://help.sentiment140.com/

* Stanford TreeBank project. "Recursive deep models for semantic compositionality over a semantic treebank". https://nlp.stanford.edu/sentiment/

* RDataMining website: Text mining with R: Twitter data analysis: http://www.rdatamining.com/docs/text-mining-with-r

* Awesome sentiment analysis: A curated list of Sentiment Analysis methods, implementations and misc. https://github.com/xiamx/awesome-sentiment-analysis

* "5 things you need to know about sentiment analysis and classification": https://www.kdnuggets.com/2018/03/5-things-sentiment-analysis-classification.html

* Bing Liu's website on "Opinion mining, sentiment analysis and opinion spam detection: the machine learning approach". https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html

* 18 NLP key terms, explained for ML practitioners and NLP novices: https://www.kdnuggets.com/2017/02/natural-language-processing-key-terms-explained.html

Contenido de XSL

Sugerencias y solicitudes

Barra de búsqueda

Máster en Análisis y Procesamiento del Lenguaje

Materia

Contenido de XSL

Aprendizaje Automático (II)

Datos generales de la materia

Descripción y contextualización de la asignatura

Profesorado

Competencias

Tipos de docencia

Resultados del aprendizaje de la asignatura

Temario

Bibliografía

Bibliografía básica

Contenido de XSL

Barra de búsqueda

Ruta de navegación

Materia

Contenido de XSL

Aprendizaje Automático (II)

Datos generales de la materia

Descripción y contextualización de la asignatura

Profesorado

Competencias

Tipos de docencia

Resultados del aprendizaje de la asignatura

Temario

Bibliografía

Bibliografía básica

Contenido de XSL