Breadcrumb

XSL Content

Data Mining27711

Centre
Faculty of Engineering - Bilbao
Degree
Bachelor's Degree in Computer Engineering in Management and Information Systems
Academic course
2024/25
Academic year
4
No. of credits
6
Languages
Spanish
Code
27711

TeachingToggle Navigation

Distribution of hours by type of teaching
Study typeHours of face-to-face teachingHours of non classroom-based work by the student
Lecture-based3045
Applied computer-based groups3045

Teaching guideToggle Navigation

Description and Contextualization of the SubjectToggle Navigation

* OBSERVE: THIS COURSE IS SET AS AN English Friendly Course (EFC): Spanish is the teaching-medium.

Both the lectures and the main teaching-material are in Spanish. However, student-interventions in English are welcome in class.

The lecturers are willing to tutor, conduct examinations and/or accept results, works and e-mails in English.

The course aims at international students with either a good command of Spanish or a medium level of Spanish and good command of English.



Good programming skills are required as well as basic statistics.



Related topics:

- computation

- statistics and operative research

- machine learning

- artificial intelligence

- business intelligence

- decision support systems





CONTEXTO DE LA ASIGNATURA EN EL GRADO:

Esta asignatura se enmarca dentro del grupo de asignaturas que trabajan las competencias específicas del Móudulo Sistemas de Información (M03). Concretamente, trata de conocer el potencial, la problemática y la tecnología de análisis y extracción de conocimiento sobre sistemas de información, así como las técnicas de almacenes de datos para facilitar el procesamiento analítico de apoyo a la toma de decisiones estratégicas. También se aplicarán las técnicas de minería de datos apropiadas para problemas concretos de extracción de conocimiento.





RELACIONES CON OTRAS ASIGNATURAS

La asignatura tiene una fuerte componente práctica que recomienda un nivel alto de programación y una base de estadística. Se recomienda haber superado los siguientes cursos:

- Programación Modular y Orientación a Objetos

- Estructuras de Datos y Algoritmos

- Métodos Estadísticos de la Ingeniería

- Investigación Operativa





RELACIÓN CON EL ÁMBITO PROFESIONAL: La Minería de Datos contribuye en el desarrollo de competencias profesionales brindando herramientas para buscar la racionalidad cuando se requiere encontrar la solución a problemas en el marco del Business Intelligence. Comercio electrónico, entorno de soporte a las decisiones, riesgo y valoración. Son técnicas muy arraigadas en el mercado de gestión y análisis de datos en el marco empresarial. También se aplicarán las técnicas de minería de datos apropiadas para problemas concretos de extracción de conocimiento. La Minería de datos se ubica en el área de Inteligencia Artificial, que aplicada a la empresa se conoce como Business Intelligence. Ejemplos destacables de empresas donde se requieren las competencias que se trabajan en esta asignatura:

- ChatGPT

- IBM Watson Project

- Google (Big Data Tools)

- Oracle (Data Mining Libraries)



Temas afines:

- computación

- estadística e investigación operativa - sistemas de apoyo a la decisión

- inteligencia artificial

- aprendizaje automático

- business intelligence

Skills/Learning outcomes of the subjectToggle Navigation

* OBSERVE: THIS COURSE IS SET AS AN English Friendly Course (EFC): Spanish is the teaching-medium.



By the end of the course the student will be able to:

describe information extraction fundamentals and its potential scope on information systems.

apply data mining approaches to particular tasks related to knowledge discovery, business intelligence and decision support systems.











COMPETENCIAS DE LA ASIGNATURA: A continuación se enumeran las competencias de la asignatura y para cada una de ellas se establecen asociaciones con las competencias del módulo al que pertenece esta asignatura y también con las competencias transversales del catálogo de la UPV/EHU (posteriormente se describen tanto las competencias de módulo como las transversales)

CA1: Reconocer los beneficios del uso sistemático de técnicas de extracción de conocimiento para la obtención de modelos y patrones predictivos o descriptivos. Competencias asociadas: M03CM02, M03CM04, CT8

CA2: Conocer las distintas técnicas de aprendizaje automático y estadísticas utilizadas en minería de datos, su potencial, su coste computacional y sus limitaciones de representación y de inteligibilidad. Competencias alineadas: M03CM01, M03CM05, CT3

CA3: Elegir, para un problema concreto, qué técnicas de minería de datos son más apropiadas. Competencias asociadas: M03CM03, M03CM06, CT8

CA4: Generar los modelos y patrones elegidos utilizando una herramienta o paquete de minería de datos. Competencias asociadas: M03CM05, CT3

CA5: Evaluar la calidad de un modelo, utilizando técnicas sencillas de evaluación. Competencias asociadas: M03CM05

CA6: Conocer la problemática especial de la minería sobre la web y las técnicas más usuales. Competencias asociadas: M03CM01, M03CM06, CT8





COMPETENCIAS ESPECÍFICAS del MÓDULO M03: Sistemas de Información:

M03CM01 - Capacidad para integrar soluciones de tecnologías de la información y comunicaciones y procesos empresariales para satisfacer las necesidades de información de las organizaciones de las organizaciones, permitiéndoles alcanzar sus objetivos de forma efectiva y eficiente, dándoles así ventajas competitivas

M03CM02 - Capacidad para determinar los requisitos de los sistemas de información y comunicación de una organización atendiendo a aspectos de seguridad y cumplimiento de la normativa y la legislación vigente.

M03CM03 - Capacidad para participar activamente en la especificación, diseño, implementación y mantenimiento de los sistemas de información y comunicación.

M03CM04 - Capacidad para comprender y aplicar los principios y prácticas de las organizaciones, de forma que puedan ejercer como enlace entre las comunidades técnica y de gestión de una organización y participar activamente en la formación de los usuarios.

M03CM05 - Capacidad para comprender y aplicar los principios de la evaluación de riesgos y aplicarlos correctamente en la elaboración y ejecución de planes de actuación.

M03CM06 - Capacidad para comprender y aplicar los principios y las técnicas de gestión de la calidad y de la innovación tecnológica en las organizaciones.





COMPETENCIAS TRANSVERSALES:

Competencias transversales que reúne el "Catálogo de Competencias Transversales de la UPV/EHU" (https://www.ehu.eus/es/web/enplegua/competencias-transversales) referenciadas, debajo, siguiendo la notación del catálogo referido. Concretamente:

CT3 Comunicación y Plurilingüismo. Saber comunicar y transmitir conocimientos, habilidades y destrezas correspondientes a un graduado en Ingeniería Informática de Gestión y Sistemas de Información.

CT8 Trabajo en Equipo. Acciones colaborativas y fomento de co-responsabilidad.



RESULTADOS DE APRENDIZAJE:

R1: Identificar fuentes de incertidumbre inherentes a los problemas de extracción de conocimiento en los contextos de Business Intelligence, analizar cuantitativamente datos disponibles y proponer soluciones adaptadas al marco de aplicación. Competencias alineadas: CA2, CA3, CA4, CA5, M03CM01, M03CM04.

R2: Diseño, implementación, documentación de sistemas de inferencia en entornos de aplicación reales en entornos de trabajo en grupo de forma eficaz. Competencias alineadas: CA1, CA2, CA3, CA6, M03CM03, M03CM02, CT8

RA3: Análisis de sensibilidad a la vista de resultados experimentales en la toma de decisiones con riesgo para esOmar el potencial de un sistema de minería de datos así como la comunicación de los resultados técnicos tanto de forma escrita como oral. Competencias alineadas: CA1, CA4, CA5, CA6, M03CM06, M03CM05, CT3

Theoretical and practical contentToggle Navigation

* OBSERVE: THIS COURSE IS SET AS AN English Friendly Course (EFC): Spanish is the teaching-medium.





Introduction to Data Mining: Goal. Applications. Approaches: Classification, Association, Clustering. Data and data-sources. Pre-processing. Feature selection. Data imbalance.



Clustering: Signal compression. Approaches: k-means, hierarchical, agglomerative. Applications (e.g. homes, species, customer trends).



Predictive models: Inference algorithms: neural networks, bayesian networks, random forest, logistic regression etc. Evaluation metrics (e.g. confusion matrix, precision, recall, f-score, AUC). Ensemble models. Multi-class mono-label vs. multi-class multi-label prediction models. Real tasks and international research challenges. Applications: clinical diagnoses.









INTRODUCCIÓN:

· Objetivo. Contexto de aplicación.

· Aplicaciones comerciales: propensión/scoring, retención, venta cruzada, sistemas web, pronóstico y diagnóstico médico, aplicaciones industriales, procesamiento del lenguaje natural.

· Inteligencia artificial. Aprendizaje automático. Reconocimiento de formas.

· Aproximaciones a la minería de datos: Clasificación, Asociación, Clustering

· Datos: Recopilación de datos. Análisis.

· Pre-procesamiento: Selección de atributos. Introducción a los heurísticos de búsqueda y los algoritmos genéticos. Des- balance o cómo aprender con pocos datos.



TÉCNICAS EXPLORATORIAS: CLUSTERING

· Clasificación no-supervisada (clustering)

· Estudio de técnicas de clustering: clustering particional (k-means clustering); clustering probabilístico (algoritmo EM); clustering jerárquico (algoritmo aglomerativo); redes neuronales.

· Aplicaciones: Compresión de señal y teoría de la información; tendencias de clientes; detección de especies; mapa socio-lingüístico; web mining en artículos.



TÉCNICAS PREDICTIVAS: CLASIFICACIÓN

· Técnicas de evaluación y validación de clasificación supervisada

· Algoritmos de inferencia: neural networks, bayesian networks, random forest, logistic regression · Combinación de clasificadores: meta-clasificadores (ensembles)

· Modelos multi-class mono-label vs. multi-class multi-label

· Aplicaciones: business intelligence, diagnóstico clínico

MethodologyToggle Navigation

* OBSERVE: THIS COURSE IS SET AS AN English Friendly Course (EFC): Spanish is the teaching-medium.



The approach is mainly practical, the classes are taken in the lab. Programming labs are carried out and presented in groups. By the end of the course a research-style poster is presented covering a related article or a self-implemented application.





La asignatura es presencial.



La asignatura se desarrolla mediante tres tipos principales de actividades: clases magistrales de teoría, sesiones prácticas de ordenador y de trabajo y discusión. Todas las actividades requiren actitud pro-activa y pensamiento crítico. Se fomentan metodologías activas de enseñanza-aprendizaje.



Grupo de Ordenador: tienen como objetivo implementar en sistemas reales las técnicas trabajadas en las clases magistrales. Para adquirir diversas capacidades se fomenta el trabajo en equipo cooperativo y también se asume trabajo autónomo.

Assessment systemsToggle Navigation

  • Continuous Assessment System
  • Final Assessment System
  • Tools and qualification percentages:
    • Written test to be taken (%): 40
    • Realization of Practical Work (exercises, cases or problems) (%): 60

Ordinary Call: Orientations and DisclaimerToggle Navigation

Assessment parts and weighting: over 10.0 pts

60% (~ 6.0 pts): Labs and works carried out throughout the course

40% (~ 4.0 pts): Exam



Two requirements must be satisfied:

1. Achieve, at least, 40% on both parts i.e. minimum 2.4 points at labs and 1.6 points at the exam.

2. Summing up both parts together, achieve, at least, 5.0 points out of 10.0.



In order to evaluate the labs: in the ordinary call continuous assessment is carried out. In the remaining calls (either extraordinary call or calls taken in advance) a lab-exam is taken in replacement of the continuous assessment.

Extraordinary Call: Orientations and DisclaimerToggle Navigation

Assessment parts and weighting: over 10.0 pts

60% (~ 6.0 pts): Labs and works carried out throughout the course

40% (~ 4.0 pts): Exam



Two requirements must be satisfied:

1. Achieve, at least, 40% on both parts i.e. minimum 2.4 points at labs and 1.6 points at the exam.

2. Summing up both parts together, achieve, at least, 5.0 points out of 10.0.



In order to evaluate the labs: in the ordinary call continuous assessment is carried out. In the remaining calls (either extraordinary call or calls taken in advance) a lab-exam is taken in replacement of the continuous assessment.

Compulsory materialsToggle Navigation

eGela

BibliographyToggle Navigation

Basic bibliography

· E. Alpaydin. Introduction to Machine Learning. MIT Press, 2009

· Ian Witten, Eibe Frank, Mark A. Hall. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, 2006

· Murphy, K.P. (2012). Machine learning: a probabilistic perspective. MIT press. · Kevin P. Murphy. Machine Learning: A Probabilistic Perspective. 2016



In-depth bibliography

· C.M. Bishop; Pattern Recognition and Machine Learning. Springer. (2006).
· Richard O. Duda, Peter E. Hart, David G. Stork; Pattern Classification; Ed. Wiley-Interscience; 2 ed ISBN-13: 978- 0471056690
· S. Chakrabarti. Mining the Web: Discovering knowledge from hypertext. Morgan Kaufmann. 2003
· Jiawei Han & Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2006
· Pang-Ning Tan, Michael Steinbach & Vipin Kumar. Introduction to Data Mining. Addison-Wesley, 2006 · Tom Mitchell. Machine Learning. McGraw Hill, 1997.

Journals

ACM Transactions on KDD
IEEE Transactions on Knowledge and Data Engineering
Data Mining and Knowledge Discovery (DMKD)
ACM SIGKDD Explorations
Data & Knowledge Engineering (DKE)

Web addresses

http://www.cs.waikato.ac.nz/ml/weka/
http://kaggle.com/
http://www.kdd.org/
http://www.kdnuggets.com/
http://www-stat.stanford.edu/%7Ejhf/ftp/dm-stat.pdf

GroupsToggle Navigation

16 Teórico (Spanish - Tarde)Show/hide subpages

Calendar
WeeksMondayTuesdayWednesdayThursdayFriday
1-1

17:00-19:00 (1)

1-14

15:00-17:00 (2)

Teaching staff

Classroom(s)

  • P3I 10A - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (1)
  • P3I 10A - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (2)

16 Applied computer-based groups-1 (Spanish - Tarde)Show/hide subpages

Calendar
WeeksMondayTuesdayWednesdayThursdayFriday
1-1

17:00-19:00 (1)

2-2

17:00-19:00 (2)

17:00-19:00 (3)

3-3

17:00-19:00 (4)

4-4

17:00-19:00 (5)

5-5

17:00-19:00 (6)

6-6

17:00-19:00 (7)

7-7

17:00-19:00 (8)

8-8

17:00-19:00 (9)

9-9

17:00-19:00 (10)

10-10

17:00-19:00 (11)

11-11

17:00-19:00 (12)

12-12

17:00-19:00 (13)

13-13

17:00-19:00 (14)

14-14

17:00-19:00 (15)

Teaching staff

Classroom(s)

  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (1)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (2)
  • P6I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (3)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (4)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (5)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (6)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (7)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (8)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (9)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (10)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (11)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (12)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (13)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (14)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (15)

16 Applied computer-based groups-2 (Spanish - Tarde)Show/hide subpages

Calendar
WeeksMondayTuesdayWednesdayThursdayFriday
1-1

19:00-21:00 (1)

2-2

19:00-21:00 (2)

19:00-21:00 (3)

3-3

19:00-21:00 (4)

4-4

19:00-21:00 (5)

5-5

19:00-21:00 (6)

6-6

19:00-21:00 (7)

7-7

19:00-21:00 (8)

8-9

19:00-21:00 (9)

10-10

19:00-21:00 (10)

11-11

19:00-21:00 (11)

12-12

19:00-21:00 (12)

13-13

19:00-21:00 (13)

14-14

19:00-21:00 (14)

Teaching staff

Classroom(s)

  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (1)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (2)
  • P6I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (3)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (4)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (5)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (6)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (7)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (8)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (9)
  • P7I 1L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (10)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (11)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (12)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (13)
  • P7I 7L - ESCUELA DE INGENIERIA DE BILBAO-EDIFICIO II (14)