Un estudio teórico-práctico de la UPV/EHU ha tratado de dar solución a dos problemas muy comunes en Machine Learning. En el primero se tienen pocos datos de etiquetado conocido, y se usa el aprendizaje semisupervisado para que el ordenador aprenda a clasificar de forma adecuada. El segundo trata de desbalanceo de clase: hay muchos datos etiquetados de un tipo y muy pocos de otros, lo que lleva a los modelos a extraer conclusiones erróneas.
Soluciones teóricas para dos problemas muy comunes en inteligencia artificial
Un estudio de la UPV/EHU ha conseguido importantes avances en dos tipos de problemas de aprendizaje automático a partir de datos
Fecha de primera publicación: 27/08/2019
La investigación llevada a cabo por el ingeniero informático Jonathan Ortigosa en el Departamento de Ciencias de la Computación e Inteligencia Artificial de la Facultad de Informática de la UPV/EHU en Donostia está basada en el Machine Learning o aprendizaje automático, una popular rama de la Inteligencia Artificial que se basa principalmente en el aprendizaje de modelos predictivos a partir de datos. “Se trata de un campo que explora la construcción de modelos que puedan aprender y hacer predicciones de los datos que se le proporcionan”, precisa el investigador. Concretamente, Ortigosa ha enfocado su trabajo en las tareas de clasificación automáticas: “En este campo se intenta usar una gran cantidad de datos para que los ordenadores sean capaces de aprender de ellos y realizar clasificaciones de forma automática, sin estar programados explícitamente para ello”, explica Ortigosa.
La investigación se ha centrado en dos situaciones problemáticas muy comunes en este campo, “que hoy en día son grandes retos en la comunidad científica, ya que aparecen constantemente en los problemas que abordan el aprendizaje automático”, apunta. Todo empezó con un trabajo relacionado con el denominado sentiment analysis. “Se trataba de un trabajo de caracterización de artículos de diversos blogs referentes a ciertos productos, para saber si los textos eran objetivos o subjetivos, si tenían valoraciones positivas o negativas, etc.”, explica. Pero los investigadores contaban con muy pocos artículos debidamente etiquetados para que el ordenador pudiera aprender modelos robustos. Por ello, “tuvimos que crear algoritmos nuevos de aprendizaje que usasen grandes cantidades de datos sin etiquetar disponibles en Internet y una pequeña proporción de etiquetados, y el resultado mejoró lo que ya existía”, añade Ortigosa.
Esto llevó a preguntarse al autor del trabajo “cuál es el mínimo número de datos etiquetados necesarios para resolver problemas parecidos al anterior”. Así, realizó un estudio teórico y matemático de este tema, y analizó “cuál sería el mejor algoritmo semisupervisado que se podría proponer para un cierto número pequeño de datos etiquetados y cuál sería su error”. Con eso, calcularon qué error sería el menor que se podría conseguir con cualquier algoritmo que se propusiese para este tipo de problema, es decir, “podemos saber si un determinado número de datos será suficiente para tener un tanto por ciento de acierto. Entonces se puede estimar la bondad de la solución propuesta”, concreta.
El otro problema que se propuso abordar es el desbalanceo de clase: “Enseñar a un ordenador es muy parecido a cómo se enseña a los niños pequeños a diferenciar perros y gatos. Pero si se les enseñan muchos perros y un solo gato, puede que no entiendan bien la diferencia o saquen conclusiones erróneas”, explica Ortigosa. Sin embargo, en el aprendizaje automático, apunta el autor, “una conclusión errónea del ordenador puede tener importantes consecuencias en una empresa”. En ese sentido, propusieron “una métrica para medir qué grado de desbalanceo, o diferencia en tipos de etiquetas, tienen los datos que se proporcionan para aprender el modelo. Ese grado está relacionado con el rendimiento de la solución que se puede proponer con esos datos, y, por tanto, es crucial medirlo”, añade.
El siguiente paso fue proponer métricas para evaluar si una solución propuesta para un problema de desbalanceo es buena o no. “Imagina que tenemos 1.000 animales, 999 perros y 1 gato. Si creamos una solución que diga que todo animal es un perro, tenemos un grado de acierto de 99,9 %. El número es muy bueno, pero la solución no lo es. Esta métrica de evaluación se llama accuracy y se usa mucho en Machine Learning”, comenta. Para penalizar estos casos de soluciones “tontas”, en esta investigación realizaron un estudio teórico “para poder realizar una serie de recomendaciones de qué métricas de evaluación son adecuadas en estos casos y así poder realizar una evaluación honrada y útil de las soluciones”.
Según indica Ortigosa, además de la investigación aplicada a cada uno de los problemas, esto es, además de buscar la resolución práctica de los problemas, ha llevado a cabo una investigación teórica: “He modelado matemáticamente ambos problemas para poder controlarlos, estudiarlos a fondo y extraer información que pueda ser usada para la propuesta de soluciones a problemas reales”, explica el investigador. “Los problemas reales son complejos, y aunque se está investigando mucho, se requiere un gran conocimiento teórico para que luego se sepa proponer soluciones mejores que las existentes”, concluye.
Información complementaria
Jonathan Ortigosa (Donostia, 1985) ha realizado su tesis doctoral (‘Theoretical and Methodological Advances in Semi-supervised Learning and the Class-Imbalance Problem’) en el Departamento de Ciencia de la Computación e Inteligencia Artificial de la Facultad de Informática de San Sebastián, bajo la dirección del catedrático en la Facultad de Informática, líder del grupo Intelligent Systems Group de la UPV/EHU y director científico del BCAM, José A. Lozano y del profesor de la Facultad de Informática Iñaki Inza. Actualmente, Ortigosa es líder del equipo de Analítica Avanzada e Inteligencia Artificial del departamento de Fabricación Avanzada y Estandarización de Gestamp.