Matrices de confusión y otros valores estadí­sticos

De Grupo de Inteligencia Computacional (GIC)

Introducción

Hemos realizado esta página para resumir y concretar algunos coeficientes estadísticos que siempre aparecen en muchos de nuestros experimentos. Estos coeficientes nos ayudan a medir la calidad de nuestros resultados al compararlos con la verdad del terreno.

El trabajo en el que se basa esta página es sobre evaluación de algunos resultados de segmentación de imágenes de resonancia magnética, entonces oiréis hablar sobre vóxeles, aunque estos coeficientes son aplicables a otras materias.


Definiciones

N = número de vóxeles de las imágenes.

La matriz de contingencia donde las filas corresponden a la verdad del terreno y las columnas a los resultados:

TP FP

FN TN

En muchas referencias las columnas corresponden a la verdad del terreno y las filas a los resultados, entonces la matriz de contingencia es la traspuesta de la descrita arriba.


Coeficientes

En principio tenemos que: TP + FP + FN + TN = N


Misclassification Ratio: MCR = (FP + FN) / N


The Jaccard Similarity: Jaccard = TP / (TP + FN + FP)


True Positive Fraction and Sensitivity: TPF = TP / (TP + FN) = sensitivity

Esta puede ser multiplicada por 100 para expresarlo como un porcentaje.


False Positive Fraction and Specificity

FPF = FN / (FN + TN) = 1 - specificity

Esta puede ser multiplicada por 100 para expresarlo como un porcentaje.


Specificity: specificity = TN / (FN + TN)


Segmentation Accuracy : SA = (TP + TN) / N (x 100)


Mean Error: ERROR = (FP + FN) / N




The difference between ratio and fraction in the literature seems to be that the ratio is a value between 0 and 1, while the fraction seems to be a percentage (ratio x 100).

The ASR is only meaningful when we are dealing with multiple class problems: Gray Matter, White Matter and CSF. Then we will have specific contigency matrices, one for each class of the problem.

So, we have TP_c, FP_c, TN_c, FN_c, N_c where c = GM, WM or CSF

Then,

ASR = (sum_c TP_c) / (sum_c (TP_c + FP_c ))

where sum_c means the sum over all different classes.



Otras referencias:

http://en.wikipedia.org/wiki/True_positive

http://en.wikipedia.org/wiki/Receiver_operating_characteristic



Resumen hecho por Alexandre Savio de una comunicación por correo electrónico con Manuel Graña y Maite García-Sebastián.

Cualquier añadido, correción o comentario será bienvenido.