Karlos Santamaria eta haren idazlanak
Nociones fundamentales de la TeorÃa de la Información
Estudios Empresariales, 65/2 zk., 1965
Finalidad de esta nota
La finalidad de esta nota es dar a conocer a los lectores no iniciados en esta nueva rama de la matemática, las nociones fundamentales de cálculo informativo, creación del matemático e ingeniero americano Claudio Shannon hace aún menos de veinticinco años.
Las aplicaciones de esta teorÃa se han revelado diversÃsimas y fecundas en diferentes ramas de la actividad humana y no cabe duda de que un conocimiento básico de la misma deberá formar parte en adelante de la cultura general de los hombres de ciencia y, de modo muy particular, de los que trabajen en el campo de la organización.
Sin embargo el cálculo informativo no ha pasado todavÃa a integrarse en los planes de estudio de las carreras y, por otra parte, resulta enteramente desconocido para la inmensa mayorÃa de los cientÃficos que han adquirido su formación en los últimos años.
Por ello, y sin otra pretensión que la de realizar una modesta tarea de divulgación, me ha parecido conveniente informar a los lectores de esta Revista sobre algunos elementos fundamentales de la nueva teorÃa. Dada la extensión y el carácter elemental de la presente nota debo limitarme a hacer en ella una introducción muy rudimentaria al tema, que algunos podrá servirles, quizás, como de cebo para interesarse más a fondo en tan curiosa y nueva rama del saber.
Generalidades sobre polÃtica informativa
Al plantearse una actividad se necesita disponer previamente de una «información» suficiente sobre la situación en que aquella haya de desenvolverse. El comerciante deberá estar informado sobre la situación y estructura del mercado, el estratega sobre la disposición y la cuantÃa de las fuerzas adversas, el organizador del trabajo sobre la eficacia de los medios de que dispone, etc.
La clave del éxito en muchas empresas consiste, precisamente, en disponer de una información buena y abundante, o más exactamente, de la información adecuada a la actividad que se trata de desarrollar.
Podemos, pues, suponer como modelo general, el caso de una persona A que se encuentra ante una situación de indeterminación o de incertidumbre dentro del cual, debe realizar determinados fines. Lo primero que hará A, es tratar de obtener la información precisa, es decir; el conocimiento de ciertos datos o elementos de la situación que necesita utilizar para actuar. A este fin se valdrá en general de estudios estadÃsticos, encuestas o sondeos. En la mayor parte de los casos no llegará a obtener una información completa, y siempre quedará sometido a un margen, más o menos importante, de incertidumbre o de indeterminación.
Ahora bien, la información cuesta dinero. La realización de un sondeo, el análisis de unos datos estadÃsticos, son en general, operaciones costosas y que exigen además tiempo. De ahà la importancia que tiene el saber elegir entre el material informativo aquel que proporcione una mayor cantidad de información con el menor gasto posible o, más bien, el saber determinar en cada caso la información más adecuada, la que mejor se ajuste a las necesidades impuestas por la acción proyectada.
En muchos casos será mejor dejar un margen de incertidumbre que tratar de obtener una información completa, es decir, la primera solución resultará más económica que la segunda. La pretensión de agotar las informaciones llegando a resultados exhaustivos no es siempre la más razonable. En cada caso será menester definir una «polÃtica de información», la más conveniente en vista del conjunto de las circunstancias que concurren en el mismo.
AsÃ, por ejemplo, si una Empresa trata de establecer una polÃtica de producción deberá, en general, dar la prioridad a los artÃculos más solicitados por el público, y para ello deberá informarse previamente sobre las preferencias manifestadas por la clientela. A este efecto, podrá organizar por ejemplo, un sondeo. Pero difÃcilmente podrá llegar a un conocimiento completo y exhaustivo del campo de preferencias. Los gustos de público cambian constantemente y el servicio de información destinado a aconsejar a la dirección de la Empresa en este aspecto deberá estar constantemente en funcionamiento. Para ello podrá contar con las estadÃsticas de ventas, la distribución de pedidos, etc., datos que se pueden conseguir fácilmente sin salir del ámbito de la empresa. Ahora bien, en medio de este mare magnum de cifras y de datos se precisa definir una «polÃtica» recogiendo los datos más fácilmente accesibles, los más económicos, los que en definitiva resulten más útiles para orientar la producción.
Análogamente las señales que un automovilista encuentra a lo largo de una carretera le proporcionan informaciones más o menos importantes sobre la ruta que debe seguir. Es evidente que aumentando el número de señales se puede aumentar la información, pero esta polÃtica no será siempre la más acertada. La proliferación de señales puede servir más para confundir que para orientar al conductor. Por otra parte, la instalación de señales origina gastos de instalación y de conservación más o menos cuantiosos y la dirección de carreteras no puede permitirse el lujo de multiplicarlas hasta el infinito. ¿Cuántas señales y qué señales nos darán los resultados mejores y más económicos? Responder a esta pregunta es lo mismo que definir una polÃtica informativa de la ruta.
De los ejemplos que hemos citado, se deduce la conveniencia de disponer de un instrumento sistemático para la medida y el cálculo de la información. Este instrumento matemático existe y ha recibido el nombre de «teorÃa matemática de la información». Su primer campo de acción son las técnicas de la comunicación, o de la transmisión por hilo o por ondas. La teorÃa matemática de la información es inicialmente creada por SHANNON con vistas a este dominio hoy tan importante de la actividad humana. Pero luego aparece su enorme utilidad en otros campos tales como la fisiologÃa, la lingüÃstica y la electrónica. En particular las máquinas de traducir, trabajan fundamentalmente en la transformación de material informativo y en su concepción tiene tanta importancia la medida de la información como pueda tenerla en electrotecnia la definición y medida de las magnitudes eléctricas.
Por lo que hace a las técnicas empresariales no hay que hacerse demasiadas ilusiones sobre la utilidad de la aplicación del cálculo informativo a este dominio, pero en muchos casos puede ser útil para proporcionar al hombre de empresa, un esquema abstracto, y hasta cierto punto, seguro, de sus problemas informativos.
La noción de entropÃa informativa
La primera magnitud que debe definirse es la de la incertidumbre o indeterminación de una situación. Es evidente que dentro de la incertidumbre caben grados diversos. La incertidumbre del automovilista que se encuentra ante dos rutas posibles es menor que la del que se halla en un núcleo urbano del que parten cinco direcciones posibles. De la misma manera si entre un grupo de ocho candidatos a un concurso interesa saber cuál es el candidato más apto, la incertidumbre será menor que si lo que se trata de averiguar es el orden de preferencia entre los ocho candidatos. Esta segunda cuestión contiene una cantidad de indeterminación mucho mayor que la primera, y exigirá probablemente pruebas mucho más minuciosas. Sobre ese mismo grupo de ocho candidatos pueden plantearse otras cuestiones. Por ejemplo, puede tratarse de clasificarlos en dos grupos de cuatro candidatos cada uno, cuatro aceptados y cuatro rechazados. En tal caso el grado de incertidumbre será distinto que en los casos anteriores. Pero ¿serÃa mayor o menor que el de cada uno de los dos ejemplos anteriores? Para poder contestar a esta pregunta se precisa disponer de un sistema de medida y de cálculo de la incertidumbre o, para emplear el término actualmente consagrado, de la entropÃa de cada una de la situaciones planteadas.
El caso más sencillo que puede presentarse es el de una situación que tiene n «salidas» posibles a las que no se atribuye ninguna preferencia relativa, es decir, que se las juzga todas igualmente probables. En tal caso, la entropÃa de la situación viene expresada por el logaritmo del número de salidas, es decir, que podrá escribirse:
E = log n (I)
Donde el logaritmo puede tomarse en un sistema cualquiera. si el sistema adoptado es el decimal diremos que la entropÃa viene expresa en unidades decimales. En el caso, muy corriente, de que la base adoptada sea el número 2, la medida de la entropÃa vendrá expresada en una unidad llamada hartley o bit.
Apliquemos esta definición a cada uno de los tres ejemplos recién propuestos sobre ocho candidatos a un concurso.
Las preguntas formuladas son éstas:
1. ¿Cuál de los ocho candidatos es el más apto?
2. ¿Cuál es el orden de aptitud entre los ocho candidatos?
3. ¿Cuáles son entre los ocho candidatos los cuatro más aptos, es decir, el grupo de cuatro de mayor capacidad que los otros cuatro?
Tendremos que determinar en cada una de las tres situaciones de incertidumbre el número de salidas o de respuestas posibles. Dichos número se determinan con facilidad con ayuda del cálculo y son respectivamente 8, 8! y C4 8 Determinando los logaritmos respectivos de estos tres números obtenemos las entropÃas correspondiente a las situaciones en unidades decimales.
log10 8 = 0,903
log10 8! = 4,605
log10 C4 8 = 1,845
y en hartley
log2 8 = 3
log2 8! = 15,299
log2 C4 8 = 6,129
Naturalmente habrÃa que justificar el empleo de esta noción tal como ha quedado definida. Baste decir aquà que la definición de entropÃa adoptada satisface a todas las condiciones intuitivas que pueden exigirse y que en utilización práctica ha demostrado ser una noción extremadamente práctica y que proporciona resultados lógicos y coherentes. El objetivo que nos proponemos que es el de suministrar a nuestros lectores unas nociones elementales y sumamente sencillas del cálculo informativo no justificarÃa consideraciones más extensas sobre este punto.
Veamos ahora cómo se mide la entropÃa de una situación con diversas salidas desigualmente probables. En tal caso cada salida posible vendrá caracterizada por una probabilidad. La fórmula adoptada para la entropÃa es:
E = _pi log 1___Pi
es decir la suma de las probabilidades correspondientes a las distintas salidas multiplicadas respectivamente por los logaritmos de sus inversas. Esta definición requerirÃa también algunas consideraciones justificativas, pero en una nota elemental como ésta no hay lugar para ellas. Limitémonos a ponerla en claro con un ejemplo.
Fig. 1Fig. 2
Se trata de comparar las entropÃas de estas dos situaciones. (Fig. 1)
En una bifurcación A hay dos salidas. En otra bifurcación B hay tres salidas pero dos de ellas vuelven a encontrarse en el nudo C tal como se indica en la figura. Se desea saber si la incertidumbre es mayor en la bifurcación A o en la bifurcación B. A este efecto se calcularán las entropÃas por la fórmula (2). Las probabilidades de las salidas son 1/2 y 1/2 en el primer caso y 1/3 y 2/3 en el segundo caso. Por tanto se tendrá:
Situación A: E = 1__2 log2 + 1__2 log2 = 0,301 u.d. de entropÃa.
Situación B: E' = 1__3 log3 + 2__3 log 3__2 = 0,277 u.d. de entropÃa.
Resulta pues que la entropÃa es mayor en el nudo A que en el B. En general el hecho de que las salidas sean desigualmente probables hacen disminuir la incertidumbre, es decir, la entropÃa de una situación con dos salidas igualmente probables es mayor que la otra situación con dos salidas desigualmente probables.
La entropÃa ligada
Consideramos un procedimiento de fabricación en dos fases. La primera fase está representada por el nudo A en el gráfico (Fig. 2).
Dicha fase puede conducir a uno de los resultados B o C siendo las probabilidades respectivas 1/3 y 2/3. En la segunda fase se puede partir de B o de C, según cual haya sido el resultado de la primera fase. Si se parte de B los resultados pueden ser I y II con probabilidades respectivas 1/2. Si se parte de C los resultados pueden ser III, IV y V con probabilidades respectivas 1/3. Aplicando la fórmula (2) podemos calcular la entropÃa en A y las entropÃas en B y C. Los resultados que se obtienen inmediatamente son los siguientes:
EA = 1__3 log3 + 2__3 log 3__2 = 0,277...
EB = log2 = 0,301...
EC = log3 = 0,477
Veamos cuál es la entropÃa del proceso total P. Este proceso tiene cinco salidas posibles cuyas probabilidades respectivas son: 1/6; 1/6; 2/9; 2/9 y 2/9 como se ve por un sencillo cálculo de probabilidades compuestas. Por tanto la entropÃa del proceso P será aplicando la fórmula (2).
Ep = 1__6 log6 + 1__6 log6 + 2__9 log 2__9 + 2__9 log 9__2 + 2__9 log 9__2 = 0,694...
Tratemos ahora de definir lo que se llama la entropÃa de P ligada a la prueba A. La definición exacta de esta noción, que a continuación trataremos de aclarar prácticamente, es ésta: se llama entropÃa del proceso P ligada a la prueba A al valor medio de las entropÃas correspondientes a las distintas salidas de A, es decir, a la suma de las probabilidades de B y C multiplicadas respectivamente por las entropÃas de EB EC. Hemos visto que las probabilidades de las salidas B y C de la situación A eran 1/3 y 2/3. Las entropÃas de las situaciones B y C han sido calculadas y valen respectivamente log2 y log3. Por tanto la entropÃa de P ligada a la experiencia A será:
EP/A = 1__3 log2 + 2__3 log3 = 0,418...
Se comprueba que:
EP = EA + EP/A (3)
es decir que la entropÃa total del proceso P es igual a la suma de la entropÃa de la situación A más la entropÃa del proceso P ligada a la prueba A.
Esta propiedad tiene carácter general. Para demostrarla bastarÃa efectuar cálculos análogos a los que hemos realizado numéricamente sobre un caso particular, en un caso general con datos literales.
Sin embargo, la fórmula (3) no tiene toda la generalidad deseable puesto que ha sido obtenida a partir del gráfico de la Fig. 2 que tiene una particularidad y es que todas las salidas de situación A pertenecen al proceso total P. Puede ocurrir que no sea asà y en tal caso debemos introducir una pequeña modificación en la fórmula (3) que la hace más general.
Consideremos un proceso P de fabricación en el que partiendo de una situación A se trata de llegar a otra G. Esto puede lograrse por tres procedimientos, dos de los cuales pasan por una fase intermedia B y el tercero por la fase intermedia C. La sucesión de fases está representada por las aristas dobles del gráfico de la Fig. 3.
Fig. 3
Pero en la situación A puede presentarse una tercera salida A igualmente probable que las AB y AC, la cual no pertenece al proceso P. Esta es la novedad del gráfico (3) en relación con el (2) y es que no todas las salidas de la situación A pertenecen al proceso P. Para que la fórmula (3) resulte aplicable a este nuevo caso tendrÃamos que considerar un proceso total PA integrado por todas las salidas del proceso P unidas a las de la situación A que sean extrañas al proceso P (en el caso propuesto la salida AD). La fórmula se escribirÃa pues con referencia al proceso conjunto en la forma:
EPA = EA + EP/A (4)
El proceso P tiene tres salidas posibles ABEG, ABFG y ACFG cuyas probabilidades respectivas son 1/4, 1/4 y 1/2. Su entropÃa es por consiguiente:
EP = 1__4 log4 + 1__4 log4 + 1__2 log2
La situación A tiene tres salidas posibles AB, AC, AD igualmente probables. Su entropÃa es por tanto:
EA = log3
La situación B tiene 2 salidas igualmente probables. Su entropÃa es log 2. La situación C tiene una sola salida y por tanto su entropÃa es 0.
La entropÃa del proceso P ligada a la prueba A, que hemos definido como la media de las entropÃas correspondientes a las distintas salidas de A, deberá ser evaluada dentro del contexto total PA. Por tanto será:
EP/A = 1__3 EB + 1__3 EC + 1__3 log2 + 1__3 log1 = 1__3 log2
Finalmente la entropÃa del proceso conjunto PA se calculará teniendo en cuenta que ofrece cuatro salidas ABEG, ABFG, ACFG, AD la última de ellas extraña al proceso P, cuyas probabilidades son 1/6; 1/6; 1/3 y 1/3. Por tanto su cálculo será:
EPA = 1__6 log6 + 1__6 log6 + 1__3 log3 + 1__3 log3
Se observa inmediatamente que se verifica la relación (4) pero no la (3). Las precauciones señaladas en el cálculo son indispensables.
La noción de información
Supongamos que se trata de encontrar las fichas de las huellas dactilares de dos personas en una colección de mil fichas desordenadas. Más en general, se trata de localizar dos elementos en un conjunto formado por 1.000 elementos. La entropÃa de esta situación de incertidumbre, o del proceso que debemos realizar, se calculará inmediatamente teniendo en cuenta que la situación correspondiente tiene C21000 salidas posibles, todas ellas igualmente probables. Dicha entropÃa será pues igual a log C21000 = log 499500 = 5,698 u.d. Esta es la cantidad total de incertidumbre contra la que tenemos que luchar en este caso. Ahora bien, se nos ofrecen dos procedimientos igualmente costosos. El primero de ellos nos ofrece la posibilidad de «detectar» en un grupo de 100 fichas (o menos) la presencia de una de las fichas buscadas o de las dos fichas. Se trata de la simple presencia no de la localización de las fichas citadas. Es decir, que una vez realizada la prueba sabremos que el grupo o colección utilizada contiene las dos fichas buscadas, o en el mismo está sólo una de ellas o no está ninguna de ellas, sin que el procedimiento nos proporcione más resultado. En cambio, el segundo procedimiento opera sobre colecciones de 50 fichas (o menores), pero no se limita a detectar la presencia de las fichas buscadas, sino que las localiza. Es decir, las salidas de este segundo procedimiento pueden ser éstas: las dos fichas buscadas están aquÃ, son ésta y ésta (primera salida); sólo una de las fichas buscadas está aquà y es ésta (segunda salida) y, finalmente (tercera salida) ninguna de las fichas buscadas está en esta colección. Como se ha dicho, se supone que ambos procedimientos son igualmente costosos desde el punto de vista económico. Elegiremos sin duda, salvo otras razones ajenas a nuestra exposición, el procedimiento que nos suministre mayor cantidad de información, es decir, aquel que, por término medio, nos conduzca a situaciones de menor entropÃa. Recordando la relación (4) antes considerada:
EPA = EA + EP/A
consideraremos representada por la letra A la prueba correspondiente al procedimiento empleado (uno u otro de los que se han indicado y entre los que hay que elegir). Supongamos por ejemplo que hemos aplicado el primer procedimiento a una colección de 100 fichas. Ello habrá eliminado parte de la incertidumbre total (que habÃamos antes evaluado en 5,698 unidades decimales). ¿Pero qué parte? Notemos que después de realizada la prueba A podrán presentarse distintas situaciones. Nos interesa calcular la media de las entropÃas de éstas: consideraremos esta media como la entropÃa restante después de la experiencia. En realidad la entropÃa restante podrá ser mayor o menor que ésta, pero su valor medio esperado será EP/A. Es decir: después de aplicado el procedimiento a una colección de 100 objetos, la cantidad de incertidumbre que nos queda será por término medio EP/A. Tratemos de calcular esta entropÃa ligada. Para ello tenemos que evaluar las entropÃas de las situaciones a que puede llevarnos el procedimiento según las tres salidas que ofrece. El razonamiento se conduce en la forma que vamos a ver a continuación.
Las probabilidades de las tres salidas mencionadas del primer procedimiento son las siguientes:
a) Probabilidad de que las dos fichas buscadas estén en el grupo de 100. Es:
C2100 11
______ = ______
C21000 1110
b) Probabilidad de que sólo una de las fichas buscadas está en el grupo de 100. Es:
2
______
111.
c) Probabilidad de que ninguna de las fichas buscadas esté en el grupo de 100. Es:
899
_______
1110
Veamos ahora cuáles son las entropÃas a las que cada una de esas salidas nos conducen.
a) La primera salida nos conduce a buscar dos fichas en una colección de 100. Por tanto su entropÃa es: log C2100 = log 4950 = 3,695.
b) La segunda salida del procedimiento nos conduce a buscar una ficha en una colección de 100 y una ficha en una colección de 900. Por tanto la entropÃa será la suma de las entropÃas de estos dos procesos, es decir: log100 + log900 = 4,954.
c) La tercera salida nos conduce a buscar dos fichas en una colección de 900. La entropÃa restante serÃa en este caso
log C2900 = log 404550 = 5,607
Conocidas ya las probabilidades de las tres salidas y las entropÃas de los procesos a los que nos conducen, obtendremos la entropÃa media restante, después de la aplicación del procedimiento, con arreglo a la fórmula del valor medio:
11 20 899
______ . 3,695 + _____ . 4,954 + ______ . 5,607 = 4,667
1110 111 1110
Por tanto, antes de realizarse la experiencia sobre la colección de 100 fichas, la entropÃa del proceso era:
EP = 5,698
Después de realizarse la experiencia, podremos vernos conducidos a distintas soluciones, y la entropÃa media de estas situaciones será:
EP/A = 4,667
Podemos decir que la cantidad de información aportada por la aplicación del procedimiento o de la prueba de los 100 ha sido de 5,698 - 4,667 = 1,031 unidades decimales de entropÃa.
Más en general, que la cantidad de información aportada por una prueba A en relación con un proceso P viene expresada por la diferencia entre la entropÃa del proceso total y la entropÃa ligada a A. Es decir, que se tiene en general:
Inf. p(A) = EP - EP/A (5)
La notación utilizada en el primer miembro expresa la cantidad de información proporcionada, por término medio, por la experiencia A en el proceso de incertidumbre P.
La cantidad de información se mide pues por las mismas unidades que la entropÃa. EntropÃa e información son magnitudes homogéneas. La primera radica en el proceso mismo de incertidumbre. La segunda en los procedimientos empleados para deshacer esta incertidumbre.
Continuemos ahora con el examen del caso presentado anteriormente. Debemos ahora evaluar la cantidad de información que aportarÃa la aplicación del segundo procedimiento —el de las cincuenta fichas.
Cálculos análogos a los efectuados en relación con el primer procedimiento nos llevan los siguientes resultados.
El segundo procedimiento tiene tres salidas posibles. Las probabilidades de las mismas y las entropÃas de las situaciones a las que conducen vienen indicadas a continuación
245
1ª salida Probabilidad EntropÃa de la situación a la que conduce: o
999000
95000
2ª salida Probabilidad EntropÃa correspondiente 4,676
999000
901550
3ª salida Probabilidad EntropÃa correspondiente 5,654
999000
EntropÃa restante media EP/A = 5,106
Diferencia de entropÃas 0,592
La cantidad de información aportada por el segundo procedimiento es pues de 0,592 unidades decimales. Es menor que la del primer procedimiento.
Por consiguiente, para iniciar el proceso de investigación nos convendrá más elegir el primer procedimiento. Esto no significa que una vez realizadas alguna o algunas experiencias, no nos interese cambiar de método ya que las condiciones del problema se van alterando. Pero el decidirnos sobre este punto requerirÃa prolongar el estudio matemático que acabamos de dejar iniciado.
Resumen
En la brevÃsima exposición que acabamos de hacer hemos presentado las tres nociones más importantes y fundamentales del cálculo informativo. La primera de ellas la entropÃa o cantidad de incertidumbre contenida en una situación o implicada en un proceso con diversas salidas posibles. En la segunda de estas nociones, la de entropÃa ligada a una prueba o experiencia, se considera la cantidad de incertidumbre restante después de la realización de dicha prueba. Es decir, que la realización de la prueba, proporcionándonos nuevos datos sobre la situación, reduce la entropÃa (aunque a veces ésta puede no variar siendo en este caso inútil la experiencia desde el punto de vista de la información). La tercera noción a la que nos conducen las dos anteriores es la de cantidad (media) de información que puede suministrarnos una prueba o experiencia. En ningún caso podrá darse por conocida una situación si las informaciones no cubren la entropÃa total de la misma.
Con estos elementos, hábilmente utilizados, se pueden obtener resultados sorprendentes en relación con procesos de comunicación, tales como los que se realizan en los organismos vivos o en las máquinas electrónicas, y también en otros de carácter social, como son los idiomas y los códigos. Pero naturalmente no podemos en los estrechos lÃmites de esta nota iniciar al lector en estos dominios de aplicación.
Bilaketa-sistema honek letra-multzoak bilatzen ditu (ez dago ez lematizatzailerik ez inolako analisirik).
Hitzaren hasiera bilatzen da beti, eta ez hitzaren barrukoa (etx bilaketak ez du aurkituko basetxe).
Hitz-multzoak bilatu daitezke, hitz-segida emanez gero (kristau fede adibidez).
Bilaketaren corpusa hautatzeko aukera dago: euskarazkoetan soilik / gaztelaniazkoetan soilik / hizkuntza guztietan (euskarazkoak, gaztelaniazkoak eta frantsesezkoak batera).