[ideoL] Entropia (Miguel)

David Sánchez Tue, 01 Oct 2002 09:47:18 -0700


Carlos ya ha explicado bastante bien algunas implicaciones del concepto de
Entropía Estadística e Información en lingüística, si os parece voy a
explicar un poco más como se mide y la motivación de la misma. Para aclarar
las cosas diremos que en cualquier sistema en que intervienen las
probabilidades hay cierta incertidumbre (no sabemos que es lo que va a
pasar, solo tenemos una ligera idea de las probabilidades).


Cuando examinamos un texto en una lengua que no conocemos las palabras
forman secuencias de letras que aparentemente aparecen al azar (para una
persona que no conozca la lengua en cuestión esas letras se aparecerán de
manera aleatoria y caprichosa). Evidentemente uno sabe puede hacer cuentas y
ver que unas letras o secuencias aparecen más que otras (los morfemas de
dicha lengua o las secuencias que forman preposiciones). Podemos por tanto
hablar de la porbabilidad de que aparezca una u otra letra y por tanto
podemos hablar de probabilidades, de incertidumbres sobre cual será la
siguiente letra etc. Está claro que de tanto en tanto un encuentra ciertas
regularidaes por ejemplo cuando en castellano uno encuentra la secuencia
<cio> la siguiente letra un elevado número de veces es <n> ya que hay muchas
palabras acabadas en <ción> pero no tambien hay secuencias como <comercio>
en las que <cio> no va seguida de <n>.

La información estadística se entiende como la cantidad necesaria de
información necesaria para despejar toda incertidumbre. Y la ENTROPÍA
estadística no es ni más ni menos que una medida de esta incertidumbre (y
por tanto también de la información "faltante" o la información requierida,
o la información subyacente a algo). Por ejemplo si yo escribo un número
binario de dos digitos (bits) bastará con especificar 2 bits de información
para despejar las incertidumbres [será uno de estos cuatro: 00,01,10,11] .
Pero y para despejar un numero de dos difras decimales? Obviamente aqui la
incertidumbre o la cantidad necesaria es mayor ya que existen cien
posiblidades: 00,01,02,... 98,99. Cual es por tanto una medida razonable de
la información? Está claro que pare acertar un de dos cifras decimales (100
posiblidaes) se requiere justo el doble de información número del 0 al 9 (10
posibilidades). Con lo cual el numero de posibildades no es una buena medida
de incertidumbre. Imaginemos que tenemos N posibildades y digamos que la
entropía S puede expresarse como función del numero de posiblidades:

S = f(N)    [siendo f( ) una función que habrá que determinar]

Antes hemos visto que S=f(100) = f(10) + f(10) es decir la información
necesaria para especificar una posiblidad entre 100 es justo el doble de la
informacion necesaria para especificar una posbilidad entre 10. No voy a
entrar en el detalle matemático pero esta simple propiedad implica que f( )
solo puede ser una función logarítimica, es decir, f(N) = k·log(N) [siendo k
una constante]. Esto lo hemos hecho para sucesos con N posbilidades
igualmente probables pero que ocurre si no todas las posibilidades son
igualmente probables como sucede por ejemplo con las letras? (algunas letras
como C, A y E aparecen continuamente mientras que X, K o W casi no
aparecen). Si tenemos N posiblidaes equiporbables cada una aprece con una
probabilidad p = 1/N por tanto nuestra formula en función de la probabilidad
se escribe S(p) = f(1/p) = k·log(1/p).
Por otra parte está claro a partir de esto que las letras menos frecuentes
probabilidad p pequeña proporcionan más información: por ejemplo tratar de
advinar que palabra se esconde aquí en (a) y (b):
(a)    _a_a
(b)    k_w_

Para la primera como a es muy frecuente hay muchas palabras posibles <casa,
bata, caca, pata, mama, papa, ...> sin embargo para segunda está claro que
solo puede ser <kiwi> (fruta tropical). De hecho eso pasa en la vida real
los sucesos infrecuentes nos dan más pistas: si llego y voy al bosque donde
voy los domingos y lo veo todo calcinado sé que se ha producido un incendio,
mientras que si lo veo como casi siempre no puedo deducir mucho de lo que a
sucedido previamente.

Una medida buena de la incertidumbre es promediar la información que aporta
cada letra. Cada letra aporta por sí misma una información k·log(1/p)
[siendo p su probabilidad de aparición] por tanto el promedio de información
por letra será: S = k·suma( p·log(1/p)) [donde la suma se realiza para cada
una de las letras]. Esta es la fórmula de la entropía estadística que se
aplica a letras, a átomos, a sucesos probabilísticos y a cualquier cosa
donde intervengan las probabilidades y la incertidumbres (de hecho es la
fórmula de más amplio uso que conozco).

Si tomais un texto en inglés vereis que la entropía por letra aparente
usando la formula anterior es 4,76 y de hecho casi cualquier otra lengua
escrita en alfabeto latino o cirilico viene a dar resultados similares. En
otro mensaje deberíamos explicar como al hablar de <cio> y <cion> que por
encima de la aparente aleatoriedad si existen ciertas correlaciones que
hacen que las letras no sean del todo azarosas (y en eso se basan los juegos
de adivinar palabras) y de hecho la entropía o incertidumbre real es como
una cuarta parte. Por eso si elimino las vocales como se hace en hebreo y
árabe todavía me queda alrededor de la mitad de la entropía disponible para
reconstruir las palabras pero si además borro algunas consonantes el juego
se vuelve más dificil.

David S.







En realidad, las leyes del azar son con frecuencia unmodelo mejor de la
ignorancia,
que las leyes de la lógica lo son del pensamiento organizado.
B. MANDELBROT

5.1. Introducción a la teoría de la información
Uno de los desarrollos teóricos más prolíficos del siglo XX ha sido la
teoría de la información. Iniciada por el ingeniero eléctrico Claude E.
Shannon en su histórico artículo[1] de 1948, la teoría ha encontrado amplia
aplicación en muchos y muy diversos campos: en las telecomunicaciones, en la
programación, en la física pura y marginalmente en lingüística y psicología.
El objetivo de este capítulo es aplicarla a la lingüística de una manera
diferente a como se había hecho hasta ahora.
A parte de las aplicaciones lingüísticas, que más adelante discutiremos, hay
otras disciplinas colaterales a la misma dentro de las cuáles la teoría de
la información ha hecho sus aportaciones como en criptología y en
psicología. Dentro de la criptología (aplicable al desciframiento de textos
antiguos) la teoría de la información ha demostrado que la cantidad de
información por signo está íntimamente ligada a la posibilidad de descifrar
criptogramas: cuanto menor es esta cantidad más sencillo es el
desciframiento y se necesita menor cantidad de material para el
desciframiento. Así pues dentro de ciertos límites, la teoría se vuelve
predictiva y cuantitativa, proporcionando los medios de calcular que
cantidad de textos deben interceptarse en cierta lengua con el objeto de
asegurar la existencia y la unicidad de una solución al criptograma o texto
cifrado. También los psicólogos han encontrado relaciones interesantes entre
la cantidad de información (cuantificada según la fórmula de Shannon)
contenida en un estímulo y el tiempo de reacción al estímulo. Por ejemplo,
en un experimento[2] se colocan cuatro luces y cuatro pulsadores asociados;
las luces se encienden y apagan al azar con probabilidades p1, p2, p3, p4 y
se pide a un individuo que apriete los botones correspondientes después de
que una luz se apague, tan rápidamente como sea posible. El resultado de
este experimento es que el tiempo medio de reacción requerido treac se
incrementa linealmente con la cantidad de información reportada por las
luces, es decir:
                               treac = t0 + a·IShannon

(siendo t0 y a números constantes; IShannon : información computada por la
fórmula de Shannon, es decir, Ishannon = -(p1ln p1+p2ln p2+p3ln p3+p4ln
p4) ). Este resultado sugiere una connexión intrínseca entre al manera en
que los seres humanos procesan la información y la fórmula teórica de
Shannon; hecho crucial para la psicolingüística de corte matemático.

Cuantificación del cambio lingüístico mediante la teoría de la información
En su artículo original Shannon dedujo una fórmula matemática que da una
medida de la cantidad de información o imprevisibilidad asociada a un
proceso de elección entre posibilidades con diferentes probabilidades de
ocurrencia[3]. De esta manera podemos evaluar, por ejemplo, la cantidad de
información por fonema de un fragmento leído a partir de las diversas
probabilidades de ocurrencia de los diferentes fonemas. Armados con esta
medida de la cantidad de información podemos abordar muy diversos problemas.
Dentro de la lingüística la teoría de la información sólo se había aplicado
a dos problemas: el estudio de la redundanciaen el lenguaje[4] (Shannon,
1951) y la ley de distribución de frecuencias de las palabras[5][6] (Zipf,
1949; Mandelbrot, 1961).
En este capítulo se pretende aplicar la fórmula de Shannon a la lingüística
histórica de una manera que proporcione una medida efectiva del cambio
lingüístico. Ilustremos la idea básica con un caso concreto: supongamos, por
ejemplo, que tomamos dos lenguas románicas como el francés y el rumano, y
pretendemos cuantificar su divergencia o disimilitud con respecto al latín.
Esto se conseguiría midiendo la "latinicidad" (en los diferentes niveles:
fonético-fonológico, morfosintáctico y léxico-semántico) del rumano y del
francés. El hecho importante aquí es que la teoría de la información nos
permite construir una medida razonable de la "latinicidad" de una lengua.
Las ideas claves para lograr esta medida son dos. Por una parte, una persona
que conozca el francés o el rumano puede aprovechar este conocimiento para
aprender el latín más fácilmente; esto se debe a que hay ciertas
correlaciones entre la estructura de estas lenguas y la del latín. Por otra
parte, una persona que únicamente hablase latín no podría comprender el
francés o el rumano, sin cierto entrenamiento previo; esto se debe a que de
alguna manera se han añadido elementos nuevos que no son predictibles a
partir únicamente del latín, es decir, se ha añadido información nueva a la
base latina original. Ponderando convenientemente la información
correlacionada con la información nueva esbozaremos una medida de la
"latinicidad" de la siguiente manera: tomemos una muestra significativamente
grande de palabras latinas y de sus equivalentes en otra lengua románica;
calculemos a continuación, por ejemplo, mediante la fórmula de Shannon las
cantidades de información por fonema IR (para la lengua románica) y IL (para
el latín) además de la información  no predictible a partir del latín de la
lengua románica[7] que designaremos por IR|L. Es evidente que se cumplirá
que (más adelante daremos una demostración) IR|L £ IR, siendo tanto IR|L
tanto más alto cuanto menos próxima sea la lengua al latín. Así pues una
buena medida de la "latinicidad" a nivel fonético-fonológico Cfon será:




[1]Shanon, C. E. (1948): "The Mathematical Theory of Communication",
Univetisty of Illinois Press, pp. 3-28.
[2]Holzmüller, W, (1984): Information in Biological Systems.
[3]Algunos autores, como Mackay, prefieren llamar imprevisibilidad a la
magnitud medida por la fórmula de Shanon; está muy claro que la
imprevisibilidad de una situación es igual a la cantidad de información
necesaria para determinar por completo la elección de una de las
posibilidades.
[4]Shanon, E. C. (1949): "Prediction and Entropy of Printed English", Bell
System Tech. J. 30, pp 50-64.
[5]Zipf, G. K. (1949): Human Behaviour and the Principle of Least Effort,
Addison-Wesley, Cambride, Massachusetts.
[6]Mandelbrot, B. (1961): "On the theory of word frecuencies and on related
markovian models of discurse", en Structure of language and its mathematical
aspects (volumen dirigido por  R. Jakobson), Providence, American
Mathematical Society.
[7]Más adelante se darán las fórmulas y procedimientos explícitos para estos
cálculos. También discutiremos detalladamente los problemas técnicos y
conceptuales que se presentan, como por ejemplo, la no-equivalencia exacta
de formas léxicas, cómo establecer las correspondencias entre lenguas no
emparentadas, etc.


--------------------------------------------------------------------
IdeoLengua - Lista de Lingüistica e Idiomas Artificiales
Suscríbase en [EMAIL PROTECTED]
Informacion en http://ideolengua.cjb.net
Desglose temático 
http://groups.yahoo.com/group/ideolengua/files/Administracion/top-ideol.htm


 

Su uso de Yahoo! Grupos está sujeto a las http://e1.docs.yahoo.com/info/utos.html

[ideoL] Entropia (Miguel)

Responder a