Carlos ya ha explicado bastante bien algunas implicaciones del concepto de Entropía Estadística e Información en lingüística, si os parece voy a explicar un poco más como se mide y la motivación de la misma. Para aclarar las cosas diremos que en cualquier sistema en que intervienen las probabilidades hay cierta incertidumbre (no sabemos que es lo que va a pasar, solo tenemos una ligera idea de las probabilidades).
Cuando examinamos un texto en una lengua que no conocemos las palabras forman secuencias de letras que aparentemente aparecen al azar (para una persona que no conozca la lengua en cuestión esas letras se aparecerán de manera aleatoria y caprichosa). Evidentemente uno sabe puede hacer cuentas y ver que unas letras o secuencias aparecen más que otras (los morfemas de dicha lengua o las secuencias que forman preposiciones). Podemos por tanto hablar de la porbabilidad de que aparezca una u otra letra y por tanto podemos hablar de probabilidades, de incertidumbres sobre cual será la siguiente letra etc. Está claro que de tanto en tanto un encuentra ciertas regularidaes por ejemplo cuando en castellano uno encuentra la secuencia <cio> la siguiente letra un elevado número de veces es <n> ya que hay muchas palabras acabadas en <ción> pero no tambien hay secuencias como <comercio> en las que <cio> no va seguida de <n>. La información estadística se entiende como la cantidad necesaria de información necesaria para despejar toda incertidumbre. Y la ENTROPÍA estadística no es ni más ni menos que una medida de esta incertidumbre (y por tanto también de la información "faltante" o la información requierida, o la información subyacente a algo). Por ejemplo si yo escribo un número binario de dos digitos (bits) bastará con especificar 2 bits de información para despejar las incertidumbres [será uno de estos cuatro: 00,01,10,11] . Pero y para despejar un numero de dos difras decimales? Obviamente aqui la incertidumbre o la cantidad necesaria es mayor ya que existen cien posiblidades: 00,01,02,... 98,99. Cual es por tanto una medida razonable de la información? Está claro que pare acertar un de dos cifras decimales (100 posiblidaes) se requiere justo el doble de información número del 0 al 9 (10 posibilidades). Con lo cual el numero de posibildades no es una buena medida de incertidumbre. Imaginemos que tenemos N posibildades y digamos que la entropía S puede expresarse como función del numero de posiblidades: S = f(N) [siendo f( ) una función que habrá que determinar] Antes hemos visto que S=f(100) = f(10) + f(10) es decir la información necesaria para especificar una posiblidad entre 100 es justo el doble de la informacion necesaria para especificar una posbilidad entre 10. No voy a entrar en el detalle matemático pero esta simple propiedad implica que f( ) solo puede ser una función logarítimica, es decir, f(N) = k·log(N) [siendo k una constante]. Esto lo hemos hecho para sucesos con N posbilidades igualmente probables pero que ocurre si no todas las posibilidades son igualmente probables como sucede por ejemplo con las letras? (algunas letras como C, A y E aparecen continuamente mientras que X, K o W casi no aparecen). Si tenemos N posiblidaes equiporbables cada una aprece con una probabilidad p = 1/N por tanto nuestra formula en función de la probabilidad se escribe S(p) = f(1/p) = k·log(1/p). Por otra parte está claro a partir de esto que las letras menos frecuentes probabilidad p pequeña proporcionan más información: por ejemplo tratar de advinar que palabra se esconde aquí en (a) y (b): (a) _a_a (b) k_w_ Para la primera como a es muy frecuente hay muchas palabras posibles <casa, bata, caca, pata, mama, papa, ...> sin embargo para segunda está claro que solo puede ser <kiwi> (fruta tropical). De hecho eso pasa en la vida real los sucesos infrecuentes nos dan más pistas: si llego y voy al bosque donde voy los domingos y lo veo todo calcinado sé que se ha producido un incendio, mientras que si lo veo como casi siempre no puedo deducir mucho de lo que a sucedido previamente. Una medida buena de la incertidumbre es promediar la información que aporta cada letra. Cada letra aporta por sí misma una información k·log(1/p) [siendo p su probabilidad de aparición] por tanto el promedio de información por letra será: S = k·suma( p·log(1/p)) [donde la suma se realiza para cada una de las letras]. Esta es la fórmula de la entropía estadística que se aplica a letras, a átomos, a sucesos probabilísticos y a cualquier cosa donde intervengan las probabilidades y la incertidumbres (de hecho es la fórmula de más amplio uso que conozco). Si tomais un texto en inglés vereis que la entropía por letra aparente usando la formula anterior es 4,76 y de hecho casi cualquier otra lengua escrita en alfabeto latino o cirilico viene a dar resultados similares. En otro mensaje deberíamos explicar como al hablar de <cio> y <cion> que por encima de la aparente aleatoriedad si existen ciertas correlaciones que hacen que las letras no sean del todo azarosas (y en eso se basan los juegos de adivinar palabras) y de hecho la entropía o incertidumbre real es como una cuarta parte. Por eso si elimino las vocales como se hace en hebreo y árabe todavía me queda alrededor de la mitad de la entropía disponible para reconstruir las palabras pero si además borro algunas consonantes el juego se vuelve más dificil. David S. En realidad, las leyes del azar son con frecuencia unmodelo mejor de la ignorancia, que las leyes de la lógica lo son del pensamiento organizado. B. MANDELBROT 5.1. Introducción a la teoría de la información Uno de los desarrollos teóricos más prolíficos del siglo XX ha sido la teoría de la información. Iniciada por el ingeniero eléctrico Claude E. Shannon en su histórico artículo[1] de 1948, la teoría ha encontrado amplia aplicación en muchos y muy diversos campos: en las telecomunicaciones, en la programación, en la física pura y marginalmente en lingüística y psicología. El objetivo de este capítulo es aplicarla a la lingüística de una manera diferente a como se había hecho hasta ahora. A parte de las aplicaciones lingüísticas, que más adelante discutiremos, hay otras disciplinas colaterales a la misma dentro de las cuáles la teoría de la información ha hecho sus aportaciones como en criptología y en psicología. Dentro de la criptología (aplicable al desciframiento de textos antiguos) la teoría de la información ha demostrado que la cantidad de información por signo está íntimamente ligada a la posibilidad de descifrar criptogramas: cuanto menor es esta cantidad más sencillo es el desciframiento y se necesita menor cantidad de material para el desciframiento. Así pues dentro de ciertos límites, la teoría se vuelve predictiva y cuantitativa, proporcionando los medios de calcular que cantidad de textos deben interceptarse en cierta lengua con el objeto de asegurar la existencia y la unicidad de una solución al criptograma o texto cifrado. También los psicólogos han encontrado relaciones interesantes entre la cantidad de información (cuantificada según la fórmula de Shannon) contenida en un estímulo y el tiempo de reacción al estímulo. Por ejemplo, en un experimento[2] se colocan cuatro luces y cuatro pulsadores asociados; las luces se encienden y apagan al azar con probabilidades p1, p2, p3, p4 y se pide a un individuo que apriete los botones correspondientes después de que una luz se apague, tan rápidamente como sea posible. El resultado de este experimento es que el tiempo medio de reacción requerido treac se incrementa linealmente con la cantidad de información reportada por las luces, es decir: treac = t0 + a·IShannon (siendo t0 y a números constantes; IShannon : información computada por la fórmula de Shannon, es decir, Ishannon = -(p1ln p1+p2ln p2+p3ln p3+p4ln p4) ). Este resultado sugiere una connexión intrínseca entre al manera en que los seres humanos procesan la información y la fórmula teórica de Shannon; hecho crucial para la psicolingüística de corte matemático. Cuantificación del cambio lingüístico mediante la teoría de la información En su artículo original Shannon dedujo una fórmula matemática que da una medida de la cantidad de información o imprevisibilidad asociada a un proceso de elección entre posibilidades con diferentes probabilidades de ocurrencia[3]. De esta manera podemos evaluar, por ejemplo, la cantidad de información por fonema de un fragmento leído a partir de las diversas probabilidades de ocurrencia de los diferentes fonemas. Armados con esta medida de la cantidad de información podemos abordar muy diversos problemas. Dentro de la lingüística la teoría de la información sólo se había aplicado a dos problemas: el estudio de la redundanciaen el lenguaje[4] (Shannon, 1951) y la ley de distribución de frecuencias de las palabras[5][6] (Zipf, 1949; Mandelbrot, 1961). En este capítulo se pretende aplicar la fórmula de Shannon a la lingüística histórica de una manera que proporcione una medida efectiva del cambio lingüístico. Ilustremos la idea básica con un caso concreto: supongamos, por ejemplo, que tomamos dos lenguas románicas como el francés y el rumano, y pretendemos cuantificar su divergencia o disimilitud con respecto al latín. Esto se conseguiría midiendo la "latinicidad" (en los diferentes niveles: fonético-fonológico, morfosintáctico y léxico-semántico) del rumano y del francés. El hecho importante aquí es que la teoría de la información nos permite construir una medida razonable de la "latinicidad" de una lengua. Las ideas claves para lograr esta medida son dos. Por una parte, una persona que conozca el francés o el rumano puede aprovechar este conocimiento para aprender el latín más fácilmente; esto se debe a que hay ciertas correlaciones entre la estructura de estas lenguas y la del latín. Por otra parte, una persona que únicamente hablase latín no podría comprender el francés o el rumano, sin cierto entrenamiento previo; esto se debe a que de alguna manera se han añadido elementos nuevos que no son predictibles a partir únicamente del latín, es decir, se ha añadido información nueva a la base latina original. Ponderando convenientemente la información correlacionada con la información nueva esbozaremos una medida de la "latinicidad" de la siguiente manera: tomemos una muestra significativamente grande de palabras latinas y de sus equivalentes en otra lengua románica; calculemos a continuación, por ejemplo, mediante la fórmula de Shannon las cantidades de información por fonema IR (para la lengua románica) y IL (para el latín) además de la información no predictible a partir del latín de la lengua románica[7] que designaremos por IR|L. Es evidente que se cumplirá que (más adelante daremos una demostración) IR|L £ IR, siendo tanto IR|L tanto más alto cuanto menos próxima sea la lengua al latín. Así pues una buena medida de la "latinicidad" a nivel fonético-fonológico Cfon será: [1]Shanon, C. E. (1948): "The Mathematical Theory of Communication", Univetisty of Illinois Press, pp. 3-28. [2]Holzmüller, W, (1984): Information in Biological Systems. [3]Algunos autores, como Mackay, prefieren llamar imprevisibilidad a la magnitud medida por la fórmula de Shanon; está muy claro que la imprevisibilidad de una situación es igual a la cantidad de información necesaria para determinar por completo la elección de una de las posibilidades. [4]Shanon, E. C. (1949): "Prediction and Entropy of Printed English", Bell System Tech. J. 30, pp 50-64. [5]Zipf, G. K. (1949): Human Behaviour and the Principle of Least Effort, Addison-Wesley, Cambride, Massachusetts. [6]Mandelbrot, B. (1961): "On the theory of word frecuencies and on related markovian models of discurse", en Structure of language and its mathematical aspects (volumen dirigido por R. Jakobson), Providence, American Mathematical Society. [7]Más adelante se darán las fórmulas y procedimientos explícitos para estos cálculos. También discutiremos detalladamente los problemas técnicos y conceptuales que se presentan, como por ejemplo, la no-equivalencia exacta de formas léxicas, cómo establecer las correspondencias entre lenguas no emparentadas, etc. -------------------------------------------------------------------- IdeoLengua - Lista de Lingüistica e Idiomas Artificiales Suscríbase en [EMAIL PROTECTED] Informacion en http://ideolengua.cjb.net Desglose temático http://groups.yahoo.com/group/ideolengua/files/Administracion/top-ideol.htm Su uso de Yahoo! Grupos está sujeto a las http://e1.docs.yahoo.com/info/utos.html