Re: [ideoL] La entropía en la información

mariano de vierna y carles-tolrà Thu, 07 Mar 2002 11:23:40 -0800


            Juan,


            aunque no soy un experto no le quito el ojo de encima
a las cuestiones de entropía, pues es esta precisamente la clave
para entender por qué un computador no puede pensar por sí mismo
(no sigue las leyes de Newton, para las que todo es reversible), su
entropía o tiende a mantenerse o aumentar si disminuye es por
influencia externa solo momentaneamente; algo distinto ocurre
con los seres que se organizan a sí mismos (¿"autoorganizables"?
no da el sentido reflexivo apropiado) en estos la entropía puede
crecer o mantenerse, pero, la tendencia es a que disminuya en
cuanto que la información tiende a aumentar (se hacen más
complejos).

[juan]
La verdad es que no estoy muy puesto en todos estos temas de entropía, pero
sí se algo de transmisión de la información, al fin y al cabo ese es el
corazón de la informática.
[mariano]
¡Pues de eso se trata, de las leyes de Shanon para la trasmisión de la
información! "La segunda ley de Shanon" es sobre la entropía de
la información. De lo que trato es de una tercera ley de la información
referible a sistemas abiertos que se organizan a sí mismos y que conocemos
en los seres vivos.

[juan]
Eso significa que el número de bits necesarios para enviar un mensaje,
siendo la frecuencia de uso de cada palabra inversamente proporcional al
cuadrado de su longitud (1/2, 1/4, 1/8, 1/16, etc), sería:
1/2+2/4+3/8+4/16+ ... + n/2^n + ... + (n-1)/2^(n-1) + (n-1)/2^(n-1)
Hasta ahí llego yo.
[mariano]
No sé seguirte, pero, en fin, sigo leyendo.

[juan]
Ahora bien, las probabilidades de aparición de una palabra nunca se
corresponderán con este caso hipotético, si ponemos todas las palabras de
cualquier lenguaje por orden de frecuencia, estas frecuencias mostrarán un
abanico de distribución mucho más cerrado que empieza mucho más abajo. La
palabra más frecuente del español no sé cual será, puede que A o DE o EL, ni
idea, pero su probabilidad no es de 1/2, quizás, todo lo más, sea de 1/20. Y
suponiendo un vocabulario de mil palabras, las dos menos probables tendrían
que tener una probabilidad de 1/2^999. Esa es una probabilidad tan baja que
pasarían yoquesentos mil porrillones de veces la edad del universo para que
se usara, y estoy dispuesto a hacer una apuesta capaz de producir una
paradoja.
En cualquier sistema de comunicación, la palabra menos frecuente saldrá en
todos los informes estadísticos, con lo que a la larga será más frecuente
que la que tiene una frecuencia inmediatamente inferior.
Si sois capaces de mascar esta ultima frase os dareis cuenta de que implica
una paradoja bestial.
[mariano]
He hecho una lista del corpus ORAL de la UAM (Universidad Autónoma de
Madrid) que tiene unas 1 200 000 palabras. La palábra más frecuente que
encuentro es "QUE" y representa el 5,3% (es decir 1 sobre 20) y va seguida de
cerca por "DE" con el 4,33% (es decir 1 sobre 23), así que no son del todo
equivocadas tus conjeturas. La palabra menos frecuente que me aparece es
un error, >:-(, la primera no erronea es: "ZURZAN" no solo por su infrecuencia,
también, por empezar por "Z" y su probabilidad es practicamente 1 sobre
0,000 000 8.
Supongo que quieres decir que en todos los informes estadísticos se incluiría
la palabra de menor frecuencia pero no la anterior y por eso...
Pero, el lenguaje es adaptativo y la palabra de menor frecuencia es muy probable
que vaya cambiando, por el contrario la de mayor frecuencia es probable que
se mantenga, con lo que curiosamente en el lenguaje natural se da un giro
lógico a la paradoja.

[juan]
Nosotros tenemos la suerte de ser inteligentes (o eso me creo a veces) y
somos capaces de tratar con códigos de longitud variable, pero intentar
aplicar fórmulas tan precisas a un tema tan poco matematizable como el del
lenguaje me parece bastante difícil.
[mariano]
El problema se da si se aplican principios unidimensionales, se precisa pensar
en dimensiones múltiples y fraccionarias. Yo creo que se lograrán aproximaciones
muy interesantes mediante la geometría de fractales y su matemática o, si lo
prefieres, con la teoría del caos en la cuál se estudia la recursión.
¿Cómo se podría predecir un cambio en el lenguaje? Prestando atención a la entropía
del sistema porque señala su predicibilidad, y se logrará una aproximación
en la predicción tanto mayor cuanto mas predecible sea el sistema, cuanto más se
sepa del sistema y cuanto más corto sea el plazo o la distancia del estado del
sistema que se quiere predecir.
Ya hay usos de esto, pues, el valor de la entropía es una característica tan
específica de cada idioma que se pueden distinguir las familias de lenguas
en función de su medida.
No soy capaz de decidir qué posibilidades puede tener esta clase de planteamiento,
pero creo que es la clase de planteamientos que vienen.

Un saludo cordial,
                                                        mariano







--------------------------------------------------------------------
IdeoLengua - Lista de Lingüistica e Idiomas Artificiales
Suscríbase en [EMAIL PROTECTED]
Informacion en http://ideolengua.cjb.net


 

Su uso de Yahoo! Grupos está sujeto a las http://e1.docs.yahoo.com/info/utos.html

Re: [ideoL] La entropía en la información

Responder a