La relación entre entropía e información. Entropía de la información. la fórmula de shannon

Concepto entropía introducido por primera vez en 1865 por R. Clausius en termodinámica para determinar la medida de la disipación de energía irreversible. La entropía se utiliza en diversas ramas de la ciencia, incluida la teoría de la información, como medida de la incertidumbre de cualquier experiencia o prueba, que puede tener diferentes resultados. Estas definiciones de entropía tienen una profunda conexión interna. Así, a partir de ideas sobre la información, se pueden deducir todas las disposiciones más importantes de la física estadística. [BES. Física. M: Gran Enciclopedia Rusa, 1998].

Entropía binaria de información para eventos aleatorios independientes (desigualmente probables) incógnita Con norte estados posibles (de 1 a norte, pag- función de probabilidad) se calcula mediante la fórmula de shannon:

Esta cantidad también se llama entropía promedio mensajes. La entropía en la fórmula de Shannon es la característica promedio: la expectativa matemática de la distribución de una variable aleatoria.
Por ejemplo, en la secuencia de letras que componen una oración en ruso, aparecen diferentes letras con diferentes frecuencias, por lo que la incertidumbre de aparición de algunas letras es menor que de otras.
En 1948, al explorar el problema de la transmisión racional de información a través de un canal de comunicación ruidoso, Claude Shannon propuso un enfoque probabilístico revolucionario para comprender las comunicaciones y creó la primera teoría de la entropía verdaderamente matemática. Sus sensacionales ideas sirvieron rápidamente de base para el desarrollo de la teoría de la información, que utiliza el concepto de probabilidad. El concepto de entropía como medida de aleatoriedad fue introducido por Shannon en su artículo "A Mathematical Theory of Communication", publicado en dos partes en el Bell System Technical Journal en 1948.

En el caso de eventos igualmente probables (un caso especial), cuando todas las opciones son igualmente probables, la dependencia permanece solo en el número de opciones consideradas y la fórmula de Shannon se simplifica significativamente y coincide con la fórmula de Hartley, propuesta por primera vez por un ingeniero estadounidense. Ralph Hartley en 1928, como uno de los enfoques científicos para evaluar mensajes:

, donde I es la cantidad de información transmitida, p es la probabilidad del evento, N es el número posible de mensajes diferentes (igualmente probables).

Tarea 1. Para eventos igualmente probables.
Hay 36 cartas en la baraja. ¿Cuánta información contiene el mensaje de que se tomó de la baraja una carta con un retrato de "as"? ¿“as de espadas”?

Probabilidad p1 = 4/36 = 1/9 y p2 = 1/36. Usando la fórmula de Hartley tenemos:

Respuesta: 3,17; 5,17 bits
Tenga en cuenta (del segundo resultado) que para codificar todas las tarjetas, se necesitan 6 bits.
También se desprende claramente de los resultados que cuanto menor es la probabilidad de un evento, más información contiene. (Esta propiedad se llama monotonía)

Tarea 2. Para eventos desigualmente probables
Hay 36 cartas en la baraja. De ellas, 12 son tarjetas con “retratos”. Una por una, se toma una de las cartas de la baraja y se muestra para determinar si representa un retrato. La carta se devuelve a la baraja. Determine la cantidad de información transmitida cada vez que se muestra una tarjeta.

Durante cualquier proceso de control y transmisión, la información de entrada se convierte en información de salida. Por lo general, se entiende por información cierta información, símbolos, signos. Teoría estadística: el concepto de información se caracteriza como la eliminación de la incertidumbre.

La información se define como información que es objeto de almacenamiento, transmisión y recepción. La información se transmite mediante una señal. La valoración cuantitativa de la obtención de información se basa en la idea de la transmisión de mensajes como un proceso estocástico aleatorio en el tiempo.

La incertidumbre se elimina mediante pruebas; cuanto mayor es la incertidumbre, mayor es el valor de la información.

El grado de incertidumbre depende de la cantidad de valores que puede tomar la cantidad y del resultado de los eventos.

La variable aleatoria H(A) se determina como una medida de la cantidad de información:

Dónde -probabilidad de resultado.

El signo menos representa la compensación H(A): esta es la entropía de la experiencia A (la fórmula fue inventada por Claude Chinon).

Cuanto mayor H(A), mayor es la medida de ignorancia.

La acumulación de información sobre un sistema reduce la entropía. La información es una cierta contribución a la entropía.

Sea un sistema x dado.

Si
, Eso

Dónde

La recepción de información es un reflejo objetivo del estado del sistema y puede utilizarse para transmisión, control, decisión, etc.

La información no es una categoría material o energética; nunca se crea, sólo se transmite y se recibe, sino que puede perderse y desaparecer.

Según la segunda ley de la termodinámica, la entropía aumenta paralelamente a la destrucción de estructuras organizadas, tendiendo a un estado probabilístico caótico.

Se considera unidad de medida la cantidad de información contenida en alguna variable aleatoria, que se acepta con igual probabilidad. La unidad de grado de incertidumbre se considera la entropía de un evento elemental que tiene dos resultados con la misma probabilidad y dos valores diferentes.

-unidad binaria o bit.

sistema x conectado

sistema y

I(x,y)=H(x)+H(y)-H(x,y), donde

H(x,y) es la entropía del sistema unificado.

, Dónde,

Para señal continua.

donde (x) es la densidad de probabilidad del valor x. El enfoque de Chinon no tiene en cuenta el contenido semántico.

33. El concepto de fuente ergódica. Redundancia.

En la práctica, existen fuentes ergódicas en las que los vínculos de correlación se extienden a un número finito de fuentes anteriores. En una fuente ergódica
no hay correlaciones, es decir

La representación matemática de los mensajes generados por fuentes ergódicas es Cadena de Markov.

cadena de markov El orden n es una secuencia, cuya dependencia de las pruebas, la probabilidad de algún resultado
en un ensayo depende de los resultados que ocurrieron en ensayos anteriores, pero no depende de resultados anteriores.

En una fuente ergódica de n orden de distribución
cuando k=1,2,…,m no permanece constante, sino que depende de cuáles fueron las últimas n letras de los mensajes.

Probabilidad de elegir una letra del alfabeto.

El número de estados posibles está determinado por:
, donde m es el alfabeto, n es el orden, M es el número de estados posibles de la fuente.

Para determinar la entropía total es necesario:

Si M=1, entonces obtenemos la fórmula clásica de Chinon.

Una conexión de correlación en una fuente ergódica va necesariamente acompañada de un cambio en la distribución de probabilidad, la elección del elemento del mensaje de un estado a otro, lo que también conduce a una disminución de la entropía, esto significa que parte de la información transmitida por la fuente puede ser predicho, lo que significa que no es necesario transmitirlo, porque se puede restaurar en el lado receptor. Cuanto menor es la entropía de la fuente, más información produce.

La redundancia R muestra la eficiencia de la fuente.

La razón de R es la unicidad y la probabilidad del operador de elegir entre mensajes.

cantidad de información

Introducción

2. Incertidumbre, cantidad de información y entropía

3. Fórmula de Shannon

4. Fórmula de Hartley

5. Cantidad de información recibida durante el proceso de comunicación

Lista de literatura usada

Introducción

Según la definición de A.D. Ursula: “la información refleja la diversidad”. La cantidad de información es una medida cuantitativa de diversidad. Ésta puede ser la diversidad de los contenidos agregados de la memoria; la diversidad de la señal percibida durante un mensaje particular; variedad de resultados de una situación particular; la diversidad de elementos de un determinado sistema... es una valoración de la diversidad en el sentido más amplio de la palabra.

Cualquier mensaje entre la fuente y el receptor de información tiene una determinada duración en el tiempo, pero la cantidad de información percibida por el receptor como resultado del mensaje se caracteriza en última instancia no por la longitud del mensaje, sino por la variedad de la señal generada. en el receptor por este mensaje.

La memoria de un portador de información tiene una cierta capacidad física en la que es capaz de acumular imágenes, y la cantidad de información acumulada en la memoria se caracteriza en última instancia por la diversidad de llenado de esta capacidad. Para los objetos inanimados esta es la diversidad de su historia; para los organismos vivos esta es la diversidad de su experiencia.

La variedad es fundamental a la hora de transmitir información. No se puede pintar blanco sobre blanco; el estado por sí solo no es suficiente. Si una célula de memoria es capaz de estar en un solo estado (inicial) y no puede cambiar su estado bajo influencia externa, esto significa que no es capaz de percibir ni recordar información. La capacidad de información de dicha celda es 0.

La diversidad mínima está garantizada por la presencia de dos estados. Si una celda de memoria es capaz, dependiendo de influencias externas, de adoptar uno de dos estados, que normalmente se denominan "0" y "1", su capacidad de información es mínima.

La capacidad de información de una celda de memoria, capaz de estar en dos estados diferentes, se toma como unidad de medida de la cantidad de información: 1 bit.

1 bit (bit, abreviatura del dígito binario en inglés, número binario) es una unidad de medida de la capacidad de información y la cantidad de información, así como otro valor: la entropía de la información, que conoceremos más adelante. Bit, una de las unidades de medida más incondicionales. Si la unidad de medida de longitud pudiera establecerse arbitrariamente: codo, pie, metro, entonces la unidad de medida de información no podría ser esencialmente ninguna otra.

A nivel físico, un bit es una celda de memoria que en un momento dado se encuentra en uno de dos estados: “0” o “1”.

Si cada píxel de una imagen sólo puede ser blanco o negro, dicha imagen se denomina mapa de bits, porque cada píxel representa una celda de memoria con una capacidad de 1 bit. Una bombilla que puede estar “encendida” o “apagada” también simboliza el ritmo. Un ejemplo clásico que ilustra 1 bit de información es la cantidad de información obtenida como resultado de lanzar una moneda: "cara" o "cruz".

Se puede obtener una cantidad de información igual a 1 bit en respuesta a una pregunta de “sí” o “no”. Si inicialmente había más de dos opciones de respuesta, la cantidad de información recibida en una respuesta particular será más de 1 bit, si hay menos de dos opciones de respuesta, es decir uno, entonces esto no es una pregunta, sino una afirmación, por lo que no es necesario obtener información, ya que no hay incertidumbre.

La capacidad de información de una celda de memoria capaz de recibir información no puede ser inferior a 1 bit, pero la cantidad de información recibida puede ser inferior a 1 bit. Esto ocurre cuando las opciones de respuesta “sí” y “no” no son igualmente probables. La desigualdad, a su vez, es consecuencia del hecho de que ya se dispone de alguna información preliminar (a priori) sobre este tema, obtenida, por ejemplo, a partir de experiencias de vida anteriores. Así, en todos los argumentos del párrafo anterior conviene tener en cuenta una salvedad muy importante: son válidos sólo para el caso igualmente probable.

Denotaremos la cantidad de información con el símbolo I, la probabilidad se denota con el símbolo P. Recuerde que la probabilidad total de un grupo completo de eventos es igual a 1.

2.Incertidumbre, cantidad de información y entropía

El fundador de la teoría de la información, Claude Shannon, definió la información como la eliminación de la incertidumbre. Más precisamente, obtener información es una condición necesaria para eliminar la incertidumbre. La incertidumbre surge en una situación de elección. La tarea que se resuelve al eliminar la incertidumbre es reducir el número de opciones consideradas (reducir la diversidad) y, en última instancia, elegir una opción adecuada a la situación entre las posibles. Eliminar la incertidumbre permite tomar decisiones informadas y actuar. Ésta es la función controladora de la información.

Una situación de máxima incertidumbre presupone la presencia de varias alternativas (opciones) igualmente probables, es decir, Ninguna opción es preferible. Además, cuantas más opciones igualmente probables se observen, mayor será la incertidumbre, más difícil será hacer una elección inequívoca y más información se necesitará para obtenerla. Para N opciones, esta situación se describe mediante la siguiente distribución de probabilidad: (1/N, 1/N,… 1/N).

La incertidumbre mínima es 0, es decir Se trata de una situación de total certeza, es decir, de que se ha hecho la elección y se ha recibido toda la información necesaria. La distribución de probabilidad para una situación de total certeza es la siguiente: (1, 0,…0).

La cantidad que caracteriza la cantidad de incertidumbre en la teoría de la información se denota con el símbolo H y se llama entropía, más precisamente entropía de la información.

La entropía (H) es una medida de incertidumbre expresada en bits. La entropía también puede considerarse como una medida de la uniformidad de la distribución de una variable aleatoria.

Arroz. 1. Comportamiento de la entropía

para el caso de dos alternativas.

La Figura 1 muestra el comportamiento de la entropía para el caso de dos alternativas, cuando la razón de sus probabilidades cambia (p, (1-p)).

La entropía alcanza su valor máximo en este caso cuando ambas probabilidades son iguales entre sí e iguales?, el valor de entropía cero corresponde a los casos (p0=0, p1=1) y (p0=1, p1=0).

Arroz. 2. Relación entre entropía y cantidad de información.

La cantidad de información I y la entropía H caracterizan la misma situación, pero desde lados cualitativamente opuestos. I es la cantidad de información que se requiere para eliminar la incertidumbre H. Según la definición de León Brillouin, la información es entropía negativa (negentropía).

Cuando la incertidumbre se elimina por completo, la cantidad de información recibida I es igual a la incertidumbre H inicialmente existente.

Cuando la incertidumbre se elimina parcialmente, la cantidad de información recibida y la incertidumbre restante que permanece sin resolver se suman a la incertidumbre original. Ht + Eso = H.

Por esta razón, las fórmulas que se presentarán a continuación para calcular la entropía H también son fórmulas para calcular la cantidad de información I, es decir cuando hablamos de la eliminación completa de la incertidumbre, H en ellos puede ser reemplazado por I.

3.Fórmula de Shannon

En el caso general, la entropía H y la cantidad de información I obtenida como resultado de eliminar la incertidumbre dependen del número inicial de opciones consideradas N y de las probabilidades a priori de implementar cada una de ellas P: (p0, p1, …pN-1), es decir H=F(norte, pag). La entropía se calcula en este caso utilizando la fórmula de Shannon, propuesta por él en 1948 en el artículo “Teoría matemática de la comunicación”.

En el caso especial, cuando todas las opciones son igualmente probables, la dependencia permanece sólo en el número de opciones consideradas, es decir H=F(norte). En este caso, la fórmula de Shannon está significativamente simplificada y coincide con la fórmula de Hartley, propuesta por primera vez por el ingeniero estadounidense Ralph Hartley en 1928, es decir. 20 años antes.

La fórmula de Shannon es la siguiente:

Arroz. 3. Encontrar el logaritmo de b en base a es encontrar la potencia a la que necesitas elevar a para obtener b.

Te recordamos qué es un logaritmo.

El logaritmo en base 2 se llama binario:

log2(8)=3 => 23=8

log2(10)=3,32 => 23,32=10

El logaritmo en base 10 se llama decimal:

log10(100)=2 => 102=100

Propiedades básicas del logaritmo:

1. log(1)=0, porque cualquier número elevado a cero da 1;

2. log(ab)=b*log(a);

3. Iniciar sesión (a*b) = Iniciar sesión (a) + Iniciar sesión (b);

4. log(a/b)=log(a)-log(b);

5. log(1/b)=0-log(b)=-log(b).

El signo menos en la fórmula (1) no significa que la entropía sea un valor negativo. Esto se explica por el hecho de que pi1 es, por definición, y el logaritmo de un número menor que uno es un valor negativo. Por la propiedad de un logaritmo, por lo tanto esta fórmula se puede escribir en la segunda versión, sin el signo menos antes del signo de suma.

se interpreta como una cantidad particular de información obtenida en el caso de implementar la i-ésima opción. La entropía en la fórmula de Shannon es la característica promedio: la expectativa matemática de la distribución de una variable aleatoria (I0, I1, ... IN-1).

Un ejemplo de cálculo de entropía utilizando la fórmula de Shannon. Supongamos que la composición de los empleados de alguna institución se distribuya de la siguiente manera: ? - mujer, ? - hombres. Luego, la incertidumbre sobre, por ejemplo, con quién se encontrará primero al ingresar a una institución, se calculará mediante una serie de acciones que se muestran en la Tabla 1.

Tabla 1.

Ii=log2(1/pi), bit

pi*log2(1/pi), bit

Si se sabe a priori que hay igual número de hombres y mujeres en la institución (dos opciones igualmente probables), entonces al calcular con la misma fórmula deberíamos obtener una incertidumbre de 1 bit. Esta suposición se prueba en la Tabla 2.

Tabla 2.

Ii=log2(1/pi), bit

pi*log2(1/pi), bit

4. Fórmula de Hartley

La fórmula de Hartley es un caso especial de la fórmula de Shannon para alternativas igualmente probables.

Sustituyendo su valor (en el caso igualmente probable independiente de i) en la fórmula (1) en lugar de pi, obtenemos:

Por tanto, la fórmula de Hartley parece muy simple:

De esto se deduce claramente que cuanto mayor es el número de alternativas (N), mayor es la incertidumbre (H). Estas cantidades están relacionadas en la fórmula (2) no linealmente, sino mediante un logaritmo binario. Logaritmo en base 2 y reduce el número de opciones a unidades de información: bits.

La entropía será un número entero sólo si N es una potencia de 2, es decir si N pertenece a la fila: (1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048...)

Arroz. 3. La entropía depende del número de elecciones igualmente probables (alternativas equivalentes).

Para resolver problemas inversos, cuando se conoce la incertidumbre (H) o la cantidad de información obtenida como resultado de su eliminación (I) y es necesario determinar cuántas alternativas igualmente probables corresponden a la ocurrencia de esta incertidumbre, se utiliza la inversa. Fórmula de Hartley, que se deriva de acuerdo con la definición del logaritmo y parece aún más simple:

Por ejemplo, si se sabe que como resultado de determinar que Kolya Ivanov, que nos interesa, vive en el segundo piso, se obtuvieron 3 bits de información, entonces el número de pisos de la casa se puede determinar mediante la fórmula (3) como N = 23 = 8 pisos.

Si la pregunta es: "hay 8 pisos en la casa, ¿cuánta información recibimos cuando supimos que Kolya Ivanov, que nos interesa, vive en el segundo piso?", debe usar la fórmula (2): I=log2 (8)=3 bits.

5.Cantidad de información recibida durante el proceso de comunicación.

Hasta ahora, se han dado fórmulas para calcular la entropía (incertidumbre) H, indicando que H en ellas puede ser reemplazado por I, porque la cantidad de información obtenida cuando se elimina por completo la incertidumbre de una determinada situación es cuantitativamente igual a la entropía inicial. de esta situación.

Pero la incertidumbre sólo puede eliminarse parcialmente, por lo que la cantidad de información que obtuve de un determinado mensaje se calcula como la disminución de entropía que se produjo como resultado de recibir este mensaje.

Para el caso igualmente probable, usando la fórmula de Hartley para calcular la entropía, obtenemos:

La segunda igualdad se deriva de las propiedades del logaritmo. Así, en el caso equiprobable, I depende de cuántas veces ha cambiado el número de opciones bajo consideración (la diversidad bajo consideración).

Con base en (5) se puede deducir lo siguiente:

Si, entonces, se elimina completamente la incertidumbre, la cantidad de información recibida en el mensaje es igual a la incertidumbre que existía antes de recibir el mensaje.

Si entonces la incertidumbre no ha cambiado, entonces no se recibió información.

Si, entonces => , si, => . Aquellos. la cantidad de información recibida será un valor positivo si, como resultado de la recepción del mensaje, el número de alternativas consideradas ha disminuido, y negativo si ha aumentado.

Si el número de alternativas consideradas como resultado de recibir el mensaje se reduce a la mitad, es decir , entonces I = log2 (2) = 1 bit. En otras palabras, recibir 1 bit de información elimina de consideración la mitad de las opciones equivalentes.

Consideremos, como ejemplo, un experimento con una baraja de 36 cartas.

Arroz. 4. Ilustración para un experimento con una baraja de 36 cartas.

Pídale a alguien que tome una carta del mazo. Nos interesa cuál de las 36 cartas sacó. La incertidumbre inicial, calculada mediante la fórmula (2), es H=log2(36)5,17 bits. Quien saca la carta nos cuenta algunos datos. Usando la fórmula (5), determinamos cuánta información recibimos de estos mensajes:

Opción A: "Esta es una tarjeta roja".

I = log2 (36/18) = log2 (2) = 1 bit (hay medias cartas rojas en la baraja, la incertidumbre ha disminuido 2 veces).

Opción B: “Esta es una carta del palo de espadas”.

I=log2(36/9)=log2(4)=2 bits (las cartas de espadas constituyen una cuarta parte de la baraja, la incertidumbre se ha reducido 4 veces).

Opción C. “Esta es una de las cartas altas: sota, reina, rey o as”.

I = log2 (36) -log2 (16) = 5,17-4 = 1,17 bits (la incertidumbre ha disminuido a más de la mitad, por lo que la cantidad de información recibida es más de un bit).

Opción D. "Esta es una carta de la baraja".

I=log2(36/36)=log2(1)=0 bits (la incertidumbre no ha disminuido; el mensaje no es informativo).

Opción D. "Esta es la reina de espadas".

I=log2(36/1)=log2(36)=5,17 bits (la incertidumbre se eliminó por completo).

Entropía (teoría de la información)

Entropía (informativa)- una medida del caos informativo, la incertidumbre sobre la aparición de cualquier símbolo del alfabeto primario. En ausencia de pérdidas de información, es numéricamente igual a la cantidad de información por símbolo del mensaje transmitido.

Por ejemplo, en la secuencia de letras que componen una oración en ruso, aparecen diferentes letras con diferentes frecuencias, por lo que la incertidumbre de aparición de algunas letras es menor que de otras. Si tenemos en cuenta que algunas combinaciones de letras (en este caso hablamos de entropía norte-ésimo orden, ver) son muy raros, entonces la incertidumbre se reduce aún más.

Para ilustrar el concepto de entropía de la información, también se puede recurrir a un ejemplo del campo de la entropía termodinámica, llamado el demonio de Maxwell. Los conceptos de información y entropía tienen profundas conexiones entre sí, pero a pesar de esto, el desarrollo de las teorías de la mecánica estadística y la teoría de la información tomó muchos años para que fueran consistentes entre sí.

Definiciones formales

Determinación utilizando su propia información.

También puede determinar la entropía de una variable aleatoria introduciendo primero el concepto de distribución de una variable aleatoria. incógnita, teniendo un número finito de valores:

I(incógnita) = − iniciar sesión PAG incógnita (incógnita).

Entonces la entropía se definirá como:

La unidad de medida de información y entropía depende de la base del logaritmo: bit, nat o hartley.

Entropía de la información para eventos aleatorios independientes incógnita Con norte estados posibles (de 1 a norte) se calcula mediante la fórmula:

Esta cantidad también se llama entropía promedio del mensaje. La cantidad se llama entropía privada, caracterizando sólo i-bienes.

Por tanto, la entropía del evento. incógnita es la suma con signo opuesto de todos los productos de las frecuencias relativas de ocurrencia del evento i, multiplicado por sus propios logaritmos binarios (se eligió la base 2 solo por la conveniencia de trabajar con información presentada en forma binaria). Esta definición de eventos aleatorios discretos se puede extender a una función de distribución de probabilidad.

En general b-entropía aria(Dónde b es igual a 2, 3, ...) fuente con el alfabeto original y distribución de probabilidad discreta donde pag i es la probabilidad a i (pag i = pag(a i) ) está determinada por la fórmula:

La definición de entropía de Shannon está relacionada con el concepto de entropía termodinámica. Boltzmann y Gibbs trabajaron mucho en termodinámica estadística, lo que contribuyó a la adopción de la palabra "entropía" en la teoría de la información. Existe una conexión entre la termodinámica y la entropía de la información. Por ejemplo, el demonio de Maxwell también contrasta la entropía termodinámica con la información, y obtener cualquier cantidad de información equivale a perder entropía.

Definición alternativa

Otra forma de definir la función de entropía es h es prueba de que h se determina de forma única (como se indicó anteriormente) si y sólo si h satisface las condiciones:

Propiedades

Es importante recordar que la entropía es una cantidad definida en el contexto de un modelo probabilístico para una fuente de datos. Por ejemplo, lanzar una moneda tiene entropía − 2(0,5log 2 0,5) = 1 bit por lanzamiento (suponiendo que sea independiente). Una fuente que genera una cadena que consta únicamente de las letras "A" tiene entropía cero: . Así, por ejemplo, se puede establecer experimentalmente que la entropía de un texto en inglés es de 1,5 bits por carácter, lo que por supuesto variará para diferentes textos. El grado de entropía de una fuente de datos significa el número promedio de bits por elemento de datos necesarios para cifrarlo sin pérdida de información, con una codificación óptima.

  1. Es posible que algunos bits de datos no transporten información. Por ejemplo, las estructuras de datos a menudo almacenan información redundante o tienen secciones idénticas independientemente de la información de la estructura de datos.
  2. La cantidad de entropía no siempre se expresa como un número entero de bits.

Propiedades matemáticas

Eficiencia

El alfabeto original encontrado en la práctica tiene una distribución de probabilidad que está lejos de ser óptima. Si el alfabeto original hubiera norte caracteres, entonces se puede comparar con un "alfabeto optimizado" cuya distribución de probabilidad es uniforme. La relación de entropía del alfabeto original y optimizado es la eficiencia del alfabeto original, que se puede expresar como un porcentaje.

De esto se deduce que la eficacia del alfabeto original con norte Los símbolos se pueden definir simplemente como iguales a su norte-entropía aria.

La entropía limita la compresión máxima posible sin pérdidas (o casi sin pérdidas) que se puede realizar utilizando un conjunto teóricamente típico o, en la práctica, codificación Huffman, codificación Lempel-Ziv-Welch o codificación aritmética.

Variaciones y generalizaciones.

Entropía condicional

Si la secuencia de caracteres alfabéticos no es independiente (por ejemplo, en francés la letra “q” casi siempre va seguida de “u”, y la palabra “editorial” en los periódicos soviéticos solía ir seguida de la palabra “producción” o “trabajo”). ”), la cantidad de información que lleva la secuencia de tales símbolos (y por tanto la entropía) es obviamente menor. Para tener en cuenta estos hechos, se utiliza la entropía condicional.

La entropía condicional de primer orden (similar al modelo de Markov de primer orden) es la entropía de un alfabeto donde se conocen las probabilidades de que una letra aparezca después de otra (es decir, las probabilidades de combinaciones de dos letras):

Dónde i es un estado dependiente del carácter anterior, y pag i (j) - esta es la probabilidad j, siempre que i Era el personaje anterior.

Entonces, para el idioma ruso sin la letra "".

Las pérdidas de información durante la transmisión de datos en un canal ruidoso se describen completamente mediante entropías condicionales parciales y generales. Para ello se creó el llamado matrices de canales. Entonces, para describir las pérdidas por parte de la fuente (es decir, se conoce la señal enviada), considere la probabilidad condicional de recibir el símbolo por parte del receptor. b j siempre que el personaje haya sido enviado a i. En este caso, la matriz de canales tiene la siguiente forma:

b 1 b 2 b j b metro
a 1
a 2
a i
a metro

Obviamente, las probabilidades ubicadas a lo largo de la diagonal describen la probabilidad de una recepción correcta, y la suma de todos los elementos de la columna dará la probabilidad de que aparezca el símbolo correspondiente en el lado del receptor: pag(b j) . Pérdidas por señal transmitida a i, se describen mediante entropía condicional parcial:

Para calcular las pérdidas de transmisión de todas las señales, se utiliza la entropía condicional general:

Significa entropía en el lado de la fuente; la entropía en el lado del receptor se considera de manera similar: en lugar de en todas partes, se indica (sumando los elementos de la línea se puede obtener). pag(a i) , y los elementos diagonales significan la probabilidad de que se haya enviado el carácter exacto que se recibió, es decir, la probabilidad de transmisión correcta).

Entropía mutua

Entropía mutua, o entropía de unión, está destinado a calcular la entropía de sistemas interconectados (la entropía de la aparición conjunta de mensajes estadísticamente dependientes) y se denota h(AB) , Dónde A, como siempre, caracteriza al transmisor, y B- receptor.

La relación entre las señales transmitidas y recibidas se describe mediante las probabilidades de eventos conjuntos. pag(a i b j) , y para describir completamente las características del canal, solo se requiere una matriz:

pag(a 1 b 1) pag(a 1 b 2) pag(a 1 b j) pag(a 1 b metro)
pag(a 2 b 1) pag(a 2 b 2) pag(a 2 b j) pag(a 2 b metro)
pag(a i b 1) pag(a i b 2) pag(a i b j) pag(a i b metro)
pag(a metro b 1) pag(a metro b 2) pag(a metro b j) pag(a metro b metro)

Para un caso más general, cuando no se describe un canal, sino simplemente sistemas que interactúan, la matriz no tiene por qué ser cuadrada. Obviamente, la suma de todos los elementos de la columna con número j dará pag(b j) , la suma del número de línea i Hay pag(a i) , y la suma de todos los elementos de la matriz es igual a 1. Probabilidad conjunta pag(a i b j) eventos a i Y b j se calcula como el producto de la probabilidad original y condicional,

Las probabilidades condicionales se obtienen utilizando la fórmula de Bayes. Así, existen todos los datos para calcular las entropías de la fuente y del receptor:

La entropía mutua se calcula sumando secuencialmente en filas (o columnas) todas las probabilidades de la matriz, multiplicadas por su logaritmo:

h(AB) = − pag(a i b j)registro pag(a i b j).
i j

La unidad de medida es bit/dos símbolos, esto se explica por el hecho de que la entropía mutua describe la incertidumbre por par de símbolos enviados y recibidos. Mediante transformaciones simples también obtenemos

La entropía mutua tiene la propiedad. integridad de la información- De él se pueden obtener todas las cantidades consideradas.

Historia

Notas

Ver también

Campo de golf

  • Claude E. Shannon. Una teoría matemática de la comunicación
  • S. M. Korotaev.

4.ENTROPÍA E INFORMACIÓN

4.1. La entropía como medida de incertidumbre estadística. En uno de los recientes debates públicos sobre cuestiones educativas, se sugirió que toda persona educada debería comprender la naturaleza fundamental del concepto de incertidumbre. En las últimas décadas, este término ha tomado con confianza la delantera entre los primeros principios físicos, penetrando en nuevas áreas del conocimiento. En esta sección, debería familiarizarse más con este concepto y comprender la conexión entre la incertidumbre y las características de formación del sistema.

La incertidumbre puede tener diferentes orígenes. Uno de sus tipos es desconocido– considerado por la teoría del conocimiento y la filosofía; Este tipo de incertidumbre surge cuando, por ejemplo, nos preguntamos: "¿Hay vida en otros planetas?" o "¿Existen otras civilizaciones?" etc.

Otro tipo de incertidumbre vaguedad, confusión,– por ejemplo, “¿Cuántos granos de arena necesitas tomar para formar un montón pequeño”? Encontramos incertidumbre de este tipo en la mecánica cuántica. Sobre esta base se ha construido una versión no local de la termodinámica que es capaz de responder a una pregunta similar: "¿Cuántas partículas se necesitan para formar un macronivel y cuál es la dispersión cuántica de este número?" Esta incertidumbre es objetiva; es característico que no pueda eliminarse durante el proceso de medición. En matemáticas, la teoría de conjuntos difusos se ocupa de esa incertidumbre. Cabe señalar de paso que la borrosidad es una propiedad característica del lenguaje: “un hombre alto (¿qué altura?) joven (¿qué edad exactamente?) (¿quién es?) entró en la habitación (¿qué?), etc.

El tercer tipo de incertidumbre es accidente. Se basa en leyes estadísticas establecidas por la teoría de la probabilidad. Este tipo de incertidumbre se utiliza en física estadística y, junto con la incertidumbre del segundo tipo, en mecánica cuántica. Una característica distintiva de la incertidumbre estadística es que es posible establecer una medida cuantitativa, que se analizará a continuación.

Dejemos de lado por ahora la cuestión de la importancia práctica de la medida estadística de incertidumbre y centrémonos en su esencia. Consideremos algunas situaciones simples, que llamaremos experimentos A, B y C. Se supone que el lector está familiarizado con los elementos de la teoría de la probabilidad.

El experimento A consistirá en lanzar una moneda al aire. En este experimento hay dos posibles resultado(k=2): “cara o cruz”. Obviamente, la probabilidad de cada resultado ( i=1,2).

Experimento B: lanzar un dado de seis caras. Ya hay seis resultados posibles en este experimento ( k=6). La probabilidad de cada resultado.

El experimento C consiste en tirar dos dados al mismo tiempo. Para esta experiencia k=36 y.

Evaluar la incertidumbre de los resultados experimentales es una evaluación de la dificultad de predecir el resultado de un experimento. Está intuitivamente claro que de todas las situaciones descritas, la experiencia C tiene la máxima incertidumbre, ya que aquí el número de resultados es el mayor y es más difícil prever el resultado de esta experiencia de antemano.

Para pasar a una evaluación cuantitativa de la incertidumbre, formulamos los requisitos básicos para una función que debería desempeñar el papel de medida de incertidumbre. Denotaremos esta función con la letra h.

Primer requisito. Función norte debería aumentar monótonamente con un número creciente de resultados experimentales.

Segundo requisito. Función norte debe ser igual a cero si solo hay un resultado ( k=1). Esto significa que si sólo es posible un resultado, entonces no surge ninguna incertidumbre y el resultado del experimento se puede predecir sin error.

Tercer requisito. Prestemos atención al hecho de que un experimento C puede considerarse como dos experimentos B, y requerimos que el valor de entropía total de dos experimentos B sea igual a la entropía del experimento C.

o en el caso general no para dos, sino norte experimentos simples

Si no se cumpliera el tercer requisito, entonces la evaluación de la incertidumbre de la experiencia C resultaría contradictoria y dependería de la interpretación subjetiva de la experiencia misma: si se debe considerar que la experiencia C tuvo lugar o si los dados no. caen al mismo tiempo y se produjeron dos experiencias B. La aceptación de este requisito equivale a introducir propiedades de aditividad para futuras evaluaciones de incertidumbre. Por defecto, se supone que los elementos (huesos) en cuestión no interactúan entre sí. En interpretación termodinámica, esto equivale a aceptar un sistema ideal.

Resolvamos la ecuación funcional (4.1) para la función . Para ello, diferenciamos ambos lados de la expresión (4.1-1) con respecto a k, utilizando el requisito de monotonicidad de la función:

Ahora derivamos (4.1) con respecto a norte

Dividamos la ecuación (4.2) por (4.3)

que es equivalente

Integrando esta expresión y usando la integral de tabla para el lado derecho, encontramos

¿Dónde es la constante de integración?

De la última expresión

Ya que al aumentar k la entropía aumenta (el primer requisito), entonces do>0, y esta expresión se puede reescribir en la siguiente forma final:

,a>1.

De ello se deduce que también cumple el segundo requisito. Elegir la base de los logaritmos para a>1 no importa y determina sólo la elección de la unidad de medida de la incertidumbre. Los más utilizados son los logaritmos binarios o naturales. Si se utilizan logaritmos binarios, entonces la incertidumbre de un experimento que tiene dos resultados igualmente probables (experimento A) se toma como unidad de medida de la incertidumbre. Esta situación corresponde a la entropía de una celda de computadora elemental, que almacena 0 o 1. Para esta celda

Esta unidad de medida se llama poco(del inglés binariodiget – unidad binaria).

Entonces, cuando k resultados igualmente probables, la incertidumbre de la experiencia es

Dónde pag– probabilidad del resultado del experimento.

Considerando que para resultados igualmente probables

luego, multiplicando (4.4) por uno en forma de suma de probabilidades, obtenemos

Cada término del lado derecho de esta expresión puede considerarse como la contribución de un resultado individual a la incertidumbre general de la experiencia. En el caso de resultados igualmente probables, la contribución de cada uno de ellos a la incertidumbre general del experimento es la misma y la fórmula (4.5) se colapsa en (4.4).

La expresión (4.5) se generaliza fácilmente al caso en que las probabilidades de los resultados son diferentes. En este caso, (4.5) puede considerarse como la entropía promedio de la experiencia, y las probabilidades antes de log adquieren el significado de coeficientes de ponderación. Ahora se supone que la contribución de cada resultado a la incertidumbre total de la experiencia no es necesariamente la misma. Un ejemplo de una situación con resultados desiguales es la experiencia de sacar una bola al azar de una urna que contiene una gran cantidad de bolas de varios colores. La reserva sobre el gran número de bolas se hizo específicamente para enfatizar la naturaleza probabilística de la medida de incertidumbre.

La expresión (4.5) se puede escribir en forma compacta.

Si el número de experimentos norte, luego teniendo en cuenta la aditividad de la entropía

La entropía como medida de incertidumbre fue introducida por el matemático estadounidense Claude Shannon en 1949 mientras desarrollaba la teoría matemática de la comunicación. Una función como (4.6), o entropía de elección a menudo también llamado Entropía de Shannon. Dado que el concepto de entropía hoy en día se está volviendo científico general, una indicación de su origen informativo, por regla general, se usa solo en los casos en que el texto debe distinguir entre entropía informativa y termodinámica (física).

Arroz. 4.1. Dependencia de la entropía para dos resultados del experimento.

Consideremos algunas propiedades de la entropía. Notemos en primer lugar que la entropía no puede tomar valores negativos: ya que , siempre es positiva. Si, entonces (como prueba, se debe revelar la incertidumbre del tipo). Si entonces también.

Desde sólo cuando pag=0 o pag=1, entonces la entropía de la experiencia es cero sólo en el caso de que una de las probabilidades sea igual a uno y, por tanto, todas las demás sean iguales a cero. Esta circunstancia concuerda bien con el significado de la cantidad h como medida de incertidumbre: en este caso, la experiencia no contiene ninguna incertidumbre, ya que el resultado de la experiencia se puede prever de antemano.

La figura 4.1 muestra la gráfica de la función. h para dos resultados de un experimento, de los cuales queda claro cómo cambia la entropía cuando uno de los resultados del experimento cambia de cero a uno. Del gráfico se desprende que el valor máximo de entropía corresponde a eventos igualmente probables. En este caso, el valor máximo de entropía

En el caso general, es decir no para dos, sino k resultados del experimento, corresponde el valor máximo de entropía.

El hecho de que el máximo de entropía corresponda a eventos igualmente probables es consistente con el significado de entropía. De hecho, en el caso de eventos igualmente probables, es imposible dar preferencia a cualquier resultado y, por lo tanto, es muy difícil predecir el resultado.

4.2. La entropía como medida de la cantidad de información. Volvamos a los experimentos más sencillos con una moneda o un dado. Antes de realizar un experimento, existe cierta incertidumbre asociada a no conocer el resultado del experimento. Después del experimento, es decir. después de recibir el resultado, esta incertidumbre se elimina y desaparece. Sin embargo, esto no siempre es así y, en la práctica, la mayoría de las veces hay casos en los que aún queda cierta incertidumbre una vez finalizado el experimento.

Si la incertidumbre antes del experimento era norte(incertidumbre a priori), y después del experimento –( incertidumbre posterior), entonces obviamente la incertidumbre eliminada durante el experimento será:

Esta diferencia se llama cantidad de información.

De este modo, La cantidad de información es la cantidad de incertidumbre eliminada.. En un caso particular, cuando se elimina completamente la incertidumbre como resultado del experimento, como fue el caso en los experimentos A, B y C, obtenemos: Aunque aquí la cantidad de información es formalmente igual a la entropía, se debe tener en cuenta el significado diferente de cantidad de información y entropía. La entropía (incertidumbre) existe antes del experimento, mientras que la información aparece después del experimento. Sólo hay que tener en cuenta que para la valoración cuantitativa de la información no existe otra medida que la entropía. La relación entre los conceptos de entropía y la cantidad de información se asemeja a la relación entre los conceptos físicos de potencial (entropía) y diferencia de potencial (cantidad de información).

La cantidad de información, al igual que la entropía, se mide en bits. Un bit de información es la cantidad de información que indica cuál de dos eventos igualmente probables ocurrió. Por ejemplo, la cantidad de información contenida en una celda de computadora elemental que contiene 0 o 1 es un bit.

Consideremos un ejemplo en el que a posteriori aparecería la incertidumbre. Dejemos que el método de enumeración de opciones busque la raíz de alguna ecuación con una precisión de medio entero. Se sabe de antemano que el valor de la raíz está en el rango de 1 a 100, por lo que debes analizar 200 opciones. Entonces la incertidumbre del valor raíz en la versión igualmente probable (4.4) será h = registro 2 200 = 13,3 bits.

Supongamos que se han comprobado 150 variantes de posibles valores raíz, pero no se ha encontrado ninguna raíz. Sin embargo, ¿se obtiene alguna información sobre el significado de la raíz? Sin duda, y para determinarla es necesario encontrar primero la incertidumbre residual (a posteriori): H 1 = registro 2 (200 – 150) = 5,6. Entonces la cantidad de información requerida será = 13,3 – 5,6 = 7,7 bits.

Entropía condicional. Consideremos el concepto de cantidad de información usando el ejemplo de transmisión de señales. Transmitamos un grupo de señales en código Morse:

        

Hasta que se reciba el siguiente carácter en el extremo receptor, existe incertidumbre sobre "¿qué señal se enviará?" Esta incertidumbre se puede caracterizar por la entropía “por carácter” (4.6) con el número de resultados k = 3 (punto, guión, espacio) con probabilidades p i (i = 1, 2, 3). La probabilidad de que aparezca un punto, una raya o un espacio en el extremo receptor, es decir Los especialistas conocen las probabilidades (frecuencias) de utilizar símbolos en un idioma particular a partir del análisis estadístico de un gran volumen de textos en ese idioma. Calculando la entropía por carácter, utilizando la fórmula (4.6) es fácil determinar la entropía total del mensaje (4.7). En este ejemplo hay 10 caracteres incluyendo el espacio y por lo tanto N = 10.

Entonces, en el lado receptor, antes de recibir el mensaje, había una incertidumbre a priori (4.7) o un signo (4.6). Luego de recibir el mensaje, se eliminó la incertidumbre y se recibió la información I=H– 0.

Sin embargo, esta simple situación ocurre si el mensaje se transmite sin interferencias ( canal sin ruido). Si hay ruido, entonces su acción conduce al hecho de que el símbolo transmitido puede permanecer igual (i-ésimo) o ser reemplazado accidentalmente por cualquier otro símbolo (n-ésimo). La probabilidad de tal sustitución se denota por p(y n  x i), donde x se refiere a la señal transmitida e y a la señal recibida en el receptor. En un canal sin interferencias y n = x i . La probabilidad p(y n  x i) se llama probabilidad condicional x i) es la probabilidad de que la i-ésima señal enviada corresponda a la n-ésima señal en el extremo receptor. Por supuesto, esta situación también se puede considerar desde el lado del transmisor, utilizando probabilidades condicionales de la forma p(x i y n). En este caso, р(x i y n) es la probabilidad de que la enésima señal recibida en el extremo receptor corresponda a la i-ésima señal en el extremo transmisor. El concepto de probabilidad condicional introduce entropía condicional en función de la probabilidad condicional. En general, esto se escribe con la siguiente notación:

I(X,Y) = H(X) – H(XY)

I(X,Y) = H(Y) – H(YX)

En estas expresiones idénticas, la entropía condicional desempeña el papel de la entropía posterior, y la cantidad de información es medida de conformidad dos objetos aleatorios X e Y.

Esta medida nos permite entender conexión entre el conceptoinformación y su cantidad. La información es el reflejo de un objeto en otro. En este ejemplo, estos objetos son el receptor y el transmisor. La cantidad promedio de información es una característica numérica de la integridad de esta reflexión, el grado de correspondencia y, finalmente, grado de interacción estos objetos. Pero al interactuar, los objetos se influyen entre sí y estamos acostumbrados a distinguir entre causa y efecto. La descripción cuantitativa de información es otro tipo de descripción de interacciones que no tiene ninguna relación con las descripciones clásicas de causa y efecto.. Este tipo de comunicación es típico de NVT.

Aquí es útil hacer referencia al párrafo 3.6, donde ya hemos tocado las limitaciones del mecanismo clásico de causa y efecto al describir interacciones en un sistema abierto.

4.3.Entropía de un conjunto continuo. Revisado previamente entropía de un conjunto discreto. Esto significa que se entiende por sistemas en los que el número de resultados posibles (elementos del conjunto) es finito. Sin embargo, a menudo nos encontramos con situaciones en las que el número de elementos puede ser arbitrariamente grande. Se sabe por la teoría de la probabilidad que en este caso no se debe tratar con la probabilidad de un resultado individual, que es igual a cero, sino con la densidad de distribución de probabilidad. Esta función tiene la propiedad de que la cantidad es la probabilidad de que la variable que nos interesa incógnita(el valor de la raíz en el ejemplo de la cláusula 4.2.) tomará valores en el rango de incógnita a x+dx.

Ahora bien, para estimar la incertidumbre es necesario recurrir a la entropía de un conjunto continuo, que, por analogía con la entropía de un conjunto discreto (4.5), tiene la forma

. (4.9)

Como ejemplo del uso de esta función, intentaremos estimar la incertidumbre de la experiencia asociada con una búsqueda aleatoria en un intervalo dado del valor de la raíz (ver sección 4.2) en ausencia de restricciones en la precisión de la búsqueda.

Al aumentar los requisitos de precisión de la respuesta, se puede esperar un número arbitrariamente grande de posibles resultados del experimento. En este caso, la probabilidad de cada resultado tiende a cero y la raíz deseada puede tomar todos los valores posibles (innumerables) en un intervalo numérico dado de 0 a 200. Intentemos utilizar la entropía de un conjunto continuo para el mismo problema. Introduzcamos un segmento de longitud yo=x 1 –x 0 unidades relativas. La probabilidad de encontrar el valor de la raíz en el área dx es dx/ 1 . Por otro lado, esta misma probabilidad lo es por definición. Por lo tanto, para el caso igualmente probable = dx/yo u= 1/ l. Sustituyendo este valor en (4.), es fácil obtener h = registro 2 l= 5,6 bits.

Comparemos el resultado obtenido con el ejemplo del párrafo 4.2. En el caso de un conjunto discreto, la entropía utiliza el número de intervalos discretos en un segmento seleccionado y, en el caso de un conjunto continuo, la longitud relativa del segmento mismo.. Tenga en cuenta que la longitud debe expresarse en forma relativa; de lo contrario, aparecerá una cantidad dimensional debajo del logaritmo. La escala de reducción a una forma relativa no es de fundamental importancia para la entropía de la información, ya que desde el principio la entropía se introdujo con precisión en un factor (hasta la constante de integración, consulte el procedimiento de integración en el párrafo 4.1).

Entropía de un conjunto continuo o entropía diferencial(4.9) tiene la mayoría de las propiedades de la entropía de conjuntos discretos.

En la literatura moderna se pueden encontrar críticas al concepto de entropía diferencial y al concepto resultante. cantidad diferencial de información. Esta crítica por su naturaleza coincide con la crítica del concepto de continuidad, discutida anteriormente en el párrafo 3.5.

4.4.La entropía como medida de diversidad, desorden, caos. Hasta ahora, el concepto de entropía se ha asociado a la incertidumbre. La entropía permite otra interpretación. Imaginemos un sistema formado por una cámara en la que hay norte bolas de tipos que difieren, por ejemplo, en color . Se supone que N es un número suficientemente grande. Denotemos la fracción de bolas. i-ésimo tipo (color) –. Si realizamos un experimento en el sistema, que consiste en extraer una bola al azar, entonces la entropía de un experimento, según (4.6), será:

Se supone que los tamaños de las bolas son iguales, de lo contrario la probabilidad de extraer las bolas i-Ese tipo no corresponderá exactamente a su participación en la cámara. Entropía de todos los experimentos en el sistema.

Dado que el lado derecho de las últimas expresiones incluye parámetros que caracterizan el contenido del sistema, surge la pregunta de si, sin recurrir a experimentos con bolas, es posible entender desde qué punto de vista estas funciones caracterizan el contenido de la cámara.

La primera de las dos funciones caracteriza grado de desorden sistema o el grado de diversidad en el mismo, teniendo en cuenta la característica seleccionada para distinguir los elementos del sistema (el color de las bolas). Si hubiera bolas del mismo tipo en la recámara, entonces uno de los valores de probabilidad pag=z sería igual a uno, y todos los demás serían cero, y la entropía tomaría un valor cero. Esto significaría que el sistema está completamente ordenado, o lo que es lo mismo, que no hay diversidad en el sistema en cuanto al atributo evaluado (color).

La segunda función (4.11) mide el desorden (diversidad) en el sistema de manera algo diferente. La diferencia entre estas dos funciones se puede ilustrar con el siguiente ejemplo. Si la cámara se divide en dos partes, entonces con un número suficientemente grande de bolas en ella la proporción de bolas i-ésimo tipo en cada una de las dos partes seguirá siendo el mismo, pero el número de bolas se reducirá a la mitad y el desorden estimado por la fórmula (4.11) también se reducirá a la mitad. Sin embargo, el grado de desorden de cada una de las dos partes, estimado mediante la función (4.10), seguirá siendo el mismo.

Por analogía con el ejemplo que acabamos de considerar, la fórmula (4.11) se puede utilizar para estimar el desorden del flujo de una mezcla de cualquier sustancia. En este caso, la concentración i-ésimo componente en fracciones molares; norte– caudal o número de moléculas que pasan a través de una determinada sección transversal por unidad de tiempo. Desde el número norte En problemas prácticos siempre es muy grande, podemos pasar a una escala diferente para la entropía. Por ejemplo, dividiendo los lados izquierdo y derecho por el número de Avogadro, obtenemos

Dónde F– caudal, kmol/unidad. tiempo. La designación de entropía en la nueva escala sigue siendo la misma.

Así, la entropía evalúa la diversidad de elementos de un sistema según alguna característica específica que pueda interesarnos en una tarea particular; véanse las cláusulas 4.6 y 4.7.

Observemos que la expresión (4.10) coincide, hasta en un factor, con la expresión termodinámica de la entropía molar de mezcla de un gas ideal

S= –R, (4.13)

donde R es la constante de los gases.

En este ejemplo, se puede notar la conexión entre la entropía de la información, introducida en las secciones anteriores sin utilizar ningún principio físico, y la termodinámica. Aquí también es útil señalar no sólo la analogía estructural externa. La entropía de mezcla (4.13) es sólo la entropía de una mezcla termodinámicamente ideal. Al considerar una cámara con bolas, también se aceptaron algunas restricciones, por ejemplo, la exigencia de tamaños iguales de bolas.

La entropía escrita en términos de probabilidades a menudo se llama funcional, en contraste con la entropía expresada en términos de fracciones molares, que se llama atributivo.

4.5. Conexión de la entropía de la información con la física. El concepto de entropía fue introducido por primera vez en la termodinámica por Clausis como una relación que conecta el incremento elemental de entropía. dS con una cantidad elemental de calor dq a temperatura t

dS = dQ/T(4.14)

Esta expresión dice poco sobre la esencia física de la entropía. En física se ha intentado repetidamente revelar el contenido de este concepto, guiado por conceptos modelo.

Entropía de Boltzmann. Consideremos la conocida ecuación de Boltzmann basada en un enfoque estadístico.

Dónde k B– constante de Boltzmann, k B=1,3810J/K;W – número de microestados.

Para comprender la esencia de los métodos estadísticos, como primer ejemplo, consideremos un gas como un conjunto de un gran número de partículas. Lo primero que parece necesario hacer al construir un modelo matemático del comportamiento de las partículas es intentar escribir la ecuación de movimiento para cada una de ellas, porque un gas, al menos en una primera aproximación, es un sistema de partículas en movimiento. según las leyes de la mecánica newtoniana.

Sin embargo, con este enfoque, el número de ecuaciones se vuelve inimaginablemente grande, sin mencionar el hecho de que para integrar estas ecuaciones, son necesarias las velocidades y coordenadas iniciales de cada molécula. Sin embargo, este camino no sólo es complicado, sino también infructuoso, ya que el conocimiento de las trayectorias y de la ley del movimiento de las moléculas individuales no proporciona ninguna información sobre las propiedades del gas en su conjunto. El hecho es que en un sistema que consta de muchas partículas, surgen nuevos patrones sistémicos o integradores puramente estadísticos que no existían en un sistema con un pequeño número de partículas.

Utilizando un modelo muy simplificado, tracemos cómo aparecen estas nuevas propiedades asociadas al concepto de entropía de Boltzmann.

Para mayor claridad, tomemos un sistema de sólo diez partículas ( norte=10), distribuido en cuatro niveles de energía, teniendo valores de energía relativa de 1, 2, 3 y 4. La energía total del sistema es igual a 20 unidades relativas. La tarea es expresar algunas ideas sobre el estado que asumirá el sistema si se lo deja solo, es decir sobre cómo se distribuyen las partículas en los niveles de energía.

Para ello, averigüemos qué distribuciones de energía de las partículas son posibles. En este caso, distinguiremos entre cambios en el micro y macroestado del sistema. Si hay un cambio en el número de partículas en cualquier nivel de energía, entonces hablaremos de un cambio. macroestados sistemas. Si solo hubo un intercambio de partículas entre niveles de energía, pero el número de partículas en cada nivel de energía permaneció igual, registraremos el cambio. microestados sistemas. Para un observador externo que monitorea solo los macroestados del sistema, los cambios de naturaleza microscópica pasarán desapercibidos y los microestados serán indistinguibles. Un macroestado puede realizarse mediante muchos microestados.

Así, uno de los posibles macroestados en el sistema considerado de diez partículas es el siguiente: en el primer nivel de energía hay una partícula ( norte 1 =1), en el segundo hay ocho partículas ( norte 2 =8) y uno ocupa el tercer nivel ( norte 3=1). El cuarto nivel no está ocupado. La energía total es 11+82+13+ 40=20. Supongamos que las partículas están numeradas. Entonces este macroestado podría realizarse de diferentes maneras (a través de diferentes microestados), colocando, por ejemplo, en el nivel de energía 1, partículas numeradas 1, 2, 3, 4, 5, etc., a su vez, es decir. llevar a cabo diversos reordenamientos de partículas sin alterar el macroestado del sistema.

. (4.16)

Aquí r– número de niveles de energía; en este ejemplo r= 4.

Si ahora pasamos a otro macroestado, es decir. Tomemos una distribución diferente de partículas a lo largo de los niveles de energía, por ejemplo, norte 1 =2,norte 2 =7,norte 3 =0 y N4=1 (energía total 21+72+14 = 20), entonces el número de formas de implementar este macroestado W resulta ser igual a 360.




Arriba