Disparador Pl sql para lectura. Activadores de ORACLE FORMS para principiantes. Acerca de eventos y desencadenantes

INFORMACIÓN MUTUA.

OBJETIVO DE LA CONFERENCIA: Basado en el concepto de entropía condicional, dar una definición de información mutua, considerar las propiedades y presentar la derivación de una fórmula para calcular la cantidad promedio de información mutua.

Medir todo lo que se pueda medir y hacer accesible lo que no se puede medir. Galileo Galilei

La conferencia anterior proporciona una definición de entropía condicional como una cantidad que muestra la incertidumbre promedio al elegir el valor de una determinada cantidad. en, cuando se conoce el valor incógnita.

o H(x,y) = H(x) + H incógnita (y)

La entropía condicional satisface las siguientes condiciones:

0 ≤ h incógnita ( y ) ≤ h ( y ),

h incógnita ( y ) = 0 , cuando implementar el conjunto incógnita es posible establecer con precisión la implementación del conjunto Y ;

h incógnita ( y ) = h ( y ), cuando conjuntos incógnita Y Ud. independiente y conocimiento de implementación incógnita no agrega información sobre Y ;

h ( y ) > h incógnita ( y ) – el caso general cuando el conocimiento de la implementación incógnita reduce la incertidumbre inicial Y .

Información mutua.

En la tecnología de transmisión de mensajes, resulta interesante poder obtener información sobre los mensajes transmitidos a partir de los símbolos observados en la salida del canal. Representemos matemáticamente las operaciones que realizan el transmisor y el receptor. Llamemos convertidores discretos al transmisor y al receptor. La entrada del convertidor recibe una secuencia de símbolos de entrada de un determinado conjunto. incógnita , y la salida es una secuencia de símbolos de salida representados por el conjunto Ud. . El convertidor puede tener memoria interna. El símbolo de salida en este caso dependerá no sólo de este símbolo de entrada, sino también de todos los anteriores. El desafío es cuantificar la información de los símbolos. incógnita conjunto de entrada incógnita , contenido en los símbolos de salida en conjunto Ud. en la salida del canal, incluso teniendo en cuenta la dependencia estadística especificada.

Introduzcamos la notación para información mutua. I ( incógnita , y ). De acuerdo con la propiedad 5 de la entropía, podemos escribir la relación

I ( x,y )= h ( incógnita ) – h ( x,y ),

que determinará la medida de información mutua para cualquier par ( incógnita , y ) conjuntos incógnita Y Ud.

en expresión norte(x) – entropía a priori, NORTE( incógnita , y ) – entropía residual después de obtener información sobre el conjunto incógnita . Entonces I ( incógnita , y ) caracterizará información completa contenida en el conjunto Ud. sobre el conjunto incógnita .

Ilustremos gráficamente la entropía del sistema y la información.

Arroz. 1 Visualización gráfica de información mutua.

Óvalos separados superiores: en ausencia de conexión entre conjuntos de variables incógnita Y Ud. ;

Óvalos combinados inferiores: en presencia de una conexión estadística entre conjuntos incógnita Y Ud. .

Consideremos conjuntos incógnita Y Ud. , caracterizando el sistema. Entropía del conjunto incógnita Representémoslo como un óvalo con área. H(X) : cuanto mayor es la entropía, mayor es el área. Entropía del conjunto Ud. - segundo óvalo con área BIEN ). Si los conjuntos son estadísticamente independientes, es decir no hay conexión entre ellos, los óvalos no se cruzan. La entropía total del sistema es igual a la suma de entropías, es decir, la suma de áreas.

Si se produce una conexión estadística (correlación) entre los conjuntos, entonces los óvalos del diagrama se cruzan. Información mutua emergente Yo(X,Y) y hay una medida cuantitativa de esta intersección. La entropía disminuye en la cantidad de esta información:

H(X,Y) = H(X) + H(Y) - I(X,Y)

Cuanta más información mutua, más estrecha es la conexión, menos entropía H(X,Y).

De la propiedad 5 de la entropía se deduce

H(X,Y) = H(X) + H incógnita (Y)

H(X,Y) = H(Y) + H Y (INCÓGNITA )

H(X) + H incógnita (Y) = H(Y) + H Y (INCÓGNITA)

H(X)-H incógnita (Y) = H(Y) – H Y (INCÓGNITA)

Habiendo comparado y , observamos que la expresión caracteriza la igualdad mutua de información sobre el conjunto. incógnita , si se conoce el conjunto Ud. , y viceversa, conocimiento sobre el conjunto. Ud. , si se conoce el conjunto incógnita .

I ( incógnita , Y ) – llamado la información mutua promedio contenida en conjuntos incógnita Y Ud. .

Propiedades de la información mutua.

    I ( X,Y ) = I ( Y,X ). La información mutua es simétrica.

    I ( incógnita , Y ) ≥ 0 . La información mutua siempre es positiva.

3. I ( incógnita , Y ) = 0 si y sólo si los conjuntos incógnita Y Ud. independiente.

    I ( incógnita , Y ) = h ( incógnita ) – h incógnita ( Y ) = h ( Y ) – h Y ( incógnita ) = h ( incógnita ) + h ( Y ) – h ( incógnita , Y ), es decir, en caso de que se produzca un evento conjunto h ( incógnita ) + h ( Y ) = h ( incógnita , Y ) no hay información mutua.

    I(X,Y) ≤ mín(H(X),H(Y)). La información mutua no puede ser mayor que la información sobre cada conjunto por separado.

    I(X,Y) ≤ mín (log‌‌ ‌‌|X|, log|Y|). La medida logarítmica de cada conjunto individualmente es mayor o igual a la información mutua.

7. Información mutua I ( incógnita , Y ) tiene un máximo (es una función de distribución de probabilidad convexa).

En general, la propiedad 4 define la información mutua a través de la entropía del sistema combinado. h ( incógnita , Y ) y la entropía de sus partes individuales. h ( incógnita ) Y h ( Y ) Fig.1.

I(X,Y) = H(X) + H(Y) – H(X,Y)

Expresemos información mutua completa a través de las probabilidades de los estados del sistema. Para ello, anotamos los valores de entropía de sistemas individuales mediante la expectativa matemática:

H(X)=M[ - Iniciar sesión P(X)], H(Y)=M[ - Iniciar sesión P(Y)], H(X,Y)=M[ - registro P(X,Y)]

Entonces la expresión tomará la forma

I(X,Y) =M[ - logP(X) – logP(Y) + log(X,Y)].

Transformando, obtenemos

Transformamos la expresión usando la propiedad matemática.

la expectativa es la siguiente. Para un conjunto de variables aleatorias incógnita puedes definir una función φ(x ) para todos los valores incógnita. Esto configura la pantalla. incógnita a un conjunto de valores reales incógnita . Conjunto

Y= [y=φ(x)]

representa un conjunto de valores de variables aleatorias. Para calcular la expectativa matemática del valor. en no es necesario conocer la distribución de probabilidad pag y ( y ) Para en. Si la distribución pag incógnita ( incógnita ) por conjunto incógnita se sabe entonces

Entonces si pag ( incógnita i ) metro elementos del conjunto incógnita , A pag ( y j ) la probabilidad de cualquiera de los norte elementos del conjunto Ud. , entonces la expresión para la cantidad de información mutua tendrá la forma

Esta fórmula nos permite determinar la cantidad total de información mutua sobre el conjunto. incógnita según el conjunto recibido en la salida del canal Ud. . La cantidad de información mutua se mide en bits.

Modelo fuente de Markov.

Consideremos secuencias aleatorias de un número arbitrario de eventos. Si los elementos secuencia aleatorianúmeros reales, entonces tales secuencias se llaman procesos aleatorios . El número de un elemento en la secuencia se interpreta como el momento en el que apareció este valor. En general, el conjunto de valores de tiempo puede ser continuo o discreto, el conjunto de valores de secuencia aleatoria también puede ser continuo o discreto

Proceso aleatorio incógnita 1, incógnita 2, con significados incógnita i, alfabeto X, ( i = 1, 2, …) especificado si, para cualquier n, se especifica el método para calcular distribuciones de probabilidad conjuntas pag ( incógnita 1 ,… incógnita norte ). La forma más sencilla de definir un proceso aleatorio es suponer que sus valores en diferentes momentos son independientes y están distribuidos de manera idéntica.

Dónde pag ( incógnita i ) – probabilidad de ocurrencia incógnita i en este momento i . Para describir tal proceso, basta con indicar las probabilidades. pag ( incógnita ) para todos incógnita(total I incógnita I – 1 probabilidades). Para describir modelos de procesos más complejos, se debe confiar en la propiedad de estacionariedad, que permite simplificar los cálculos matemáticos. Un proceso se llama estacionario si por cualquier norte Y t hay igualdad

p(x 1 , …, x norte ) = p( incógnita 1+t incógnita n+t ),

y incógnita i = incógnita 1+ t , i = 1, … norte . Un proceso aleatorio es estacionario si la probabilidad de cualquier secuencia no cambia cuando se desplaza en el tiempo. Las características numéricas, en particular la expectativa matemática, de los procesos estacionarios no dependen del tiempo. Considerando procesos estacionarios, podemos calcular características de información independientes del tiempo de procesos aleatorios. Un ejemplo de proceso estacionario es un proceso cuyos valores son independientes y están distribuidos de manera idéntica.

K. Shannon define una fuente de mensaje discreta de la siguiente manera: “Podemos considerar que una fuente discreta crea un mensaje símbolo por símbolo. Seleccionará símbolos sucesivos con determinadas probabilidades dependiendo, en general, tanto de las selecciones anteriores como del símbolo concreto en cuestión. Un sistema físico o un modelo matemático de un sistema que crea tal secuencia de símbolos, determinada por un conjunto dado de probabilidades, se denomina proceso probabilístico. Por tanto, podemos suponer que una fuente discreta está representada por algún proceso probabilístico. Por el contrario, cualquier proceso probabilístico que produzca una secuencia discreta de símbolos seleccionados de algún conjunto finito puede considerarse una fuente discreta”.

La estructura estadística de tal proceso y las propiedades estadísticas de la fuente están completamente determinadas por unidimensional pag ( i ), bidimensional pag ( i , j ) probabilidades de aparición de elementos del mensaje en la salida de la fuente. Como se indicó, si no existe una conexión estadística entre elementos sucesivos de un mensaje, entonces la estructura estadística del mensaje está completamente determinada por un conjunto de probabilidades unidimensionales. La aparición de uno u otro elemento del mensaje en la salida de la fuente puede considerarse como evento específico, caracterizado por su probabilidad de ocurrencia. Para un conjunto de eventos, junto con sus probabilidades a priori de ocurrencia, existe el concepto conjunto .

Ejemplos de una fuente discreta incluyen:

    Textos impresos en varios idiomas.

    Fuentes continuas de mensajes que se vuelven discretos mediante algún proceso de cuantificación (voz cuantificada, señal de televisión).

3. Casos matemáticos en los que algún proceso probabilístico se define simplemente de forma abstracta, lo que genera una secuencia de símbolos.

Estas fuentes crean procesos probabilísticos conocidos como procesos discretos de Markov. En general, el resultado se puede describir de la siguiente manera. Hay un número finito de "estados" posibles del sistema. : S 1 , S 2 ,. . . , S norte . Además, existe un conjunto de probabilidades de transición.(j), pi S i es decir, las probabilidades de que un sistema en un estado S j . Para utilizar este proceso de Markov como fuente de mensajes, sólo es necesario asumir que cada transición de un estado a otro produce una letra. Los estados corresponderán al “resto de influencia” de las letras anteriores. En el ejemplo gráfico, el “estado” es el punto nodal del diagrama, y ​​las probabilidades de transición y las letras creadas por este se indican junto a las líneas correspondientes.

Una fuente de cuatro letras A, B, do, EN, que tienen, respectivamente, probabilidades de transición de 0,1; 0,4; 0,3; 0,2, volviendo al punto nodal después

Al crear la siguiente letra, se pueden formar secuencias tanto finitas como infinitas.

Características de una señal aleatoria como la ergodicidad y la estacionariedad pueden extenderse a una fuente discreta. Suponiendo que la fuente sea ergódica, se puede "... identificar los valores promedio a lo largo de una determinada secuencia con el valor promedio sobre un conjunto de secuencias posibles (y la probabilidad de divergencia es cero)". Por ejemplo, la frecuencia relativa de una letra. A en una secuencia infinita particular, la probabilidad uno será igual a su frecuencia relativa sobre el conjunto de secuencias.

El modelo más simple de fuente que genera mensajes dependientes es una fuente de Markov. El proceso aleatorio se llama cadena de markov conectividad s , si por alguna norte y para cualquier incógnita = ( incógnita 1 , …, incógnita norte ) alfabeto incógnita las relaciones son validas

p(x) = p(x 1 , …, incógnita s )p(x s+1 /incógnita 1 , … , x s )p(x s+2 /incógnita 2 ,…,x s+1 )…p(x norte /incógnita n-s ,…,incógnita n-1 ).

Proceso de conexión de Markov s es un proceso por el cual norte > s pag ( incógnita norte ,…, incógnita norte -1 ) = pag ( incógnita norte / incógnita norte - s ,…, incógnita norte -1 ), es decir, la probabilidad condicional del valor actual dados los valores anteriores conocidos no depende de todos los demás valores anteriores.

La descripción del proceso de Markov viene dada por la distribución de probabilidad inicial en secuencias del primer s valores y probabilidades condicionales pag ( incógnita norte / incógnita norte - s ,…, incógnita norte -1 ) para todas las secuencias posibles. Si las probabilidades condicionales especificadas no cambian cuando las secuencias se desplazan en el tiempo, se llama cadena de Markov. homogéneo . Conectividad de cadena de Markov homogénea s = 1 se llama cadena de Markov simple. Para describirlo basta con indicar la distribución de probabilidad. pag ( incógnita 1 ) cantidades INCÓGNITA, perteneciente a muchos incógnita y probabilidades condicionales

π yo = P(x t =j/x t-1 = i), i,j = 0,1,…,M-1 ,

llamadas probabilidades de transición de la cadena de Markov.

Es conveniente escribir las probabilidades de transición en forma de matriz cuadrada de dimensiones. METROincógnitaMETRO

llamada matriz de probabilidad de transición. Esta matriz es estocástica (no negativa, la suma de los elementos de cada fila es 1).

Si p t - vector estocástico, cuyos componentes son las probabilidades de estados de la cadena de Markov en el momento del tiempo. t, aquellos. pag t =[ pag t (0),…, pag t (METRO-1)], Dónde pag t (i) existe la posibilidad de una condición i en un momento dado t (I = 0,1,…, METRO-1 ), entonces de la fórmula de probabilidad total se deduce

o en forma matricial

pag t +1 = pag t Π . [ 10 ]

Para un número arbitrario de pasos n obtenemos

,

es decir, la probabilidad de transición más allá norte Los pasos se pueden calcular como elementos de la matriz. Supongamos que existe un vector estocástico que satisface la ecuación

pag = pag Π . [ 2 ]

Suponer r 1 =p . Luego, usando la expresión , obtenemos r 2 = r y finalmente pag t = pag delante de todos t . Por tanto, la cadena de Markov es estacionaria si se elige la solución de la ecuación [2] como distribución inicial.

vector estocástico r , satisfacer la ecuación [2] se llama distribución estacionaria para una cadena de Markov especificada por la matriz de probabilidad de transición Π. La distribución de probabilidad final se llama vector.

[ 3 ]

Magnitud pag no depende de la distribución inicial ni del tiempo, es decir, es una distribución estacionaria. Las cadenas definidas por la expresión [3] se denominan ergódicas. Si todos los elementos de la matriz Π son positivos y distintos de cero, la cadena de Markov correspondiente es ergódica. Para formular una condición necesaria y suficiente para la ergodicidad, introducimos varias definiciones.

Condición del circuito i realizable del estado j , si para algunos n la probabilidad de transición del estado j agitado i para norte pasos es positivo. El conjunto de estados se llama cerrado , si ningún estado está fuera CON no se puede llegar desde un estado incluido en CON .

La cadena se llama irreducible , si no contiene conjuntos cerrados excepto el conjunto de todos los estados. Una cadena de Markov es irreductible si y sólo si los estados son accesibles entre sí. Estado i se llama periódico si existe tal t > 1 , que la probabilidad de transición de i V i para norte los pasos son cero para todos norte no múltiplos t . Un circuito que no contiene estados periódicos se llama no periódico. Una cadena de Markov irreducible y no periódica es ergódica.

LITERATURA.

1. Shannon K. Trabaja sobre teoría de la información y cibernética. M.: ed. “IL”, 1963, págs. 249 – 259.

Información mutua

Nombre del parámetro Significado
Tema del artículo: Información mutua
Rúbrica (categoría temática) Educación

Definamos ahora la información contenida en un conjunto en relación con otro, por ejemplo, en una señal recibida en relación con un mensaje transmitido. Para hacer esto, considere la comunicación de dos conjuntos discretos. A Y B, en general, dependiente. Puede interpretarse como un par de conjuntos de mensajes, o como conjuntos de un mensaje y una señal con la ayuda de los cuales se transmite el mensaje, o como conjuntos de señales en la entrada y salida de un canal de comunicación, etc. P(a k,bl)probabilidad conjunta de realizaciones ak Y bl. Entropía conjunta de conjuntos. A Y B llamaremos:

(2.6)

Introduzcamos también el concepto de entropía condicional:

(2.7)

Dónde P(a k / bl) - probabilidad condicional Alaska, en ese caso bl, aquí están las matemáticas..

Del teorema de la multiplicación de probabilidades se deduce que .

Para la entropía condicional, la doble desigualdad es válida:

Consideremos dos casos extremos:

1. La igualdad se produce en el caso en que, conociendo la implementación, se puede determinar con precisión la implementación. En otras palabras, contiene información completa sobre.

2. Otro caso extremo es cuando tiene lugar si los eventos son independientes. En este caso, el conocimiento de la implementación no reduce la incertidumbre, ᴛ.ᴇ. no contiene ninguna información sobre A.

En el caso general, como ocurre en la práctica, la entropía condicional es menor que la incondicional y el conocimiento de la implementación elimina, en promedio, la incertidumbre inicial. Naturalmente, llama a la diferencia. la cantidad de información contenida en relativamente. También se llama información mutua entre y y se denota por:

Sustituyendo los valores de H(A) y H(A/B) en esta fórmula, expresamos información mutua mediante la distribución de probabilidad:

Si usamos el teorema de la multiplicación, podemos escribirlo en forma simétrica porque :

(2.12)

La información mutua se mide en las mismas unidades que la entropía. El valor muestra cuántos bits de información en promedio recibimos sobre la implementación del conjunto al observar la implementación del conjunto.

Formulemos las principales propiedades de la información mutua:

1., y la igualdad ocurre si y solo si y son independientes entre sí

2., es decir, contiene tanta información respecto a , como contiene respecto a . Esta propiedad se deriva de la simetría de la expresión. Por este motivo, también puedes escribir:

3.

4. , y la igualdad ocurre cuando la implementación se puede determinar con precisión a partir de la implementación.

5. Suponiendo y teniendo en cuenta que obtenemos:

(2.14)

Esto permite interpretar la entropía de una fuente como información propia, es decir, la información contenida en el conjunto sobre sí misma.

Que sea un conjunto mensajes discretos, un - conjunto señales discretas, en el que se convierten los mensajes. Entonces si y sólo si la transformación es reversible. Con transformación irreversible y la diferencia se puede llamar pérdida de información durante la conversión. Se llama falta de confiabilidad. Sin embargo, la información no se pierde sólo durante transformaciones reversibles.

Si es el tiempo promedio de transmisión de un mensaje, entonces se divide en las fórmulas H(A/B) y I(A,B) y se denota:

, , (2.15)

obtenemos las igualdades correspondientes para la entropía y la cantidad de información calculada no por mensaje, sino por unidad de tiempo. El valor generalmente se denomina velocidad de transferencia de información de a (o viceversa).

Consideremos un ejemplo: si hay un conjunto de señales en la entrada de un canal discreto y hay un conjunto de señales en su salida, entonces la velocidad de transmisión de información a través del canal.

Rendimiento de la fuente señal transmitida.

“rendimiento del canal”, es decir, información interna completa sobre la señal recibida por unidad de tiempo.

El valor representa la velocidad de “fuga” de la información al pasar por el canal, y es la velocidad de transmisión. información extraña, no relacionado y creado por la interferencia presente en el canal. La relación entre y depende de las propiedades del canal. Así, por ejemplo, al transmitir una señal telefónica a través de un canal con un ancho de banda estrecho, insuficiente para una reproducción satisfactoria de la señal, y con nivel bajo se pierde alguna interferencia información útil, pero casi nunca resulta inútil. En este caso. Si la banda se expande, la señal se reproduce con precisión, pero en las pausas se puede escuchar claramente la "interferencia" del canal telefónico vecino, entonces, sin casi perder información útil, se puede obtener mucha información adicional, generalmente inútil, etc.

Codificación eficiente de mensajes discretos

Apliquemos los resultados obtenidos al problema de codificar mensajes discretos. Sea la fuente de la secuencia. mensajes elementales(caracteres) con volumen alfabético y productividad. Para transmisión por canal discreto es necesario convertir los mensajes en una secuencia de señales de código para que esta secuencia de código pueda luego descodificarse sin ambigüedades. Para ello, es extremadamente importante que la velocidad de transferencia de información desde la fuente al codificador sea igual al rendimiento de la fuente, =. Pero por otro lado del anterior: . Por eso, una condición necesaria para codificar es o, denotando por la duración del símbolo del código, por la duración del mensaje elemental, , o

, (2.17)

donde esta el numero caracteres de código, a es el número de mensajes transmitidos por segundo.

Para simplificar, consideraremos sólo código binario, en el que el alfabeto consta de los caracteres 0 y 1. Entonces poco. Por esta razón, la condición sumamente importante es que:

Pero esta proporción representa el número promedio de símbolos de código por mensaje elemental. Sin embargo, para poder codificar y decodificar un mensaje sin ambigüedades, es extremadamente importante que el número promedio de símbolos binarios por mensaje no sea inferior a la entropía. ¿Es esta condición suficiente?

Uno de los teoremas básicos de la teoría de la información afirma que es "casi suficiente". Más precisamente, el contenido del teorema de codificación fuente es esencialmente que al transmitir símbolos binarios a una velocidad de símbolo/s, se pueden codificar mensajes para transmitirlos a la velocidad:

(mensajes por segundo),

donde es un valor arbitrariamente pequeño.

Este teorema es casi trivial si la fuente transmite mensajes de forma independiente y con igual probabilidad. En este caso y, además, si - grado completo dos, entonces.

De esta forma, es posible codificar mensajes de cualquier fuente con el volumen del alfabeto, gastando caracteres binarios en un mensaje elemental. Sin embargo, si los mensajes no se transmiten con la misma probabilidad y/o de forma independiente, entonces es posible una codificación más económica con el coste de símbolos por mensaje. El ahorro relativo de símbolos será igual a . Sin embargo, la redundancia determina el grado alcanzable de "compresión de mensajes".

Veamos algunos ejemplos.

Entonces, si los mensajes elementales son letras rusas y se transmiten con la misma probabilidad e independientemente, entonces . Cada letra se puede codificar como una secuencia de cinco caracteres binarios, ya que existen 32 secuencias de este tipo.

Por supuesto, se puede utilizar el mismo código uniforme para codificar letras en un texto ruso conectado, y esto es lo que se hace a menudo en la práctica. Pero puedes arreglártelas con un número significativamente menor de caracteres por letra. Para texto literario ruso y, por tanto, es posible un método de codificación eficiente (o codificación con compresión de mensajes), en el que de media se gastarán algo más de 1,5 caracteres binarios por letra de texto ruso, es decir, un 70% menos que con un código primitivo. .

Existen bastantes formas de comprimir mensajes o reducir el texto redundante. Así, por ejemplo: “Este fr.
Publicado en ref.rf
escrito abreviatura y aún así podemos. Espero que lo entiendas. sus derechos”. En la frase anterior, era posible reducir el número de letras, y por tanto de símbolos, si se codificaban con un código uniforme en casi un 40%.

Otra posibilidad es esencialmente codificar letras individuales, pero palabras completas.

Es posible una mayor compresión de mensajes utilizando código desigual, en caso de que se utilicen secuencias más cortas para letras (palabras) más frecuentes y secuencias más largas para las más raras. Tenga en cuenta que esta idea codificación desigual La aplicación se encontró por primera vez en el código telegráfico Morse, en el que se utilizaban las combinaciones más cortas para las letras que aparecían con mayor frecuencia (e, i, t, s, a).

El uso de un código no uniforme reduce la redundancia causada por la probabilidad desigual entre mensajes.

Se han desarrollado muchas técnicas de codificación eficientes para una variedad de fuentes. El problema de la codificación eficiente es más relevante no para la transmisión de texto, sino para otras fuentes con mucha mayor redundancia. Estos incluyen, por ejemplo, transmisiones de televisión (televisión industrial), algunos sistemas de telemetría en los que es posible la compresión decenas de veces y fototelegrafía.

Tema 2.4. Información en señales continuas.

Generalicemos ahora los conceptos de entropía e información mutua a conjuntos. señales continuas. Sea una variable aleatoria (sección transversal o muestra de una señal aleatoria), definida en alguna región continua, y su distribución de probabilidad se caracteriza por la densidad.

Dividamos el rango de valores en pequeños intervalos de longitud. La probabilidad que se encuentra en el intervalo , +, es decir , es aproximadamente igual a , y la aproximación es más precisa cuanto menor sea el intervalo . El grado de sorpresa de tal evento es igual a . Si los valores dentro del intervalo final se reemplazan por valores al comienzo del intervalo, entonces el conjunto continuo será reemplazado por uno discreto y su entropía se determinará como:

Ahora aumentaremos la precisión de determinar el valor reduciendo el intervalo. En el límite, at debería dar como resultado la entropía de una variable aleatoria continua:

El segundo término de la expresión resultante tiende a la distribución de probabilidad y es completamente independiente de ella. Esto significa que la información intrínseca de cualquier variable aleatoria continua es infinitamente grande. Sin embargo, la información mutua entre dos conjuntos continuos generalmente sigue siendo finita. Se tratará, en particular, de la información mutua entre las señales transmitidas y recibidas, de modo que la información se transmite a lo largo del canal de comunicación a una velocidad finita.

Prestemos atención al primer término de esta fórmula. Es finito y está determinado por la densidad de distribución de probabilidad. Se llama entropía diferencial y se denota por:

(2.20)

Intentemos ahora determinar la información mutua entre dos variables aleatorias continuas y. Habiendo dividido los dominios de definición y, respectivamente, en pequeños intervalos y, reemplazamos estas cantidades continuas por discretas de la misma manera que se hizo al derivar la fórmula. Con base en esta expresión, podemos determinar la información mutua entre cantidades continuas y:

En este caso, no aparecieron infinitos obvios y, de hecho, en casos normales, la información mutua resulta ser finita. Al usar transformaciones simples también se puede representar de esta forma:

Aquí está la entropía diferencial previamente definida, y - entropía diferencial condicional. Es fácil verificar que las propiedades básicas de la información mutua siguen siendo válidas en en este caso.

Como ejemplo, encontremos la entropía diferencial de una variable aleatoria con una distribución de probabilidad normal:

, (2.23)

donde está la expectativa matemática y es la varianza.

Sustituyendo (2.23) en (2.20), encontramos:

Primera integral sobre propiedad general la densidad de probabilidad es igual a 1, y la segunda, por definición de dispersión, es igual a . Finalmente

Sin embargo, la entropía diferencial de una variable aleatoria gaussiana no depende de su expectativa matemática y aumenta monótonamente al aumentar la dispersión.

Para concluir, señalemos una cosa. propiedad importante Distribución normal: de todas las variables aleatorias continuas con la misma varianza, el valor con distribución normal tiene la entropía diferencial más alta.

Tema 2.5. Capacidad del canal de comunicación

En cualquier sistema de comunicación, la información se transmite a través de un canal. Su velocidad de transmisión depende no solo del canal en sí, sino también de las propiedades de la señal suministrada a su entrada y, por tanto, no puede caracterizar el canal como medio de transmisión de información. Busquemos una manera de evaluar la capacidad de un canal para transmitir información. Para cada fuente, la cantidad de información transmitida a través del canal adquiere su propio valor.

Cantidad máxima Información transmitida, tomada de todas las fuentes posibles. señal de entrada, caracteriza el canal en sí y generalmente se llama rendimiento canal por personaje:

bit/carácter

(donde la maximización se realiza sobre todas las distribuciones de probabilidad multidimensionales P(A))

También puede determinar el rendimiento del canal C por unidad de tiempo.

Calculemos el rendimiento canal simétrico sin memoria

(2.26)

Magnitud en este caso es fácil de calcular, ya que la probabilidad condicional (de transición) toma sólo dos valores: , en el caso si y (1-Р), en el caso .

El primero de estos valores ocurre con probabilidad P, y el segundo con probabilidad (1-P). Además, dado que se considera un canal sin memoria, los resultados de la recepción de símbolos individuales son independientes entre sí.

Por esta razón

(2.27)

En consecuencia, H(B/A) no depende de la distribución de probabilidad en el conjunto A, sino que está determinada únicamente por las probabilidades de transición del canal. Esta propiedad se conserva para todos los modelos con ruido aditivo.

Sustituyendo (2.27) en (2.26) obtenemos:

Dado que en el lado derecho sólo el término H(B) depende de la distribución de probabilidad P(A), es extremadamente importante maximizarlo.

Valor máximo H(B) es igual a log my se realiza cuando todos los símbolos aceptados son igualmente probables e independientes entre sí. Es fácil verificar que esta condición se cumple si los símbolos de entrada son igualmente probables e independientes, ya que en este caso

Al mismo tiempo

De ahí el rendimiento por unidad de tiempo.

Para un canal simétrico binario (m=2), el rendimiento en unidades binarias por unidad de tiempo

Dependencia de P según la fórmula (2.31)

Con P=1/2 rendimiento canal binario C = 0, ya que con tal probabilidad de error, la secuencia de símbolos binarios de salida se puede obtener sin transmitir señales a través del canal, sino seleccionándolas al azar (por ejemplo, según los resultados de lanzar una moneda), es decir, con P = 1/2 de la secuencia de salida y las entradas de los canales son independientes. El caso C=0 suele denominarse ruptura de canal. El hecho de que el rendimiento con P=1 en un canal binario sea el mismo que con P=0 (canal sin ruido) se explica por el hecho de que con P=1 basta con invertir todos los símbolos de salida (es decir, reemplazar 0 con 1 y 1 a 0) para restaurar correctamente la señal de entrada.

El rendimiento de un canal continuo se calcula de forma similar. Supongamos, por ejemplo, que un canal tiene un ancho de banda limitado de ancho F. Entonces las señales U(t) y Z(t) están respectivamente en la entrada y salida del canal según el teorema. Los Kotelnikov están determinados por sus muestras tomadas a intervalos de 1/(2F) y, en este sentido, la información que pasa por el canal en un corto tiempo T es igual a la suma de la cantidad de información transmitida para cada muestra. Capacidad de canal para una de esas muestras:

Aquí están U y Z variables aleatorias– secciones transversales de los procesos U(t) y Z(t) en la entrada y salida del canal, respectivamente, y el máximo se toma sobre todas las señales de entrada admisibles, es decir, sobre todas las distribuciones U.

El ancho de banda C se define como la suma de los valores tomados en todas las muestras por segundo. En este caso, por supuesto, las entropías diferenciales en (2.35) deben calcularse teniendo en cuenta las conexiones probabilísticas entre las muestras.

Calculemos la capacidad de un canal continuo sin memoria con ruido blanco gaussiano aditivo que tiene un ancho de banda de ancho F, si la potencia promedio de la señal es . Denotamos la potencia (dispersión) del ruido en la banda F. Las muestras de las señales de salida y entrada, así como el ruido N, están relacionadas por la igualdad:

Dado que N tiene una distribución normal con expectativa matemática cero, la densidad de probabilidad condicional para una U fija también será normal, con expectativa matemática U y varianza.

El rendimiento por muestra está determinado por la fórmula (2.32):

Según (2.24), la entropía diferencial condicional h(Z/U) de la distribución normal no depende de la expectativa matemática y es igual a . Por esta razón, para encontrarlo, se debe encontrar la densidad de distribución en la que h(Z) se maximiza. De (2.33), teniendo en cuenta que U y N son variables aleatorias independientes, tenemos para las varianzas

Sin embargo, la variación es fija, como se especifica. Como se sabe, con una dispersión fija, la entropía diferencial máxima la proporciona la distribución normal. De (2.33) se desprende claramente que con una distribución unidimensional normal U, la distribución Z también será normal y, por tanto, se garantiza la entropía diferencial máxima (2.24).

(2.34)

Pasando al rendimiento C por segundo, observamos que la información transmitida en varias muestras es máxima cuando las muestras de señal son independientes. Esto se puede lograr si la señal U(t) se elige de modo que su densidad espectral sea uniforme en la banda F. Las muestras separadas por intervalos que son múltiplos de 1/(2F) no están correlacionadas entre sí, y para cantidades gaussianas no correlacionadas significa independencia. . Por esta razón, el rendimiento C (por segundo) se puede encontrar sumando los rendimientos (2.35) para muestras independientes 2F:

(2.36)

Se implementa si U(t) es un proceso gaussiano con densidad espectral uniforme en la banda de frecuencia F (ruido cuasi blanco).

De (2.36) queda claro que si la potencia de la señal no estuviera limitada, entonces el rendimiento sería arbitrariamente grande. El rendimiento es cero si la relación señal-ruido en el canal es cero. A medida que esta relación aumenta, el rendimiento aumenta indefinidamente, pero lentamente, debido a una dependencia logarítmica.

La relación (2.36) suele denominarse fórmula de Shannon. Esta fórmula es importante en la teoría de la información, ya que determina la dependencia de la capacidad del canal continuo considerado de tales caracteristicas tecnicas, como el ancho de banda y la relación señal-ruido. La fórmula de Shannon indica la posibilidad de intercambiar ancho de banda por potencia de señal y viceversa. Además, dado que C depende linealmente de F y de acuerdo con una ley logarítmica, normalmente no es rentable compensar una posible reducción del ancho de banda aumentando la potencia de la señal. Más eficiente es el intercambio inverso de potencia de señal por ancho de banda.

Volumen máximo información que, en promedio, puede transmitirse a través de canal continuo por el momento

Para un canal gaussiano

(2.37)

Tenga en cuenta que la expresión (2.37) coincide con la característica llamada capacidad (volumen) del canal.

Tema 2.6. Teorema de K. Shannon

La capacidad del canal caracteriza las capacidades potenciales de transmisión de información. Οʜᴎ se revelan en un teorema fundamental de la teoría de la información, conocido como teorema fundamental de codificación de K. Shannon. Con relación a fuente discreta se formula de la siguiente manera: si el rendimiento de la fuente del mensaje H(A) es inferior a la capacidad del canal C:

(A)

luego existe un método de codificación (convertir un mensaje en una señal en la entrada) y decodificación (convertir una señal en un mensaje en la salida del canal), en el que la probabilidad de decodificación errónea y falta de confiabilidad es arbitrariamente pequeña. Si (A)>C, entonces tales métodos no existen.

Consideremos el contenido del teorema de Shannon.

Como se señaló, para reconstruir un mensaje transmitido a partir de una señal entrante, es extremadamente importante que la señal contenga información sobre ella igual a la entropía del mensaje. Por lo tanto, para transmisión correcta mensaje, es extremadamente importante que la velocidad de transferencia de información no sea menor que la productividad de la fuente. Dado que, por definición, la velocidad de transmisión de información no excede el rendimiento, entonces la desigualdad (A)

¿Pero es esta condición suficiente?

Por supuesto, cuando C>H’(A) es posible transmitir señales que alcanzarán el valor H’(A). Pero - ϶ᴛᴏ la velocidad de transmisión de información sobre la señal B, y no sobre el mensaje A. Por esta razón, la pregunta se reduce a si es posible establecer tal correspondencia (código) entre el mensaje A y la señal B para que todos la información recibida a la salida del canal sobre la señal B , ¿era al mismo tiempo información sobre el mensaje A? (Para que las transformaciones entre A y B sean reversibles)

Una respuesta positiva a esta pregunta es obvia en el caso trivial en el que no hay interferencia en el canal y la señal B se recibe con precisión. Al mismo tiempo , y si se establece una correspondencia uno a uno entre A y B, entonces el mensaje se puede reconstruir de forma única a partir de la señal recibida. En el caso general, hay interferencia en el canal y la señal B se recibe con errores, por lo que . De ello se deduce que incluso si llega a (A), de todos modos (B)> (A), ya que . Esto significa que el rendimiento de la fuente de señal B debe ser superior al rendimiento de la fuente de mensaje A y, por tanto, B contiene, además de información sobre A, información adicional propia. Se pierde cierta información sobre la señal B en el canal. La pregunta se reduce a lo siguiente: ¿es posible codificar de tal manera que sólo se pierda la parte adicional (redundante) de la propia información de B, mientras se conserva la información sobre A?

El teorema de Shannon da una respuesta casi positiva a esta pregunta, con la única enmienda de que la tasa de “fuga de información” (o falta de confiabilidad) no es exactamente cero, sino que debe reducirse tanto como se desee. En consecuencia, la probabilidad de una decodificación errónea debería hacerse tan pequeña como se desee. Además, cuanto menor sea la probabilidad aceptable de decodificación errónea, más complejo debería ser el código.

Si el canal binario estuviera libre de ruido y permitiera la transmisión de símbolos binarios a una velocidad de símbolo/s, entonces el rendimiento por segundo sería

En este caso, este teorema se reduciría al teorema de codificación fuente.

En este caso, el interés principal es más caso general Canal binario con ruido. Su capacidad C es menor que la velocidad a la que llegan los símbolos del código binario a la entrada del canal. Por lo tanto, la secuencia de símbolos de código B que ingresan al canal debe, de acuerdo con el teorema, tener la característica . Esto significa que los símbolos transmitidos no son igualmente probables y/o independientes, es decir, el código debe tener redundancia, a diferencia de un código eficiente adecuado para un canal libre de interferencias. Esto significa que al codificar mensajes con una secuencia de símbolos de código, no se utilizan todas las secuencias de códigos posibles.

El teorema de codificación de Shannon es válido para una clase muy amplia de canales. En particular, esto también es válido para la transmisión de mensajes discretos a través de un canal continuo. En este caso, se entiende por codificación la selección de un cierto número de implementaciones U(t) de la señal de entrada en el intervalo T y la comparación con cada una de ellas de una secuencia de mensajes elementales emitidos por la fuente durante el mismo intervalo T.

Enfaticemos el importante resultado que se desprende del teorema: cuanto mayor es la fidelidad de la comunicación, más largo es el segmento del mensaje codificado (y por lo tanto mayor es el retraso en la recepción de la información) y menos eficientemente se utiliza la capacidad del canal (cuanto mayor es la diferencia que determina la “reserva de ancho de banda” del canal). Por tanto, existe un equilibrio entre fidelidad, latencia y eficiencia del sistema. A medida que aumenta T, la complejidad de la codificación y decodificación aumenta significativamente (número de operaciones, número de elementos y costo del equipo). Por esta razón, casi con mayor frecuencia prefieren tener un valor moderado de retrasos T, que, por cierto, no en todos los sistemas de comunicación se puede aumentar arbitrariamente, y logran una mayor fidelidad a expensas de menos uso completo Capacidad del canal.

Tema 2.7. Información en mensajes continuos. Entropía épsilon

Para transmitir un mensaje continuo con absoluta precisión, sería necesario transmitir sin cesar gran número información, lo que, por supuesto, no se puede hacer en un tiempo finito utilizando un canal con una capacidad finita. Del mismo modo, un mensaje continuo no puede recordarse (grabarse) con absoluta precisión en presencia de una interferencia, por débil que sea.

Sin embargo, los mensajes continuos (por ejemplo, televisión, teléfono) se transmiten con éxito a través de canales de comunicación y se graban. Esto se debe a que, en la práctica, nunca se requiere una reproducción absolutamente exacta del mensaje transmitido y grabado. Y para la transmisión incluso con la precisión más alta, pero limitada, se requiere una cantidad finita de información, del mismo modo que cuando se transmiten mensajes discretos. Esta cantidad de información es mayor cuanto mayor es la precisión con la que se requiere transmitir (reproducir) un mensaje continuo. Dejemos que la inexactitud permisible se mida mediante algún pequeño parámetro. Esa cantidad mínima de información que debe transmitirse a través de un canal de comunicación para reproducir un mensaje continuo con una inexactitud no más que aceptable, el académico A.N Kolmogorov propuso llamarla -entropía (épsilon-entropía).

El criterio que determina la precisión requerida debe ser diferente. llamaremos a dos

Información mutua: concepto y tipos. Clasificación y características de la categoría "Información Mutua" 2017, 2018.




Arriba