Hogar › Internet › Medidas semánticas y pragmáticas de información. Medida sintáctica de información. Preguntas de autoevaluación

Medidas semánticas y pragmáticas de información. Medida sintáctica de información. Preguntas de autoevaluación

Medida sintáctica información

Arroz. 1.1. Medidas de información

La medida sintáctica opera sobre el volumen de datos y la cantidad de información I a expresada a través de la entropía (el concepto de incertidumbre del estado del sistema).

Medida semántica opera con la cantidad de información expresada a través de su volumen y grado de contenido.

Una medida pragmática está determinada por su utilidad, expresada a través de los correspondientes efectos económicos.

Medida sintáctica de información.

Esta medida de la cantidad de información opera con información impersonal que no expresa una relación semántica con el objeto.

Hoy el mas famoso siguientes métodos medida cuantitativa información: volumétrica, entropía, algorítmica.

Volumétrico es el más simple y de una manera áspera información de medición. La correspondiente evaluación cuantitativa de la información puede, naturalmente, denominarse volumen de información.

La cantidad de información es la cantidad de caracteres del mensaje. Como el mismo número puede ser escrito por muchos de diferentes maneras, es decir, usando diferentes alfabetos, por ejemplo veintiuno – 21– XXI– 11001, entonces este método es sensible a la forma de presentación (grabación) del mensaje. EN tecnología informática toda la información procesada y almacenada, independientemente de su naturaleza (número, texto, visualización) se presenta en forma binaria (utilizando un alfabeto que consta de sólo dos caracteres "0" y "1").

EN sistema binario La unidad de medida de notación es bit (bit – dígito binario – dígito binario).

En teoría de la información, un bit es la cantidad de información necesaria para distinguir entre dos mensajes igualmente probables; y en informática, un bit es la "porción" más pequeña de memoria necesaria para almacenar uno de los dos caracteres "0" y "1" utilizados para la representación interna de datos y comandos de la máquina. Esta es una unidad de medida demasiado pequeña; en la práctica, se utiliza más a menudo una unidad más grande, un byte, igual a los 8 bits necesarios para codificar cualquiera de los 256 caracteres del alfabeto del teclado de computadora (256 = 2 8).

También se utilizan ampliamente unidades de información derivadas aún más grandes:

1 kilobyte (kbyte) = 1024 bytes = 2 10 bytes;

1 megabyte (MB) = 1024 KB = 2 20 bytes;

1 Gigabyte (GB) = 1024 MB = 2 30 bytes.

EN últimamente En relación con el aumento del volumen de información procesada, se utilizan las siguientes unidades derivadas:

1 Terabyte (TB) = 1024 GB = 2 40 bytes;

1 petabyte (PB) = 1024 TB = 250 bytes.

EN sistema decimal La unidad de medida de notación es dit (lugar decimal).

Un mensaje en sistema binario en forma de código binario de ocho bits 1011 1011 tiene un volumen de datos V D = 8 bits.

Un mensaje en el sistema decimal en forma de un número de seis dígitos 275 903 tiene un volumen de datos V D = 6 bits.

En la teoría de la información y la codificación, se adopta un enfoque de entropía para medir la información. La obtención de información sobre un sistema siempre va asociada a un cambio en el grado de desconocimiento del receptor sobre el estado de este sistema. Este método de medición proviene del siguiente modelo.

Deje que el consumidor tenga alguna información preliminar (a priori) sobre el sistema α antes de recibir información. Después de recibir el mensaje b, el destinatario ha adquirido algunos información adicional I(b), lo que redujo su ignorancia. Esta información está en caso general poco confiable y se expresa por las probabilidades con las que espera tal o cual evento. La medida general de incertidumbre (entropía) se caracteriza por cierta dependencia matemática de la totalidad de estas probabilidades. La cantidad de información en un mensaje está determinada por cuánto disminuye esta medida después de recibir el mensaje.

Así, el ingeniero estadounidense R. Hartley (1928) considera el proceso de obtención de información como la selección de un mensaje de un conjunto finito predeterminado de N mensajes igualmente probables, y la cantidad de información i contenida en el mensaje seleccionado se define como el binario logaritmo de N (fórmula de Hartley):

Digamos que necesitas adivinar un número de un conjunto de números del uno al cien. Usando la fórmula de Hartley, puede calcular cuánta información se requiere para esto: , es decir, un mensaje sobre un número adivinado correctamente contiene una cantidad de información aproximadamente igual a 6,644 unidades de información.

Otros ejemplos de mensajes igualmente probables:

1) al lanzar una moneda, “salió cara”, “salió cara”;

2) en la página del libro “el número de letras es par”, “el número de letras es impar”.

Es imposible responder inequívocamente a la pregunta de si los mensajes "la mujer será la primera en salir por la puerta del edificio" y "el hombre será el primero en salir por la puerta del edificio" son igualmente probables. Todo depende de qué edificio estamos hablando de. Si se trata, por ejemplo, de una estación de metro, entonces la probabilidad de salir primero por la puerta es la misma para un hombre y una mujer, y si se trata de un cuartel militar, entonces para un hombre esta probabilidad es mucho mayor que para una mujer. .

Para problemas de este tipo, el científico estadounidense Claude Shannon propuso en 1948 otra fórmula para determinar la cantidad de información, teniendo en cuenta la posible probabilidad desigual de mensajes en un conjunto (fórmula de Shannon):

¿Dónde está la probabilidad de que exactamente i-ésimo mensaje resaltado en un conjunto de N mensajes.

Es fácil notar que si las probabilidades... son iguales, entonces cada una de ellas es igual y la fórmula de Shannon se convierte en la fórmula de Hartley.

Además de los dos enfoques considerados para determinar la cantidad de información, existen otros. Es importante recordar que cualquier resultado teórico es aplicable sólo a una cierta gama de casos, delineados por los supuestos iniciales.

En la teoría algorítmica de la información (sección de la teoría de los algoritmos) se propone método algorítmico Evaluación de la información del mensaje. A cualquier mensaje se le puede asignar una característica cuantitativa que refleje la complejidad (tamaño) del programa que permite producirlo.

El coeficiente (grado) de contenido de información (brevedad) de un mensaje está determinado por la relación entre la cantidad de información y el volumen total de datos recibidos:

y 0< Y < 1.

A medida que aumenta Y, disminuye la cantidad de trabajo para transformar la información (datos) en el sistema. Por lo tanto, es necesario esforzarse por aumentar el contenido de la información, para lo cual se están desarrollando métodos especiales para una codificación óptima de la información.

1.4.2.2 Medida semántica de información

La semántica es la ciencia del significado, el contenido de la información.

Para medir el contenido semántico de la información, es decir, su cantidad a nivel semántico, la medida del tesauro, que conecta las propiedades semánticas de la información con la capacidad del usuario para aceptar el mensaje entrante, ha recibido el mayor reconocimiento. Un mismo mensaje informativo (artículo de periódico, anuncio, carta, telegrama, certificado, cuento, dibujo, emisión de radio, etc.) puede contener diferentes cantidades información para diferentes personas dependiendo de su conocimiento previo, nivel de comprensión del mensaje e interés en el mismo.

Para medir la cantidad información semántica Se utiliza el concepto de “tesauro de usuario”, es decir, la totalidad de la información disponible para el usuario o el sistema.

Dependiendo de la relación entre el contenido semántico de la información S y el tesauro del usuario S p, cambia la cantidad de información semántica I c percibida por el usuario y posteriormente incluida por él en su tesauro. La naturaleza de esta dependencia se muestra en la Figura 1.2.

Arroz. 1. 2. Dependencia de la cantidad de información semántica percibida por el consumidor de su tesauro I C = f(S p)

Consideremos dos casos límite cuando la cantidad de información semántica I C es igual a 0:

En el usuario no percibe ni comprende la información entrante;

En el usuario lo sabe todo y no necesita la información entrante.

Cantidad máxima El consumidor adquiere información semántica coordinando su contenido semántico S con su tesauro ( ), cuando la información entrante es comprensible para el usuario y le proporciona información previamente desconocida (no en su tesauro).

Por tanto, la cantidad de información semántica y nuevos conocimientos en un mensaje recibido por el usuario es un valor relativo.

Una medida relativa de la cantidad de información semántica puede ser el coeficiente de contenido C, definido como la relación entre la cantidad de información semántica y su volumen.

Cantidad y calidad de la información.

Niveles de problemas de transmisión de información.

Al implementar procesos de información Siempre hay una transferencia de información en el espacio y el tiempo desde la fuente de información al receptor (destinatario) mediante señales. Señal - un proceso físico (fenómeno) que transmite un mensaje (información) sobre un evento o estado de un objeto de observación.

Mensaje- una forma de representar información en forma de un conjunto de signos (símbolos) utilizados para la transmisión.

Un mensaje como conjunto de signos desde el punto de vista de la semiótica, una ciencia que estudia las propiedades de los signos y los sistemas de signos, se puede estudiar en tres niveles:

1) sintáctico, donde se consideran las propiedades internas de los mensajes, es decir, las relaciones entre signos, que reflejan la estructura de un sistema de signos determinado.

2) semántico, donde se analizan las relaciones entre los signos y los objetos, acciones, cualidades que denotan, es decir, el contenido semántico del mensaje, su relación con la fuente de información;

3) pragmático, donde se considera la relación entre el mensaje y el destinatario, es decir, el contenido del mensaje para el consumidor, su relación con el destinatario.

Problemas nivel sintáctico se refieren a la creación fundamentos teóricos construcción sistemas de información. En este nivel, consideran los problemas de entregar mensajes al destinatario como un conjunto de caracteres, teniendo en cuenta el tipo de medio y método de presentación de la información, la velocidad de transmisión y procesamiento, el tamaño de los códigos de presentación de información, la confiabilidad y precisión de la conversión de estos códigos, etc., abstrayéndose completamente del contenido semántico de los mensajes y su finalidad prevista. En este nivel, la información considerada sólo desde una perspectiva sintáctica suele denominarse datos, ya que el lado semántico no importa.

Problemas nivel semántico asociado con la formalización y teniendo en cuenta el significado información transmitida, determinando el grado de correspondencia entre la imagen del objeto y el objeto mismo. En este nivel Se analiza la información que refleja la información, se consideran conexiones semánticas, se forman conceptos e ideas, se revela el significado y contenido de la información y se lleva a cabo su generalización.

A nivel pragmático interesado en las consecuencias de recibir y utilizar esta información por parte del consumidor. Los problemas en este nivel están asociados con la determinación del valor y la utilidad del uso de la información cuando el consumidor desarrolla una solución para lograr su objetivo. La principal dificultad aquí es que el valor y la utilidad de la información pueden ser completamente diferentes para diferentes destinatarios y, además, depende de una serie de factores, como, por ejemplo, la puntualidad de su entrega y uso.

Medidas de información

Medidas de información a nivel sintáctico.

Para medir información sobre nivel sintáctico Se ingresan dos parámetros: la cantidad de información (datos) – VD(enfoque de volumen) y cantidad de información - I(enfoque de entropía).

Volumen de información V D. Al implementar procesos de información, la información se transmite en forma de mensaje, que es un conjunto de símbolos de un alfabeto. Si se toma como uno la cantidad de información contenida en un mensaje de un carácter, entonces el volumen de información (datos) VD en cualquier otro mensaje será igual al número de caracteres (dígitos) en este mensaje.

Por lo tanto, en el sistema numérico decimal, un dígito tiene un peso igual a 10 y, en consecuencia, la unidad de medida de la información será dit (lugar decimal). En este caso, un mensaje en el formulario norte VD= norte dicho. Por ejemplo, el número de cuatro dígitos 2003 tiene un volumen de datos V D = 4 dicho.

En el sistema numérico binario, un dígito tiene un peso igual a 2 y, en consecuencia, la unidad de medida de información será el bit. (bit (dígito binario)- dígito binario). En este caso, un mensaje en el formulario norte-el número digital tiene volumen de datos VD = p poco. Por ejemplo, ocho bits código binario 11001011 tiene volumen de datos VD= 8 bits.

En la tecnología informática moderna, junto con unidad minima Al medir bits de datos, se utiliza ampliamente una unidad de medida grande llamada bytes, equivalente a 8 bits. Al trabajar con grandes volúmenes Se utiliza más información para calcular su cantidad. unidades grandes medidas como kilobyte (KB), megabyte (MB), gigabyte (GB), terabyte (TB):

1 kbyte = 1024 bytes = 2 10 bytes;

1 MB = 1024 KB = 2 20 bytes = 1.048.576 bytes;

1 GB = 1024 MB = 2 30 bytes = 1.073.741.824 bytes; .

1 TB = 1024 GB = 2 40 bytes = 1.099.511.627.776 bytes.

Cantidad de información I (enfoque de entropía). En la teoría de la información y la codificación, se adopta un enfoque de entropía para medir la información. Este enfoque se basa en que el hecho de obtener información siempre va asociado a una disminución de la diversidad o incertidumbre (entropía) del sistema. En base a esto, se determina la cantidad de información en un mensaje como una medida para reducir la incertidumbre del estado de un sistema determinado después de recibir el mensaje. Una vez que un observador ha identificado algo en un sistema físico, la entropía del sistema disminuye porque, para el observador, el sistema se ha vuelto más ordenado.

Así, con el enfoque de la entropía se entiende por información el valor cuantitativo de la incertidumbre que ha desaparecido durante algún proceso (pruebas, mediciones, etc.). En este caso, se introduce la entropía como medida de incertidumbre. NORTE, y la cantidad de información es:

Dónde H abr - entropía a priori sobre el estado del sistema en estudio;

felicidades- entropía posterior.

A posteriori- provenientes de la experiencia (pruebas, mediciones).

A priori- un concepto que caracteriza el conocimiento que precede a la experiencia (pruebas) y es independiente de ella.

En el caso de que durante la prueba se elimine la incertidumbre existente (se obtenga un resultado específico, es decir felicidades = 0), la cantidad de información recibida coincide con la entropía inicial

Consideremos como sistema en estudio fuente discreta información (fuente mensajes discretos), con lo que queremos decir sistema fisico, teniendo un conjunto finito de estados posibles. esto es mucho A= (a 1, a 2 , ..., una p) Los estados de un sistema en teoría de la información se denominan alfabeto abstracto o alfabeto de una fuente de mensaje.

Estados individuales un 1, un 2,..., un „ Se llaman letras o símbolos del alfabeto.

Un sistema de este tipo puede adoptar aleatoriamente uno de un conjunto finito de estados posibles en cualquier momento dado. y yo.

Dado que algunos estados son seleccionados por la fuente con más frecuencia y otros con menos frecuencia, en el caso general se caracteriza por un conjunto A, es decir, un conjunto completo de estados con probabilidades de ocurrencia que suman uno:

, y (2.2)

Introduzcamos una medida de incertidumbre en la elección del estado fuente. También se puede considerar como una medida de la cantidad de información obtenida cuando eliminación completa incertidumbre respecto de estados fuente igualmente probables.

Entonces en norte=1 obtenemos N / A)= 0.

Esta medida fue propuesta por el científico estadounidense R. Hartley en 1928. La base del logaritmo en la fórmula (2.3) no es de fundamental importancia y determina únicamente la escala o unidad de medida. Dependiendo de la base del logaritmo, se utilizan las siguientes unidades. de medición se utilizan.

1. Bits: en este caso la base del logaritmo es igual a 2:

(2.4)

2. Liendres: en este caso la base del logaritmo es igual a mi:

3. Dits: en este caso la base del logaritmo es igual a 10:

En informática, la fórmula (2.4) se suele utilizar como medida de incertidumbre. En este caso, la unidad de incertidumbre se llama unidad binaria o bit y representa la incertidumbre de elegir entre dos eventos igualmente probables.

La fórmula (2.4) se puede obtener empíricamente: para eliminar la incertidumbre en una situación de dos eventos igualmente probables, se necesita una experiencia y, en consecuencia, un bit de información; en el caso de una incertidumbre que consta de cuatro eventos igualmente probables, 2 bits de información; son suficientes para adivinar el hecho deseado. Para identificar una carta de una baraja de 32 cartas bastan 5 bits de información, es decir, basta con hacer cinco preguntas con respuestas “sí” o “no” para determinar la carta que se busca.

La medida propuesta permite solucionar ciertos problemas prácticos, cuando todos los estados posibles de la fuente de información tienen la misma probabilidad.

En general, el grado de incertidumbre en la implementación del estado de la fuente de información depende no sólo del número de estados, sino también de las probabilidades de estos estados. Si una fuente de información tiene, por ejemplo, dos estados posibles con probabilidades de 0,99 y 0,01, entonces la incertidumbre de elección es significativamente menor que la de una fuente que tiene dos estados igualmente probables, ya que en este caso el resultado está prácticamente predeterminado ( realización del estado, probabilidad que es igual a 0,99).

El científico estadounidense K. Shannon generalizó el concepto de medida de incertidumbre en la elección. h En caso h depende no sólo del número de estados, sino también de las probabilidades de estos estados (probabilidades p yo selección de personajes y yo, alfabeto A). Esta medida, que representa la incertidumbre por estado en promedio, se llama entropía de una fuente discreta de información:

(2.5)

Si volvemos a centrarnos en medir la incertidumbre en unidades binarias, entonces la base del logaritmo debe tomarse igual a dos:

(2.6)

En elecciones equiprobables, la probabilidad p i = 1/N La fórmula (2.6) se transforma en la fórmula de R. Hartley (2.3):

La medida propuesta se llamó entropía no por casualidad. El caso es que la estructura formal de la expresión (2.5) coincide con la entropía del sistema físico, previamente definida por Boltzmann.

Usando las fórmulas (2.4) y (2.6), podemos determinar la redundancia D alfabeto fuente del mensaje A, que muestra cuán racionalmente se usan los símbolos de este alfabeto:

Dónde N máx (A) - la entropía máxima posible, determinada por la fórmula (2.4);

N / A) - entropía de la fuente, determinada por la fórmula (2.6).

La esencia de esta medida es que, con una elección igualmente probable, se puede garantizar la misma carga de información en un signo utilizando un alfabeto más pequeño que en el caso de una elección desigual.

Al implementar procesos de información, la información siempre se transfiere en el espacio y el tiempo desde la fuente de información al receptor (destinatario). En este caso, se utilizan diversos signos o símbolos para transmitir información, por ejemplo, lenguaje natural o artificial (formal), lo que permite expresarla de alguna forma denominada mensaje.

Mensaje– una forma de representación de información en forma de un conjunto de signos (símbolos) utilizados para la transmisión.

Un mensaje como conjunto de signos desde el punto de vista de la semiótica ( del griego setneion - signo, signo) - una ciencia que estudia las propiedades de los signos y los sistemas de signos - se puede estudiar en tres niveles:

1) sintáctico , donde se consideran las propiedades internas de los mensajes, es decir, las relaciones entre signos, que reflejan la estructura de un sistema de signos determinado. Propiedades externas estudiado en los niveles semántico y pragmático. En este nivel, consideran los problemas de entregar mensajes al destinatario como un conjunto de caracteres, teniendo en cuenta el tipo de medio y método de presentación de la información, la velocidad de transmisión y procesamiento, el tamaño de los códigos de presentación de información, la confiabilidad y precisión de la conversión de estos códigos, etc., abstrayéndose completamente del contenido semántico de los mensajes y su finalidad prevista. En este nivel, la información considerada sólo desde una perspectiva sintáctica suele denominarse datos, ya que el lado semántico no importa.

La teoría de la información moderna estudia principalmente problemas en este nivel. Se basa en el concepto de “cantidad de información”, que es una medida de la frecuencia de uso de signos, que de ninguna manera refleja ni el significado ni la importancia de los mensajes que se transmiten. En este sentido, a veces se dice que teoría moderna La información está en el nivel sintáctico.

2) semántico , donde se analizan las relaciones entre los signos y los objetos, acciones y cualidades que denotan, es decir, el contenido semántico del mensaje, su relación con la fuente de información. Los problemas a nivel semántico están asociados a formalizar y tener en cuenta el significado de la información transmitida, determinando el grado de correspondencia entre la imagen del objeto y el objeto mismo. En este nivel se analiza la información que refleja la información, se consideran conexiones semánticas, se forman conceptos e ideas, se revela el significado y contenido de la información y se lleva a cabo su generalización.

3) pragmático , donde se considera la relación entre el mensaje y el destinatario, es decir, el contenido del mensaje para el consumidor, su relación con el destinatario.

En este nivel, son de interés las consecuencias de recibir y utilizar esta información por parte del consumidor. Los problemas en este nivel están asociados con la determinación del valor y la utilidad del uso de la información cuando el consumidor desarrolla una solución para lograr su objetivo. La principal dificultad aquí es que el valor y la utilidad de la información pueden ser completamente diferentes para diferentes destinatarios y, además, depende de una serie de factores, como, por ejemplo, la puntualidad de su entrega y uso.

Para cada uno de los niveles de problemas de transferencia de información discutidos anteriormente, existen diferentes enfoques para medir la cantidad de información y diferentes medidas de información. Existen, respectivamente, medidas de información a nivel sintáctico, nivel semántico y nivel pragmático.

Medidas de información a nivel sintáctico. Cuantificación La información en este nivel no está relacionada con el lado del contenido de la información, sino que opera con información impersonal que no expresa una relación semántica con el objeto. debido a esto esta medida permite evaluar los flujos de información en objetos de naturaleza tan diferente como los sistemas de comunicación, computadoras, sistemas de control, sistema nervioso organismo vivo, etc.

Para medir información a nivel sintáctico se introducen dos parámetros: la cantidad de información (datos) - V d(enfoque de volumen) y cantidad de información – I(enfoque de entropía).

Volumen de información V d (enfoque de volumen). Al implementar procesos de información, la información se transmite en forma de mensaje, que es un conjunto de símbolos de un alfabeto. Al mismo tiempo, cada nuevo símbolo en un mensaje aumenta la cantidad de información representada por una secuencia de caracteres de un alfabeto determinado. Si ahora la cantidad de información contenida en un mensaje de un carácter se toma como uno, entonces el volumen de información (datos) V d en cualquier otro mensaje será igual al número de caracteres (bits) de este mensaje. Dado que la misma información se puede representar de muchas maneras diferentes (usando diferentes alfabetos), la unidad de medida de la información (datos) cambiará en consecuencia.

Por lo tanto, en el sistema numérico decimal, un dígito tiene un peso igual a 10 y, en consecuencia, la unidad de medida de la información será dicho (lugar decimal norte norte dicho. Por ejemplo, el número de cuatro dígitos 2009 tiene un volumen de datos de V d = 4 dit.

En el sistema numérico binario, un dígito tiene un peso igual a 2 y, en consecuencia, la unidad de medida de la información será poco (bit (dígito binario) – dígito binario). En este caso, un mensaje en el formulario norte-El número de dígitos tiene volumen de datos V d = norte poco. Por ejemplo, el código binario de ocho bits 11001011 tiene un volumen de datos de V d = 8 bits.

En la informática moderna, junto con la unidad mínima de medida de datos. poco la unidad de medida ampliada se usa ampliamente byte, igual a 8 bits. Son precisamente ocho bits los que se necesitan para codificar cualquiera de los 256 caracteres del alfabeto del teclado de computadora (256 = 2 8).

Cuando se trabaja con grandes volúmenes de información, se utilizan unidades de medida mayores para calcular su cantidad:

1 kilobyte (KB) = 1024 bytes = 2 10 bytes,

1 Megabyte (MB) = 1024 KB = 2 20 bytes = 1.048.576 bytes;

1 Gigabyte (GB) = 1024 MB = 2 30 bytes = 1.073.741.824 bytes;

Recientemente, debido al aumento en el volumen de información procesada, se han derivado unidades como:

1 Terabyte (TB) = 1024 GB = 2 40 bytes = 1.099.511.627.776 bytes;

1 petabyte (PB) = 1024 TB = 2 50 bytes = 1.125.899.906.842.624 bytes.

Cabe señalar que en el sistema de medición de información binaria (computadora), a diferencia del sistema métrico, las unidades con los prefijos “kilo”, “mega”, etc. se obtienen multiplicando la unidad base no por 10 3 = 1000, 10 6 = 1.000.000, etc., y en 2 10 = 1024, 2 20 = 1.048.576, etc.

Cantidad de información I (enfoque de entropía). En la teoría de la información y la codificación, se adopta un enfoque de entropía para medir la información. Este enfoque se basa en que el hecho de obtener información siempre va asociado a una disminución de la diversidad o incertidumbre (entropía) del sistema. En base a esto, la cantidad de información en un mensaje se define como una medida para reducir la incertidumbre del estado de un sistema determinado después de recibir el mensaje. La incertidumbre se puede interpretar en términos de lo poco que sabe el observador sobre un sistema determinado. Una vez que un observador ha identificado algo en un sistema físico, la entropía del sistema disminuye porque, para el observador, el sistema se ha vuelto más ordenado.

Así, con el enfoque de la entropía Se entiende por información el valor cuantitativo de la incertidumbre que ha desaparecido durante cualquier proceso (ensayo, medición, etc.). En este caso, se introduce la entropía como medida de incertidumbre. norte, y la cantidad de información es igual a:

I = H abr – H aps

donde, H apr – entropía a priori sobre el estado del sistema o proceso en estudio;

H aps – entropía posterior.

A posteriori (de lat. a posteriori – de lo que sigue) – provenientes de la experiencia (pruebas, mediciones).

A priori (de lat. a priori - del anterior) es un concepto que caracteriza el conocimiento que precede a la experiencia (pruebas) y es independiente de ella.

En el caso de que durante la prueba se elimine la incertidumbre existente (se obtiene un resultado específico, es decir, H = 0), la cantidad de información recibida coincide con la entropía inicial.

Consideremos como sistema en estudio una fuente discreta de información (una fuente de mensajes discretos), por lo que nos referimos a un sistema físico que tiene un conjunto finito de estados posibles ( y yo}, i = .

Listo A = (a 1, a 2, ..., a n) Los estados de un sistema en teoría de la información se denominan alfabeto abstracto o alfabeto de una fuente de mensaje.

Estados individuales un 1, un 2,..., un n Se llaman letras o símbolos del alfabeto.

Un sistema de este tipo puede adoptar aleatoriamente uno de un conjunto finito de estados posibles en cualquier momento dado. un yo. Al mismo tiempo dicen que varios estados se realizan debido a su elección por parte de la fuente.

El destinatario de la información (mensaje) tiene una cierta idea sobre la posible ocurrencia de ciertos eventos. Estas ideas son generalmente poco fiables y se expresan en las probabilidades con las que se espera tal o cual acontecimiento. La medida general de incertidumbre (entropía) se caracteriza por cierta dependencia matemática de estas probabilidades; la cantidad de información en un mensaje está determinada por cuánto disminuye la medida de incertidumbre después de recibir el mensaje.

Expliquemos esta idea con un ejemplo.

Digamos que tenemos 32 cartas diferentes. La posibilidad de elegir una carta de la baraja es 32. Antes de tomar una decisión, es natural suponer que las posibilidades de elegir una determinada carta son las mismas para todas las cartas. Al tomar una decisión, eliminamos esta incertidumbre. En este caso, la incertidumbre se puede caracterizar por el número de elecciones posibles igualmente probables. Si ahora definimos la cantidad de información como una medida para eliminar la incertidumbre, entonces la información obtenida como resultado de la elección se puede caracterizar por el número 32. Sin embargo, es más conveniente utilizar no este número en sí, sino el logaritmo de la estimación obtenida anteriormente basada en 2:

donde m es el número de elecciones posibles igualmente probables (cuando m=2, obtenemos información en un bit). Es decir, en nuestro caso

H = registro 2 32 = 5.

El enfoque esbozado pertenece al matemático inglés R. Hartley (1928). Tiene una interpretación interesante. Se caracteriza por una serie de preguntas con respuestas de “sí” o “no” para determinar qué tarjeta eligió una persona. 5 de estas preguntas son suficientes.

Si al elegir una carta la posibilidad de que aparezca cada carta no es la misma (diferentemente probable), entonces obtenemos un enfoque estadístico para medir la información propuesto por K. Shannon (1948). En este caso, la medida de información se mide mediante la fórmula:

Dónde p yo– probabilidad de elección iº carácter del alfabeto.

Es fácil ver que si las probabilidades página 1, ..., pn son iguales entonces cada uno de ellos es igual 1/N, y la fórmula de Shannon se convierte en la fórmula de Hartley.

Medidas de información a nivel semántico. Para medir el contenido semántico de la información, es decir, su cantidad a nivel semántico, la medida más extendida es el tesauro, que conecta las propiedades semánticas de la información con la capacidad del usuario para aceptar el mensaje entrante. De hecho, para comprender y utilizar la información recibida, el destinatario debe tener ciertos conocimientos. El completo desconocimiento del tema no permite extraer información útil de mensaje recibido sobre este tema. A medida que crece el conocimiento sobre un tema, también aumenta el número información útil, extraído del mensaje.

Si nombramos el conocimiento que tiene el destinatario sobre este tema un tesauro (es decir, un determinado conjunto de palabras, conceptos, nombres de objetos conectados por conexiones semánticas), entonces la cantidad de información contenida en un determinado mensaje se puede evaluar por el grado de cambio en el tesauro individual bajo la influencia de este mensaje. .

Tesauro- un conjunto de información disponible para un usuario o sistema.

En otras palabras, la cantidad de información semántica extraída por el destinatario de los mensajes entrantes depende del grado de preparación de su tesauro para percibir dicha información.

Dependiendo de la relación entre el contenido semántico de la información. S y el tesauro del usuario S p la cantidad de información semántica cambia Es, percibido por el usuario y posteriormente incluido por él en su tesauro. La naturaleza de esta dependencia se muestra en la Fig. 2.1. Consideremos dos casos límite cuando la cantidad de información semántica I c es igual a 0:

a) cuando S p = 0, el usuario no percibe (no comprende) la información entrante;

b) cuando S -> ∞ el usuario “lo sabe todo” y no necesita la información entrante.

Arroz. 1.2. Dependencia de la cantidad de información semántica,

percibido por el consumidor, desde su tesauro Yo c =f(S p)

El consumidor adquiere la máxima cantidad de información semántica cuando coordina su contenido semántico S con su tesauro S p (S = S p opt), cuando la información entrante es comprensible para el usuario y le proporciona información previamente desconocida (no en su tesauro) .

En consecuencia, la cantidad de información semántica en un mensaje, la cantidad de nuevos conocimientos recibidos por el usuario, es un valor relativo. El mismo mensaje puede tener un contenido significativo para un usuario competente y carecer de significado para un usuario incompetente.

Al evaluar el aspecto semántico (contenido) de la información, es necesario esforzarse por armonizar los valores de S y Sp.

Una medida relativa de la cantidad de información semántica puede ser el coeficiente de contenido C, que se define como la relación entre la cantidad de información semántica y su volumen:

C = I s / V d

Medidas de información a nivel pragmático. Esta medida determina la utilidad de la información para lograr el objetivo del usuario. Esta medida es también un valor relativo, determinado por las peculiaridades del uso de esta información en un sistema particular.

Uno de los primeros científicos rusos que abordó el problema de la evaluación de la información a un nivel pragmático fue A.A. Kharkevich, quien propuso tomar como medida del valor de la información la cantidad de información necesaria para lograr el objetivo, es decir, calcular el incremento en la probabilidad de lograr el objetivo. Entonces, si antes de recibir la información la probabilidad de lograr el objetivo era p 0, y después de recibirla - p 1, entonces el valor de la información se determina como el logaritmo de la relación p 1 / p 0:

I = log 2 p 1 – log 2 p 0 = log 2 (p 1 /p 0)

Así, el valor de la información se mide en unidades de información, en en este caso en pedazos.

Para medir el contenido semántico de la información, es decir su cantidad a nivel semántico, la más reconocida es la medida del tesauro, que conecta las propiedades semánticas de la información con la capacidad del usuario para aceptar el mensaje entrante. Para ello se utiliza el concepto diccionario de sinónimos del usuario.

Tesauro Es una colección de información disponible para un usuario o sistema.

Dependiendo de la relación entre el contenido semántico de la información. S y el tesauro del usuario S p la cantidad de información semántica cambia yo, percibido por el usuario y posteriormente incluido por él en su tesauro. La naturaleza de esta dependencia se muestra en la Fig. 2.2. Consideremos dos casos límite cuando la cantidad de información semántica ic es igual a 0:

en S p 0 el usuario no percibe ni comprende la información entrante;

en Sp; el usuario lo sabe todo, pero no necesita la información entrante.

Arroz. 2.2. Dependencia de la cantidad de información semántica. percibido por el consumidor, desde su tesauro Ic=f(Esp)

Cantidad máxima de información semántica ic el consumidor adquiere al acordar su contenido semántico S con tu diccionario de sinónimos S p (S p = S p opt), cuando la información entrante es comprensible para el usuario y le proporciona información previamente desconocida (no en su tesauro).

En consecuencia, la cantidad de información semántica en un mensaje, la cantidad de nuevos conocimientos recibidos por el usuario, es un valor relativo. El mismo mensaje puede tener contenido significativo para un usuario competente y carecer de sentido (ruido semántico) para un usuario incompetente.

Al evaluar el aspecto semántico (contenido) de la información, es necesario esforzarse por armonizar los valores. S Y sp.

Una medida relativa de la cantidad de información semántica puede ser el coeficiente de contenido. CON, que se define como la relación entre la cantidad de información semántica y su volumen:

Medida pragmática de información.

Esta medida determina la utilidad de la información (valor) para que el usuario logre su objetivo. Esta medida es también un valor relativo, determinado por las peculiaridades del uso de esta información en un sistema particular. Es recomendable medir el valor de la información en las mismas unidades (o cercanas a ellas) en las que se mide. función objetivo.

Ejemplo 2.5. En un sistema económico, las propiedades pragmáticas (valor) de la información pueden determinarse por el aumento en el efecto económico de la operación logrado mediante el uso de esta información para gestionar el sistema:

Inb(g)=P(g /b)-P(g),

Dónde Inb(g)-valor mensaje informativo b para el sistema de control g,

P(g)- efecto económico esperado a priori del funcionamiento del sistema de control g ,

P(g/b)- el efecto esperado del funcionamiento del sistema g, siempre que la información contenida en el mensaje b se utilice para el control.

A modo de comparación, presentamos las medidas de información introducidas en la Tabla 2.1.

Tabla 2.1. Unidades de información y ejemplos.

CALIDAD DE LA INFORMACIÓN

La posibilidad y eficacia de utilizar la información está determinada por las necesidades básicas del consumidor: indicadores de calidad, como representatividad, significado, suficiencia, accesibilidad, relevancia, actualidad, exactitud, confiabilidad, sostenibilidad.

Representatividad La información está asociada a la corrección de su selección y formación para reflejar adecuadamente las propiedades del objeto. Las cosas más importantes aquí son:

la exactitud del concepto a partir del cual se formula el concepto original;

validez de la selección de características y conexiones esenciales del fenómeno mostrado.

La violación de la representatividad de la información a menudo conduce a errores importantes.

Contenido la información refleja una capacidad semántica igual a la relación entre la cantidad de información semántica en un mensaje y el volumen de datos procesados, es decir, C=Ic/Vd.

A medida que aumenta el contenido de la información, aumenta el valor semántico. rendimiento sistema de información, ya que para obtener la misma información se requiere convertir una menor cantidad de datos.

Junto con el coeficiente de contenido C, que refleja el aspecto semántico, también se puede utilizar el coeficiente de contenido de información, caracterizado por la relación entre la cantidad de información sintáctica (según Shannon) y la cantidad de datos. Y=I/Vd.

Suficiencia (integridad) información significa que contiene información mínima pero suficiente para su aceptación. la decisión correcta composición (conjunto de indicadores). El concepto de integridad de la información está asociado con su contenido semántico (semántica) y pragmática. Como incompleto, es decir. insuficiente para tomar la decisión correcta y la información redundante reduce la efectividad de las decisiones tomadas por el usuario.

Disponibilidad La información a la percepción del usuario está asegurada mediante la implementación de procedimientos adecuados para su adquisición y transformación. Por ejemplo, en un sistema de información, la información se transforma en una forma accesible y fácil de usar. Esto se logra, en particular, coordinando su forma semántica con el tesauro del usuario.

Pertinencia La información está determinada por el grado de preservación del valor de la información para la gestión en el momento de su uso y depende de la dinámica de cambios en sus características y del intervalo de tiempo transcurrido desde la aparición de esta información.

Oportunidad información significa su llegada a más tardar en un momento predeterminado, consistente con el momento de resolver la tarea.

Exactitud La información está determinada por el grado de proximidad de la información recibida a estado real objeto, proceso, fenómeno, etc. Para obtener información mostrada código digital, se conocen cuatro conceptos de clasificación de precisión:

precisión formal, medida por el valor unitario del dígito menos significativo de un número;

precisión real, determinada por el valor de la unidad del último dígito del número, cuya precisión está garantizada;

máxima precisión que se puede obtener en condiciones operativas específicas del sistema;

precisión requerida determinada propósito funcional indicador.

Credibilidad La información está determinada por su capacidad para reflejar de manera realista. instalaciones existentes con la precisión requerida. La confiabilidad de la información se mide por la probabilidad de confianza de la precisión requerida, es decir la probabilidad de que el valor de un parámetro mostrado por la información difiera del valor real de este parámetro dentro de la precisión requerida.

Sostenibilidad La información refleja su capacidad para responder a cambios en los datos de origen sin violar la precisión requerida. La estabilidad de la información, así como la representatividad, está determinada por la metodología elegida para su selección y formación.

En conclusión, cabe señalar que parámetros de calidad de la información como representatividad, contenido, suficiencia, accesibilidad y sostenibilidad están enteramente determinados en el nivel metodológico del desarrollo de los sistemas de información. Los parámetros de relevancia, puntualidad, precisión y confiabilidad también se determinan en mayor medida a nivel metodológico, pero su valor está significativamente influenciado por la naturaleza del funcionamiento del sistema, principalmente su confiabilidad. Al mismo tiempo, los parámetros de relevancia y precisión están estrictamente relacionados con los parámetros de puntualidad y confiabilidad, respectivamente.

Al evaluar la información se distinguen aspectos como el sintáctico, el semántico y el pragmático. Aspecto sintáctico asociado al método de transmisión de información, independientemente de sus cualidades semánticas y de consumo. A nivel sintáctico se consideran las formas de su transmisión y almacenamiento. Normalmente, la información que se pretende transmitir se denomina mensaje. El mensaje puede representarse en forma de signos y símbolos, convertirse en forma eléctrica y codificarse, es decir, presentado en forma de una secuencia específica señales electricas, mostrando sin ambigüedades mensajes transmitidos. Las características de los procesos de transformación de mensajes para su transmisión están determinadas por el aspecto sintáctico. Durante el almacenamiento, el aspecto sintáctico está determinado por otras formas de representación de la información que permiten de la mejor manera posible buscar, registrar, actualizar, cambiar información en base de información. La información considerada sólo en relación con el aspecto sintáctico a menudo se denomina datos. Aspecto semántico Transmite el contenido semántico de la información y lo correlaciona con la información previamente disponible. Se reflejan las conexiones semánticas entre palabras y otros elementos del lenguaje. "tesauro"(diccionario). Consta de dos partes: una lista de palabras y frases estables, agrupadas por significado, y alguna clave (alfabeto) que permite ordenar las palabras en en un cierto orden. Al recibir información, el tesauro se puede cambiar y el grado de este cambio caracteriza la cantidad de información reproducida. Aspecto pragmático Determina la posibilidad de lograr el objetivo planteado, teniendo en cuenta la información recibida. Este aspecto refleja propiedades del consumidor información: si la información resulta valiosa, el comportamiento de su consumidor cambia en la dirección correcta. El aspecto pragmático se manifiesta cuando hay unidad entre el consumidor y el objetivo.

Así, la información sobre su ocurrencia y transformaciones pasa por 3 etapas, que determinan sus aspectos semántico, sintáctico y pragmático. Una persona primero observa algunos hechos de la realidad circundante, que se reflejan en forma de un cierto conjunto de datos en su conciencia; aquí es donde aspecto sintáctico. Luego, después de estructurar estos datos de acuerdo con área temática una persona formaliza el conocimiento sobre la estructura de un objeto: esto es aspecto semántico información recibida. La información en forma de conocimiento tiene alto grado estructuración, que permite resaltar información completa sobre la realidad circundante y crear modelos de información objetos bajo estudio. Luego, una persona utiliza el conocimiento adquirido en su práctica, es decir, para lograr sus objetivos, lo que refleja aspecto pragmático.