Medidas de información a nivel semántico. Medidas semánticas y pragmáticas de información.

Al implementar procesos de información, la información siempre se transfiere en el espacio y el tiempo desde la fuente de información al receptor (destinatario). En este caso, para transmitir información se utilizan diversos signos o símbolos, por ejemplo, lenguaje natural o artificial (formal), lo que permite expresarla de alguna forma denominada mensaje.

Mensaje– una forma de representación de información en forma de un conjunto de signos (símbolos) utilizados para la transmisión.

Un mensaje como conjunto de signos desde el punto de vista de la semiótica ( del griego setneion - signo, signo) - una ciencia que estudia las propiedades de los signos y los sistemas de signos - se puede estudiar en tres niveles:

1) sintáctico , donde se consideran las propiedades internas de los mensajes, es decir, las relaciones entre signos, que reflejan la estructura de un sistema de signos determinado. Las propiedades externas se estudian a nivel semántico y pragmático. En este nivel, consideran los problemas de entregar mensajes al destinatario como un conjunto de caracteres, teniendo en cuenta el tipo de medio y método de presentación de la información, la velocidad de transmisión y procesamiento, el tamaño de los códigos de presentación de información, la confiabilidad y precisión de la conversión de estos códigos, etc., abstrayéndose completamente del contenido semántico de los mensajes y su finalidad prevista. En este nivel, la información considerada sólo desde una perspectiva sintáctica suele denominarse datos, ya que el lado semántico no importa.

La teoría de la información moderna estudia principalmente problemas en este nivel. Se basa en el concepto de “cantidad de información”, que es una medida de la frecuencia de uso de signos, que de ninguna manera refleja ni el significado ni la importancia de los mensajes que se transmiten. En este sentido, a veces se dice que la teoría de la información moderna se encuentra en el nivel sintáctico.

2) semántico , donde se analizan las relaciones entre los signos y los objetos, acciones y cualidades que denotan, es decir, el contenido semántico del mensaje, su relación con la fuente de información. Los problemas a nivel semántico están asociados a formalizar y tener en cuenta el significado de la información transmitida, determinando el grado de correspondencia entre la imagen del objeto y el objeto mismo. En este nivel se analiza la información que refleja la información, se consideran conexiones semánticas, se forman conceptos e ideas, se revela el significado y contenido de la información y se lleva a cabo su generalización.

3) pragmático , donde se considera la relación entre el mensaje y el destinatario, es decir, el contenido del mensaje para el consumidor, su relación con el destinatario.

En este nivel, son de interés las consecuencias de recibir y utilizar esta información por parte del consumidor. Los problemas en este nivel están asociados con la determinación del valor y la utilidad del uso de la información cuando el consumidor desarrolla una solución para lograr su objetivo. La principal dificultad aquí es que el valor y la utilidad de la información pueden ser completamente diferentes para diferentes destinatarios y, además, depende de una serie de factores, como, por ejemplo, la puntualidad de su entrega y uso.


Para cada uno de los niveles de problemas de transferencia de información discutidos anteriormente, existen sus propios enfoques para medir la cantidad de información y sus propias medidas de información. Existen respectivamente medidas de información a nivel sintáctico, nivel semántico y nivel pragmático.

Medidas de información a nivel sintáctico. La evaluación cuantitativa de la información en este nivel no está relacionada con el contenido de la información, sino que opera con información impersonal que no expresa una relación semántica con el objeto. En este sentido, esta medida permite evaluar los flujos de información en objetos de tan diversa naturaleza como sistemas de comunicación, ordenadores, sistemas de control, el sistema nervioso de un organismo vivo, etc.

Para medir información a nivel sintáctico se introducen dos parámetros: la cantidad de información (datos) - V d(enfoque de volumen) y cantidad de información – I(enfoque de entropía).

Volumen de información V d (enfoque de volumen). Al implementar procesos de información, la información se transmite en forma de mensaje, que es un conjunto de símbolos de un alfabeto. Además, cada nuevo carácter del mensaje aumenta la cantidad de información representada por la secuencia de caracteres de un alfabeto determinado. Si ahora la cantidad de información contenida en un mensaje de un carácter se toma como uno, entonces el volumen de información (datos) V d en cualquier otro mensaje será igual al número de caracteres (bits) de este mensaje. Dado que la misma información se puede representar de muchas maneras diferentes (usando diferentes alfabetos), la unidad de medida de la información (datos) cambiará en consecuencia.

Por lo tanto, en el sistema numérico decimal, un dígito tiene un peso igual a 10 y, en consecuencia, la unidad de medida de la información será dicho (lugar decimal norte norte dicho. Por ejemplo, el número de cuatro dígitos 2009 tiene un volumen de datos de V d = 4 dit.

En el sistema numérico binario, un dígito tiene un peso igual a 2 y, en consecuencia, la unidad de medida de la información será poco (bit (dígito binario) – dígito binario). En este caso, un mensaje en el formulario norte-El número de dígitos tiene volumen de datos V d = norte poco. Por ejemplo, el código binario de ocho bits 11001011 tiene un volumen de datos de V d = 8 bits.

En la informática moderna, junto con la unidad mínima de medida de datos. poco unidad de medida ampliada ampliamente utilizada byte, igual a 8 bits. Son precisamente ocho bits los que se necesitan para codificar cualquiera de los 256 caracteres del alfabeto del teclado de computadora (256 = 2 8).

Cuando se trabaja con grandes volúmenes de información, se utilizan unidades de medida mayores para calcular su cantidad:

1 kilobyte (KB) = 1024 bytes = 2 10 bytes,

1 Megabyte (MB) = 1024 KB = 2 20 bytes = 1.048.576 bytes;

1 Gigabyte (GB) = 1024 MB = 2 30 bytes = 1.073.741.824 bytes;

Recientemente, debido al aumento en el volumen de información procesada, se han derivado unidades como:

1 Terabyte (TB) = 1024 GB = 2 40 bytes = 1.099.511.627.776 bytes;

1 petabyte (PB) = 1024 TB = 2 50 bytes = 1.125.899.906.842.624 bytes.

Cabe señalar que en el sistema de medición de información binaria (computadora), a diferencia del sistema métrico, las unidades con los prefijos “kilo”, “mega”, etc. se obtienen multiplicando la unidad base no por 10 3 = 1000, 10 6 = 1.000.000, etc., y en 2 10 = 1024, 2 20 = 1.048.576, etc.

Cantidad de información I (enfoque de entropía). En la teoría de la información y la codificación, se adopta un enfoque de entropía para medir la información. Este enfoque se basa en que el hecho de obtener información siempre va asociado a una disminución de la diversidad o incertidumbre (entropía) del sistema. En base a esto, la cantidad de información en un mensaje se define como una medida para reducir la incertidumbre del estado de un sistema determinado después de recibir el mensaje. La incertidumbre se puede interpretar en términos de lo poco que sabe el observador sobre un sistema determinado. Una vez que un observador ha identificado algo en un sistema físico, la entropía del sistema disminuye porque, para el observador, el sistema se ha vuelto más ordenado.

Así, con el enfoque de la entropía Se entiende por información el valor cuantitativo de la incertidumbre que ha desaparecido durante cualquier proceso (ensayo, medición, etc.). En este caso, se introduce la entropía como medida de incertidumbre. norte, y la cantidad de información es igual a:

I = H abr – H aps

donde, H apr – entropía a priori sobre el estado del sistema o proceso en estudio;

H aps – entropía posterior.

A posteriori (de lat. a posteriori – de lo que sigue) – provenientes de la experiencia (pruebas, mediciones).

A priori (de lat. a priori - del anterior) es un concepto que caracteriza el conocimiento que precede a la experiencia (pruebas) y es independiente de ella.

En el caso de que durante la prueba se elimine la incertidumbre existente (se obtiene un resultado específico, es decir, H = 0), la cantidad de información recibida coincide con la entropía inicial.

Consideremos como sistema en estudio una fuente discreta de información (una fuente de mensajes discretos), por lo que nos referimos a un sistema físico que tiene un conjunto finito de estados posibles ( y yo}, i = .

Listo A = (a 1, a 2, ..., a n) Los estados de un sistema en teoría de la información se denominan alfabeto abstracto o alfabeto de una fuente de mensaje.

Estados individuales un 1, un 2,..., un n Se llaman letras o símbolos del alfabeto.

Un sistema de este tipo puede adoptar aleatoriamente uno de un conjunto finito de estados posibles en cualquier momento dado. un yo. En este caso, dicen que se realizan varios estados debido a su elección por parte de la fuente.

El destinatario de la información (mensaje) tiene una cierta idea sobre la posible ocurrencia de ciertos eventos. Estas ideas son generalmente poco confiables y se expresan por las probabilidades con las que espera tal o cual evento. La medida general de incertidumbre (entropía) se caracteriza por cierta dependencia matemática de estas probabilidades; la cantidad de información en el mensaje está determinada por cuánto disminuye la medida de incertidumbre después de recibir el mensaje.

Expliquemos esta idea con un ejemplo.

Digamos que tenemos 32 cartas diferentes. La posibilidad de elegir una carta de la baraja es 32. Antes de tomar una decisión, es natural suponer que las posibilidades de elegir una determinada carta son las mismas para todas las cartas. Al tomar una decisión, eliminamos esta incertidumbre. En este caso, la incertidumbre se puede caracterizar por el número de elecciones posibles igualmente probables. Si ahora definimos la cantidad de información como una medida para eliminar la incertidumbre, entonces la información obtenida como resultado de la elección se puede caracterizar por el número 32. Sin embargo, es más conveniente utilizar no este número en sí, sino el logaritmo de la estimación de base 2 obtenida anteriormente:

donde m es el número de elecciones posibles igualmente probables (cuando m=2, obtenemos información en un bit). Es decir, en nuestro caso

H = registro 2 32 = 5.

El enfoque presentado pertenece al matemático inglés R. Hartley (1928). Tiene una interpretación interesante. Se caracteriza por una serie de preguntas con respuestas de “sí” o “no” para determinar qué tarjeta eligió una persona. 5 de estas preguntas son suficientes.

Si al elegir una carta la posibilidad de que aparezca cada carta no es la misma (diferentemente probable), entonces obtenemos un enfoque estadístico para medir la información propuesto por K. Shannon (1948). En este caso, la medida de información se mide mediante la fórmula:

Dónde p yo– probabilidad de elección iº carácter del alfabeto.

Es fácil ver que si las probabilidades página 1, ..., pn son iguales entonces cada uno de ellos es igual 1/N, y la fórmula de Shannon se convierte en la fórmula de Hartley.

Medidas de información a nivel semántico. Para medir el contenido semántico de la información, es decir, su cantidad a nivel semántico, la medida más extendida es el tesauro, que conecta las propiedades semánticas de la información con la capacidad del usuario para aceptar el mensaje entrante. De hecho, para comprender y utilizar la información recibida, el destinatario debe tener ciertos conocimientos. El completo desconocimiento del tema no nos permite extraer información útil del mensaje recibido sobre este tema. A medida que aumenta el conocimiento sobre un tema, también aumenta la cantidad de información útil extraída del mensaje.

Si llamamos tesauro al conocimiento del destinatario sobre un tema determinado (es decir, un determinado conjunto de palabras, conceptos, nombres de objetos conectados por conexiones semánticas), entonces la cantidad de información contenida en un determinado mensaje se puede evaluar por el grado de cambio. en el tesauro individual bajo la influencia de este mensaje.

Tesauro- la totalidad de la información disponible para el usuario o el sistema.

En otras palabras, la cantidad de información semántica extraída por el destinatario de los mensajes entrantes depende del grado de preparación de su tesauro para percibir dicha información.

Dependiendo de la relación entre el contenido semántico de la información. S y el tesauro del usuario S p la cantidad de información semántica cambia Es, percibido por el usuario y posteriormente incluido por él en su tesauro. La naturaleza de esta dependencia se muestra en la Fig. 2.1. Consideremos dos casos límite cuando la cantidad de información semántica I c es igual a 0:

a) cuando S p = 0, el usuario no percibe (no comprende) la información entrante;

b) cuando S -> ∞ el usuario “lo sabe todo” y no necesita la información entrante.

Arroz. 1.2. Dependencia de la cantidad de información semántica,

percibido por el consumidor, desde su tesauro Yo c =f(S p)

El consumidor adquiere la máxima cantidad de información semántica cuando coordina su contenido semántico S con su tesauro S p (S = S p opt), cuando la información entrante es comprensible para el usuario y le proporciona información previamente desconocida (no en su tesauro) .

En consecuencia, la cantidad de información semántica en un mensaje, la cantidad de nuevos conocimientos recibidos por el usuario, es un valor relativo. El mismo mensaje puede tener un contenido significativo para un usuario competente y carecer de significado para un usuario incompetente.

Al evaluar el aspecto semántico (contenido) de la información, es necesario esforzarse por armonizar los valores de S y Sp.

Una medida relativa de la cantidad de información semántica puede ser el coeficiente de contenido C, que se define como la relación entre la cantidad de información semántica y su volumen:

C = I s / V d

Medidas de información a nivel pragmático. Esta medida determina la utilidad de la información para lograr el objetivo del usuario. Esta medida es también un valor relativo, determinado por las peculiaridades del uso de esta información en un sistema particular.

Uno de los primeros científicos rusos que abordó el problema de la evaluación de la información a un nivel pragmático fue A.A. Kharkevich, quien propuso tomar como medida del valor de la información la cantidad de información necesaria para lograr el objetivo, es decir, calcular el incremento en la probabilidad de lograr el objetivo. Entonces, si antes de recibir la información la probabilidad de lograr el objetivo era p 0, y después de recibirla - p 1, entonces el valor de la información se determina como el logaritmo de la relación p 1 / p 0:

I = log 2 p 1 – log 2 p 0 = log 2 (p 1 /p 0)

Así, el valor de la información se mide en unidades de información, en este caso en bits.

Clasificación de medidas

Medidas de información

Formularios de adecuación de la información

La adecuación de la información se puede expresar de tres formas: semántica, sintáctica y pragmática.

Adecuación sintáctica. Muestra las características formales y estructurales de la información y no afecta su contenido semántico. A nivel sintáctico se tiene en cuenta el tipo de medio y el método de presentación de la información, la velocidad de transmisión y procesamiento, el tamaño de los códigos para su representación, la fiabilidad y precisión de la conversión de estos códigos, etc. La información considerada sólo desde una posición sintáctica suele denominarse datos, porque el lado semántico no importa.

Adecuación semántica (nocional). Esta forma determina el grado de correspondencia entre la imagen del objeto y el objeto mismo. El aspecto semántico implica tener en cuenta el contenido semántico de la información. En este nivel se analiza la información que refleja la información y se consideran las conexiones semánticas. En informática, se establecen conexiones semánticas entre códigos para representar información. Esta forma sirve para formar conceptos e ideas, identificar el significado, contenido de la información y su generalización.

Adecuación pragmática (del consumidor) refleja la relación entre la información y su consumidor, la correspondencia de la información con el objetivo de gestión, que se implementa sobre su base. Las propiedades pragmáticas de la información aparecen sólo si existe unidad de información (objeto), usuario y objetivo de control. El aspecto pragmático de la consideración está asociado con el valor y la utilidad de utilizar la información cuando el consumidor desarrolla una solución para lograr su objetivo.

Para medir la información se introducen dos parámetros: la cantidad de información I y la cantidad de datos V. Estos parámetros tienen diferentes expresiones e interpretaciones según la forma de adecuación que se considere. Cada forma de adecuación corresponde a su propia medida de la cantidad de información y volumen de datos (Fig. 2.1).

Volumen de datos V d en un mensaje se mide por el número de caracteres (bits) de este mensaje. En diferentes sistemas numéricos, un dígito tiene un peso diferente y la unidad de medida de los datos cambia en consecuencia:

  • en el sistema numérico binario, la unidad de medida es un bit (bit - dígito binario - dígito binario);
  • En el sistema numérico decimal, la unidad de medida es dit (lugar decimal).


Arroz. 2.1. Medidas de información

cantidad de información I en el nivel sintáctico no se puede determinar sin considerar el concepto de incertidumbre del estado del sistema (entropía del sistema). De hecho, la obtención de información sobre un sistema siempre va asociada a un cambio en el grado de desconocimiento del receptor sobre el estado de ese sistema. Consideremos este concepto.


Deje que el consumidor tenga alguna información preliminar (a priori) sobre el sistema a antes de recibir información. La medida de su ignorancia del sistema es la función H(a), que al mismo tiempo sirve como medida de la incertidumbre del estado del sistema.

Después de recibir algún mensaje b, el destinatario adquirió cierta información adicional I b (a), lo que redujo su ignorancia a priori de modo que la incertidumbre a posteriori (después de recibir el mensaje b) del estado del sistema se convirtió en H b (a).

Entonces la cantidad de información I b (a) sobre el sistema recibida en el mensaje b se determinará como

Yo b (a) = H(a)-H b (a),

aquellos. la cantidad de información se mide por un cambio (reducción) en la incertidumbre del estado del sistema.

Si la incertidumbre final del sistema H b (a) se vuelve cero, entonces el conocimiento inicial incompleto será reemplazado por un conocimiento completo y la cantidad de información I b (a) = H (a). En otras palabras, entropía del sistema H(a) puede verse como una medida de información faltante.

La entropía de un sistema H(a), que tiene N estados posibles, según la fórmula de Shannon, es igual a

,

donde P i es la probabilidad de que el sistema esté en el i-ésimo estado.

Para el caso en que todos los estados del sistema sean igualmente probables, es decir sus probabilidades son iguales a P i = , su entropía está determinada por la relación

.

A menudo, la información está codificada con códigos numéricos en uno u otro sistema numérico, esto es especialmente cierto cuando se presenta información en una computadora. Naturalmente, el mismo número de dígitos en diferentes sistemas numéricos puede transmitir un número diferente de estados del objeto mostrado, que se puede representar como una relación.

donde N es el número de todos los estados posibles mostrados;

m - base del sistema numérico (variedad de símbolos utilizados en el alfabeto);

n es el número de bits (caracteres) del mensaje.

Los más utilizados son los logaritmos binarios y decimales. Las unidades de medida en estos casos serán bit y dit, respectivamente.

Coeficiente (grado) de contenido de información.(concisión) de un mensaje está determinada por la relación entre la cantidad de información y la cantidad de datos, es decir

Y=1/Vd, y 0

A medida que aumenta Y, disminuye la cantidad de trabajo necesario para convertir la información (datos en el sistema). Por lo tanto, se esfuerzan por aumentar el contenido de la información, para lo cual se están desarrollando métodos especiales para una codificación óptima de la información.


Para medir el contenido semántico de la información, es decir su cantidad a nivel semántico, la más reconocida es la medida del tesauro, que conecta las propiedades semánticas de la información con la capacidad del usuario para aceptar el mensaje entrante. Para ello se utiliza el concepto tesauro usuario.

Tesauro es una colección de información disponible para un usuario o sistema.

Dependiendo de la relación entre el contenido semántico de la información S y el tesauro del usuario S p, cambia la cantidad de información semántica I c percibida por el usuario y posteriormente incluida por él en su tesauro. La naturaleza de esta dependencia se muestra en la Fig. 2.2.



Arroz. 2.2. Dependencia de la cantidad de información semántica percibida por el consumidor.

Consideremos dos casos límite cuando la cantidad de información semántica I c
es igual a 0:

  • cuando S p = 0, el usuario no percibe ni comprende la información entrante;
  • con S p ® ¥ el usuario lo sabe todo y no necesita la información entrante.

El consumidor adquiere la cantidad máxima de información semántica I c cuando coordina su contenido semántico S con su tesauro S p (S p = S p opt), cuando la información entrante es comprensible para el usuario y le lleva previamente desconocida (no en su tesauro). ) información.

En consecuencia, la cantidad de información semántica en un mensaje, la cantidad de nuevos conocimientos recibidos por el usuario, es un valor relativo. El mismo mensaje puede tener contenido significativo para un usuario competente y carecer de sentido (ruido semántico) para un usuario incompetente.

Al evaluar el aspecto semántico (contenido) de la información, es necesario esforzarse por armonizar los valores de S y S p.

Una medida relativa de la cantidad de información semántica puede ser el coeficiente de contenido C, que se define como la relación entre la cantidad de información semántica y su volumen:


Las unidades de cantidad de información, definidas en el marco de los enfoques probabilístico y volumétrico, son tipos de medidas sintácticas de información utilizadas en el enfoque más general, cuando el tema de consideración no es solo información en sentido estricto (por ejemplo, procesada por un ordenador), sino de todos sus tipos, incluida la información social.

Medida sintáctica opera con información impersonal que no expresa una relación semántica con el objeto. El volumen de datos en un mensaje de información se mide por la cantidad de caracteres (bits). En diferentes sistemas numéricos, los dígitos tienen pesos diferentes y las unidades de datos cambian en consecuencia. Algunos ejemplos son bit, nat, trit, dit. En el marco del enfoque probabilístico, la medida sintáctica de la cantidad de información está determinada por el grado de cambio en la incertidumbre del estado del sistema, en el marco del enfoque volumétrico, caracteriza el volumen de información.

Medida semántica Se utiliza para caracterizar la información en términos de su significado. El análisis semántico permite revelar el contenido de la información y mostrar las relaciones entre los significados semánticos de sus elementos constituyentes. En combinación con el concepto de "tesauro", la medida semántica se denomina medida del diccionario de sinónimos información. La medida del tesauro fue propuesta por Yu.I Schneider y se generalizó. Tesauro es una colección de información disponible para un usuario o sistema. Otra definición que no contradice la primera: tesauro es la integridad de un conjunto sistemático de datos sobre el tema de la información. Durante el proceso de información, dependiendo de la relación entre el contenido semántico de la información y el tesauro del usuario, cambia la cantidad de información semántica percibida por el usuario y posteriormente incluida por él en su tesauro. El usuario recibe la cantidad máxima de información semántica cuando la información le resulta comprensible y contiene información previamente desconocida para él (no en el tesauro). La cantidad de información semántica adquirida durante el proceso de información es un valor relativo, ya que un mismo mensaje puede tener contenido semántico para un usuario competente y carecer de sentido (ruido semántico) para uno incompetente. Una medida de información semántica puede ser el coeficiente de contenido, definido como la relación entre la cantidad de información semántica y su volumen total.

Medida pragmática caracteriza la utilidad (valor) de la información para que el usuario logre su objetivo. Esta medida es también un valor relativo, dependiendo de las necesidades específicas del usuario y de las condiciones del proceso de información. En un sistema técnico, las propiedades pragmáticas de la información determinan la posibilidad de mejorar la calidad del funcionamiento del sistema.

Formularios para presentar información en una computadora. Sistemas numéricos

La base física de la tecnología informática es la generación, procesamiento y transmisión de señales eléctricas. Las señales eléctricas se dividen en cosa análoga(continuo) y digital(discreto). Las señales digitales se utilizan en informática. A cada nivel de voltaje (corriente) se le asigna un número determinado. La correlación de los parámetros de las señales eléctricas con los números refleja la conexión entre la tecnología y las matemáticas. Las computadoras modernas se basan en el sistema numérico binario, en el que solo hay dos dígitos: 0 y 1. La elección a favor de este sistema se debe al hecho de que técnicamente es más fácil de implementar que el sistema numérico decimal familiar para los humanos.

El elemento principal de la electrónica informática es un transistor que funciona en modo clave. En este modo, el transistor, dependiendo del voltaje que se le aplica, implementa dos estados lógicos según el principio de conmutación: abierto - cerrado o encendido - apagado. Estos dos estados comparan el 0 y el 1 del sistema numérico binario, aquellos objetos matemáticos con la ayuda de los cuales se codifica cualquier información procesada por una computadora. En el nivel de las características de una señal eléctrica, "cero" puede corresponder, por ejemplo, a una tensión de menos 5 voltios y "uno" a más 5 voltios. O – 15 V y + 15 V. Los valores absolutos de los voltajes, que están asociados con los estados lógicos 0 y 1, no son significativos para el procesamiento de información por software y están determinados por las condiciones óptimas de funcionamiento de las placas electrónicas. En los dispositivos de almacenamiento de datos, los "ceros" y los "unos" de información se pueden implementar de diferentes maneras: por ejemplo, en un disco magnético, los estados 0 y 1 corresponden a diferentes direcciones del vector de magnetización; en unidades flash: la ausencia o presencia de una carga eléctrica en una determinada región microscópica de una sustancia; en chips de RAM: un condensador cargado o descargado.

Entonces, la representación interna de cualquier información en una computadora es binaria. Los sistemas numéricos octales y hexadecimales también se utilizan en programación. Además, dado que el usuario de la computadora es una persona, la conexión de los sistemas numéricos mencionados con el decimal es importante.

Notación– una forma aceptada de escribir números – caracterizada por el número de dígitos con los que se puede expresar cualquier número. Todos los sistemas numéricos se pueden dividir en dos clases: posicional Y no posicional. Los sistemas numéricos posicionales son aquellos en los que el peso de los dígitos depende de su ubicación en el registro numérico. El número de dígitos en un sistema posicional se llama base del sistema numérico. A continuación, en un bloque, se recopilan definiciones importantes relacionadas con los sistemas numéricos.

Números– símbolos utilizados para escribir números y formar algún alfabeto.

Número– una determinada cantidad que se compone de números según determinadas reglas.

Notación- una forma de escribir números usando dígitos.

Sistema de numeración posicional– un sistema numérico en el que el peso de un dígito depende de su ubicación en el registro.

Descargar– posición de un dígito en un número.

Base– el número de dígitos utilizados para escribir números.

Las computadoras utilizan sistemas numéricos posicionales.

Sistemas numéricos

más utilizado en informática

Base

Notación

binario

octal

0, 1, 2, 3, 4, 5, 6, 7

decimal

0, 1, 2, 3, 4, 5, 6, 7, 8, 9

hexadecimal

0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F

Un ejemplo de sistema numérico no posicional es el romano. Este sistema utiliza 7 caracteres (I, V, X, L, C, D, M), que corresponden a los siguientes valores: I – 1, V – 5, X – 10, L – 50, C – 100, D – 500, M – 1000. Por lo general, se utilizan números romanos al numerar capítulos de libros o siglos de historia. La desventaja de los sistemas numéricos no posicionales, que excluye la posibilidad de su uso en informática, es la falta de reglas formales para escribir números y, en consecuencia, la imposibilidad de realizar operaciones aritméticas con ellos.

Consideremos la representación de un número en el sistema numérico posicional. Comencemos con un ejemplo simple. Sea N- entero número. Puede presentarse como una entrada corta o extendida. Breve grabación del número:

N = (a n a n -1 …a 1 a 0) p

Aquí a 0, a 1,…, an -1, an son los dígitos ubicados, respectivamente, en las posiciones cero, primera,…, (n-1)-ésima, n-ésima en el registro numérico. La numeración de posiciones, o dígitos, comienza desde cero y va de derecha a izquierda. 0 es el dígito menos significativo del número, que tiene el menor peso; n – el dígito más significativo con mayor peso. El número p es la base del sistema numérico.

Por ejemplo, en el número N = (6874) 10, el dígito 4 representa el dígito cero, 7 el primer dígito, 8 el segundo dígito, 6 el tercer dígito. El peso de los dígitos aumenta de derecha a izquierda, de unidades a miles: 4 unidades – 7 docenas – 8 cientos – 6 mil. 10 – la base del sistema numérico – indica que este número está escrito en el sistema numérico decimal familiar para los humanos y se lee como seis mil ochocientos setenta y cuatro.

El número N se puede representar mediante notación expandida:

N = a n p n + a n-1 p n-1 + … + a 1 p 1 + a 0 p 0

Aquí el número N se expresa como una suma, cada término del cual representa el producto del dígito por la base del sistema numérico, elevado a una potencia igual a la posición del número (dígito) de este dígito en el número:

número  (base) número de dígito

Volviendo al ejemplo comentado anteriormente, damos una notación ampliada del número N = (6874) 10:

(6874) 10 = 610 3 + 810 2 + 710 1 + 410 0 .

Asociado con la forma ampliada de escribir un número hay un método universal para convertir números de cualquier sistema numérico a decimal.

Por ejemplo, desea convertir el número hexadecimal (E7B) 16 al sistema numérico decimal.

Primero, numeramos los dígitos del número, de derecha a izquierda, del menos significativo al más significativo. Tenemos en cuenta que la numeración de dígitos comienza desde cero.

Tengamos en cuenta la correspondencia entre los dígitos de los sistemas numéricos hexadecimal y decimal: E – 14, B – 11. Entonces

Entonces, el problema está resuelto: (E7B) 16 = (3707) 10.

Se utiliza un método similar para convertir números fraccionarios. Los números a la derecha del punto decimal corresponden a dígitos con números negativos.

N = (a n a n-1 …a 1 a 0 ,a -1 a -2 …a -k) p

Consideremos convertir el número octal fraccionario (725,46) 8 al sistema numérico decimal.

Numeramos las categorías.

Realicemos los cálculos y obtengamos el resultado en el sistema numérico decimal.

(725,46) 8 = 78 2 + 28 1 + 58 0 + 48 -1 + 68 -2 = 448 + 16 + 5 + 4/8 + 6/64 =

448 + 16 + 5 + 0,5 + 0,09375 = 469,59375

Entonces, (725,46) 8 = (469,59375) 10.

Es algo más difícil convertir números de decimal a otros sistemas numéricos.

La técnica se basa en secuencial. entero división con la selección de restos como dígitos del número deseado. El número original se divide por la base del sistema numérico al que se realiza la conversión. El resultado de la división de números enteros es el cociente, representado por un número entero y un resto. Este resto será el dígito menos significativo del número deseado. El cociente obtenido en el primer paso se vuelve a dividir por la base del sistema numérico requerido y se obtienen nuevamente el cociente y el resto. El resto se almacena como el siguiente dígito del número deseado. La división continúa hasta que el siguiente cociente sea menor que la base del sistema numérico requerido. Este cociente será el dígito más significativo del número deseado. A partir de él y de los restos obtenidos en el último y anterior paso, se forma el número requerido.

Veamos esta técnica con un ejemplo. Dejemos que necesite convertir el número (894) 10 al sistema numérico septal.

894: 7 = 127, resto 5

127: 7 = 18, resto 1

18: 7 = 2 , resto 4

El último cociente - 2 - es menor que la base del sistema numérico al que se realiza la conversión - 7. Ahora puede escribir el número requerido: (2415) 7.

Entonces, (894) 10 = (2415) 7.

Fundamentos lógicos de las computadoras.

Álgebra de la lógica.

Declaraciones lógicas

El predecesor y componente del álgebra, según las reglas según las cuales funcionan los dispositivos informáticos digitales, es el álgebra de la lógica. Esta álgebra opera con enunciados lógicos, cuyo contenido puede evaluarse como correspondiente a la realidad (verdadero) o inconsistente con la realidad (falso).

Un enunciado lógico es una oración declarativa cuya verdad o falsedad se puede evaluar.

Ejemplos de afirmaciones verdaderas: “el agua es un líquido”, “después del invierno vendrá la primavera”, “el número 48 es 8 veces mayor que el número 6”. Ejemplos de afirmaciones falsas: “el río Kama desemboca en el lago Baikal”, “un gorrión es un halcón”, “el número 2 es mayor que el número 3”.

La segunda frase no es una afirmación lógica debido a lo absurdo de los conceptos “área de un segmento” y “longitud de un cubo”.

La tercera oración es interrogativa, por lo que tampoco puede ser una declaración lógica.

La cuarta frase es una afirmación lógica y falsa.

La primera oración es una declaración lógica. Es falso, ya que en realidad el planeta más cercano al Sol es Mercurio.

La segunda frase no es declarativa, sino exclamativa, por lo que no es una afirmación lógica.

La tercera frase podría ser una afirmación lógica si la información que contiene fuera suficiente para juzgar su verdad o falsedad. Sin embargo, es imposible juzgar si el número X pertenece al intervalo especificado, ya que este número en sí es desconocido. Por tanto, la tercera frase tampoco es una afirmación lógica.

Álgebra booleana.

Operaciones lógicas básicas Los dispositivos lógicos informáticos están diseñados sobre la base del aparato matemático del álgebra booleana, que lleva el nombre del matemático inglés George Boole, quien formuló sus conceptos y reglas básicos. Esta es un álgebra de variables binarias, constantes y funciones que toman solo dos valores: unidad (en el álgebra de la lógica corresponde al valor VERDADERO) y cero

(en el álgebra de la lógica - FALSO). Las operaciones básicas del álgebra booleana son, inversión, conjunción disyunción . Sus nombres rusos son respectivamente., negación, multiplicación lógica suma lógica . De lo contrario - operaciones, NO, Y.

O

Notación de operaciones lógicas del álgebra booleana.

A y B son enunciados lógicos.

Las tablas de verdad se utilizan para representar visualmente y realizar cálculos lógicos.

A continuación se muestran las tablas de verdad de operaciones lógicas básicas.

inversión

La inversión es una función de un argumento, que es el enunciado lógico A. Si A es falso, entonces  es verdadero y viceversa.

Conjunción y disyunción

La conjunción y la disyunción son funciones de dos o más argumentos. Su resultado es una declaración lógica compleja (compuesta) que, dependiendo de los valores de los argumentos de la función, toma el valor 1 o 0. La tabla de verdad debe incluir todas las combinaciones posibles de valores de argumentos: lógica simple o compleja. declaraciones. Hay 2 n combinaciones de este tipo, donde n es el número de argumentos. En el caso más simple, cuando operamos con dos enunciados lógicos A y B, las tablas de verdad se ven así.

Conjunción Disyunción

Argumentos

Conjunción Disyunción

Argumentos

Resultado

1. Si entre los argumentos conjunciones Si hay al menos uno que siempre toma el valor 0 (FALSO), entonces el resultado de la conjunción, independientemente de los valores de los demás argumentos, también es 0 (FALSO).

2. Si entre los argumentos disyunciones Si hay al menos uno que siempre toma el valor 1 (VERDADERO), entonces el resultado de la disyunción, independientemente de los valores de los demás argumentos, también es 1 (VERDADERO).

Las siguientes tablas de verdad confirman estas reglas.

Algunas declaraciones del lenguaje humano común pueden compararse con funciones lógicas. Por ejemplo, la afirmación “Para obtener una calificación excelente en un examen se requiere Cómo disponibilidad de crédito de práctica, así y buen conocimiento del material teórico” corresponde a la conjunción. Cita: "Para que tu piel se broncee, es necesario pasar varios días en la playa bajo el sol". o visitar el solarium varias veces” representa una disyuntiva. Otro ejemplo de disyunción: "Para perder peso, es necesario trabajar más físicamente y comer menos". Ilustremos la última afirmación con una tabla de verdad.

Las declaraciones que representan una conjunción generalmente corresponden a la construcción " AYB», « CómoA,así yB», « Ajunto conB"; representando la disyunción – “ AoB" Puede haber excepciones: un ejemplo es la frase analizada al final de la página anterior.

Construcciones como " oA,oB», « AoB», « oA,oB» corresponde a una función llamada disyunción estricta. Su diferencia con una disyunción ordinaria es que es igual a 1 sólo si los valores de sus argumentos son diferentes. La designación de disyunción estricta es –A  B, sus otros nombres son disparidad,exclusivo O (XOR en lenguajes de programación), suma módulo 2. A continuación se muestra la tabla de verdad para la disyunción estricta.

Disyunción estricta (no equivalencia)

En el álgebra lógica moderna, se definen dos operaciones básicas más: equivalencia Y implicación.

La equivalencia (equivalencia, equivalencia) es una función opuesta a la disyunción estricta. Se evalúa como VERDADERO cuando todos sus argumentos son verdaderos o falsos. Su designación: A  B.

Equivalencia (equivalencia)

La implicación es una función de dos argumentos lógicos. Su designación es: A  B. La tabla de verdad de la función “implicación” es la siguiente.

Implicación

La implicación se puede expresar mediante las operaciones básicas del álgebra booleana: A  B = A  B.

En lenguajes de programación, el equivalente corresponde a la función EQV y la implicación, IMP.

Las funciones “equivalencia” e “implicación” también pueden correlacionarse con enunciados individuales del idioma ruso. Las equivalencias corresponden a afirmaciones como: “ A equivalente B» ; « A entonces y sólo cuando B» ; « A necesario y suficiente para B" Las implicaciones corresponden a la construcción: “ Si A, Eso B» ; « B, Si A» ; « B necesario para A» ; « A suficiente para B» ; « A solo cuando B» ; « B cuando A". Un ejemplo clásico de implicación es la frase "Si llueve, entonces hay nubes en el cielo". denotemos A= "Está lloviendo" B= “Hay nubes en el cielo” y crea una tabla de verdad.

"No llueve, no hay nubes en el cielo": un día despejado y soleado,

declaración compuesta verdadero

"No llueve, hay nubes en el cielo": un día seco y nublado,

declaración compuesta verdadero

"Está lloviendo, no hay nubes en el cielo"; esto no sucede,

declaración compuesta FALSO

"Está lloviendo, hay nubes en el cielo": un día nublado y lluvioso,

declaración compuesta verdadero

Cabe destacar que la formalización de los enunciados en el lenguaje humano es muy limitada. La mayoría de las frases y oraciones del idioma ruso, tanto coloquiales como literarias, no son enunciados en absoluto desde el punto de vista del álgebra de la lógica. Esto se debe a la presencia de muchos matices de la escritura y el habla que no se pueden captar en el marco de la lógica formal, al color emocional y la subjetividad de los juicios, así como al hecho inmutable de que hay muchas más verdades relativas en el mundo que los absolutos. Por lo tanto, los experimentos para correlacionar las operaciones de la lógica formal con enunciados del lenguaje humano son aplicables sólo a oraciones percibidas sin ambigüedades que enuncian los hechos más generales y simples.

Entonces, la base del álgebra lógica moderna son cinco operaciones lógicas básicas: inversión, conjunción, disyunción, implicación y equivalencia. Todas las demás operaciones se pueden expresar mediante combinaciones de las tres operaciones del álgebra de Boole: inversión, conjunción y disyunción.

Al analizar declaraciones lógicas complejas, es necesario recordar la prioridad de las operaciones lógicas: en ausencia de paréntesis, primero se realiza la negación, luego, en orden de prioridad descendente, se encuentran la conjunción, la disyunción estricta, la disyunción, la implicación y, por último, pero no menos importante, equivalencia. Los paréntesis pueden cambiar este orden.

En la tecnología digital, los microcircuitos construidos sobre elementos lógicos Y-NO y NOR-NO se han generalizado. Tecnológicamente, se implementan de la forma más sencilla. Incluso ha habido intentos de construir ordenadores compuestos únicamente por estos elementos. A ellas se asocian dos álgebras binarias más: el álgebra de Schaeffer y el álgebra de Peirce. La operación Y-NO se llama “golpe de Schaeffer”, la operación O-NO se llama “flecha perforadora”. Designaciones: A  B y A  B, respectivamente. Desde el punto de vista del álgebra de Boole, ambas operaciones son compuestas.

A  B = A  B

A  B = A  B

Tablas de verdad para estas funciones:

El trazo de Schaeffer Arrow Peirce

Conjunción Disyunción

Argumentos

Conjunción Disyunción

Argumentos

Notaciones en tecnología digital.

Cantidad y calidad de la información.

Niveles de problemas de transmisión de información.

Al implementar procesos de información, la información siempre se transfiere en el espacio y el tiempo desde la fuente de información al receptor (destinatario) mediante señales. Señal - un proceso físico (fenómeno) que transmite un mensaje (información) sobre un evento o estado de un objeto de observación.

Mensaje- una forma de representar información en forma de un conjunto de signos (símbolos) utilizados para la transmisión.

Un mensaje como conjunto de signos desde el punto de vista de la semiótica, una ciencia que estudia las propiedades de los signos y los sistemas de signos, se puede estudiar en tres niveles:

1) sintáctico, donde se consideran las propiedades internas de los mensajes, es decir, las relaciones entre signos, que reflejan la estructura de un sistema de signos determinado.

2) semántico, donde se analizan las relaciones entre los signos y los objetos, acciones, cualidades que denotan, es decir, el contenido semántico del mensaje, su relación con la fuente de información;

3) pragmático, donde se considera la relación entre el mensaje y el destinatario, es decir, el contenido del mensaje para el consumidor, su relación con el destinatario.

Problemas nivel sintáctico se refieren a la creación de fundamentos teóricos para la construcción de sistemas de información. En este nivel, consideran los problemas de entregar mensajes al destinatario como un conjunto de caracteres, teniendo en cuenta el tipo de medio y método de presentación de la información, la velocidad de transmisión y procesamiento, el tamaño de los códigos de presentación de información, la confiabilidad y precisión de la conversión de estos códigos, etc., abstrayéndose completamente del contenido semántico de los mensajes y su finalidad prevista. En este nivel, la información considerada sólo desde una perspectiva sintáctica suele denominarse datos, ya que el lado semántico no importa.

Problemas nivel semántico están asociados a formalizar y tener en cuenta el significado de la información transmitida, determinando el grado de correspondencia entre la imagen del objeto y el objeto mismo. En este nivel se analiza la información que refleja la información, se consideran conexiones semánticas, se forman conceptos e ideas, se revela el significado y contenido de la información y se lleva a cabo su generalización.



A nivel pragmático interesado en las consecuencias de recibir y utilizar esta información por parte del consumidor. Los problemas en este nivel están asociados con la determinación del valor y la utilidad del uso de la información cuando el consumidor desarrolla una solución para lograr su objetivo. La principal dificultad aquí es que el valor y la utilidad de la información pueden ser completamente diferentes para diferentes destinatarios y, además, depende de una serie de factores, como, por ejemplo, la puntualidad de su entrega y uso.

Medidas de información

Medidas de información a nivel sintáctico.

Para medir información a nivel sintáctico se introducen dos parámetros: la cantidad de información (datos) - VD(enfoque de volumen) y cantidad de información - I(enfoque de entropía).

Volumen de información V D. Al implementar procesos de información, la información se transmite en forma de mensaje, que es un conjunto de símbolos de un alfabeto. Si se toma como uno la cantidad de información contenida en un mensaje de un carácter, entonces el volumen de información (datos) VD en cualquier otro mensaje será igual al número de caracteres (dígitos) en este mensaje.

Por lo tanto, en el sistema numérico decimal, un dígito tiene un peso igual a 10 y, en consecuencia, la unidad de medida de la información será dit (lugar decimal). En este caso, un mensaje en el formulario norte VD= norte dicho. Por ejemplo, el número de cuatro dígitos 2003 tiene un volumen de datos V D = 4 dicho.

En el sistema numérico binario, un dígito tiene un peso igual a 2 y, en consecuencia, la unidad de medida de información será el bit. (bit (dígito binario)- dígito binario). En este caso, un mensaje en el formulario norte-el número digital tiene volumen de datos VD = n poco. Por ejemplo, el código binario de ocho bits 11001011 tiene un volumen de datos VD= 8 bits.

En la informática moderna, junto con la unidad mínima de medida de datos, los bits, se utiliza ampliamente la unidad de medida ampliada bytes, igual a 8 bits. Cuando se trabaja con grandes volúmenes de información, se utilizan unidades de medida más grandes para calcular su cantidad, como kilobyte (KB), megabyte (MB), gigabyte (GB), terabyte (TB):

1 kbyte = 1024 bytes = 2 10 bytes;

1 MB = 1024 KB = 2 20 bytes = 1.048.576 bytes;

1 GB = 1024 MB = 2 30 bytes = 1.073.741.824 bytes; .

1 TB = 1024 GB = 2 40 bytes = 1.099.511.627.776 bytes.

Cantidad de información I (enfoque de entropía). En la teoría de la información y la codificación, se adopta un enfoque de entropía para medir la información. Este enfoque se basa en que el hecho de obtener información siempre va asociado a una disminución de la diversidad o incertidumbre (entropía) del sistema. En base a esto, se determina la cantidad de información en un mensaje como una medida para reducir la incertidumbre del estado de un sistema determinado después de recibir el mensaje. Una vez que un observador ha identificado algo en un sistema físico, la entropía del sistema disminuye porque, para el observador, el sistema se ha vuelto más ordenado.

Así, con el enfoque de la entropía se entiende por información el valor cuantitativo de la incertidumbre que ha desaparecido durante algún proceso (pruebas, mediciones, etc.). En este caso, se introduce la entropía como medida de incertidumbre. NORTE, y la cantidad de información es:

Dónde H abr - entropía a priori sobre el estado del sistema en estudio;

felicidades- entropía posterior.

A posteriori- provenientes de la experiencia (pruebas, mediciones).

A priori- un concepto que caracteriza el conocimiento que precede a la experiencia (pruebas) y es independiente de ella.

En el caso de que durante la prueba se elimine la incertidumbre existente (se obtenga un resultado específico, es decir felicidades = 0), la cantidad de información recibida coincide con la entropía inicial

Consideremos como sistema en estudio una fuente discreta de información (una fuente de mensajes discretos), por lo que nos referimos a un sistema físico que tiene un conjunto finito de estados posibles. esto es mucho A= (a 1, a 2 , ..., una p) Los estados de un sistema en teoría de la información se denominan alfabeto abstracto o alfabeto de una fuente de mensaje.

Estados individuales un 1, un 2,..., un „ Se llaman letras o símbolos del alfabeto.

Un sistema de este tipo puede adoptar aleatoriamente uno de un conjunto finito de estados posibles en cualquier momento dado. y yo.

Dado que algunos estados son seleccionados por la fuente con más frecuencia y otros con menos frecuencia, en el caso general se caracteriza por un conjunto A, es decir, un conjunto completo de estados con probabilidades de ocurrencia que suman uno:

, y (2.2)

Introduzcamos una medida de incertidumbre en la elección del estado fuente. También puede considerarse como una medida de la cantidad de información obtenida con la eliminación completa de la incertidumbre sobre estados igualmente probables de la fuente.

Entonces en norte=1 obtenemos N / A)= 0.

Esta medida fue propuesta por el científico estadounidense R. Hartley en 1928. La base del logaritmo en la fórmula (2.3) no es de fundamental importancia y determina únicamente la escala o unidad de medida. Dependiendo de la base del logaritmo, se utilizan las siguientes unidades. de medición se utilizan.

1. Bits: en este caso la base del logaritmo es igual a 2:

(2.4)

2. Liendres: en este caso la base del logaritmo es igual a mi:

3. Dits: en este caso la base del logaritmo es igual a 10:

En informática, la fórmula (2.4) se suele utilizar como medida de incertidumbre. En este caso, la unidad de incertidumbre se llama unidad binaria o bit y representa la incertidumbre de elegir entre dos eventos igualmente probables.

La fórmula (2.4) se puede obtener empíricamente: para eliminar la incertidumbre en una situación de dos eventos igualmente probables, se necesita una experiencia y, en consecuencia, un bit de información; en el caso de una incertidumbre que consta de cuatro eventos igualmente probables, 2 bits de información; son suficientes para adivinar el hecho deseado. Para identificar una carta de una baraja de 32 cartas bastan 5 bits de información, es decir, basta con hacer cinco preguntas con respuestas “sí” o “no” para determinar la carta que se busca.

La medida propuesta permite resolver ciertos problemas prácticos cuando todos los estados posibles de la fuente de información tienen la misma probabilidad.

En general, el grado de incertidumbre en la implementación del estado de la fuente de información depende no sólo del número de estados, sino también de las probabilidades de estos estados. Si una fuente de información tiene, por ejemplo, dos estados posibles con probabilidades de 0,99 y 0,01, entonces la incertidumbre de elección es significativamente menor que la de una fuente que tiene dos estados igualmente probables, ya que en este caso el resultado está prácticamente predeterminado ( realización del estado, probabilidad que es igual a 0,99).

El científico estadounidense K. Shannon generalizó el concepto de medida de incertidumbre en la elección. h En caso h depende no sólo del número de estados, sino también de las probabilidades de estos estados (probabilidades p yo selección de personajes y yo, alfabeto A). Esta medida, que representa la incertidumbre por estado en promedio, se llama entropía de una fuente discreta de información:

(2.5)

Si volvemos a centrarnos en medir la incertidumbre en unidades binarias, entonces la base del logaritmo debe tomarse igual a dos:

(2.6)

En elecciones equiprobables, la probabilidad p i = 1/N La fórmula (2.6) se transforma en la fórmula de R. Hartley (2.3):

La medida propuesta se llamó entropía no por casualidad. El caso es que la estructura formal de la expresión (2.5) coincide con la entropía del sistema físico, previamente definida por Boltzmann.

Usando las fórmulas (2.4) y (2.6), podemos determinar la redundancia D alfabeto fuente del mensaje A, que muestra cuán racionalmente se utilizan los símbolos de un alfabeto determinado:

Dónde N máx (A) - la entropía máxima posible, determinada por la fórmula (2.4);

N / A) - entropía de la fuente, determinada por la fórmula (2.6).

La esencia de esta medida es que, con una elección igualmente probable, se puede garantizar la misma carga de información en un signo utilizando un alfabeto más pequeño que en el caso de una elección desigual.

Tema 2. Conceptos básicos de representación y procesamiento de información en una computadora.

Literatura

1. Informática en economía: Libro de texto/Ed. SER. Odintsova, A.N. Romanova. – M.: Libro de texto universitario, 2008.

2. Informática: Curso Básico: Libro de Texto/Ed. SV Simónovich. – San Petersburgo: Peter, 2009.

3. Informática. Curso general: Libro de texto/Coautor: A.N. Guda, MA. Butakova, N.M. Nechitailo, A.V. Chernov; bajo general ed. V.I. Kolesnikova. – M.: Dashkov y K, 2009.

4. Informática para economistas: Libro de texto/Ed. Matyushka V.M. - M.: Infra-M, 2006.

5. Informática económica: Introducción al análisis económico de los sistemas de información - M.: INFRA-M, 2005.

Medidas de información (sintáctica, semántica, pragmática)

Se pueden utilizar varios enfoques para medir la información, pero los más utilizados son estadístico(probabilístico), semántico yp pragmático métodos.

Estadístico El método (probabilístico) para medir información fue desarrollado por K. Shannon en 1948, quien propuso considerar la cantidad de información como una medida de la incertidumbre del estado del sistema, que se elimina como resultado de la recepción de información. La expresión cuantitativa de la incertidumbre se llama entropía. Si, después de recibir un determinado mensaje, el observador ha adquirido información adicional sobre el sistema INCÓGNITA, entonces la incertidumbre ha disminuido. La cantidad adicional de información recibida se define como:

¿Dónde está la cantidad adicional de información sobre el sistema? incógnita, recibido en forma de mensaje;

Incertidumbre inicial (entropía) del sistema. incógnita;

Incertidumbre finita (entropía) del sistema. INCÓGNITA, que se produce después de la recepción del mensaje.

Si el sistema incógnita puede estar en uno de los estados discretos, cuyo número norte, y la probabilidad de encontrar el sistema en cada uno de ellos es igual y la suma de las probabilidades de todos los estados es igual a uno, entonces la entropía se calcula usando la fórmula de Shannon:

¿Dónde está la entropía del sistema X?

A- la base del logaritmo, que determina la unidad de medida de la información;

norte– el número de estados (valores) en los que puede estar el sistema.

La entropía es una cantidad positiva y, dado que las probabilidades son siempre menores que uno y su logaritmo es negativo, el signo menos en la fórmula de K. Shannon hace que la entropía sea positiva. Así, se toma como medida de la cantidad de información la misma entropía, pero con signo opuesto.

La relación entre información y entropía se puede entender de la siguiente manera: obtener información (aumentarla) simultáneamente significa reducir la ignorancia o la incertidumbre de la información (entropía)

Así, el enfoque estadístico tiene en cuenta la probabilidad de que aparezcan los mensajes: el mensaje que es menos probable se considera más informativo, es decir, menos esperado. La cantidad de información alcanza su valor máximo si los eventos son igualmente probables.

R. Hartley propuso la siguiente fórmula para medir información:

yo=log2n ,

Dónde norte- número de eventos igualmente probables;

I– una medida de información en un mensaje sobre la ocurrencia de uno de los norte eventos

La medida de la información se expresa en su volumen. En la mayoría de los casos, esto se refiere a la cantidad de memoria de la computadora y la cantidad de datos transmitidos a través de los canales de comunicación. Se considera unidad la cantidad de información en la que la incertidumbre se reduce a la mitad; poco .

Si se utiliza el logaritmo natural () como base del logaritmo en la fórmula de Hartley, entonces la unidad de medida de información es nat ( 1 bit = ln2 ≈ 0,693 nat). Si se utiliza el número 3 como base del logaritmo, entonces: tratar, si 10, entonces - dijo (Hartley).

En la práctica, se utiliza con mayor frecuencia una unidad más grande: byte(byte) igual a ocho bits. Se eligió esta unidad porque puede usarse para codificar cualquiera de los 256 caracteres del alfabeto del teclado de computadora (256=28).

Además de los bytes, la información se mide en medias palabras (2 bytes), palabras (4 bytes) y palabras dobles (8 bytes). También se utilizan ampliamente unidades de medida de información aún mayores:

1 kilobyte (KB - kilobyte) = 1024 bytes = 210 bytes,

1 Megabyte (MB - megabyte) = 1024 KB = 220 bytes,

1 GB (GB - gigabyte) = 1024 MB = 230 bytes.

1 Terabyte (TB - terabyte) = 1024 GB = 240 bytes,

1 Petabyte (PByte - petabyte) = 1024 TB = 250 bytes.

En 1980, el matemático ruso Yu Manin propuso la idea de construir una computadora cuántica, en relación con la cual apareció una unidad de información como. cúbit ( bit cuántico, qubit ) – “bit cuántico” es una medida para medir la cantidad de memoria en una forma teóricamente posible de computadora que utiliza medios cuánticos, por ejemplo, espines de electrones. Un qubit no puede tomar dos valores diferentes ("0" y "1"), sino varios, correspondientes a combinaciones normalizadas de dos estados de espín terrestres, lo que da un mayor número de combinaciones posibles. Así, 32 qubits pueden codificar unos 4 mil millones de estados.

Enfoque semántico. Una medida sintáctica no es suficiente si es necesario determinar no el volumen de datos, sino la cantidad de información necesaria en el mensaje. En este caso se considera el aspecto semántico, que permite determinar el contenido de la información.

Para medir el contenido semántico de la información, se puede utilizar el diccionario de sinónimos de su destinatario (consumidor). La idea del método del tesauro fue propuesta por N. Wiener y desarrollada por nuestro científico nacional A.Yu. Schrader.

Tesauro llamado cuerpo de información que tiene el destinatario de la información. Correlacionar el diccionario de sinónimos con el contenido del mensaje recibido permite saber cuánto reduce la incertidumbre.

Dependencia del volumen de información semántica de un mensaje del tesauro del destinatario

Según la dependencia presentada en el gráfico, si el usuario no tiene ningún tesauro (conocimiento sobre la esencia del mensaje recibido, es decir =0), o la presencia de dicho tesauro que no ha cambiado como resultado de la llegada del mensaje (), entonces la cantidad de información semántica que contiene es igual a cero. El tesauro óptimo () será aquel en el que el volumen de información semántica será máximo (). Por ejemplo, la información semántica en un mensaje entrante en en un idioma extranjero desconocido habrá cero, pero la misma situación será en el caso si el mensaje ya no es noticia, ya que el usuario ya lo sabe todo.

Medida pragmática información determina su utilidad en el logro de los objetivos del consumidor. Para ello, basta con determinar la probabilidad de lograr el objetivo antes y después de recibir el mensaje y compararlas. El valor de la información (según A.A. Kharkevich) se calcula mediante la fórmula:

¿Dónde está la probabilidad de lograr el objetivo antes de recibir el mensaje?

La probabilidad de lograr el objetivo es el campo de recepción del mensaje;




Arriba