Cantidad de información. El concepto de cantidad de información.

Propiedades de la información

El concepto de "información" es utilizado por muchas disciplinas científicas y tiene una gran cantidad de propiedades diferentes, pero cada disciplina presta atención a aquellas propiedades de la información que son más importantes para ella. En el marco de nuestra consideración, las propiedades más importantes son tales como dualismo, integridad, confiabilidad, adecuación, accesibilidad, relevancia. Echemos un vistazo más de cerca.

Dualismo de la información caracteriza su dualidad. Por un lado, la información es objetiva por la objetividad de los datos, por otro lado, es subjetiva por la subjetividad de los métodos utilizados. Por ejemplo, dos personas leen el mismo libro y en ocasiones reciben información muy diferente. La información más objetiva utiliza métodos con menos elementos subjetivos.

Integridad de la información caracteriza el grado de suficiencia de datos para tomar una decisión o crear nuevos datos basados ​​​​en datos existentes. Tanto los conjuntos de datos incompletos como los redundantes dificultan la obtención de información y la toma de decisiones adecuadas.

Fiabilidad de la información.– esta es una propiedad que caracteriza el grado de correspondencia de la información con un objeto real con la precisión requerida. Cuando se trabaja con un conjunto incompleto de datos, la confiabilidad de la información se puede caracterizar por la probabilidad, por ejemplo, al lanzar una moneda, el escudo de armas aparecerá con una probabilidad del 50%.

Adecuación de la información expresa el grado de correspondencia de la imagen creada utilizando información con un objeto, proceso o fenómeno real. Obtener información adecuada es difícil cuando no se dispone de métodos adecuados.

Disponibilidad de información– esta es la oportunidad de obtener información si es necesario. La disponibilidad consta de dos componentes: disponibilidad de datos y disponibilidad de métodos. La ausencia de al menos uno proporciona información inadecuada.

Relevancia de la información. La información existe en el tiempo, porque todos los procesos de información existen en el tiempo. La información que es relevante hoy en día puede volverse completamente innecesaria después de un tiempo. Por ejemplo, la programación televisiva de esta semana no será relevante para muchos televidentes la próxima semana.

Propiedades atributivas(el atributo es una parte integral de algo). Los más importantes entre ellos son: discreción(la información consta de partes separadas, signos) y continuidad(la capacidad de acumular información).

Toda información contiene un componente subjetivo. ¿Es siquiera posible medir objetivamente la cantidad de información? El resultado más importante de la teoría de la información es la conclusión de que bajo ciertas condiciones, es posible, descuidando las características cualitativas de la información, expresar su cantidad en número y, por tanto, comparar la cantidad de información contenida en diferentes grupos de datos.



Cantidad de información es una característica numérica de la información que refleja el grado de incertidumbre que desaparece después de recibir la información.

Los conceptos de "información", "incertidumbre", "elección" están estrechamente relacionados. La información recibida reduce el número de opciones posibles (es decir, la incertidumbre) y la información completa no deja ninguna opción.

¿Cuánta información contiene, por ejemplo, el texto de la novela Guerra y paz, los frescos de Rafael o el código genético humano? ¿Es posible medir objetivamente la cantidad de información?

En términos científicos, el concepto de “información” está asociado con la probabilidad de que ocurra un evento particular.

Probabilidad– una característica numérica del grado de posibilidad de que ocurra un evento. La probabilidad de un evento confiable (debe suceder) es 1, un evento imposible (nunca sucederá) es 0. La probabilidad de un evento aleatorio se encuentra en el intervalo (0, 1). Por ejemplo, la probabilidad de obtener cara al lanzar una moneda es 1/2, y la probabilidad de obtener cada cara al jugar a los dados es 1/6.

Aleatorio llamado evento lo cual puede suceder o no. Ejemplos de eventos aleatorios incluyen obtener cara al lanzar una moneda o la cantidad de puntos (es decir, caer en un lado determinado) al jugar a los dados.

El ingeniero estadounidense R. Hartley (1928) consideró el proceso de obtención de información como la selección de un mensaje de un conjunto finito predeterminado de norte mensajes igualmente probables y la cantidad de información I, contenido en el mensaje seleccionado, se define como el logaritmo binario norte.

Digamos que necesitas adivinar un número de un conjunto de números del uno al cien. Según la fórmula de Hartley I= registro 2 norte Puedes calcular cuánta información se requiere para esto: I= Ilog 2 l00 = 6,644 bits, es decir El mensaje sobre un número adivinado correctamente contiene una cantidad de información aproximadamente igual a 6.644 bits.

El científico estadounidense Claude Shannon propuso en 1948 otra fórmula para determinar la cantidad de información, teniendo en cuenta la posible probabilidad desigual de mensajes en un conjunto:

I = - (PAG 1 registro 2 PAG 1 + R 2 registro 2 R 2 + . . . + PN registro 2 PN),

Dónde Pi– la probabilidad de que exactamente i-e mensaje se selecciona en el conjunto de norte mensajes.

Si las probabilidades PAG 1 , R 2 , …, PN son iguales, entonces cada uno de ellos es igual a 1/ norte, y la fórmula de Shannon se convierte en la fórmula de Hartley.

El análisis de la fórmula muestra que cuanto mayor es la probabilidad de que ocurra un evento, menos información aparece después de que ocurra, y viceversa. Si la probabilidad es 1 (el evento es seguro), la cantidad de información es 0.

Si la probabilidad de que ocurra o falle cualquier evento es la misma, es decir es igual a 1/2, entonces la cantidad de información que este evento lleva consigo es igual a 1. Esta es la unidad de medida de información que se llama poco.

Un bit también puede definirse como la cantidad de información que contiene un dígito de un número binario (de ahí el nombre “bit”: dígito binario). Poco en teoría de la información – cantidad de información, necesario distinguir entre dos mensajes igualmente probables.

La cantidad de información igual a 8 bits se llama byte. Ocho bits pueden contener 256 enteros binarios diferentes desde 00000000 hasta 11111111. Se utilizan ampliamente unidades de información derivadas más grandes:

1 kilobyte (KB) = 1024 bytes;

1 Megabyte (MB) = 1024 KB;

1 Gigabyte (GB) = 1024 MB.

1 Terabyte (TB) = 1024 GB;

1 petabyte (PB) = 1024 TB.

Se revisan los fundamentos de la informática y se describe el hardware de las computadoras personales modernas. Se formulan enfoques para definir conceptos básicos en el campo de la informática y se revela su contenido. Se proporciona una clasificación del hardware de las computadoras personales modernas y se dan sus principales características. Todas las disposiciones principales se ilustran con ejemplos en los que se utilizan herramientas de software adecuadas para resolver problemas específicos.

Libro:

Secciones en esta página:

Como ya se señaló, el concepto de información puede considerarse bajo diversas restricciones impuestas a sus propiedades, es decir, en diferentes niveles de consideración. Hay principalmente tres niveles: sintáctico, semántico y pragmático. En consecuencia, en cada uno de ellos se utilizan diferentes estimaciones para determinar la cantidad de información.

En nivel sintáctico Para estimar la cantidad de información se utilizan métodos probabilísticos, que tienen en cuenta únicamente las propiedades probabilísticas de la información y no tienen en cuenta otras (contenido semántico, utilidad, relevancia, etc.). Desarrollado a mediados del siglo XX. Los métodos matemáticos y, en particular, probabilísticos permitieron formular un enfoque para evaluar la cantidad de información como medida para reducir la incertidumbre del conocimiento. Este enfoque, también llamado probabilístico, postula el principio: si algún mensaje conduce a una disminución de la incertidumbre de nuestro conocimiento, entonces podemos decir que dicho mensaje contiene información. En este caso, los mensajes contienen información sobre cualquier evento que pueda ocurrir con diferentes probabilidades. El científico estadounidense K. Shannon propuso en 1948 una fórmula para determinar la cantidad de información para eventos con diferentes probabilidades y recibidos de una fuente de información discreta. Según esta fórmula, la cantidad de información se puede determinar de la siguiente manera:


Dónde I - cantidad de información; norte – número de posibles eventos (mensajes); Pi - probabilidad de eventos individuales (mensajes); ? – signo matemático para la suma de números.

La cantidad de información determinada mediante la fórmula (1.1) toma solo un valor positivo. Dado que la probabilidad de eventos individuales es menor que uno, entonces, en consecuencia, la expresión log^,– es un valor negativo y para obtener un valor positivo para la cantidad de información en la fórmula (1.1), se coloca un signo menos antes de la suma. firmar.

Si la probabilidad de ocurrencia de eventos individuales es la misma y forman un grupo completo de eventos, es decir


luego la fórmula (1.1) se transforma en la fórmula de R. Hartley:


En las fórmulas (1.1) y (1.2), la relación entre la cantidad de información y, en consecuencia, la probabilidad o número de eventos individuales se expresa mediante un logaritmo. El uso de logaritmos en las fórmulas (1.1) y (1.2) se puede explicar de la siguiente manera. Para simplificar el razonamiento, usaremos la relación (1.2). Asignaremos secuencialmente al argumento. norte valores seleccionados, por ejemplo, de una serie de números: 1, 2, 4, 8, 16, 32, 64, etc. Para determinar de qué evento norte Ocurrieron eventos igualmente probables, para cada número de la serie es necesario realizar secuencialmente operaciones de selección a partir de dos eventos posibles. Si, cuando norte= 1 el número de operaciones será igual a 0 (la probabilidad del evento es igual a 1), con norte= 2, el número de operaciones será igual a 1, cuando norte= 4 el número de operaciones será igual a 2, cuando norte= 8, el número de operaciones será igual a 3, etc. Así, obtenemos la siguiente serie de números: 0, 1, 2, 3, 4, 5, 6, etc., que se pueden considerar correspondientes a los valores ​de la función I en relación (1.2). La secuencia de valores numéricos que toma el argumento. NORTE, es una serie conocida en matemáticas como una serie de números que forman una progresión geométrica, y la secuencia de valores numéricos que toma la función I, será una serie que formará una progresión aritmética. Así, el logaritmo en las fórmulas (1.1) y (1.2) establece una relación entre las series que representan progresiones geométricas y aritméticas, que es bastante conocida en matemáticas.

Para cuantificar (evaluar) cualquier cantidad física, es necesario determinar una unidad de medida, que en teoría de la medición se llama medida. Como ya se señaló, la información debe codificarse antes de su procesamiento, transmisión y almacenamiento. La codificación se realiza utilizando alfabetos especiales (sistemas de signos). En informática, que estudia los procesos de recepción, procesamiento, transmisión y almacenamiento de información mediante sistemas informáticos (informáticos), se utiliza principalmente la codificación binaria, que utiliza un sistema de signos que consta de dos símbolos 0 y 1. Por este motivo, en las fórmulas ( 1.1) y (1.2) el número 2 se utiliza como base del logaritmo.

Con base en el enfoque probabilístico para determinar la cantidad de información, estos dos símbolos del sistema de signos binarios pueden considerarse como dos eventos posibles diferentes, por lo tanto, se toma como unidad de cantidad de información la cantidad de información que contiene un mensaje que reduce la incertidumbre del conocimiento a la mitad (antes de recibir los eventos, su probabilidad es 0,5, después de recibir – 1, la incertidumbre disminuye en consecuencia: 1/0,5 = 2, es decir, 2 veces). Esta unidad de medida de información se llama bit (de la palabra inglesa dígito binario - dígito binario). Por tanto, se toma un bit como medida para estimar la cantidad de información a nivel sintáctico, suponiendo codificación binaria.

La siguiente unidad de medida más grande de la cantidad de información es el byte, que es una secuencia formada por ocho bits, es decir.

1 byte = 2 3 bits = 8 bits.

En informática, las unidades de medida de la cantidad de información que son múltiplos de un byte también se utilizan ampliamente, pero a diferencia del sistema métrico de medidas, donde se utiliza el coeficiente 10n como multiplicadores de unidades múltiples, donde norte = 3, 6, 9, etc., en múltiples unidades de medida de la cantidad de información, se utiliza el coeficiente 2n . Esta elección se explica por el hecho de que la computadora opera principalmente con números no en el sistema numérico decimal, sino en el sistema numérico binario.

Las unidades para medir la cantidad de información que son múltiplos de un byte se ingresan de la siguiente manera:

1 kilobyte (KB) = 2 10 bytes = 1024 bytes,

1 Megabyte (MB) = 2 10 KB = 1024 KB,

1 Gigabyte (GB) = 2 10 MB = 1024 MB,

1 Terabyte (TB) = 2 10 GB = 1024 GB,

1 petabyte (PB) = 2 10 TB = 1024 TB,

1 Exabyte (Ebyte) = 2 10 PB = 1024 PB.

Las unidades de medida de la cantidad de información, cuyos nombres contienen los prefijos "kilo", "mega", etc., no son correctas desde el punto de vista de la teoría de la medición, ya que estos prefijos se utilizan en el sistema métrico de medidas. , en el que se utiliza un coeficiente como multiplicadores de múltiples unidades 10n, donde norte = 3, 6, 9, etc. Para eliminar esta incorrección, la organización internacional Comisión Electrotécnica Internacional, dedicado a la creación de estándares para la industria de la tecnología electrónica, ha aprobado una serie de nuevos prefijos para unidades de medida de la cantidad de información: kibi (kibi), muebles (mebi), gibi (gibi),(tebí), pequeño (peti), exbi (exbi). Sin embargo, las antiguas designaciones para unidades de medida de la cantidad de información todavía se utilizan y pasará tiempo hasta que los nuevos nombres se utilicen ampliamente.

El enfoque probabilístico también se utiliza para determinar la cantidad de información presentada mediante sistemas de signos. Si consideramos los caracteres del alfabeto como un conjunto de posibles mensajes NORTE, La cantidad de información que contiene un signo del alfabeto se puede determinar mediante la fórmula (1.1). Si cada carácter del alfabeto aparece con la misma probabilidad en el texto del mensaje, se puede utilizar la fórmula (1.2) para determinar la cantidad de información.

Cuanta más información contenga un carácter del alfabeto, mayor será el número de caracteres incluidos en este alfabeto. La cantidad de caracteres incluidos en el alfabeto se llama potencia del alfabeto. La cantidad de información (volumen de información) contenida en un mensaje codificado mediante un sistema de signos y que contiene una determinada cantidad de caracteres (símbolos) se determina mediante la fórmula:


Dónde V – volumen de información del mensaje; / = log 2 N, volumen de información de un símbolo (signo); A - número de caracteres (signos) del mensaje; norte – poder del alfabeto (número de caracteres en el alfabeto).

Expliquemos lo anterior en el párrafo 1.2 con ejemplos.

Ejemplo 1.1

Determinemos cuánta información se puede obtener después de la implementación de uno de los seis eventos. La probabilidad del primer evento es 0,15; segundo – 0,25; tercero – 0,2; cuarto – 0,12; quinto – 0,12; sexto – 0,1, es decir pag 1 = 0,15; P 2 = 0,25; R 3 = 0,2; P 4 = 0,18; P 5 = 0,12; P 6 = 0,1.

Solución.

Para determinar la cantidad de información aplicamos la fórmula (1.1)


Para calcular esta expresión que contiene logaritmos, primero usaremos una calculadora de computadora y luego un procesador de hojas de cálculo. Microsoft (MS) Excel, incluido en el paquete de software integrado MS Office XP.

Para calcular usando una calculadora de computadora, siga estos pasos:

Usando el comando: [Botón Comenzar– Programas – Estándar – Calculadora], inicie el programa Calculadora. Después de iniciar el programa, ejecute el comando: [Ver – Ingeniería] (Fig. 1.3).


Arroz. 1.3. calculadora de ingenieria

Botón registro La calculadora calcula el logaritmo decimal (base 10) del número mostrado. Dado que en nuestro caso es necesario calcular logaritmos en base 2, y esta calculadora no lo permite, debemos utilizar la conocida fórmula:

logN = M log a N,


En nuestro caso, la relación tomará la forma: iniciar sesión 2 norte = metro iniciar sesión 10 norte,


es decir, log 2 N = 3,322 · log 10 N, y la expresión para calcular la cantidad de información tomará la forma:


Al calcular en una calculadora, utilice los siguientes botones: +/- (cambiar el signo del número mostrado), ()(corchetes de apertura y cierre), registro(logaritmo de un número en base 10), etc. El resultado del cálculo se muestra en la Fig. 1.3. Por tanto, la cantidad de información I = 2,52 bits.

Usemos ahora un procesador de mesa. MS Excel. Para ejecutar el programa Sobresalir ejecutar el comando: [Botón Comenzar- Programas - MS Office XP-Microsoft Excel]. En las celdas A1, B1, C1, D1, E1, F1 de la ventana que se abre Sobresalir Anotemos las designaciones de letras de las probabilidades. P 1, P 2, P 3, P 4, P 5, P 6 y en la celda G1 - la cantidad de información I, que es necesario determinar. Escribir subíndices para probabilidades. ¿R1? P 6 en las celdas A1, B1, C1, D1, E1, F1, ejecute el siguiente comando: [Formato – Celdas – Fuente – Modificación (marque la casilla al lado del subíndice)]. En las celdas A2, B2, C2, D2, E2, F2 escribimos los valores de probabilidad correspondientes.

Después de escribir valores en las celdas, debe configurar el formato numérico en ellas. Para hacer esto, debe ejecutar el siguiente comando: [Formato – Celdas – Número – Numérico (establezca el número de decimales en dos)]. Configure la celda G2 con el mismo formato de número. En la celda G2 escribimos la expresión = – (A2*LOG(A2;2) + B2*LOG(B2;2) + C2*LOG(C2;2) + D2*LOG(D2;2) + E2*LOG( E2; 2) + F2*LOG(F2;2)). Después de presionar la tecla en el teclado de la computadora , en la celda G2 obtenemos el resultado deseado – yo = 2,52 bits (figura 1.4).


Arroz. 1.4. El resultado de calcular la cantidad de información.

Ejemplo 1.2

Determinemos cuántos bytes y bits de información contiene un mensaje si su volumen es de 0,25 KB.

Solución.

Usando una calculadora, determinamos la cantidad de bytes y bits de información contenidos en este mensaje:

yo = 0,25 KB · 1024 bytes/1 KB = 256 bytes;

yo = 256 bytes · 8 bits/1 byte = 2048 bits.

Ejemplo 1.3

Determinemos la potencia del alfabeto con el que se transmite un mensaje que contiene 4096 caracteres, si el volumen de información del mensaje es de 2 KB.

Solución.

Con una calculadora convertiremos el volumen de información de un mensaje de kilobytes a bits:

V=2 KB 1024 bytes/1 KB = 2048 bytes 8 bits/1 byte = 16384 bits.

Determinemos el número de bits por carácter (volumen de información de un carácter) en el alfabeto:

I= 16.384 bits/4096 = 4 bits.

Usando la fórmula (1.3), determinamos el poder del alfabeto (el número de caracteres en el alfabeto):

norte = 2 yo = 2 4 = 16.

Como ya se señaló, si tenemos en cuenta solo la propiedad de la información asociada con su contenido semántico, al definir el concepto de información podemos limitarnos al nivel semántico o semántico de consideración de este concepto.

En nivel semántico La información se considera de acuerdo con su contenido, reflejando el estado de un objeto individual o del sistema en su conjunto. Esto no tiene en cuenta su utilidad para el destinatario de la información. En este nivel se estudian las relaciones entre los signos, sus significados objetivos y semánticos (ver Fig. 1.1), lo que permite seleccionar unidades semánticas de medida de información. Dado que el contenido semántico de la información se transmite mediante un mensaje, es decir, en forma de un conjunto de signos (símbolos) transmitidos mediante señales desde la fuente de información al receptor, se ha convertido en un enfoque basado en el uso de una medida de tesauro. muy extendido para medir el contenido semántico de la información. En este caso, se entiende por tesauro un conjunto de información (información) a priori disponible para el receptor de la información.

Este enfoque supone que para comprender (comprender) y utilizar la información recibida, el receptor (receptor) debe tener información a priori (tesauro), es decir, un cierto stock de signos llenos de significado, palabras, conceptos, nombres de fenómenos y objetos entre los cuales se establecen conexiones a nivel semántico. Por tanto, si tomamos el conocimiento sobre un objeto o fenómeno determinado como un tesauro, entonces la cantidad de información contenida en un nuevo mensaje sobre un tema determinado puede evaluarse mediante el cambio en el tesauro individual bajo la influencia de este mensaje. Dependiendo de la relación entre el contenido semántico del mensaje y el diccionario de sinónimos del usuario, la cantidad de información semántica cambia, mientras que la naturaleza de dicha dependencia no se presta a una descripción matemática estricta y se reduce a la consideración de tres condiciones principales bajo las cuales el diccionario de sinónimos del usuario:

Tiende a cero, es decir, el usuario no percibe el mensaje entrante;

Tiende al infinito, es decir, el usuario conoce a fondo todo sobre el objeto o fenómeno y no está interesado en el mensaje recibido;

Es coherente con el contenido semántico del mensaje, es decir, el mensaje recibido es comprensible para el usuario y contiene nueva información.

Los dos primeros casos límite corresponden a un estado en el que la cantidad de información semántica recibida por el usuario es mínima. El tercer caso está asociado a la obtención de la máxima cantidad de información semántica. Así, la cantidad de información semántica que recibe el usuario es un valor relativo, ya que un mismo mensaje puede tener contenido semántico para un usuario competente y carecer de significado para un usuario incompetente.

Por tanto, resulta difícil obtener una valoración objetiva de la cantidad de información a nivel semántico de su consideración, y para obtener dicha valoración se utilizan diferentes unidades de medida de la cantidad de información: absoluta o relativa. Se pueden utilizar símbolos, detalles, registros, etc. como unidades de medida absolutas, y el coeficiente de contenido, que se define como la relación entre la información semántica y su volumen, se puede utilizar como unidad relativa. Por ejemplo, para determinar a nivel semántico la cantidad de información recibida por los estudiantes en las clases, se puede tomar como unidad de medida la puntuación inicial (símbolo), que caracteriza el grado de asimilación de nuevo material educativo, a partir del cual la cantidad de información recibida por cada estudiante se puede determinar indirectamente. Esta cantidad de información se expresará en términos de la puntuación de evaluación correspondiente dentro del rango de evaluaciones aceptado.

Con un enfoque semántico para evaluar la cantidad de información y elegir una unidad de medida, el tipo de información (mensaje) recibida es fundamental. Por tanto, este enfoque para evaluar la cantidad de información económica nos permite identificar una unidad compuesta de información económica, que consta de un conjunto de otras unidades de información relacionadas entre sí en significado. Un componente elemental de una unidad de información económica es un requisito, es decir, un conjunto de información que no puede dividirse en unidades de información a nivel semántico. La división de detalles en símbolos conduce a la pérdida de su contenido semántico. Cada atributo se caracteriza por un nombre, valor y tipo. En este caso, el nombre de una propiedad se entiende como su designación convencional, el valor es una cantidad que caracteriza las propiedades de un objeto o fenómeno en determinadas circunstancias, el tipo es un conjunto de valores de una propiedad, unidos por determinadas características. y un conjunto de transformaciones permitidas.

Los detalles generalmente se dividen en detalles básicos y detalles de atributos.

Los detalles básicos caracterizan el lado cuantitativo de un objeto, proceso o fenómeno económico que se puede obtener como resultado de operaciones individuales: cálculos, mediciones, conteo de unidades naturales, etc. En los documentos económicos, estos incluyen, por ejemplo, el precio de un producto. , su cantidad , cantidad, etc. Los detalles básicos se expresan con mayor frecuencia en números con los que se pueden realizar operaciones matemáticas.

Los atributos de atributo reflejan las propiedades cualitativas de un objeto, proceso o fenómeno económico. Con la ayuda de atributos, los mensajes adquieren un carácter individual. En los documentos económicos, estos incluyen, por ejemplo, el número del documento, el nombre del remitente, la fecha de redacción del documento, el tipo de transacción, etc. Los detalles de los atributos permiten el procesamiento lógico de unidades de información a nivel semántico: búsqueda, selección, agrupación, ordenación, etc.d.

Una base de atributos separada, junto con los atributos-atributos relacionados con ella, forma la siguiente unidad de información económica jerárquicamente compuesta: un indicador. El indicador tiene un nombre, que incluye términos que denotan el objeto que se mide: costo, gastos, capacidad, ganancia, etc. Además, el indicador contiene una característica formal y características adicionales. La característica formal incluye el método de obtención (volumen, cantidad, aumento, porcentaje, valor promedio, etc.), y las características adicionales incluyen espaciotemporal (donde se encuentra el objeto medido, el tiempo al que se refiere este indicador) y metrológico (unidades mediciones).

Así, utilizando un conjunto de detalles y los indicadores correspondientes, es posible estimar la cantidad de información económica recibida del objeto en estudio (fuente de información).

Además del enfoque basado en el uso de una medida de tesauro, también se utilizan otros enfoques para determinar la cantidad de información a nivel semántico. Por ejemplo, uno de los enfoques relacionados con la evaluación semántica de la cantidad de información es que el número de enlaces a ella en otros mensajes se toma como criterio principal para el valor semántico de la información contenida en un mensaje. La cantidad de información recibida se determina basándose en el procesamiento estadístico de enlaces en varias muestras.

Para resumir lo dicho, se puede argumentar que hubo y todavía hay un problema para formar un enfoque sistemático unificado para definir la información en el nivel semántico. Esto también se ve confirmado por el hecho de que en un momento, para crear una teoría científica estricta de la información, K. Shannon se vio obligado a descartar una propiedad importante de la información asociada con su contenido semántico.

Además de los niveles de consideración enumerados, el concepto de información se utiliza bastante nivel pragmático. En este nivel, la información se considera desde el punto de vista de su utilidad (valor) para que el consumidor de información (persona) alcance el objetivo práctico establecido. Este enfoque para determinar la utilidad de la información se basa en calcular el incremento en la probabilidad de lograr un objetivo antes y después de recibir la información. La cantidad de información que determina su valor (utilidad) se encuentra mediante la fórmula:


Dónde P 0 , P 1 – la probabilidad de lograr el objetivo antes y después de recibir información, respectivamente.

Como unidad de medida (medida) de la cantidad de información que determina su valor, se puede tomar 1 bit (con base logarítmica igual a 2), es decir, esta es la cantidad de información recibida a la que la relación de las probabilidades de lograr el objetivo es igual a 2.

Consideremos tres casos en los que la cantidad de información que determina su valor es cero y cuando adquiere un valor positivo y negativo.

La cantidad de información es cero en P 0 = R 1, aquellos. la información recibida no aumenta ni disminuye la probabilidad de lograr el objetivo.

El valor de la información es positivo cuando P 1 > P 0 , es decir, la información obtenida reduce la incertidumbre inicial y aumenta la probabilidad de lograr el objetivo.

El valor de la información es negativo cuando P 1< P 0 , es decir, la información recibida aumenta la incertidumbre inicial y reduce la probabilidad de lograr el objetivo. Este tipo de información se llama desinformación.

El desarrollo adicional de este enfoque se basa en la teoría de la información estadística y la teoría de la decisión. En este caso, además de las características probabilísticas de lograr el objetivo, luego de recibir información, se introducen funciones de pérdida y se evalúa la utilidad de la información como resultado de minimizar la función de pérdida. El valor máximo es aquella cantidad de información que reduce a cero las pérdidas a la hora de alcanzar el objetivo.

La cantidad de información como medida para reducir la incertidumbre del conocimiento. La información que recibe una persona puede considerarse una medida para reducir la incertidumbre del conocimiento. Si algún mensaje conduce a una disminución de la incertidumbre de nuestro conocimiento, entonces podemos decir que dicho mensaje contiene información.

Los mensajes suelen contener información sobre algunos eventos. La cantidad de información para eventos con diferentes probabilidades está determinada por la fórmula:

o de la ecuación exponencial:

Ejemplo 2.1. Después del examen de informática que tomaron tus amigos, se anuncian las calificaciones (“2”, “3”, “4” o “5”). ¿Cuánta información transmitirá el mensaje sobre la calificación del estudiante A, que aprendió solo la mitad de los boletos, y el mensaje sobre la calificación del estudiante B, que aprendió todos los boletos?

La experiencia muestra que para el estudiante A las cuatro evaluaciones (eventos) son igualmente probables y entonces la cantidad de información contenida en el mensaje de evaluación se puede calcular utilizando la fórmula 2.2:

I = registro 2 4 = 2 bits

Según la experiencia, también podemos suponer que para el estudiante B la calificación más probable es “5” (p 1 = 1/2), la probabilidad de una calificación “4” es la mitad (p 2 = 1/4), y la probabilidad de obtener notas es “2” y “3” sigue siendo dos veces menor (p 3 = p 4 = 1/8). Dado que los eventos no son igualmente probables, usaremos la fórmula 2.1 para calcular la cantidad de información en un mensaje:

I = -(1/2Elog 2 1/2 + 1/4Elog 2 1/4 + 1/8Elog 2 1/8 + 1/8Elog 2 1/8) bits = 1,75 bits

Los cálculos han demostrado que con eventos igualmente probables recibimos más información que con eventos desigualmente probables.

Ejemplo 2.2. Una bolsa opaca contiene 10 bolas blancas, 20 rojas, 30 azules y 40 verdes. ¿Cuánta información contendrá el mensaje visual sobre el color de la bola retirada?

Dado que el número de bolas de diferentes colores no es el mismo, los mensajes visuales sobre el color de una bola sacada de la bolsa también difieren y son iguales al número de bolas de un color determinado dividido por el número total de bolas:

p b = 0,1; pk = 0,2; ps = 0,3; ordenador personal = 0,4

Los eventos no son igualmente probables, por tanto, para determinar la cantidad de información contenida en el mensaje sobre el color de la pelota, utilizamos la fórmula 2.1:

I = -(0,1 log 2 0,1+ 0,2 log 2 0,2 ​​+ 0,3 log 2 0,3 + 0,4 log 2 0,4) bits

Ejemplo 2.3.¿Cuántas preguntas basta con hacerle a su interlocutor para determinar definitivamente el mes en el que nació?

Consideremos 12 meses como 12 eventos posibles. Si preguntas sobre un mes de nacimiento específico, es posible que tengas que hacer 11 preguntas (si se recibió una respuesta negativa a las primeras 11 preguntas, entonces no es necesario preguntar la 12, ya que será correcta).

Es correcto hacer preguntas "binarias", es decir Preguntas que sólo pueden responderse “Sí” o “No”. Por ejemplo, "¿Naciste en la segunda mitad del año?" Cada una de estas preguntas divide el conjunto de opciones en dos subconjuntos: uno correspondiente a la respuesta “Sí” y el otro a la respuesta “No”.

La estrategia correcta es hacer preguntas de tal manera que el número de opciones posibles se reduzca a la mitad cada vez. Entonces el número de eventos posibles en cada uno de los subconjuntos resultantes será el mismo y su adivinación será igualmente probable. En este caso, en cada paso la respuesta (“Sí” o “No”) contendrá la cantidad máxima de información (1 bit).

Usando la fórmula 2.2 y usando una calculadora obtenemos:

I = registro 2 12 » 3,6 bits

La cantidad de bits de información recibidos corresponde a la cantidad de preguntas formuladas, pero la cantidad de preguntas no puede ser un número no entero. Redondeamos a un número entero mayor y obtenemos la respuesta: con la estrategia correcta, no es necesario hacer más de 4 preguntas.

Unidades para medir la cantidad de información.

Unidades para medir la cantidad de información. Se toma un bit como unidad de cantidad de información: la cantidad de información contenida en un mensaje, lo que reduce la incertidumbre del conocimiento a la mitad.

Se ha adoptado el siguiente sistema de unidades para medir la cantidad de información:

1 byte = 8 bits

1 KB = 2 10 bytes

1 MB = 2 10 KB = 2 20 bytes

1 GB = 2 10 MB = 2 20 KB = 2 30 bytes

Determinar la cantidad de información representada mediante sistemas de signos.

Si consideramos los caracteres del alfabeto como un conjunto de posibles mensajes (eventos) N, entonces la cantidad de información que lleva un carácter se puede determinar a partir de la fórmula 2.1. Si consideramos la aparición de cada carácter del alfabeto en el texto como eventos igualmente probables, entonces para determinar la cantidad de información podemos usar la fórmula 2.2 o la ecuación 2.3.

La cantidad de información que transporta un signo del alfabeto es mayor cuanto más signos se incluyen en este alfabeto, es decir, cuanto mayor sea el poder del alfabeto.

La cantidad de información contenida en un mensaje codificado mediante un sistema de signos es igual a la cantidad de información contenida en un carácter multiplicada por el número de caracteres del mensaje.

Ejemplo 2.5.¿Cuál es la potencia del alfabeto con el que se escribe un mensaje que contiene 2048 caracteres, si su tamaño es de 1,25 KB?

Convierte el volumen de información del mensaje en bits:

Yo = 10.240 bits

Determine el número de bits por carácter:

10.240 bits: 2.048 = 5 bits

Usando la fórmula 2.3, determina la cantidad de caracteres en el alfabeto.

en informática

Cantidad de información


Introducción

2. Incertidumbre, cantidad de información y entropía

3. Fórmula de Shannon

4. Fórmula de Hartley

5. Cantidad de información recibida durante el proceso de comunicación

Lista de literatura usada


Introducción

Según la definición de A.D. Ursula: “la información refleja la diversidad”. La cantidad de información es una medida cuantitativa de diversidad. Ésta puede ser la diversidad de los contenidos agregados de la memoria; la diversidad de la señal percibida durante un mensaje particular; variedad de resultados de una situación particular; la diversidad de elementos de un determinado sistema... es una valoración de la diversidad en el sentido más amplio de la palabra.

Cualquier mensaje entre la fuente y el receptor de información tiene una determinada duración en el tiempo, pero la cantidad de información percibida por el receptor como resultado del mensaje se caracteriza en última instancia no por la longitud del mensaje, sino por la variedad de la señal generada. en el receptor por este mensaje.

La memoria de un portador de información tiene una cierta capacidad física en la que es capaz de acumular imágenes, y la cantidad de información acumulada en la memoria se caracteriza en última instancia por la diversidad de llenado de esta capacidad. Para los objetos inanimados esta es la diversidad de su historia; para los organismos vivos esta es la diversidad de su experiencia.

1.Bit

La variedad es fundamental a la hora de transmitir información. No se puede pintar blanco sobre blanco; el estado por sí solo no es suficiente. Si una célula de memoria es capaz de estar en un solo estado (inicial) y no puede cambiar su estado bajo influencia externa, esto significa que no es capaz de percibir y recordar información. La capacidad de información de dicha celda es 0.

La diversidad mínima está garantizada por la presencia de dos estados. Si una celda de memoria es capaz, dependiendo de influencias externas, de adoptar uno de dos estados, que normalmente se denominan "0" y "1", su capacidad de información es mínima.

La capacidad de información de una celda de memoria, capaz de estar en dos estados diferentes, se toma como unidad de medida de la cantidad de información: 1 bit.

1 bit (bit, abreviatura de dígito binario en inglés, número binario) es una unidad de medida de la capacidad de información y la cantidad de información, así como otro valor: la entropía de la información, que conoceremos más adelante. Bit, una de las unidades de medida más incondicionales. Si la unidad de medida de longitud pudiera establecerse arbitrariamente: codo, pie, metro, entonces la unidad de medida de información no podría ser esencialmente ninguna otra.

A nivel físico, un bit es una celda de memoria que en un momento dado se encuentra en uno de dos estados: “0” o “1”.

Si cada píxel de una imagen sólo puede ser blanco o negro, dicha imagen se denomina mapa de bits, porque cada píxel representa una celda de memoria con una capacidad de 1 bit. Una bombilla que puede estar “encendida” o “apagada” también simboliza el ritmo. Un ejemplo clásico que ilustra 1 bit de información es la cantidad de información obtenida como resultado de lanzar una moneda: "cara" o "cruz".

Se puede obtener una cantidad de información igual a 1 bit en respuesta a una pregunta de “sí” o “no”. Si inicialmente había más de dos opciones de respuesta, la cantidad de información recibida en una respuesta particular será más de 1 bit, si hay menos de dos opciones de respuesta, es decir uno, entonces esto no es una pregunta, sino una afirmación, por lo que no es necesario obtener información, ya que no hay incertidumbre.

La capacidad de información de una celda de memoria capaz de recibir información no puede ser inferior a 1 bit, pero la cantidad de información recibida puede ser inferior a 1 bit. Esto ocurre cuando las opciones de respuesta “sí” y “no” no son igualmente probables. La desigualdad, a su vez, es consecuencia del hecho de que ya se dispone de cierta información preliminar (a priori) sobre este tema, obtenida, por ejemplo, a partir de experiencias de vida anteriores. Así, en todo el razonamiento del párrafo anterior conviene tener en cuenta una salvedad muy importante: sólo son válidos para el caso igualmente probable.

Denotaremos la cantidad de información con el símbolo I, la probabilidad se denota con el símbolo P. Recuerde que la probabilidad total de un grupo completo de eventos es igual a 1.

2.Incertidumbre, cantidad de información y entropía

El fundador de la teoría de la información, Claude Shannon, definió la información como la eliminación de la incertidumbre. Más precisamente, obtener información es una condición necesaria para eliminar la incertidumbre. La incertidumbre surge en una situación de elección. La tarea que se resuelve al eliminar la incertidumbre es reducir el número de opciones consideradas (reducir la diversidad) y, en última instancia, elegir una opción adecuada a la situación entre las posibles. Eliminar la incertidumbre permite tomar decisiones informadas y actuar. Ésta es la función controladora de la información.

Una situación de máxima incertidumbre presupone la presencia de varias alternativas (opciones) igualmente probables, es decir, Ninguna opción es preferible. Además, cuantas más opciones igualmente probables se observen, mayor será la incertidumbre, más difícil será hacer una elección inequívoca y más información se necesitará para obtenerla. Para N opciones, esta situación se describe mediante la siguiente distribución de probabilidad: (1/N, 1/N,… 1/N).

La incertidumbre mínima es 0, es decir Se trata de una situación de total certeza, es decir, de que se ha hecho la elección y se ha recibido toda la información necesaria. La distribución de probabilidad para una situación de total certeza es la siguiente: (1, 0,…0).

La cantidad que caracteriza la cantidad de incertidumbre en la teoría de la información se denota con el símbolo H y se llama entropía, más precisamente entropía de la información.

La entropía (H) es una medida de incertidumbre expresada en bits. La entropía también puede considerarse como una medida de la uniformidad de la distribución de una variable aleatoria.

La Figura 1 muestra el comportamiento de la entropía para el caso de dos alternativas, cuando la razón de sus probabilidades cambia (p, (1-p)).

La entropía alcanza su valor máximo en este caso cuando ambas probabilidades son iguales entre sí e iguales a ½, el valor de entropía cero corresponde a los casos (p 0 =0, p 1 =1) y (p 0 =1, p 1 =0).

La cantidad de información I y la entropía H caracterizan la misma situación, pero desde lados cualitativamente opuestos. I es la cantidad de información que se requiere para eliminar la incertidumbre H. Según la definición de León Brillouin, la información es entropía negativa (negentropía).

Cuando la incertidumbre se elimina por completo, la cantidad de información recibida I es igual a la incertidumbre H inicialmente existente.

Cuando la incertidumbre se elimina parcialmente, la cantidad de información recibida y la incertidumbre restante que permanece sin resolver se suman a la incertidumbre original. H t + Yo t = H.

Por esta razón, las fórmulas que se presentarán a continuación para calcular la entropía H también son fórmulas para calcular la cantidad de información I, es decir cuando hablamos de la eliminación completa de la incertidumbre, H en ellos puede ser reemplazado por I.

3.Fórmula de Shannon

En el caso general, la entropía H y la cantidad de información I obtenida como resultado de eliminar la incertidumbre dependen del número inicial de opciones consideradas N y de las probabilidades a priori de implementar cada una de ellas P: (p 0 , p 1 , …p N -1 ), es decir H=F(norte, pag). La entropía se calcula en este caso utilizando la fórmula de Shannon, propuesta por él en 1948 en el artículo “Teoría matemática de la comunicación”.

En el caso especial, cuando todas las opciones son igualmente probables, la dependencia permanece sólo en el número de opciones consideradas, es decir H=F(norte). En este caso, la fórmula de Shannon está significativamente simplificada y coincide con la fórmula de Hartley, propuesta por primera vez por el ingeniero estadounidense Ralph Hartley en 1928, es decir. 20 años antes.

La fórmula de Shannon es la siguiente:

(1)

Arroz. 3. Encontrar el logaritmo de b en base a es encontrar la potencia a la que necesitas elevar a para obtener b.

Te recordamos qué es un logaritmo.

El logaritmo en base 2 se llama binario:

registro 2 (8)=3 => 2 3 =8

registro 2 (10) = 3,32 => 2 3,32 = 10

El logaritmo en base 10 se llama decimal:

registro 10 (100)=2 => 10 2 =100

Propiedades básicas del logaritmo:

1. log(1)=0, porque cualquier número elevado a cero da 1;

2. iniciar sesión(ab)=b*log(a);

3. Iniciar sesión (a*b) = Iniciar sesión (a) + Iniciar sesión (b);

4. log(a/b)=log(a)-log(b);

5. log(1/b)=0-log(b)=-log(b).

El signo menos en la fórmula (1) no significa que la entropía sea un valor negativo. Esto se explica por el hecho de que p i £1 por definición, y el logaritmo de un número menor que uno es un valor negativo. Por la propiedad del logaritmo.

, por lo tanto esta fórmula se puede escribir en la segunda versión, sin el signo menos antes del signo de suma. se interpreta como una cantidad particular de información obtenida en el caso de implementar la i-ésima opción. La entropía en la fórmula de Shannon es la característica promedio: la expectativa matemática de la distribución de una variable aleatoria (I 0, I 1, ... I N -1).


Arriba