El código ascii tiene doble guión bajo. Codificación ASCII (código estándar americano para el intercambio de información): codificación de texto básica para el alfabeto latino

[Codificaciones de 8 bits: ASCII, KOI-8R y CP1251] Las primeras tablas de codificación creadas en Estados Unidos no utilizaban el octavo bit en un byte. El texto se representó como una secuencia de bytes, pero el octavo bit no se tuvo en cuenta (se utilizó con fines oficiales).

La mesa se ha convertido en un estándar generalmente aceptado. ASCII(Código estándar americano para el intercambio de información). Los primeros 32 caracteres de la tabla ASCII (00 a 1F) se utilizaron para caracteres no imprimibles. Fueron diseñados para controlar un dispositivo de impresión, etc. El resto, del 20 al 7F, son caracteres normales (imprimibles).

Tabla 1 - Codificación ASCII

DicMaleficioOctCarbonizarseDescripción
0 0 000 nulo
1 1 001 inicio del rumbo
2 2 002 inicio del texto
3 3 003 fin del texto
4 4 004 fin de transmisión
5 5 005 consulta
6 6 006 reconocer
7 7 007 campana
8 8 010 retroceso
9 9 011 pestaña horizontal
10 A 012 nueva linea
11 B 013 pestaña vertical
12 do 014 nueva pagina
13 D 015 retorno de carro
14 mi 016 desplazarse
15 F 017 cambio en
16 10 020 escape del enlace de datos
17 11 021 control del dispositivo 1
18 12 022 control del dispositivo 2
19 13 023 control del dispositivo 3
20 14 024 control del dispositivo 4
21 15 025 reconocimiento negativo
22 16 026 inactivo síncrono
23 17 027 final de la trans. bloquear
24 18 030 Cancelar
25 19 031 final del medio
26 1A 032 sustituto
27 1B 033 escapar
28 1C 034 separador de archivos
29 1D 035 separador de grupo
30 1E 036 separador de registros
31 1F 037 separador de unidades
32 20 040 espacio
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
DicMaleficioOctCarbonizarse
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 do
68 44 104 D
69 45 105 mi
70 46 106 F
71 47 107 GRAMO
72 48 110 h
73 49 111 I
74 4A 112 j
75 4B 113 k
76 4C 114 l
77 4D 115 METRO
78 4E 116 norte
79 4F 117 oh
80 50 120 PAG
81 51 121 q
82 52 122 R
83 53 123 S
84 54 124 t
85 55 125 Ud.
86 56 126 V
87 57 127 W.
88 58 130 incógnita
89 59 131 Y
90 5A 132 z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 a
98 62 142 b
99 63 143 do
100 64 144 d
101 65 145 mi
102 66 146 F
103 67 147 gramo
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 yo
109 6D 155 metro
110 6E 156 norte
111 6F 157 oh
112 70 160 pag
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 tu
118 76 166 v
119 77 167 w
120 78 170 incógnita
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Como puede ver fácilmente, esta codificación contiene solo letras latinas y aquellas que se usan en el idioma inglés. También hay símbolos aritméticos y de otros servicios. Pero no hay letras rusas, ni siquiera letras latinas especiales para el alemán o el francés. Esto es fácil de explicar: la codificación se desarrolló específicamente como estándar estadounidense. A medida que las computadoras comenzaron a usarse en todo el mundo, fue necesario codificar otros caracteres.

Para ello se decidió utilizar el octavo bit en cada byte. Esto puso a disposición 128 valores más (de 80 a FF) que podrían usarse para codificar caracteres. La primera de las tablas de ocho bits es "ASCII extendido" ( ASCII extendido) - incluía varias variantes de los caracteres latinos utilizados en algunos idiomas de Europa occidental. También contenía otros símbolos adicionales, incluidos pseudográficos.

Los caracteres pseudográficos le permiten proporcionar cierta apariencia de gráficos al mostrar solo caracteres de texto en la pantalla. Por ejemplo, el programa de gestión de archivos FAR Manager funciona mediante pseudografía.

No había letras rusas en la tabla ASCII extendida. Rusia (antes URSS) y otros países crearon sus propias codificaciones que permitieron representar caracteres "nacionales" específicos en archivos de texto de 8 bits: letras latinas de los idiomas polaco y checo, cirílico (incluidas las letras rusas) y otros alfabetos.

En todas las codificaciones que se han generalizado, los primeros 127 caracteres (es decir, el valor del byte con el octavo bit igual a 0) son los mismos que en ASCII. Entonces un archivo ASCII funciona en cualquiera de estas codificaciones; Las letras del idioma inglés se representan de la misma forma.

Organización ISO(Organización Internacional de Normalización) adoptó un grupo de normas ISO 8859. Define codificaciones de 8 bits para diferentes grupos de idiomas. Entonces, ISO 8859-1 es una tabla ASCII extendida para EE. UU. y Europa occidental. E ISO 8859-5 es una tabla para el alfabeto cirílico (incluido el ruso).

Sin embargo, por razones históricas, la codificación ISO 8859-5 no echó raíces. En realidad, se utilizan las siguientes codificaciones para el idioma ruso:

Página de códigos 866 ( CP866), también conocido como “DOS”, también conocido como “codificación GOST alternativa”. Muy utilizado hasta mediados de los 90; ahora se utiliza de forma limitada. Prácticamente no se utiliza para distribuir textos en Internet.
-KOI-8. Desarrollado en los años 70-80. Es un estándar generalmente aceptado para transmitir mensajes de correo electrónico en la Internet rusa. También es muy utilizado en sistemas operativos de la familia Unix, incluido Linux. La versión KOI-8, diseñada para Rusia, se llama KOI-8R; Existen versiones para otros idiomas cirílicos (por ejemplo, KOI8-U es una versión para el idioma ucraniano).
- Página de códigos 1251, CP1251,Windows-1251. Desarrollado por Microsoft para admitir el idioma ruso en Windows.

La principal ventaja del CP866 fue la conservación de caracteres pseudográficos en los mismos lugares que en ASCII extendido; por lo tanto, los programas de texto extranjeros, por ejemplo el famoso Norton Commander, podrían funcionar sin cambios. El CP866 ahora se utiliza para programas de Windows que se ejecutan en ventanas de texto o en modo de texto de pantalla completa, incluido FAR Manager.

Los textos en CP866 han sido bastante raros en los últimos años (pero se utiliza para codificar nombres de archivos rusos en Windows). Por lo tanto, nos detendremos con más detalle en otras dos codificaciones: KOI-8R y CP1251.



Como puede ver, en la tabla de codificación CP1251, las letras rusas están ordenadas alfabéticamente (con la excepción, sin embargo, de la letra E). Esta disposición hace que sea muy fácil para los programas informáticos ordenar alfabéticamente.

Pero en KOI-8R el orden de las letras rusas parece aleatorio. Pero en realidad este no es el caso.

En muchos programas antiguos, el octavo bit se perdía al procesar o transmitir texto. (Ahora estos programas están prácticamente "extintos", pero a finales de los 80 y principios de los 90 estaban muy extendidos). Para obtener un valor de 7 bits a partir de un valor de 8 bits, simplemente reste 8 del dígito más significativo; por ejemplo, E1 se convierte en 61.

Ahora compare KOI-8R con la tabla ASCII (Tabla 1). Verá que las letras rusas están colocadas en clara correspondencia con las latinas. Si el octavo bit desaparece, las letras rusas minúsculas se convierten en letras latinas mayúsculas y las letras rusas mayúsculas se convierten en letras latinas minúsculas. Entonces, E1 en KOI-8 es la “A” rusa, mientras que 61 en ASCII es la “a” latina.

Entonces, KOI-8 le permite mantener la legibilidad del texto ruso cuando se pierde el octavo bit. "Hola a todos" se convierte en "pRIWET WSEM".

Recientemente, tanto el orden alfabético de los caracteres en la tabla de codificación como la legibilidad con la pérdida del octavo bit han perdido su importancia decisiva. El octavo bit en las computadoras modernas no se pierde durante la transmisión o el procesamiento. Y la clasificación alfabética se realiza teniendo en cuenta la codificación, y no simplemente comparando códigos. (Por cierto, los códigos CP1251 no están completamente ordenados alfabéticamente; la letra E no está en su lugar).

Debido al hecho de que existen dos codificaciones comunes, cuando se trabaja con Internet (correo, navegación por sitios web), a veces se puede ver un conjunto de letras sin sentido en lugar de texto en ruso. Por ejemplo, “YO SOY SBYUFEMHEL”. Estas son sólo las palabras “con respeto”; pero estaban codificados en codificación CP1251 y la computadora decodificó el texto usando la tabla KOI-8. Si, por el contrario, se codificaran las mismas palabras en KOI-8 y la computadora decodificara el texto utilizando la tabla CP1251, el resultado sería “U KHBTSEOYEN”.

A veces sucede que una computadora descifra letras en ruso utilizando una tabla que no está diseñada para el idioma ruso. Luego, en lugar de letras rusas, aparece un conjunto de símbolos sin significado (por ejemplo, letras latinas de idiomas de Europa del Este); a menudo se les llama "crocozibras".

En la mayoría de los casos, los programas modernos se encargan de determinar la codificación de documentos de Internet (correos electrónicos y páginas web) de forma independiente. Pero a veces "fallan" y luego se pueden ver extrañas secuencias de letras rusas o "krokozyabry". Como regla general, en tal situación, para mostrar texto real en la pantalla, basta con seleccionar la codificación manualmente en el menú del programa.

Para este artículo se utilizó información de la página http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Material tomado del sitio:

El conjunto de caracteres con los que se escribe el texto se llama alfabeto.

El número de caracteres del alfabeto es su fuerza.

Fórmula para determinar la cantidad de información: norte=2b,

donde N es la potencia del alfabeto (número de caracteres),

b – número de bits (peso de información del símbolo).

El alfabeto con una capacidad de 256 caracteres puede contener casi todos los caracteres necesarios. Este alfabeto se llama suficiente.

Porque 256 = 2 8, entonces el peso de 1 carácter es de 8 bits.

La unidad de medida de 8 bits recibió el nombre 1 byte:

1 byte = 8 bits.

El código binario de cada carácter del texto de la computadora ocupa 1 byte de memoria.

¿Cómo se representa la información textual en la memoria de la computadora?

La conveniencia de la codificación de caracteres byte a byte es obvia porque un byte es la parte más pequeña de la memoria direccionable y, por lo tanto, el procesador puede acceder a cada carácter por separado cuando procesa texto. Por otro lado, 256 caracteres es un número suficiente para representar una amplia variedad de información simbólica.

Ahora surge la pregunta: qué código binario de ocho bits asignar a cada carácter.

Está claro que se trata de una cuestión condicional; se pueden idear muchos métodos de codificación.

Todos los caracteres del alfabeto informático están numerados del 0 al 255. Cada número corresponde a un código binario de ocho bits del 00000000 al 11111111. Este código es simplemente el número de serie del carácter en el sistema numérico binario.

Una tabla en la que a todos los caracteres del alfabeto informático se les asignan números de serie se denomina tabla de codificación.

Los diferentes tipos de computadoras utilizan diferentes tablas de codificación.

La mesa se ha convertido en el estándar internacional para PC. ASCII(leer preguntar) (Código estándar americano para el intercambio de información).

La tabla de códigos ASCII se divide en dos partes.

Sólo la primera mitad de la tabla es la norma internacional, es decir. símbolos con números de 0 (00000000), hasta 127 (01111111).

Estructura de la tabla de codificación ASCII

Número de serie

Código

Símbolo

0 - 31

00000000 - 00011111

Los símbolos con números del 0 al 31 suelen denominarse símbolos de control.
Su función es controlar el proceso de visualización de texto en pantalla o impresión, emisión de una señal sonora, marcado de texto, etc.

32 - 127

00100000 - 01111111

Parte estándar de la mesa (inglés). Esto incluye letras minúsculas y mayúsculas del alfabeto latino, números decimales, signos de puntuación, todo tipo de paréntesis, símbolos comerciales y otros.
El carácter 32 es un espacio, es decir posición vacía en el texto.
Todos los demás se reflejan en ciertos signos.

128 - 255

10000000 - 11111111

Parte alternativa de la mesa (ruso).
La segunda mitad de la tabla de códigos ASCII, llamada página de códigos (128 códigos, desde 10000000 hasta 11111111), puede tener diferentes opciones, cada opción tiene su propio número.
La página de códigos se utiliza principalmente para dar cabida a alfabetos nacionales distintos del latín. En las codificaciones nacionales rusas, los caracteres del alfabeto ruso se colocan en esta parte de la tabla.

Primera mitad de la tabla de códigos ASCII


Tenga en cuenta que en la tabla de codificación, las letras (mayúsculas y minúsculas) están ordenadas alfabéticamente y los números en orden ascendente. Esta observancia del orden lexicográfico en la disposición de los símbolos se denomina principio de codificación secuencial del alfabeto.

Para las letras del alfabeto ruso, también se observa el principio de codificación secuencial.

Segunda mitad de la tabla de códigos ASCII


Desafortunadamente, actualmente existen cinco codificaciones cirílicas diferentes (KOI8-R, Windows, MS-DOS, Macintosh e ISO). Debido a esto, a menudo surgen problemas al transferir texto en ruso de una computadora a otra, de un sistema de software a otro.

Cronológicamente, uno de los primeros estándares para codificar letras rusas en computadoras fue KOI8 ("Código de intercambio de información, 8 bits"). Esta codificación se utilizó allá por los años 70 en ordenadores de la serie ES, y desde mediados de los 80 empezó a utilizarse en las primeras versiones rusificadas del sistema operativo UNIX.

Desde principios de los años 90, época de dominio del sistema operativo MS DOS, la codificación CP866 permanece ("CP" significa "página de códigos", "página de códigos").

Las computadoras Apple que ejecutan el sistema operativo Mac OS usan su propia codificación Mac.

Además, la Organización Internacional de Normalización (ISO) ha aprobado otra codificación denominada ISO 8859-5 como estándar para el idioma ruso.

La codificación más común utilizada actualmente es Microsoft Windows, abreviada CP1251.

Desde finales de los años 90, el problema de la estandarización de la codificación de caracteres se ha resuelto mediante la introducción de un nuevo estándar internacional llamado Unicódigo. Esta es una codificación de 16 bits, es decir. Asigna 2 bytes de memoria para cada carácter. Por supuesto, esto aumenta 2 veces la cantidad de memoria ocupada. Pero dicha tabla de códigos permite la inclusión de hasta 65536 caracteres. La especificación completa del estándar Unicode incluye todos los alfabetos del mundo existentes, extintos y creados artificialmente, así como muchos símbolos matemáticos, musicales, químicos y de otro tipo.

Intentemos usar una tabla ASCII para imaginar cómo se verán las palabras en la memoria de la computadora.

Representación interna de palabras en la memoria de la computadora.

A veces sucede que un texto que consta de letras del alfabeto ruso recibido de otra computadora no se puede leer; se ve una especie de "abracadabra" en la pantalla del monitor. Esto sucede porque las computadoras usan diferentes codificaciones de caracteres para el idioma ruso.

Una computadora comprende el proceso de convertirlos a una forma que permita una transmisión, almacenamiento o procesamiento automático más conveniente de estos datos. Para ello se utilizan varias tablas. ASCII fue el primer sistema desarrollado en Estados Unidos para trabajar con textos en inglés, que posteriormente se generalizó por todo el mundo. El siguiente artículo está dedicado a su descripción, características, propiedades y uso posterior.

Visualización y almacenamiento de información en una computadora.

Los símbolos en el monitor de una computadora o en uno u otro dispositivo digital móvil se forman sobre la base de conjuntos de formas vectoriales de varios caracteres y un código que le permite encontrar entre ellos el símbolo que debe insertarse en el lugar correcto. Representa una secuencia de bits. Por lo tanto, cada carácter debe corresponder de forma única a un conjunto de ceros y unos, que aparecen en un orden determinado y único.

Como empezó todo

Históricamente, las primeras computadoras eran de idioma inglés. Para codificar información simbólica en ellos, fue suficiente usar solo 7 bits de memoria, mientras que para este propósito se asignó 1 byte que consta de 8 bits. El número de caracteres comprendidos por la computadora en este caso fue 128. Estos caracteres incluían el alfabeto inglés con sus signos de puntuación, números y algunos caracteres especiales. La codificación de siete bits en inglés con la tabla correspondiente (página de códigos), desarrollada en 1963, se denominó Código estándar estadounidense para el intercambio de información. Por lo general, la abreviatura "codificación ASCII" se utilizaba y se sigue utilizando para indicarlo.

Transición al multilingüismo

Con el tiempo, las computadoras se volvieron ampliamente utilizadas en países de habla no inglesa. En este sentido, existía la necesidad de codificaciones que permitieran el uso de idiomas nacionales. Se decidió no reinventar la rueda y tomar como base ASCII. La tabla de codificación en la nueva edición se ha ampliado significativamente. El uso del octavo bit hizo posible traducir 256 caracteres a un lenguaje informático.

Descripción

La codificación ASCII tiene una tabla que se divide en 2 partes. Sólo su primera mitad se considera una norma internacional generalmente aceptada. Incluye:

  • Caracteres con números de serie del 0 al 31, codificados en secuencias del 00000000 al 00011111. Están reservados para caracteres de control que controlan el proceso de visualización de texto en pantalla o impresora, emisión de una señal sonora, etc.
  • Los caracteres con NN en la tabla del 32 al 127, codificados por secuencias del 00100000 al 01111111 forman la parte estándar de la tabla. Estos incluyen un espacio (N 32), letras del alfabeto latino (minúsculas y mayúsculas), números de diez dígitos del 0 al 9, signos de puntuación, corchetes de diferentes estilos y otros símbolos.
  • Caracteres con números de serie del 128 al 255, codificados por secuencias del 10000000 al 11111111. Estos incluyen letras de alfabetos nacionales distintos del latín. Es esta parte alternativa de la tabla ASCII la que se utiliza para convertir caracteres rusos al formato informático.

Algunas propiedades

Las características de la codificación ASCII incluyen la diferencia entre las letras “A” - “Z” de minúsculas y mayúsculas en solo un bit. Esta circunstancia simplifica enormemente la conversión de registros, además de comprobar si pertenece a un rango de valores determinado. Además, todas las letras en el sistema de codificación ASCII están representadas por sus propios números de secuencia en el alfabeto, que se escriben con 5 dígitos en el sistema numérico binario, precedidos por 011 2 para letras minúsculas y 010 2 para letras mayúsculas.

Una de las características de la codificación ASCII es la representación de 10 dígitos: "0" - "9". En el segundo sistema numérico comienzan con 00112 y terminan con 2 valores numéricos. Por lo tanto, 0101 2 es equivalente al número decimal cinco, por lo que el carácter "5" se escribe como 0011 01012. Con base en lo anterior, puede convertir fácilmente números BCD en una cadena ASCII agregando la secuencia de bits 00112 a cada cuarteto en el izquierda.

"Unicode"

Como sabes, se necesitan miles de caracteres para mostrar textos en los idiomas del grupo del sudeste asiático. Tantos de ellos no pueden describirse de ninguna manera en un byte de información, por lo que ni siquiera las versiones ampliadas de ASCII podrían satisfacer las crecientes necesidades de los usuarios de diferentes países.

Por lo tanto, surgió la necesidad de crear una codificación de texto universal, cuyo desarrollo, en colaboración con muchos líderes de la industria mundial de TI, fue realizado por el consorcio Unicode. Sus especialistas crearon el sistema UTF 32. En él se asignan 32 bits para codificar 1 carácter, lo que constituye 4 bytes de información. La principal desventaja fue un fuerte aumento en la cantidad de memoria requerida hasta 4 veces, lo que generó muchos problemas.

Al mismo tiempo, para la mayoría de los países con lenguas oficiales pertenecientes al grupo indoeuropeo, el número de caracteres igual a 2 32 es más que excesivo.

Como resultado del trabajo adicional de los especialistas del consorcio Unicode, apareció la codificación UTF-16. Se convirtió en la opción para convertir información simbólica que se adaptaba a todos, tanto en términos de cantidad de memoria requerida como de número de caracteres codificados. Es por eso que se adoptó UTF-16 de forma predeterminada y requiere reservar 2 bytes para un carácter.

Incluso esta versión bastante avanzada y exitosa de Unicode tenía algunos inconvenientes, y después de la transición de la versión extendida de ASCII a UTF-16, el peso del documento se duplicó.

En este sentido, se decidió utilizar codificación de longitud variable UTF-8. En este caso, cada carácter del texto fuente se codifica como una secuencia de longitud de 1 a 6 bytes.

Póngase en contacto con el código estándar americano para el intercambio de información.

Todos los caracteres latinos de longitud variable UTF-8 están codificados en 1 byte, como en el sistema de codificación ASCII.

Una característica especial de YTF-8 es que en el caso de texto en latín sin utilizar otros caracteres, incluso los programas que no entienden Unicode podrán leerlo. En otras palabras, la codificación de texto ASCII base simplemente pasa a formar parte del nuevo UTF de longitud variable. Los caracteres cirílicos en YTF-8 ocupan 2 bytes y, por ejemplo, los caracteres georgianos, 3 bytes. Al crear UTF-16 y 8, se resolvió el principal problema de crear un espacio de código único en las fuentes. Desde entonces, los fabricantes de fuentes sólo pueden llenar la tabla con formas vectoriales de caracteres de texto según sus necesidades.

Los diferentes sistemas operativos prefieren diferentes codificaciones. Para poder leer y editar textos escritos en una codificación diferente, se utilizan programas de conversión de textos en ruso. Algunos editores de texto contienen transcodificadores integrados y le permiten leer texto independientemente de la codificación.

Ahora ya sabes cuántos caracteres hay en la codificación ASCII y cómo y por qué se desarrolló. Por supuesto, hoy en día el estándar Unicode es el más extendido en el mundo. Sin embargo, no debemos olvidar que está basado en ASCII, por lo que se debe agradecer el aporte de sus desarrolladores al campo TI.

Según la Unión Internacional de Telecomunicaciones, en 2016, tres mil quinientos millones de personas utilizaron Internet con cierta regularidad. La mayoría de ellos ni siquiera piensan en el hecho de que los mensajes que envían a través de una PC o dispositivos móviles, así como los textos que se muestran en todo tipo de monitores, son en realidad combinaciones de 0 y 1. Esta representación de información se llama codificación. . Asegura y facilita enormemente su almacenamiento, procesamiento y transmisión. En 1963, se desarrolló la codificación estadounidense ASCII, que es el tema de este artículo.

Presentar información en una computadora.

Desde el punto de vista de cualquier computadora electrónica, el texto es un conjunto de caracteres individuales. Estos incluyen no solo letras, incluidas las mayúsculas, sino también signos de puntuación y números. Además, se utilizan caracteres especiales “=”, “&”, “(” y espacios.

El conjunto de caracteres que componen el texto se llama alfabeto y su número se llama cardinalidad (denotado como N). Para determinarlo se utiliza la expresión N = 2^b, donde b es el número de bits o el peso de la información de un símbolo en particular.

Se ha demostrado que un alfabeto con una capacidad de 256 caracteres puede representar todos los caracteres necesarios.

Dado que 256 representa la octava potencia de dos, el peso de cada carácter es de 8 bits.

Una unidad de medida de 8 bits se llama 1 byte, por lo que se acostumbra decir que cualquier carácter de texto almacenado en una computadora ocupa un byte de memoria.

¿Cómo se hace la codificación?

Cualquier texto se ingresa en la memoria de una computadora personal utilizando las teclas del teclado en las que se escriben números, letras, signos de puntuación y otros símbolos. Se transfieren a la RAM en código binario, es decir, cada carácter está asociado con un código decimal familiar para los humanos, de 0 a 255, que corresponde a un código binario, de 00000000 a 11111111.

La codificación byte-byte de caracteres permite al procesador que realiza el procesamiento de texto acceder a cada carácter individualmente. Al mismo tiempo, 256 caracteres son suficientes para representar cualquier información simbólica.

Codificación de caracteres ASCII

Esta abreviatura en inglés significa código para intercambio de información.

Incluso en los albores de la informatización, se hizo evidente que era posible idear una amplia variedad de formas de codificar la información. Sin embargo, para transferir información de una computadora a otra, fue necesario desarrollar un estándar unificado. Entonces, en 1963, apareció la tabla de codificación ASCII en los EE. UU. En él, cualquier símbolo del alfabeto informático está asociado a su número de serie en representación binaria. ASCII se utilizó originalmente sólo en los Estados Unidos y luego se convirtió en un estándar internacional para PC.

Los códigos ASCII se dividen en 2 partes. Sólo la primera mitad de esta tabla se considera el estándar internacional. Incluye caracteres con números de serie del 0 (codificado como 00000000) al 127 (codificado 01111111).

Número de serie

Codificación de texto ASCII

Símbolo

0000 0000 - 0001 1111

Los caracteres con N de 0 a 31 se denominan caracteres de control. Su función es "gestionar" el proceso de visualización de texto en un monitor o dispositivo de impresión, emisión de una señal sonora, etc.

0010 0000 - 0111 1111

Caracteres de N del 32 al 127 (parte estándar de la tabla): letras mayúsculas y minúsculas del alfabeto latino, décimos dígitos, signos de puntuación, así como varios corchetes, símbolos comerciales y otros. El carácter 32 representa un espacio.

1000 0000 - 1111 1111

Los caracteres con N del 128 al 255 (parte alternativa de la tabla o página de códigos) pueden tener diferentes variantes, cada una de las cuales tiene su propio número. La página de códigos se utiliza para especificar alfabetos nacionales que son diferentes del latín. En particular, es con su ayuda que se realiza la codificación ASCII de caracteres rusos.

En la tabla, las codificaciones están en mayúscula y se suceden en orden alfabético, y los números están en orden ascendente. Este principio sigue siendo el mismo para el alfabeto ruso.

personajes de control

La tabla de codificación ASCII se creó originalmente para recibir y transmitir información a través de un dispositivo que no se ha utilizado durante mucho tiempo, como un teletipo. En este sentido, se incluyeron caracteres no imprimibles en el conjunto de caracteres, utilizados como comandos para controlar este dispositivo. Se utilizaron comandos similares en métodos de mensajería anteriores a la computadora, como el código Morse, etc.

El carácter de teletipo más común es NUL (00). Todavía se utiliza hoy en día en la mayoría de los lenguajes de programación para indicar el final de una línea.

¿Dónde se utiliza la codificación ASCII?

El código estándar americano es necesario no solo para ingresar información de texto en el teclado. También se utiliza en gráficos. En particular, en ASCII Art Maker, las imágenes de las distintas extensiones representan un espectro de caracteres ASCII.

Hay dos tipos de productos de este tipo: los que realizan la función de editores gráficos al convertir imágenes en texto y los que convierten "dibujos" en gráficos ASCII. Por ejemplo, el famoso emoticón es un excelente ejemplo de símbolo codificado.

ASCII también se puede utilizar al crear un documento HTML. En este caso, puede ingresar un determinado conjunto de caracteres y, al visualizar la página, aparecerá en la pantalla un símbolo que corresponde a este código.

ASCII también es necesario para crear sitios web multilingües, ya que los caracteres que no están incluidos en una tabla nacional específica se reemplazan por códigos ASCII.

Algunas características

ASCII se usó originalmente para codificar información de texto usando 7 bits (uno se dejó en blanco), pero hoy funciona como 8 bits.

Las letras ubicadas en las columnas ubicadas arriba y abajo se diferencian entre sí en un solo bit. Esto reduce significativamente la complejidad de la auditoría.

Usando ASCII en Microsoft Office

Si es necesario, este tipo de codificación de información de texto se puede utilizar en editores de texto de Microsoft, como el Bloc de notas y Office Word. Sin embargo, es posible que no pueda utilizar algunas funciones al escribir en este caso. Por ejemplo, no podrá utilizar texto en negrita porque la codificación ASCII sólo conserva el significado de la información, ignorando su apariencia y forma generales.

Normalización

La organización ISO ha adoptado los estándares ISO 8859. Este grupo define codificaciones de ocho bits para diferentes grupos de idiomas. Específicamente, ISO 8859-1 es una tabla ASCII extendida para los Estados Unidos y los países de Europa occidental. E ISO 8859-5 es una tabla utilizada para el alfabeto cirílico, incluido el idioma ruso.

Por diversas razones históricas, la norma ISO 8859-5 se utilizó durante muy poco tiempo.

Para el idioma ruso, actualmente se utilizan las siguientes codificaciones:

  • CP866 (página de códigos 866) o DOS, que a menudo se denomina codificación GOST alternativa. Se utilizó activamente hasta mediados de los años 90 del siglo pasado. Actualmente prácticamente no se utiliza.
  • KOI-8. La codificación se desarrolló en las décadas de 1970 y 1980 y actualmente es el estándar generalmente aceptado para mensajes de correo electrónico en RuNet. Es ampliamente utilizado en sistemas operativos Unix, incluido Linux. La versión "rusa" del KOI-8 se llama KOI-8R. Además, existen versiones para otros idiomas cirílicos, como el ucraniano.
  • Página de códigos 1251 (CP 1251, Windows - 1251). Desarrollado por Microsoft para brindar soporte para el idioma ruso en el entorno Windows.

La principal ventaja del primer estándar CP866 fue la preservación de los caracteres pseudográficos en las mismas posiciones que en ASCII extendido. Esto hizo posible ejecutar programas de texto fabricados en el extranjero, como el famoso Norton Commander, sin modificaciones. Actualmente, CP866 se utiliza para programas desarrollados para Windows que se ejecutan en modo de texto de pantalla completa o en ventanas de texto, incluido FAR Manager.

Los textos informáticos escritos en codificación CP866 son bastante raros hoy en día, pero es el que se utiliza para los nombres de archivos en ruso en Windows.

"Unicode"

Actualmente, esta codificación es la más utilizada. Los códigos Unicode se dividen en áreas. El primero (U+0000 a U+007F) incluye caracteres ASCII con códigos. A esto le siguen las áreas de caracteres de diversas escrituras nacionales, así como los signos de puntuación y los símbolos técnicos. Además, algunos códigos Unicode están reservados en caso de que sea necesario incluir nuevos caracteres en el futuro.

Ahora ya sabes que en ASCII, cada carácter se representa como una combinación de 8 ceros y unos. Para los no especialistas, esta información puede parecer innecesaria y poco interesante, pero ¿no quieres saber qué está pasando “en el cerebro” de tu PC?

Para utilizar ASCII correctamente, es necesario ampliar sus conocimientos en esta área y sobre las capacidades de codificación.

¿Qué es?

ASCII es una tabla de codificación de caracteres impresos (ver captura de pantalla número 1) escritos en el teclado de una computadora para transmitir información y algunos códigos. En otras palabras, el alfabeto y los dígitos decimales están codificados en símbolos correspondientes que representan y transportan la información necesaria.

ASCII se desarrolló en Estados Unidos, por lo que el conjunto de caracteres estándar suele incluir el alfabeto inglés con números, para un total de unos 128 caracteres. Pero entonces surge una pregunta: ¿qué hacer si es necesario codificar el alfabeto nacional?

Se han desarrollado otras versiones de la tabla ASCII para abordar problemas similares. Por ejemplo, para los idiomas con una estructura de lengua extranjera, se eliminaron las letras del alfabeto inglés o se les agregaron caracteres adicionales en forma de alfabeto nacional. Por lo tanto, la codificación ASCII puede contener letras rusas para uso nacional (ver captura de pantalla No. 2).

¿Dónde se utiliza el sistema de codificación ASCII?

Este sistema de codificación es necesario no solo para escribir información de texto en el teclado. También se utiliza en gráficos. Por ejemplo, en el programa ASCII Art Maker, las imágenes gráficas de varias extensiones constan de una serie de caracteres ASCII (ver captura de pantalla n.° 3).


Como regla general, estos programas se pueden dividir en aquellos que realizan la función de editores gráficos, invirtiendo una imagen en texto, y aquellos que convierten una imagen en gráficos ASCII. El conocido emoticón (o como también se le llama “ rostro humano sonriente") también es un ejemplo de carácter codificado.

Este método de codificación también se puede utilizar al escribir o crear un documento HTML. Por ejemplo, ingresa un conjunto de caracteres específico y necesario, y al visualizar la página en sí, se mostrará en la pantalla el símbolo correspondiente a este código.

Entre otras cosas, este tipo de codificación es necesaria a la hora de crear un sitio web multilingüe, porque los caracteres que no están incluidos en una u otra tabla nacional deberán sustituirse por códigos ASCII. Si el lector está directamente relacionado con las tecnologías de la información y la comunicación (TIC), le resultará útil familiarizarse con sistemas como:

  1. Juego de caracteres portátil;
  2. Controlar personajes;
  3. EBCDIC;
  4. VISCII;
  5. YUSCII;
  6. Unicódigo;
  7. arte ASCII;
  8. KOI-8.

Propiedades de la tabla ASCII

Como cualquier programa sistemático, ASCII tiene sus propias propiedades características. Entonces, por ejemplo, el sistema numérico decimal (dígitos del 0 al 9) se convierte al sistema numérico binario (es decir, cada dígito decimal se convierte a binario 288 = 1001000, respectivamente).

Las letras ubicadas en las columnas superior e inferior difieren entre sí solo un poco, lo que reduce significativamente el nivel de complejidad de verificar y editar el caso.

Con todas estas propiedades, la codificación ASCII funciona como de ocho bits, aunque originalmente estaba pensada para ser de siete bits.

Uso de ASCII en programas de Microsoft Office:

Si es necesario, esta opción para codificar información se puede utilizar en Microsoft Notepad y Microsoft Office Word. Dentro de estas aplicaciones, el documento se puede guardar en formato ASCII, pero en este caso no podrás utilizar algunas funciones al escribir texto.

En particular, la negrita y la negrita no estarán disponibles porque la codificación solo conserva el significado de la información escrita, y no la apariencia y forma generales. Puede agregar dichos códigos a un documento utilizando las siguientes aplicaciones de software:

  • Microsoft Excel;
  • Microsoft FrontPage;
  • Microsoft InfoPath;
  • Microsoft OneNote;
  • Outlook de Microsoft;
  • PowerPoint de Microsoft;
  • Proyecto Microsoft.

Vale la pena considerar que al escribir código ASCII en estas aplicaciones, debes mantener presionada la tecla ALT.

Por supuesto, todos los códigos necesarios requieren un estudio más largo y detallado, pero esto está más allá del alcance de nuestro artículo de hoy. Espero que te haya resultado realmente útil.

¡Nos vemos de nuevo!

Bueno Malo




Arriba