ASCII kód ​​je dvojité podtržítko. Kódování ASCII (americký standardní kód pro výměnu informací) - základní kódování textu pro latinku

[8bitové kódování: ASCII, KOI-8R a CP1251] První kódovací tabulky vytvořené ve Spojených státech nepoužívaly osmý bit v bajtu. Text byl reprezentován jako sekvence bajtů, ale s osmým bitem se nepočítalo (byl použit pro oficiální účely).

Stůl se stal všeobecně uznávaným standardem ASCII(Americký standardní kód pro výměnu informací). Prvních 32 znaků ASCII tabulky (00 až 1F) bylo použito pro netisknutelné znaky. Byly určeny k ovládání tiskového zařízení atd. Zbytek - od 20 do 7F - jsou běžné (tisknutelné) znaky.

Tabulka 1 - Kódování ASCII

prosinecHexOctCharPopis
0 0 000 null
1 1 001 začátek kurzu
2 2 002 začátek textu
3 3 003 konec textu
4 4 004 konec přenosu
5 5 005 dotaz
6 6 006 potvrdit
7 7 007 zvonek
8 8 010 backspace
9 9 011 horizontální záložka
10 A 012 nový řádek
11 B 013 vertikální záložka
12 C 014 nová stránka
13 D 015 návrat vozíku
14 E 016 vyřadit
15 F 017 zařadit se
16 10 020 únik datového odkazu
17 11 021 ovládání zařízení 1
18 12 022 ovládání zařízení 2
19 13 023 ovládání zařízení 3
20 14 024 ovládání zařízení 4
21 15 025 negativní uznání
22 16 026 synchronní volnoběh
23 17 027 konec trans. blok
24 18 030 zrušit
25 19 031 konec média
26 1A 032 nahradit
27 1B 033 uniknout
28 1C 034 oddělovač souborů
29 1D 035 oddělovač skupin
30 1E 036 oddělovač záznamů
31 1F 037 oddělovač jednotek
32 20 040 plocha
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
prosinecHexOctChar
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 Ó
80 50 120 P
81 51 121 Q
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 PROTI
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 A
98 62 142 b
99 63 143 C
100 64 144 d
101 65 145 E
102 66 146 F
103 67 147 G
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 Ó
112 70 160 p
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 proti
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Jak můžete snadno vidět, toto kódování obsahuje pouze latinská písmena a ta, která se používají v angličtině. Jsou zde také aritmetické a další servisní symboly. Ale neexistují ani ruská písmena, ani speciální latinská pro němčinu nebo francouzštinu. To se dá snadno vysvětlit – kódování bylo vyvinuto speciálně jako americký standard. Když se po celém světě začaly používat počítače, bylo potřeba zakódovat další znaky.

K tomu bylo rozhodnuto použít osmý bit v každém bajtu. Díky tomu bylo k dispozici 128 dalších hodnot (od 80 do FF), které bylo možné použít ke kódování znaků. První z osmibitových tabulek je „extended ASCII“ ( Rozšířené ASCII) - zahrnoval různé varianty latinských znaků používaných v některých jazycích západní Evropy. Obsahoval také další doplňkové symboly, včetně pseudografiky.

Pseudografické znaky umožňují poskytnout určitou podobu grafiky zobrazením pouze textových znaků na obrazovce. Například program pro správu souborů FAR Manager pracuje pomocí pseudografiky.

V rozšířené ASCII tabulce nebyla žádná ruská písmena. Rusko (dříve SSSR) a další země vytvořily svá vlastní kódování, která umožnila reprezentovat specifické „národní“ znaky v 8bitových textových souborech – latinská písmena polského a českého jazyka, azbuka (včetně ruských písmen) a další abecedy.

Ve všech kódováních, která se rozšířila, je prvních 127 znaků (tj. hodnota bajtu s osmým bitem rovným 0) stejných jako ASCII. Soubor ASCII tedy funguje v kterémkoli z těchto kódování; Písmena anglického jazyka jsou zastoupena stejným způsobem.

Organizace ISO(International Standardization Organization) přijala skupinu norem ISO 8859. Definuje 8bitové kódování pro různé jazykové skupiny. ISO 8859-1 je tedy rozšířená tabulka ASCII pro USA a západní Evropu. A ISO 8859-5 je tabulka pro azbuku (včetně ruštiny).

Z historických důvodů se však kódování ISO 8859-5 neujalo. Ve skutečnosti se pro ruský jazyk používají následující kódování:

Kódová stránka 866 ( CP866), aka „DOS“, aka „alternativní kódování GOST“. Široce používané až do poloviny 90. let; nyní využívány v omezené míře. Prakticky se nepoužívá pro distribuci textů na internetu.
- KOI-8. Vyvinuto v 70-80 letech. Je to obecně uznávaný standard pro přenos e-mailových zpráv na ruském internetu. Je také široce používán v operačních systémech rodiny Unix, včetně Linuxu. Verze KOI-8, určená pro ruštinu, se nazývá KOI-8R; Existují verze pro jiné jazyky azbuky (například KOI8-U je verze pro ukrajinský jazyk).
- Kódová stránka 1251, CP1251,Windows-1251. Vyvinutý společností Microsoft pro podporu ruského jazyka ve Windows.

Hlavní výhodou CP866 bylo zachování pseudografických znaků na stejných místech jako v Extended ASCII; cizí textové programy, například slavný Norton Commander, tedy mohly fungovat beze změn. CP866 se nyní používá pro programy Windows běžící v textových oknech nebo celoobrazovkovém textovém režimu, včetně FAR Manager.

Texty v CP866 jsou v posledních letech poměrně vzácné (ale používá se ke kódování ruských názvů souborů ve Windows). Proto se podrobněji zastavíme u dalších dvou kódování - KOI-8R a CP1251.



Jak vidíte, v kódovací tabulce CP1251 jsou ruská písmena uspořádána v abecedním pořadí (s výjimkou písmene E). Toto uspořádání velmi usnadňuje abecední řazení počítačových programů.

Ale v KOI-8R se pořadí ruských písmen zdá náhodné. Ale ve skutečnosti tomu tak není.

V mnoha starších programech se při zpracování nebo přenosu textu ztrácel 8. bit. (Nyní jsou takové programy prakticky „vymřelé“, ale koncem 80. - začátkem 90. let byly rozšířeny). Chcete-li získat 7bitovou hodnotu od 8bitové hodnoty, stačí odečíst 8 od nejvýznamnější číslice; například E1 se změní na 61.

Nyní porovnejte KOI-8R s ASCII tabulkou (tabulka 1). Zjistíte, že ruská písmena jsou umístěna v jasné korespondenci s latinskými. Pokud osmý bit zmizí, malá ruská písmena se změní na velká písmena latinky a velká ruská písmena se změní na malá písmena latinky. Takže E1 v KOI-8 je ruské „A“, zatímco 61 v ASCII je latinské „a“.

KOI-8 vám tedy umožňuje zachovat čitelnost ruského textu při ztrátě 8. bitu. „Ahoj všichni“ se změní na „pRIWET WSEM“.

V poslední době ztrácí rozhodující význam jak abecední pořadí znaků v kódovací tabulce, tak čitelnost se ztrátou 8. bitu. Osmý bit se v moderních počítačích neztrácí během přenosu nebo zpracování. A abecední řazení se provádí s přihlédnutím ke kódování, nikoli pouhým porovnáváním kódů. (Mimochodem, kódy CP1251 nejsou úplně abecedně seřazeny - písmeno E není na svém místě).

Vzhledem k tomu, že existují dvě běžná kódování, můžete při práci s internetem (pošta, procházení webových stránek) někdy vidět nesmyslnou sadu písmen namísto ruského textu. Například „JÁ JSEM SBYUFEMHEL.“ To jsou jen slova „s respektem“; ale byly zakódovány v kódování CP1251 a počítač text dekódoval pomocí tabulky KOI-8. Pokud by stejná slova byla naopak zakódována v KOI-8 a počítač dekódoval text podle tabulky CP1251, výsledek by byl „U KHBTSEOYEN“.

Někdy se stane, že počítač dešifruje ruská písmena pomocí tabulky, která není určena pro ruský jazyk. Pak se místo ruských písmen objeví nesmyslná sada symbolů (například latinská písmena východoevropských jazyků); často se jim říká „crocozyabrs“.

Ve většině případů si moderní programy poradí s určováním kódování internetových dokumentů (e-mailů a webových stránek) samostatně. Někdy však „selhají“ a pak můžete vidět podivné sekvence ruských písmen nebo „krokozyabry“. Zpravidla v takové situaci stačí pro zobrazení skutečného textu na obrazovce vybrat kódování ručně v nabídce programu.

Pro tento článek byly použity informace ze stránky http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Materiál převzatý z webu:

Množina znaků, kterými je text psán, se nazývá abeceda.

Počet znaků v abecedě je jeho moc.

Vzorec pro určení množství informací: N=2b,

kde N je mocnina abecedy (počet znaků),

b – počet bitů (informační váha symbolu).

Abeceda s kapacitou 256 znaků pojme téměř všechny potřebné znaky. Tato abeceda se nazývá dostatečný.

Protože 256 = 2 8, pak váha 1 znaku je 8 bitů.

Jednotka měření 8 bitů dostala název 1 bajt:

1 bajt = 8 bitů.

Binární kód každého znaku v počítačovém textu zabírá 1 bajt paměti.

Jak jsou textové informace reprezentovány v paměti počítače?

Pohodlí kódování znaků po bajtech je zřejmé, protože bajt je nejmenší adresovatelná část paměti, a proto může procesor při zpracování textu přistupovat ke každému znaku zvlášť. Na druhou stranu je 256 znaků zcela dostačující pro reprezentaci široké škály symbolických informací.

Nyní vyvstává otázka, jaký osmibitový binární kód každému znaku přiřadit.

Je jasné, že jde o podmíněnou záležitost, můžete přijít s mnoha způsoby kódování.

Všechny znaky počítačové abecedy jsou číslovány od 0 do 255. Každému číslu odpovídá osmibitový binární kód od 00000000 do 11111111. Tento kód je jednoduše pořadové číslo znaku v binární číselné soustavě.

Tabulka, ve které jsou všem znakům počítačové abecedy přiřazena pořadová čísla, se nazývá kódovací tabulka.

Různé typy počítačů používají různé kódovací tabulky.

Stůl se stal mezinárodním standardem pro PC ASCII(přečtěte si aski) (Americký standardní kód pro výměnu informací).

Tabulka ASCII kódů je rozdělena na dvě části.

Pouze první polovinu tabulky tvoří mezinárodní standard, tzn. symboly s čísly od 0 (00000000), až 127 (01111111).

Struktura tabulky kódování ASCII

Sériové číslo

Kód

Symbol

0 - 31

00000000 - 00011111

Symboly s čísly od 0 do 31 se obvykle nazývají kontrolní symboly.
Jejich funkcí je řídit proces zobrazení textu na obrazovce nebo tisku, zaznít zvukový signál, označit text atd.

32 - 127

00100000 - 01111111

Standardní část tabulky (anglicky). Patří sem malá a velká písmena latinské abecedy, desetinná čísla, interpunkční znaménka, všechny druhy závorek, obchodní a jiné symboly.
Znak 32 je mezera, tzn. prázdné místo v textu.
Všechny ostatní se odrážejí v určitých znameních.

128 - 255

10000000 - 11111111

Alternativní část tabulky (ruština).
Druhá polovina tabulky kódů ASCII, nazývaná kódová stránka (128 kódů počínaje 10000000 a končící 11111111), může mít různé možnosti, každá možnost má své vlastní číslo.
Kódová stránka se primárně používá k umístění jiných národních abeced než latinky. V ruském národním kódování jsou v této části tabulky umístěny znaky z ruské abecedy.

První polovina tabulky kódů ASCII


Upozorňujeme, že v tabulce kódování jsou písmena (velká a malá písmena) uspořádána v abecedním pořadí a čísla jsou seřazeny vzestupně. Toto dodržování lexikografického řádu v uspořádání znaků se nazývá princip sekvenčního kódování abecedy.

U písmen ruské abecedy je také dodržován princip sekvenčního kódování.

Druhá polovina tabulky kódů ASCII


Bohužel v současnosti existuje pět různých kódování azbuky (KOI8-R, Windows, MS-DOS, Macintosh a ISO). Z tohoto důvodu často vznikají problémy s přenosem ruského textu z jednoho počítače do druhého, z jednoho softwarového systému do druhého.

Chronologicky byl jedním z prvních standardů pro kódování ruských písmen na počítačích KOI8 ("Information Exchange Code, 8-bit"). Toto kódování se používalo již v 70. letech na počítačích počítačové řady ES a od poloviny 80. let se začalo používat v prvních rusifikovaných verzích operačního systému UNIX.

Z počátku 90. let, doby dominance operačního systému MS DOS, zůstává kódování CP866 ("CP" znamená "Code Page", "code page").

Počítače Apple s operačním systémem Mac OS používají vlastní kódování Mac.

Mezinárodní organizace pro normalizaci (ISO) navíc schválila další kódování nazvané ISO 8859-5 jako standard pro ruský jazyk.

Nejběžnějším aktuálně používaným kódováním je Microsoft Windows, zkráceně CP1251.

Od konce 90. let byl problém standardizace kódování znaků řešen zavedením nového mezinárodního standardu tzv. Unicode. Jedná se o 16bitové kódování, tzn. každému znaku přiděluje 2 bajty paměti. To samozřejmě zvyšuje množství obsazené paměti 2krát. Ale taková kódová tabulka umožňuje zahrnutí až 65536 znaků. Kompletní specifikace standardu Unicode zahrnuje všechny existující, zaniklé a uměle vytvořené abecedy světa, stejně jako mnoho matematických, hudebních, chemických a dalších symbolů.

Zkusme si pomocí ASCII tabulky představit, jak budou slova vypadat v paměti počítače.

Vnitřní reprezentace slov v paměti počítače

Někdy se stává, že text sestávající z písmen ruské abecedy přijatý z jiného počítače nelze přečíst - na obrazovce monitoru je vidět nějaký druh „abracadabra“. K tomu dochází, protože počítače používají různá kódování znaků pro ruský jazyk.

Počítač rozumí procesu jejich převodu do podoby, která umožňuje pohodlnější přenos, ukládání nebo automatické zpracování těchto dat. K tomuto účelu slouží různé tabulky. ASCII byl první systém vyvinutý ve Spojených státech pro práci s anglicky psaným textem, který se následně rozšířil po celém světě. Níže uvedený článek je věnován jeho popisu, vlastnostem, vlastnostem a dalšímu využití.

Zobrazení a ukládání informací v počítači

Symboly na monitoru počítače nebo ten či onen mobilní digitální přístroj jsou tvořeny na základě sad vektorových forem různých znaků a kódu, který vám umožní najít mezi nimi symbol, který je třeba vložit na správné místo. Představuje posloupnost bitů. Každý znak tedy musí jednoznačně odpovídat sadě nul a jedniček, které se objevují v určitém jedinečném pořadí.

Jak to všechno začalo

Historicky první počítače byly v angličtině. Ke zakódování symbolické informace v nich stačilo použít pouze 7 bitů paměti, přičemž k tomuto účelu byl alokován 1 byte skládající se z 8 bitů. Počet znaků, kterým počítač v tomto případě rozuměl, byl 128. Tyto znaky zahrnovaly anglickou abecedu s jejími interpunkčními znaménky, čísly a některými speciálními znaky. Sedmibitové kódování v angličtině s odpovídající tabulkou (kódovou stránkou), vyvinuté v roce 1963, se nazývalo American Standard Code for Information Interchange. Obvykle se pro jeho označení používala a stále používá zkratka „ASCII encoding“.

Přechod k mnohojazyčnosti

Postupem času se počítače začaly široce používat v neanglicky mluvících zemích. V tomto ohledu byla potřeba kódování, která umožňují použití národních jazyků. Bylo rozhodnuto znovu nevynalézat kolo a jako základ vzít ASCII. Kódovací tabulka se v novém vydání výrazně rozšířila. Použití 8. bitu umožnilo přeložit 256 znaků do počítačového jazyka.

Popis

Kódování ASCII má tabulku, která je rozdělena na 2 části. Pouze jeho první polovina je považována za obecně uznávaný mezinárodní standard. Zahrnuje:

  • Znaky se sériovými čísly od 0 do 31, zakódované v sekvencích od 00000000 do 00011111. Jsou vyhrazeny pro řídicí znaky, které řídí proces zobrazení textu na obrazovce nebo tiskárně, zazní zvukový signál atd.
  • Standardní část tabulky tvoří znaky s NN v tabulce od 32 do 127, kódované sekvencemi od 00100000 do 01111111. Patří mezi ně mezera (N 32), písmena latinské abecedy (malá a velká), desetimístná čísla od 0 do 9, interpunkční znaménka, závorky různých stylů a další symboly.
  • Znaky se sériovými čísly od 128 do 255, kódované sekvencemi od 10000000 do 11111111. Patří mezi ně písmena národních abeced jiných než latinka. Právě tato alternativní část ASCII tabulky slouží k převodu ruských znaků do počítačové podoby.

Některé vlastnosti

Mezi vlastnosti kódování ASCII patří rozdíl mezi písmeny „A“ - „Z“ malých a velkých písmen pouze o jeden bit. Tato okolnost značně zjednodušuje převod registru a také kontrolu, zda patří do daného rozsahu hodnot. Kromě toho jsou všechna písmena v systému kódování ASCII reprezentována svými vlastními pořadovými čísly v abecedě, která jsou psána 5 číslicemi v binárním číselném systému, před nimiž je 011 2 pro malá písmena a 010 2 pro velká písmena.

Mezi rysy kódování ASCII patří zobrazení 10 číslic – „0“ – „9“. Ve druhé číselné soustavě začínají 00112 a končí 2 číselnými hodnotami. 0101 2 je tedy ekvivalentní desítkovému číslu pět, takže znak "5" je zapsán jako 0011 01012. Na základě výše uvedeného můžete čísla BCD snadno převést na řetězec ASCII přidáním bitové sekvence 00112 ke každému kousnutí na vlevo.

"Unicode"

Jak víte, k zobrazení textů v jazycích skupiny jihovýchodní Asie jsou potřeba tisíce znaků. Takový počet jich nelze v jednom informačním bajtu nijak popsat, takže ani rozšířené verze ASCII již nedokázaly uspokojit zvýšené potřeby uživatelů z různých zemí.

Vznikla tak potřeba vytvořit univerzální kódování textu, jehož vývoje se ve spolupráci s mnoha lídry globálního IT průmyslu ujalo konsorcium Unicode. Jeho specialisté vytvořili systém UTF 32 V něm bylo přiděleno 32 bitů pro kódování 1 znaku, což představuje 4 bajty informace. Hlavní nevýhodou bylo prudké zvýšení množství potřebné paměti až 4krát, což s sebou neslo mnoho problémů.

Zároveň pro většinu zemí s úředními jazyky patřícími do indoevropské skupiny je počet znaků rovný 2 32 více než přehnaný.

V důsledku další práce specialistů z konsorcia Unicode se objevilo kódování UTF-16. Stala se možností pro převod symbolických informací, která vyhovovala všem jak z hlediska velikosti požadované paměti, tak počtu kódovaných znaků. Proto bylo standardně přijato UTF-16 a vyžaduje, aby byly pro jeden znak vyhrazeny 2 bajty.

I tato poměrně pokročilá a úspěšná verze Unicode měla určité nedostatky a po přechodu z rozšířené verze ASCII na UTF-16 se váha dokumentu zdvojnásobila.

V tomto ohledu bylo rozhodnuto použít kódování s proměnnou délkou UTF-8. V tomto případě je každý znak zdrojového textu zakódován jako sekvence délky od 1 do 6 bajtů.

Pro výměnu informací kontaktujte americký standardní kód

Všechny znaky latinky s proměnnou délkou UTF-8 jsou zakódovány do 1 bajtu, stejně jako v systému kódování ASCII.

Zvláštností YTF-8 je, že v případě textu v latince bez použití dalších znaků jej budou moci číst i programy, které Unicode nerozumí. Jinými slovy, základní kódování textu ASCII se jednoduše stane součástí nového UTF s proměnnou délkou. Znaky azbuky v YTF-8 zabírají 2 bajty a například gruzínské znaky - 3 bajty. Vytvořením UTF-16 a 8 byl vyřešen hlavní problém vytvoření jednotného kódového prostoru ve fontech. Od té doby mohou výrobci písem vyplnit tabulku pouze vektorovými tvary textových znaků na základě svých potřeb.

Různé operační systémy preferují různá kódování. Aby bylo možné číst a upravovat texty napsané v jiném kódování, používají se programy pro převod ruského textu. Některé textové editory obsahují vestavěné transkodéry a umožňují číst text bez ohledu na kódování.

Nyní víte, kolik znaků je v kódování ASCII a jak a proč bylo vyvinuto. Standard Unicode je dnes samozřejmě nejrozšířenější ve světě. Nesmíme však zapomínat, že je založen na ASCII, takže je třeba ocenit přínos jeho vývojářů pro IT oblast.

Podle Mezinárodní telekomunikační unie v roce 2016 používalo internet s určitou pravidelností tři a půl miliardy lidí. Většinu z nich ani nenapadne, že všechny zprávy, které posílají přes PC nebo mobilní gadgety, stejně jako texty, které se zobrazují na všech možných monitorech, jsou ve skutečnosti kombinace 0 a 1. Tato reprezentace informací se nazývá kódování . Zajišťuje a výrazně usnadňuje jeho skladování, zpracování a přenos. V roce 1963 bylo vyvinuto americké kódování ASCII, které je předmětem tohoto článku.

Prezentace informací na počítači

Z pohledu každého elektronického počítače je text souborem jednotlivých znaků. Patří mezi ně nejen písmena, včetně velkých, ale také interpunkční znaménka a čísla. Kromě toho se používají speciální znaky „=“, „&“, „(“ a mezery.

Soubor znaků, které tvoří text, se nazývá abeceda a jejich počet se nazývá mohutnost (označuje se jako N). K jeho určení se používá výraz N = 2^b, kde b je počet bitů nebo informační váha konkrétního symbolu.

Je dokázáno, že abeceda s kapacitou 256 znaků může zastupovat všechny potřebné znaky.

Protože 256 představuje 8. mocninu dvojky, váha každého znaku je 8 bitů.

Jednotka měření 8 bitů se nazývá 1 byte, takže je zvykem říkat, že jakýkoli znak v textu uloženém v počítači zabírá jeden bajt paměti.

Jak se provádí kódování?

Jakékoli texty se zadávají do paměti osobního počítače pomocí kláves klávesnice, na které se píší čísla, písmena, interpunkční znaménka a další symboly. Jsou přenášeny do RAM v binárním kódu, tj. každý znak je spojen s desítkovým kódem známým lidem, od 0 do 255, což odpovídá binárnímu kódu - od 00000000 do 11111111.

Bajtové kódování znaků umožňuje procesoru provádějícímu zpracování textu přistupovat ke každému znaku jednotlivě. 256 znaků je přitom dostačujících k reprezentaci jakékoli symbolické informace.

ASCII kódování znaků

Tato zkratka v angličtině znamená kód pro výměnu informací.

Dokonce i na úsvitu komputerizace bylo zřejmé, že je možné vymyslet širokou škálu způsobů kódování informací. Pro přenos informací z jednoho počítače do druhého však bylo nutné vyvinout jednotný standard. V roce 1963 se tedy v USA objevila kódovací tabulka ASCII. V něm je jakýkoli symbol počítačové abecedy spojen s jeho sériovým číslem v binárním vyjádření. ASCII se původně používalo pouze ve Spojených státech a později se stalo mezinárodním standardem pro PC.

ASCII kódy jsou rozděleny do 2 částí. Pouze první polovina této tabulky je považována za mezinárodní standard. Obsahuje znaky se sériovými čísly od 0 (kódované jako 00000000) do 127 (kódované 01111111).

Sériové číslo

ASCII kódování textu

Symbol

0000 0000 - 0001 1111

Znaky s N od 0 do 31 se nazývají řídicí znaky. Jejich funkcí je „řídit“ proces zobrazování textu na monitoru nebo tiskovém zařízení, zaznít zvukový signál atd.

0010 0000 - 0111 1111

Znaky od N od 32 do 127 (standardní část tabulky) - velká a malá písmena latinské abecedy, 10. číslice, interpunkční znaménka, stejně jako různé závorky, obchodní a jiné symboly. Znak 32 představuje mezeru.

1000 0000 - 1111 1111

Znaky s N od 128 do 255 (alternativní část tabulky nebo kódové stránky) mohou mít různé varianty, z nichž každá má své číslo. Kódová stránka se používá k určení národních abeced, které se liší od latinky. Zejména s jeho pomocí se provádí kódování ASCII pro ruské znaky.

V tabulce jsou kódování velká a následují za sebou v abecedním pořadí a čísla jsou ve vzestupném pořadí. Tento princip zůstává stejný pro ruskou abecedu.

Řídící znaky

Kódovací tabulka ASCII byla původně vytvořena pro příjem a přenos informací prostřednictvím zařízení, které se dlouho nepoužívalo, jako je například dálnopis. V tomto ohledu byly do znakové sady zahrnuty netisknutelné znaky, používané jako příkazy k ovládání tohoto zařízení. Podobné příkazy byly použity v takových předpočítačových metodách zasílání zpráv, jako je Morseova abeceda atd.

Nejběžnějším dálnopisným znakem je NUL (00). Ve většině programovacích jazyků se stále používá k označení konce řádku.

Kde se používá kódování ASCII?

Americký standardní kód je potřebný nejen pro zadávání textových informací na klávesnici. Používá se také v grafice. Zejména v ASCII Art Maker představují obrázky různých rozšíření spektrum ASCII znaků.

Existují dva typy takových produktů: ty, které plní funkci grafických editorů převáděním obrázků na text, a ty, které převádějí „kresby“ do grafiky ASCII. Například slavný emotikon je ukázkovým příkladem kódovacího symbolu.

ASCII lze také použít při vytváření dokumentu HTML. V tomto případě můžete zadat určitou sadu znaků a při prohlížení stránky se na obrazovce objeví symbol, který odpovídá tomuto kódu.

ASCII je také nezbytné pro vytváření vícejazyčných webových stránek, protože znaky, které nejsou zahrnuty v konkrétní národní tabulce, jsou nahrazeny kódy ASCII.

Některé funkce

ASCII se původně používalo ke kódování textových informací pomocí 7 bitů (jeden byl ponechán prázdný), ale dnes funguje jako 8 bitů.

Písmena umístěná ve sloupcích umístěných nahoře a dole se od sebe liší pouze jedním bitem. To výrazně snižuje složitost auditu.

Použití ASCII v Microsoft Office

V případě potřeby lze tento typ kódování textových informací použít v textových editorech společnosti Microsoft, jako je Poznámkový blok a Office Word. Některé funkce však v tomto případě při psaní možná nebudete moci používat. Nebudete například moci použít tučný text, protože kódování ASCII pouze zachovává význam informace a ignoruje její celkový vzhled a formu.

Standardizace

Organizace ISO přijala standardy ISO 8859 Tato skupina definuje osmibitové kódování pro různé jazykové skupiny. Konkrétně ISO 8859-1 je rozšířená tabulka ASCII pro USA a země západní Evropy. A ISO 8859-5 je tabulka používaná pro azbuku, včetně ruského jazyka.

Z řady historických důvodů byla norma ISO 8859-5 používána velmi krátkou dobu.

Pro ruský jazyk se aktuálně používají následující kódování:

  • CP866 (kódová stránka 866) nebo DOS, které se často nazývá alternativní kódování GOST. Aktivně byl využíván až do poloviny 90. let minulého století. V současné době se prakticky nepoužívá.
  • KOI-8. Kódování bylo vyvinuto v 70. a 80. letech 20. století a v současnosti je obecně přijímaným standardem pro e-mailové zprávy na RuNet. Je široce používán v operačních systémech Unix, včetně Linuxu. „Ruská“ verze KOI-8 se nazývá KOI-8R. Kromě toho existují verze pro další jazyky azbuky, jako je ukrajinština.
  • Kódová stránka 1251 (CP 1251, Windows - 1251). Vyvinutý společností Microsoft, aby poskytoval podporu pro ruský jazyk v prostředí Windows.

Hlavní výhodou prvního standardu CP866 bylo zachování pseudografických znaků na stejných pozicích jako v Extended ASCII. To umožnilo bez úprav spouštět textové programy zahraniční výroby, jako je například slavný Norton Commander. V současné době se CP866 používá pro programy vyvinuté pro Windows, které běží v textovém režimu celé obrazovky nebo v textových oknech, včetně FAR Manager.

Počítačové texty psané v kódování CP866 jsou v dnešní době poměrně vzácné, ale je to ten, který se používá pro ruské názvy souborů ve Windows.

"Unicode"

V současné době je toto kódování nejpoužívanější. Kódy Unicode jsou rozděleny do oblastí. První (U+0000 až U+007F) obsahuje znaky ASCII s kódy. Následují znakové oblasti různých národních písem a také interpunkční znaménka a technické symboly. Kromě toho jsou některé kódy Unicode vyhrazeny pro případ, že bude v budoucnu nutné zahrnout nové znaky.

Nyní víte, že v ASCII je každý znak reprezentován jako kombinace 8 nul a jedniček. Nespecialistům se tyto informace mohou zdát zbytečné a nezajímavé, ale nechcete vědět, co se děje „v mozku“ vašeho PC?!

Pro správné používání ASCII je nutné rozšířit si znalosti v této oblasti a o možnostech kódování.

Co je to?

ASCII je kódovací tabulka tištěných znaků (viz snímek obrazovky č. 1) napsaných na klávesnici počítače pro přenos informací a některých kódů. Jinými slovy, abeceda a desetinné číslice jsou zakódovány do odpovídajících symbolů, které představují a nesou potřebné informace.

ASCII byl vyvinut v Americe, takže standardní znaková sada obvykle obsahuje anglickou abecedu s čísly, celkem tedy asi 128 znaků. Ale pak vyvstává spravedlivá otázka: co dělat, když je vyžadováno kódování národní abecedy?

K řešení podobných problémů byly vyvinuty další verze tabulky ASCII. Například u jazyků se strukturou cizího jazyka byla písmena anglické abecedy buď odstraněna, nebo k nim byly přidány další znaky ve formě národní abecedy. Kódování ASCII tedy může obsahovat ruská písmena pro národní použití (viz snímek obrazovky č. 2).

Kde se používá kódovací systém ASCII?

Tento systém kódování je nezbytný nejen pro psaní textových informací na klávesnici. Používá se také v grafice. Například v programu ASCII Art Maker se grafické obrázky různých rozšíření skládají z řady znaků ASCII (viz snímek obrazovky č. 3).


Zpravidla lze takové programy rozdělit na ty, které plní funkci grafických editorů, převádějících obrázek na text, a ty, které převádějí obrázek do grafiky ASCII. Známý emotikon (nebo jak se mu také říká „ usmívající se lidská tvář") je také příkladem znaku kódování.

Tuto metodu kódování lze také použít při psaní nebo vytváření dokumentu HTML. Například zadáte konkrétní a potřebnou sadu znaků a při prohlížení samotné stránky se na obrazovce zobrazí symbol odpovídající tomuto kódu.

Tento typ kódování je mimo jiné nezbytný při vytváření vícejazyčného webu, protože znaky, které nejsou obsaženy v té či oné národní tabulce, bude nutné nahradit kódy ASCII. Pokud je čtenář přímo spojen s informačními a komunikačními technologiemi (ICT), bude pro něj užitečné seznámit se s takovými systémy, jako jsou:

  1. Přenosná znaková sada;
  2. řídicí znaky;
  3. EBCDIC;
  4. VISCII;
  5. YUSCII;
  6. Unicode;
  7. umění ASCII;
  8. KOI-8.

Vlastnosti tabulky ASCII

Jako každý systematický program má ASCII své vlastní charakteristické vlastnosti. Takže například desítková číselná soustava (číslice od 0 do 9) se převede na binární číselnou soustavu (tj. každá desítková číslice se převede na binární 288 = 1001000).

Písmena umístěná v horním a dolním sloupci se od sebe liší jen o kousek, což výrazně snižuje náročnost kontroly a úpravy případu.

Se všemi těmito vlastnostmi funguje kódování ASCII jako osmibitové, ačkoli původně mělo být sedmibitové.

Použití ASCII v programech Microsoft Office:

V případě potřeby lze tuto možnost pro kódování informací použít v programu Microsoft Notepad a Microsoft Office Word. V rámci těchto aplikací lze dokument uložit ve formátu ASCII, ale v tomto případě nebudete moci využívat některé funkce při psaní textu.

Zejména nebude k dispozici tučné a tučné písmo, protože kódování zachovává pouze význam napsaných informací, nikoli celkový vzhled a formu. Tyto kódy můžete do dokumentu přidat pomocí následujících softwarových aplikací:

  • Microsoft Excel;
  • Microsoft FrontPage;
  • Microsoft InfoPath;
  • Microsoft OneNote;
  • Microsoft Outlook;
  • Microsoft PowerPoint;
  • Microsoft Project.

Stojí za zvážení, že při psaní ASCII kódu v těchto aplikacích musíte podržet klávesu ALT.

Všechny potřebné kódy samozřejmě vyžadují delší a podrobnější studium, ale to je nad rámec našeho dnešního článku. Doufám, že to pro vás bylo opravdu užitečné.

Uvidíme se znovu!

Dobrý Špatný




Nahoru