Tabulka kódů Ansi. Kódování ASCII (americký standardní kód pro výměnu informací) - základní kódování textu pro latinku

Každý počítač má svou vlastní sadu znaků, kterou implementuje. Tato sada obsahuje 26 velkých a malých písmen, číslic a speciálních znaků (tečka, mezera atd.). Při převodu na celá čísla se symbolům říká kódy. Standardy byly vyvinuty tak, aby počítače měly stejné sady kódů.

standard ASCII

ASCII (American Standard Code for Information Interchange) je americký standardní kód pro výměnu informací. Každý znak ASCII má 7 bitů, takže maximální počet znaků je 128 (tabulka 1). Kódy 0 až 1F jsou řídicí znaky, které se netisknou. K přenosu dat je potřeba mnoho netisknutelných znaků ASCII. Zpráva se může například skládat ze znaku začátku záhlaví SOH, samotného záhlaví a znaku začátku textu STX, samotného textu a znaku konce textu ETX a konce přenosu znak EOT. Data se však po síti přenášejí v paketech, které samy odpovídají za začátek a konec přenosu. Takže netisknutelné znaky se téměř nepoužívají.

Tabulka 1 - Tabulka kódů ASCII

Číslo tým Význam Číslo tým Význam
0 NUL Nulový ukazatel 10 DLE Výstup z přenosové soustavy
1 SOH začátek titulu 11 DC1 Správa zařízení
2 STX Začátek textu 12 DC2 Správa zařízení
3 ETX Konec textu 13 DC3 Správa zařízení
4 EOT Konec přenosu 14 DC4 Správa zařízení
5 ACK Žádost 15 N.A.K. Nepotvrzení přijetí
6 BEL Potvrzení přijetí 16 SYN Jednoduchý
7 B.S. Symbol zvonu 17 ETB Konec bloku přenosu
8 HT Krok zpět 18 UMĚT Označit
9 LF Horizontální tabulka 19 E.M. Konec médií
A VT Překlad řádků 1A SUB Dolní index
B FF Vertikální záložka 1B ESC Výstup
C ČR Překlad stránky 1C FS Oddělovač souborů
D TAK Návrat vozíku 1D G.S. Oddělovač skupin
E S.I. Přepnout na další registr 1E R.S. Oddělovač záznamů
S.I. Přepněte na standardní případ 1F NÁS Oddělovač modulů
Číslo Symbol Číslo Symbol Číslo Symbol Číslo Symbol Číslo Symbol Číslo Symbol
20 prostor 30 0 40 @ 50 P 60 . 70 p
21 ! 31 1 41 A 51 Q 61 A 71 q
22 32 2 42 B 52 R 62 b 72 r
23 # 33 3 43 C 53 S 63 C 73 s
24 φ 34 4 44 D 54 T 64 d 74 t
25 % 35 5 45 E 55 A 65 E 75 A
26 & 36 6 46 F 56 PROTI 66 F 76 proti
27 37 7 47 G 57 W 67 G 77 w
28 ( 38 8 48 H 58 X 68 h 78 X
29 ) 39 9 49 59 Y 69 i 70 y
2A 3A ; 4A J 5A Z 6A j 7A z
2B + 3B ; 4B K 5B [ 6B k 7B {
2C 3C < 4C L 5C \ 6C l 7C |
2D 3D = 4D M 5 D ] 6D m 7D }
2E 3E > 4E N 5E 6E n 7E ~
2F / 3F G 4F Ó 5F _ 6F Ó 7F DEL

Standard Unicode

Předchozí kódování je v pořádku pro angličtinu, ale není vhodné pro jiné jazyky. Například němčina má přehlásky a francouzština horní indexy. Některé jazyky mají úplně jiné abecedy. Prvním pokusem o rozšíření ASCII byl IS646, který rozšířil předchozí kódování o dalších 128 znaků. Byla přidána latinská písmena s tahy a diakritikou a dostala název - Latin 1. Dalším pokusem byl IS 8859 - který obsahoval kódovou stránku. Byly i pokusy o rozšíření, ale to nebylo univerzální. Bylo vytvořeno kódování UNICODE (je 10646). Myšlenkou kódování je přiřadit každému znaku jednu konstantní 16bitovou hodnotu, která se nazývá - ukazatel kódu. Celkem je 65536 ukazatelů. Abychom ušetřili místo, použili jsme Latin-1 pro kódy 0-255, snadno jsme změnili ASII na UNICODE. Tento standard vyřešil mnoho problémů, ale ne všechny. Kvůli příchodu nových slov např. pro japonštinu je potřeba navýšit počet výrazů o cca 20 tisíc. Nutné je také zařadit Braillovo písmo.

Mimochodem, na našem webu můžete převést jakýkoli text na desítkový, hexadecimální, binární kód pomocí online kalkulačky kódu.

ASCII tabulka

ASCII (Americký standardní kód pro výměnu informací)

Souhrnná tabulka ASCII kódů

Tabulka znaků ASCII Windows (Win-1251)

Symbol

specialista. Tabulování

specialista. LF (Carriage Return)

specialista. CR (New Line)

spojka SP (vesmír)

Symbol

Rozšířená tabulka kódů ASCII

Formátování symbolů.

Backspace (Vrátí jeden znak). Označuje, že se tiskový mechanismus nebo kurzor displeje posouvá o jednu pozici zpět.

Horizontální tabulka. Označuje pohyb tiskového stroje nebo kurzoru displeje k další předepsané "zarážce tabulátoru".

Line Feed. Označuje pohyb tiskového mechanismu nebo kurzoru displeje na začátek dalšího řádku (o jeden řádek dolů).

Vertikální tabulka. Označuje pohyb tiskového stroje nebo kurzoru displeje na další skupinu řádků.

Zdroj formuláře. Označuje pohyb tiskového stroje nebo kurzoru displeje na počáteční pozici další stránky, formuláře nebo obrazovky.

Návrat vozíku. Označuje pohyb tiskového mechanismu nebo kurzoru displeje do výchozí (zcela vlevo) pozice aktuálního řádku.

Přenos dat.

Začátek nadpisu. Používá se k definování začátku hlavičky, která může obsahovat informace o směrování nebo adresu.

Začátek textu. Zobrazuje začátek textu a zároveň konec nadpisu.

Konec textu. Platí při ukončení textu, který začínal znakem STX.

Poptávka. Žádost o identifikační údaje (např. „Kdo jste?“) ze vzdálené stanice.

Potvrdit. Přijímací zařízení předá tento znak odesílateli jako potvrzení úspěšného příjmu dat.

Negativní potvrzení. Přijímací zařízení předá tento znak odesílateli v případě odmítnutí (selhání) příjmu dat.

Synchronní/Idle. Používá se v synchronizovaných přenosových systémech. Pokud nedochází k přenosu dat, systém nepřetržitě odesílá symboly SYN, aby byla zajištěna synchronizace.

Konec přenosového bloku. Označuje konec datového bloku pro účely komunikace. Používá se k rozdělení velkého množství dat do samostatných bloků.

Dělící značky při přenosu informací.

Jiné symboly.

Nula. (Žádný znak – žádná data). Používá se pro přenos, když nejsou k dispozici žádná data.

Bell (Zavolejte). Používá se k ovládání poplašných zařízení.

Shift Out. Označuje, že všechna následující kódová slova musí být interpretována podle externí znakové sady před příchodem znaku SI.

Shift In. Označuje, že následující kombinace kódů musí být interpretovány podle standardní znakové sady.

Data Link Escape. Změna významu následujících znaků. Používá se pro dodatečné řízení nebo pro přenos libovolné kombinace bitů.

DC1, DC2, DC3, DC4

Ovládací prvky zařízení. Symboly pro ovládání pomocných zařízení (zvláštní funkce).

Zrušení. Označuje, že data, která předcházejí tomuto znaku ve zprávě nebo bloku, by měla být ignorována (obvykle pokud je zjištěna chyba).

Konec média. Označuje fyzický konec pásky nebo jiného paměťového média

Nahradit. Používá se k nahrazení chybného nebo neplatného znaku.

Escape (Expanze). Používá se k rozšíření kódu uvedením, že následující znak má alternativní význam.

Prostor. Netisknutelný znak používaný k oddělení slov nebo přesunutí tiskového stroje nebo zobrazení kurzoru o jednu pozici dopředu.

Vymazat. Používá se k odstranění (smazání) předchozího znaku ve zprávě

Jak víte, počítač ukládá informace v binární formě a představuje je jako posloupnost jedniček a nul. Pro převedení informací do formy vhodné pro lidské vnímání je každá jedinečná sekvence čísel při zobrazení nahrazena odpovídajícím symbolem.

Jedním ze systémů pro korelaci binárních kódů s tištěnými a řídicími znaky je

Při současném stupni rozvoje výpočetní techniky se od uživatele nevyžaduje znalost kódu každého konkrétního znaku. Obecná znalost toho, jak se kódování provádí, je však nesmírně užitečné a pro některé kategorie specialistů dokonce nezbytné.

Vytváření ASCII

Kódování bylo původně vyvinuto v roce 1963 a poté dvakrát aktualizováno v průběhu 25 let.

V původní verzi obsahovala tabulka znaků ASCII 128 znaků, později se objevila rozšířená verze, kde bylo uloženo prvních 128 znaků a dříve chybějící znaky byly přiřazeny kódům s osmým bitem;

Po mnoho let bylo toto kódování nejoblíbenější na světě. V roce 2006 zaujal vedoucí pozici Latin 1252 a od konce roku 2007 až do současnosti si vedoucí pozici pevně drží Unicode.

Počítačová reprezentace ASCII

Každý znak ASCII má svůj vlastní kód, který se skládá z 8 znaků představujících nulu nebo jedničku. Minimální číslo v této reprezentaci je nula (osm nul ve dvojkové soustavě), což je kód prvního prvku v tabulce.

Dva kódy v tabulce byly vyhrazeny pro přepínání mezi standardním US-ASCII a jeho národní variantou.

Poté, co ASCII začalo zahrnovat ne 128, ale 256 znaků, se rozšířila varianta kódování, ve které byla původní verze tabulky uložena v prvních 128 kódech s 8. bitem nula. Národní psané znaky byly uloženy v horní polovině tabulky (pozice 128-255).

Uživatel nemusí znát kódy znaků ASCII přímo. Vývojář softwaru obvykle potřebuje znát pouze číslo prvku v tabulce, aby v případě potřeby vypočítal jeho kód pomocí binárního systému.

ruský jazyk

Po vývoji kódování pro skandinávské jazyky, čínštinu, korejštinu, řečtinu atd. na počátku 70. let začal Sovětský svaz vytvářet vlastní verzi. Brzy byla vyvinuta verze 8bitového kódování nazvaná KOI8, která zachovává prvních 128 kódů znaků ASCII a přiděluje stejný počet pozic pro písmena národní abecedy a další znaky.

Před zavedením Unicode dominovala KOI8 ruskému segmentu internetu. Existovaly možnosti kódování pro ruskou i ukrajinskou abecedu.

Problémy ASCII

Protože počet prvků ani v rozšířené tabulce nepřesáhl 256, nebylo možné pojmout několik různých skriptů v jednom kódování. V 90. letech se na Runetu objevil problém „crocozyabr“, kdy se texty napsané v ruských znacích ASCII zobrazovaly nesprávně.

Problém byl v tom, že různé ASCII kódy se navzájem neshodovaly. Připomeňme, že na pozicích 128-255 se mohly nacházet různé znaky a při změně jednoho kódování azbuky na jiné byla všechna písmena textu nahrazena jinými se shodným číslem v jiné verzi kódování.

Současný stav

S příchodem Unicode začala popularita ASCII prudce klesat.

Důvodem je skutečnost, že nové kódování umožnilo pojmout znaky z téměř všech psaných jazyků. V tomto případě prvních 128 znaků ASCII odpovídá stejným znakům v Unicode.

V roce 2000 bylo ASCII nejoblíbenějším kódováním na internetu a bylo použito na 60 % webových stránek indexovaných Googlem. Do roku 2012 klesl podíl takových stránek na 17 % a místo nejoblíbenějšího kódování zaujalo Unicode (UTF-8).

ASCII je tedy důležitou součástí historie informačních technologií, ale jeho využití v budoucnu se zdá být neperspektivní.

Počítač rozumí procesu jejich převodu do podoby, která umožňuje pohodlnější přenos, ukládání nebo automatické zpracování těchto dat. K tomuto účelu slouží různé tabulky. ASCII byl první systém vyvinutý ve Spojených státech pro práci s anglickým textem, který se následně rozšířil po celém světě. Níže uvedený článek je věnován jeho popisu, vlastnostem, vlastnostem a dalšímu využití.

Zobrazení a ukládání informací v počítači

Symboly na monitoru počítače nebo ten či onen mobilní digitální přístroj jsou tvořeny na základě sad vektorových forem různých znaků a kódu, který vám umožní najít mezi nimi symbol, který je třeba vložit na správné místo. Představuje posloupnost bitů. Každý znak tedy musí jednoznačně odpovídat sadě nul a jedniček, které se objevují v určitém jedinečném pořadí.

Jak to všechno začalo

Historicky první počítače byly v angličtině. Ke zakódování symbolické informace v nich stačilo použít pouze 7 bitů paměti, přičemž k tomuto účelu byl alokován 1 byte skládající se z 8 bitů. Počet znaků, kterým počítač v tomto případě rozuměl, byl 128. Tyto znaky zahrnovaly anglickou abecedu s jejími interpunkčními znaménky, čísly a některými speciálními znaky. Sedmibitové kódování v angličtině s odpovídající tabulkou (kódovou stránkou), vyvinuté v roce 1963, se nazývalo American Standard Code for Information Interchange. Obvykle se pro jeho označení používala a stále používá zkratka „ASCII encoding“.

Přechod k mnohojazyčnosti

Postupem času se počítače začaly široce používat v neanglicky mluvících zemích. V tomto ohledu byla potřeba kódování, která umožňují použití národních jazyků. Bylo rozhodnuto znovu nevynalézat kolo a jako základ vzít ASCII. Kódovací tabulka se v novém vydání výrazně rozšířila. Použití 8. bitu umožnilo přeložit 256 znaků do počítačového jazyka.

Popis

Kódování ASCII má tabulku, která je rozdělena na 2 části. Pouze jeho první polovina je považována za obecně uznávaný mezinárodní standard. To zahrnuje:

  • Znaky se sériovými čísly od 0 do 31, zakódované v sekvencích od 00000000 do 00011111. Jsou vyhrazeny pro řídicí znaky, které řídí proces zobrazení textu na obrazovce nebo tiskárně, zazní zvukový signál atd.
  • Standardní část tabulky tvoří znaky s NN v tabulce od 32 do 127, kódované sekvencemi od 00100000 do 01111111. Patří mezi ně mezera (N 32), písmena latinské abecedy (malá a velká), desetimístná čísla od 0 do 9, interpunkční znaménka, závorky různých stylů a další symboly.
  • Znaky se sériovými čísly od 128 do 255, kódované sekvencemi od 10000000 do 11111111. Patří mezi ně písmena národních abeced jiných než latinka. Právě tato alternativní část ASCII tabulky slouží k převodu ruských znaků do počítačové podoby.

Některé vlastnosti

Mezi vlastnosti kódování ASCII patří rozdíl mezi písmeny „A“ - „Z“ malých a velkých písmen pouze o jeden bit. Tato okolnost značně zjednodušuje převod registru a také kontrolu, zda patří do daného rozsahu hodnot. Kromě toho jsou všechna písmena v systému kódování ASCII reprezentována svými vlastními pořadovými čísly v abecedě, která jsou psána 5 číslicemi v binárním číselném systému, před nimiž je 011 2 pro malá písmena a 010 2 pro velká písmena.

Jednou z vlastností kódování ASCII je zobrazení 10 číslic – „0“ – „9“. Ve druhé číselné soustavě začínají 00112 a končí 2 číselnými hodnotami. 0101 2 je tedy ekvivalentní desítkovému číslu pět, takže znak "5" je zapsán jako 0011 01012. Na základě výše uvedeného můžete čísla BCD snadno převést na řetězec ASCII přidáním bitové sekvence 00112 ke každému kousnutí na vlevo, odjet.

"Unicode"

Jak víte, k zobrazení textů v jazycích skupiny jihovýchodní Asie jsou potřeba tisíce znaků. Takový počet jich nelze v jednom informačním bajtu nijak popsat, takže ani rozšířené verze ASCII již nedokázaly uspokojit zvýšené potřeby uživatelů z různých zemí.

Vznikla tak potřeba vytvořit univerzální kódování textu, jehož vývoje se ve spolupráci s mnoha lídry globálního IT průmyslu ujalo konsorcium Unicode. Jeho specialisté vytvořili systém UTF 32 V něm bylo přiděleno 32 bitů pro kódování 1 znaku, což představuje 4 bajty informace. Hlavní nevýhodou bylo prudké zvýšení množství potřebné paměti až 4krát, což s sebou neslo mnoho problémů.

Zároveň pro většinu zemí s úředními jazyky patřícími do indoevropské skupiny je počet znaků rovný 2 32 více než přehnaný.

V důsledku další práce specialistů z konsorcia Unicode se objevilo kódování UTF-16. Stala se možností pro převod symbolických informací, která vyhovovala všem jak z hlediska velikosti požadované paměti, tak počtu kódovaných znaků. Proto bylo standardně přijato UTF-16 a vyžaduje, aby byly pro jeden znak vyhrazeny 2 bajty.

I tato poměrně pokročilá a úspěšná verze Unicode měla určité nedostatky a po přechodu z rozšířené verze ASCII na UTF-16 se váha dokumentu zdvojnásobila.

V tomto ohledu bylo rozhodnuto použít kódování s proměnnou délkou UTF-8. V tomto případě je každý znak zdrojového textu zakódován jako sekvence délky od 1 do 6 bajtů.

Pro výměnu informací kontaktujte americký standardní kód

Všechny znaky latinky s proměnnou délkou UTF-8 jsou zakódovány do 1 bajtu, stejně jako v systému kódování ASCII.

Zvláštností YTF-8 je, že v případě textu v latince bez použití dalších znaků jej budou moci číst i programy, které Unicode nerozumí. Jinými slovy, základní kódování textu ASCII se jednoduše stane součástí nového UTF s proměnnou délkou. Znaky azbuky v YTF-8 zabírají 2 bajty a například gruzínské znaky - 3 bajty. Vytvořením UTF-16 a 8 byl vyřešen hlavní problém vytvoření jednotného kódového prostoru ve fontech. Od té doby mohou výrobci písem vyplnit tabulku pouze vektorovými formami textových znaků na základě svých potřeb.

Různé operační systémy preferují různá kódování. Aby bylo možné číst a upravovat texty napsané v jiném kódování, používají se programy pro převod ruského textu. Některé textové editory obsahují vestavěné transkodéry a umožňují číst text bez ohledu na kódování.

Nyní víte, kolik znaků je v kódování ASCII a jak a proč bylo vyvinuto. Standard Unicode je dnes samozřejmě nejrozšířenější ve světě. Nesmíme však zapomínat, že je založen na ASCII, takže je třeba ocenit přínos jeho vývojářů pro IT oblast.




Horní