Bucharbaeva N.A. Kódování textových informací. Řešení problémů s nesprávným kódováním webových stránek. Základní pojmy kódování a dekódování

Cíl práce: seznámení s rozmanitostí kódů obklopujících člověka, rolí a vymezením rozsahu praktické aplikace kódování informací.

Relevantnost tohoto tématu je dána potřebou uvažovat o otázkách souvisejících s kódováním informací vzhledem k jejich velkému praktickému významu.

Praktický význam: Materiál článku lze použít jako doplňující informace při zvažování problematiky kódovacích informací nebo jako výukový materiál při vedení seminární lekce.

ÚVOD.

Základním rysem civilizace je růst výroby, spotřeby a hromadění informací ve všech odvětvích lidské činnosti. Celý život člověka je tak či onak spojen s přijímáním, shromažďováním a zpracováváním informací. Ať už člověk dělá cokoli: ať čte knihu, dívá se na televizi, mluví, neustále a nepřetržitě přijímá a zpracovává informace.

Každý živý organismus, včetně člověka, je nositelem genetické informace, která se dědí. Genetická informace je uložena ve všech buňkách těla v molekulách DNA (deoxyribonukleové kyseliny). Molekula lidské DNA obsahuje asi tři miliardy nukleotidových párů a jsou v ní zakódovány všechny informace o lidském těle: jeho vzhled, zdraví nebo predispozice k nemocem, schopnosti atd.

Člověk vnímá svět, tj. přijímá informace pomocí smyslů. Pro správnou navigaci ve světě si pamatuje přijaté informace, tzn. uchovává informace, člověk se rozhoduje, tzn. zpracovává informace a při komunikaci s jinými lidmi informace přenáší a přijímá. Člověk žije ve světě informací.

Pro jakoukoli operaci s informacemi (i něco tak jednoduchého, jako je ukládání), musí být nějak reprezentována (zaznamenána, zaznamenána). Tento proces má speciální název – informační kódování.

REPREZENTACE A KÓDOVÁNÍ INFORMACÍ.

Historie kódování informací začíná v pravěku, kdy primitivní člověk vyřezával do skal obrazy objektů v okolním světě, které znal.

Kódování informací je velmi rozmanité. Pokyny pro řidiče vozu jsou zakódovány ve formě dopravních značek. Kus hudby je zakódován pomocí hudebních notových znaků, které byly vytvořeny pro záznam šachových her a chemických vzorců. Každý kompetentní uživatel počítače ví o existenci kódování znaků. Zeměpisná mapa zakóduje informace o oblasti. Potřeba kódovat řečové informace vznikla v souvislosti s rychlým rozvojem komunikační techniky, zejména mobilních komunikací. Lidé si vymysleli speciální kódy: Braillovo písmo, Morseova abeceda, vlajkový kód. Takových příkladů lze uvést mnoho.

Je známo, že stejnou informaci můžeme vyjádřit různými způsoby.

Jak můžete například nahlásit nebezpečí?

  • Pokud jste napadeni, můžete jednoduše zakřičet: "Stráž!!" (Angličan zakřičí „Pomozte mi!“).
  • Pokud je zařízení pod vysokým napětím, je nutné ponechat varovný štítek (obrázek).
  • Na rušné křižovatce pomáhá dispečer zabránit nehodě pomocí gest.
  • V divadle pantomimy jsou veškeré informace předávány divákovi výhradně mimikou a gesty.
  • Pokud se vaše loď potápí, vyšlete signál „SOS“ (... – – –...).
  • Kromě morseovky používá námořnictvo také semaforovou a vlajkovou signalizaci.

Soubor znaků, ve kterém je určeno jejich pořadí, se nazývá abeceda.

Existuje mnoho abeced.

  • Abeceda písmen azbuky (A, B, V, G, D, E, ...)
  • Abeceda latinská písmena(A B C D E F, ...)
  • Desetinná abeceda (0, 1, 2, 3, 4, 5, 6, 7, 8, 9)
  • Abeceda znamení zvěrokruhu (^, _, `, a, b, c, d, e, f, g, h, i) atd.

Existují však sady znaků, pro které neexistuje obecně uznávané pořadí:

  • Sada Braillových znaků (pro nevidomé);
  • Soubor čínských ideogramů;
  • Sada znamení planet;
  • Sada znaků genetického kódu (A, C, G, T).

Zvláště důležité jsou sady skládající se pouze ze dvou znaků:

  • Dvojice znaků (+, –);
  • Dvojice znaků „tečka“, „pomlčka“ (., –)
  • Dvojice číslic (0, 1).
  • Pár odpovědí (ano, ne).

Kódování informací je tedy proces vytváření specifické reprezentace informace. Význam kódování v posledních desetiletích vzrostl v důsledku zavedení počítačů.

S příchodem počítačů vyvstala potřeba zakódovat všechny typy informací, kterými se jednotlivec i lidstvo jako celek zabývá. Psaní a aritmetika nejsou nic jiného než systém pro kódování řeči a číselných informací. Informace se nikdy nezobrazí čistá forma, je vždy nějak reprezentován, nějak zakódován.

Hlavní atributy kódování jsou:

  • Kód je soubor znaků, uspořádaných v souladu s určitými pravidly konkrétního jazyka, pro přenos informací.
  • Znak je značka, předmět, který něco označuje (písmeno, číslo, dírka). Znak spolu s jeho významem se nazývá symbol. Existuje mnoho klasifikací znaků (Příloha 1).
  • Jazyk je komplexní systém postavy, z nichž každá má konkrétní hodnotu. Jazykové symboly, které jsou obecně přijímány, a proto jsou v nich obecně chápány této komunity, v procesu řeči jsou vzájemně kombinovány a generují zprávy, které mají různorodý obsah.

Kód, znak a jazyk vám umožňují přenášet informace v symbolické formě vhodné pro jejich zakódování

Počítač může zpracovávat pouze informace prezentované v číselné formě. Všechny ostatní informace (například zvuky, obrázky, údaje z přístrojů atd.) je nutné převést do číselné podoby pro zpracování v počítači.

PRAKTICKÉ APLIKACE KÓDOVÁNÍ INFORMACÍ.

Těsnopis je rychlé psaní pomocí speciálních znaků tak krátkých, že je lze použít k záznamu živé řeči. Těsnopis k nám přišel od starověku. Dokonce i ve starověkém Egyptě zapisovali pisatelé kurzů řeči faraonů. Těsnopis se rozšířil ve starověkém Řecku. V roce 1883 byla v Akropoli nalezena mramorová deska, na které byly vytesány těsnopisné znaky. Podle vědců byly tyto záznamy pořízeny v roce 350 před naším letopočtem. Ale obecně přijímaný den narození těsnopisu je 5. prosince 63 př.nl. Pak ve starém Římě vyvstala potřeba doslovného záznamu ústní řeči. Za autora starořímského těsnopisu je považován Tiron, sekretář slavného řečníka Cicerona.

V moderní svět i přes množství prostředků mechanického záznamu slov (magnetofony, diktafony) se těsnopisné dovednosti stále cení. Píšeme v průměru pětkrát pomaleji než mluvíme. Těsnopis překlenuje tuto mezeru. Hodí se zejména pro zapisování poznámek z přednášek, mluvení na veřejnosti, konverzace, psaní zpráv, přípravu článků atd.

Existuje mnoho případů, kdy stenografie poskytla neocenitelnou pomoc lidem různých profesí. (Příloha 2).

Telefonní číslovací plán.

V Rusku se používá uzavřené desetimístné číslování. To znamená, že jakýkoli kompletní telefonní číslo s předvolbou nebo mobilní sítí musí mít 10 číslic. Toto se nazývá národní telefonní číslo. Při volání na telefon s jiným regionálním kódem, než je váš „domácí“, budete muset navíc vytočit výstupní kód komunikace na dálku (“8”).

Osobní informace.

V Nedávno Otázka osobních údajů je velmi aktuální. Osobní údaje osoby jsou zaznamenány v jeho pasu.

Pod fotkou v pasu jsou ve světle viditelné magnetické štítky se zaznamenanými informacemi, které lze číst pouze elektronicky a jsou pro majitele dokladu nepřístupné. Podpisem tohoto sloupce v cestovním pase (z technických důvodů dosud nevyplněného) souhlasí osoba s přidělením kódu místo jména, tzn. Název je nahrazen číslem.

Čárové kódy.

S vývojem informační technologie, plošné zavedení fondů počítačová technologie V mnoha oblastech činnosti je otázka rychlého a spolehlivého zadávání informací stále naléhavější. Ruční zadání kódu produktu vyžaduje mnoho ruční práce, času a často vede k chybám.

V současné době se v Rusku a v zahraničí dělá mnoho práce na vytvoření automatizovaných systémů zpracování dat pomocí strojově čitelných dokumentů (MRD), jejichž jednou z odrůd jsou dokumenty s čárovými kódy. Mezi strojově čitelné dokumenty patří přepravní doklady, štítky a obaly zboží, šekové knížky a plastové karty pro platby za služby a magnetická média. V tomto ohledu se objevily pojmy „elektronické výpisy“, „elektronické peníze“ atd.

Nejslibnějším a rychle se rozvíjejícím směrem v automatizaci procesu zadávání informací do počítače je použití čárových kódů.

Čárový kód je střídání tmavých a světlých pruhů různých šířek. Struktura čárového kódu je uvedena na snímku.

Podle odborníků jsou systémy čárových kódů příslibem a poskytují příležitost k řešení jednoho z nejobtížnějších počítačových problémů – zadávání dat.

V současné době jsou čárové kódy široce používány nejen ve výrobě a obchodu se zbožím, ale také v mnoha průmyslových odvětvích.

Zboží čárový kód přiřazena k produktu (zboží) ve fázi jeho uvedení do výroby. Čárové kódy našly široké praktické využití téměř ve všech oblastech lidské činnosti (Příloha 3) :

  • Čárové kódy pomáhají při vaření zdravotní zásoby;
  • Vynikající třídění;
  • Čárové kódy přinášejí pořádek do skladu;
  • Můžete se stát čárovým kódem!
  • Čárové kódy udržují děti v bezpečí;
  • Obecný dohled nad soukromým životem;
  • Záruční servis kontroly čárových kódů;
  • Čárové kódy na letišti zabraňují záměně;
  • Čárové kódy a rychle se kazící;
  • Bezpečnostní karty;
  • Čárové kódy sledují vězně;
  • Noviny v budoucnosti;
  • Čárové kódy vám pomohou najít příznivá cena;
  • Čárové kódy jako umění;
  • Čárové kódy neumožní „zajícům“ projít;
  • Čárové kódy zachycují záškoláky;
  • Proces předepisování;
  • Čárové kódy a lékařství;
  • Čárové kódy a závody Formule 1;
  • Mobilní telefon místo vstupenky na koncert;
  • Čárový kód chrání děti;
  • Šifrování diagnóz nemocí na potvrzení o pracovní neschopnosti?

Emotikony.

Emotikony (od úsměv - úsměv) na internetu jsou ikony složené z interpunkčních znamének, písmen a číslic, označující nějaký druh emocí.

Smiley je Nejlepší způsob sdělujte své pocity a emoce během virtuální komunikace! Malé ksichtíky, které jsou vloženy do textu, eliminují potřebu psát ventilování svých zážitků. Předpokládá se, že emotikon je pro internet tím, čím je pro lidstvo kolo. V žádné formě virtuální komunikace se bez něj neobejdete. Je extrémně snadno použitelný, informativní a při vší své jednoduchosti poskytuje široký prostor pro představivost. Není divu, že se ujal SMS komunikace, reklama, design, běžná pošta a při výměně poznámek ve třídě.

Emotikony se v našich životech tak pevně usadily, že z nich migrovaly virtuální prostor ve vědě. Takže v psychologii se emotikony používají k označení typů temperamentů nebo sledování nálady člověka.

ZÁVĚR.

Víme, jak skvělé jsou dnes možnosti počítačů a široká škála jejich aplikací, a můžeme jen hádat, jaké problémy budou schopny v blízké budoucnosti řešit. Otázka znalostí a porozumění tomu, jak jsou informace reprezentovány v počítači, je proto obzvláště naléhavá. Je nutné, aby lidé (nejen profesionální programátoři, ale i běžní uživatelé) rozuměli kódování informací a možné způsoby kódování různých typů informací.

Mnoho kódů se v našich životech velmi pevně zakořenilo. Pokud vás zajímá problematika kódování informací, pak si můžete přečíst řadu beletristických děl, která se problematiky kódování a dekódování informací dotýkají.

  • Arthur Conan Doyle „Tančící muži“;
  • Edgar Poe „Zlatý brouk“;
  • Jules Verne „Cesta do středu Země“;
  • Valentin Kaverin „Splnění tužeb“;
  • Dan Brown "Da Vinciho kód";
  • David Kahn "Codebreakers".

Pro přehlednost prezentace materiálu, prezentační snímky z

Obsah

I. Historie kódování informací…………………………………..3

II. Kódování informací ……………………………………………………………… 4

III. Kódování textové informace…………………………….4

IV. Typy kódovacích tabulek………………………………………………………...6

V. Výpočet množství textových informací………………………………14

Seznam referencí………………………………..16

. Historie kódování informací

Lidstvo používá textové šifrování (kódování) od okamžiku, kdy se objevily první tajné informace. Zde je několik technik kódování textu, které byly vynalezeny v různé fáze vývoj lidského myšlení:

    kryptografie je tajné psaní, systém změny písma s cílem učinit text nesrozumitelným pro nezasvěcené;

    Morseova abeceda nebo nejednotný telegrafní kód, ve kterém je každé písmeno nebo znak reprezentováno vlastní kombinací krátkých elementárních výbojů elektrického proudu (tečky) a elementárních výbojů trojnásobného trvání (pomlčka);

Jedna z nejstarších známých šifrovacích metod je pojmenována po římském císaři Juliu Caesarovi (1. století před naším letopočtem). Tato metoda je založena na nahrazení každého písmena zašifrovaného textu jiným, posunutím abecedy od původního písmene o pevný počet znaků a abeceda se čte v kruhu, tedy za písmenem i se považuje a . Takže slovo „byte“, když je posunuto o dva znaky doprava, je zakódováno jako slovo „gwlf“. Opačný proces dešifrování daného slova je nutný k nahrazení každého zašifrovaného písmene druhým nalevo od něj.

II.Kódování informací

Kód je soubor konvencí (nebo signálů) pro záznam (nebo sdělování) některých předem definovaných konceptů.

Informační kódování je proces formování specifické reprezentace informace. V užším slova smyslu je pojem „kódování“ často chápán jako přechod od jedné formy reprezentace informace k jiné, vhodnější pro ukládání, přenos nebo zpracování.

Obvykle je každý obrázek při kódování (někdy nazývaném šifrování) reprezentován samostatným znakem.

Znak je prvek konečného souboru prvků, které se od sebe liší.

Ve více v užším slova smyslu Termín „kódování“ často odkazuje na přechod od jedné formy reprezentace informace k jiné, pohodlnější pro ukládání, přenos nebo zpracování.

Textové informace můžete zpracovávat na počítači. Při zadávání do počítače je každé písmeno zakódováno určitým číslem a při výstupu na externí zařízení (obrazovka nebo tisk) jsou z těchto čísel vytvořeny obrázky písmen pro lidské vnímání. Korespondence mezi sadou písmen a čísel se nazývá kódování znaků.

Všechna čísla v počítači jsou zpravidla reprezentována nulami a jedničkami (nikoli deseti číslicemi, jak je u lidí obvyklé). Jinými slovy, počítače obvykle pracují v binárním číselném systému, protože díky tomu jsou zařízení pro jejich zpracování mnohem jednodušší. Zadávání čísel do počítače a jejich výstup pro čtení člověkem lze provádět v obvyklém desítkovém tvaru a všechny potřebné převody provádějí programy běžící na počítači.

III.Kódování textových informací

Stejné informace mohou být prezentovány (zakódovány) v několika formách. S příchodem počítačů vyvstala potřeba kódovat všechny typy informací, které individuální a lidstva jako celku. Ale lidstvo začalo řešit problém kódování informací dávno před příchodem počítačů. Grandiózní výdobytky lidstva – psaní a aritmetika – nejsou ničím jiným než systémem pro kódování řeči a číselných informací. Informace se nikdy neobjevují ve své čisté podobě, vždy jsou nějak prezentovány, nějak zakódovány.

Binární kódování je jedním z běžných způsobů reprezentace informací. V počítačích, robotech a číslicově řízených strojích jsou zpravidla všechny informace, se kterými zařízení pracuje, zakódovány ve formě slov binární abecedy.

Od konce 60. let se počítače stále častěji používají ke zpracování textových informací a v současné době je většina osobních počítačů na světě (a většinu času) zaměstnána zpracováním textových informací. Všechny tyto typy informací v počítači jsou prezentovány v binárním kódu, to znamená, že se používá abeceda s mocninou dvě (pouze dva znaky 0 a 1). To je způsobeno skutečností, že je vhodné reprezentovat informace ve formě sekvence elektrických impulsů: neexistuje impuls (0), existuje impuls (1).

Takové kódování se obvykle nazývá binární a samotné logické sekvence nul a jedniček se nazývají strojový jazyk.

Z počítačového hlediska se text skládá z jednotlivých znaků. Symboly zahrnují nejen písmena (velká nebo malá písmena, latinka nebo ruština), ale také čísla, interpunkční znaménka, speciální znaky jako "=", "(", "&" atd., a dokonce (pozor!) mezery mezi slovy.

Texty se zadávají do paměti počítače pomocí klávesnice. Písmena, čísla, interpunkční znaménka a další nám známé symboly jsou napsány na klávesách. Zadávají RAM v binárním kódu. To znamená, že každý znak je reprezentován 8bitovým binárním kódem.

T Tradičně se pro zakódování jednoho znaku používá množství informace rovné 1 bajtu, tj. I = 1 bajt = 8 bitů. Pomocí vzorce, který spojuje počet možných událostí K a množství informací I, můžete vypočítat, kolik různých symbolů lze zakódovat (za předpokladu, že symboly jsou možné události): K = 2 I = 2 8 = 256, tj. představují textové informace, můžete použít abecedu s kapacitou 256 znaků.

Tento počet znaků je zcela dostatečný pro reprezentaci textových informací, včetně velkých a malých písmen ruské a latinské abecedy, čísel, znaků, grafické symboly atd.

Kódování spočívá v přiřazení jedinečného každého znaku desetinný kód od 0 do 255 nebo odpovídající binární kód od 00000000 do 11111111. Člověk tedy rozlišuje znaky podle jejich obrysu a počítač podle jejich kódu.

Pohodlí kódování znaků po bajtech je zřejmé, protože bajt je nejmenší adresovatelná část paměti, a proto může procesor při zpracování textu přistupovat ke každému znaku zvlášť. Na druhou stranu je 256 znaků zcela dostačující pro reprezentaci široké škály symbolických informací.

V procesu zobrazení symbolu na obrazovce počítače se provádí opačný proces - dekódování, tedy převod kódu symbolu na jeho obraz. Je důležité, aby přiřazení k symbolu konkrétní kód je věcí dohody, která je zaznamenána v číselníku.

Nyní vyvstává otázka, jaký osmibitový binární kód každému znaku přiřadit. Je jasné, že se jedná o podmíněnou záležitost, můžete přijít s mnoha způsoby kódování.

Všechny znaky počítačové abecedy jsou číslovány od 0 do 255. Každému číslu odpovídá osmibitový binární kód od 00000000 do 11111111. Tento kód je jednoduše pořadové číslo znaku v binární číselné soustavě.

IV. Typy kódovacích tabulek

Tabulka, ve které jsou všem znakům počítačové abecedy přiřazena pořadová čísla, se nazývá kódovací tabulka.

Pro odlišné typy Počítače používají různé kódovací tabulky.

Přijato jako mezinárodní standard tabulka kódů ASCII (americký Standardní kód pro informaci Výměna – americká standardní kód pro výměnu informací), kódování první poloviny znaků číselnými kódy od 0 do 127 (kódy od 0 do 32 nejsou přiřazeny znakům, ale funkčním klávesám).

Tabulka ASCII kódů je rozdělena na dvě části.

Pouze první polovinu tabulky tvoří mezinárodní standard, tzn. znaky s čísly od 0 (00000000) do 127 (01111111).

Struktura tabulky kódování ASCII

Sériové číslo

Symbol

00000000 - 00011111

Symboly s čísly od 0 do 31 se obvykle nazývají kontrolní symboly.

Jejich funkcí je řídit proces zobrazení textu na obrazovce nebo tisku, zaznít zvukový signál, označit text atd.

0100000 - 01111111

Standardní část tabulky (anglicky). To zahrnuje malá písmena a velká písmena Latinská abeceda, desetinná čísla, interpunkční znaménka, všechny druhy závorek, obchodní a jiné symboly.

Znak 32 je mezera, tzn. prázdné místo v textu.

Všechny ostatní se odrážejí v určitých znameních.

10000000 - 11111111

Alternativní část tabulky (ruština).

Druhá polovina kódu ASCII tabulky, nazývaná kódová stránka (128 kódů počínaje 10000000 a končící 11111111), může mít různé možnosti, každá možnost má své vlastní číslo.

Kódová stránka se primárně používá k hostování národní abecedy, odlišný od latiny. V ruském národním kódování jsou v této části tabulky umístěny znaky z ruské abecedy.


První polovina tabulky kódů ASCII

Upozorňujeme, že v tabulce kódování jsou písmena (velká a malá písmena) uspořádána v abecedním pořadí a čísla jsou seřazeny vzestupně. Toto dodržování lexikografického řádu v uspořádání symbolů se nazývá princip sekvenčního kódování abecedy.

U písmen ruské abecedy je také dodržován princip sekvenčního kódování.

Druhá polovina tabulky kódů ASCII

Bohužel v současnosti existuje pět různých kódování azbuky (KOI8-R, Windows, MS-DOS, Macintosh a ISO). Z tohoto důvodu často vznikají problémy s přenosem ruského textu z jednoho počítače do druhého, z jednoho softwarového systému do druhého.

Chronologicky byl jedním z prvních standardů pro kódování ruských písmen na počítačích KOI8 ("Information Exchange Code, 8-bit"). Toto kódování se používalo již v 70. letech na počítačích řady ES a od poloviny 80. let se začalo používat v prvních rusifikovaných verzích operační systém UNIX.

Z počátku 90. let, doby dominance operačního systému MS DOS, zůstává kódování CP866 ("CP" znamená "Code Page", "code page").

Počítače Jablko, používající operační systém Mac OS, používají vlastní kódování Mac.

Mezinárodní organizace pro normalizaci (ISO) navíc schválila další kódování nazvané ISO 8859-5 jako standard pro ruský jazyk.

Nejběžnějším aktuálně používaným kódováním je Microsoft Windows, zkráceně CP1251. Představeno společností Microsoft; S ohledem na širokou distribuci operačních systémů (OS) a dalších softwarových produktů této společnosti v Ruské federaci nalezla širokou distribuci.

Od konce 90. let byl problém standardizace kódování znaků řešen zavedením nového mezinárodního standardu nazvaného Unicode.

Jedná se o 16bitové kódování, tzn. každému znaku přiděluje 2 bajty paměti. To samozřejmě zvyšuje množství obsazené paměti 2krát. Ale taková kódová tabulka umožňuje zahrnutí až 65536 znaků. Kompletní specifikace standardu Unicode zahrnuje všechny existující, zaniklé a uměle vytvořené abecedy světa, stejně jako mnoho matematických, hudebních, chemických a dalších symbolů.

Vnitřní reprezentace slov v paměti počítače

pomocí ASCII tabulky

Někdy se stává, že text sestávající z písmen ruské abecedy přijatý z jiného počítače nelze přečíst - na obrazovce monitoru je vidět nějaký druh „abracadabra“. To se děje, protože počítače používají různé kódování znaky ruského jazyka.


Každé kódování je tedy specifikováno vlastní kódovou tabulkou. Jak je vidět z tabulky, stejnému binárnímu kódu jsou přiřazeny různé znaky v různých kódováních.

N Například sekvence číselných kódů 221, 194, 204 v kódování CP1251 tvoří slovo „počítač“, zatímco v jiných kódováních to bude nesmyslná sada znaků.

Naštěstí se uživatel ve většině případů nemusí starat o překódování textových dokumentů, protože to zajišťují speciální převodní programy zabudované do aplikací.

PROTI. Výpočet množství textových informací

Úkol 1: Kódujte slovo „Řím“ pomocí kódovacích tabulek KOI8-R a CP1251.

Řešení:

Úkol 2: Za předpokladu, že každý znak je zakódován v jednom bajtu, odhadněte objem informací následující věty:

"Můj strýc má ta nejčestnější pravidla,

Když jsem vážně onemocněl,

Přinutil se respektovat

A nic lepšího mě nenapadlo."

Řešení: Tato fráze má 108 znaků včetně interpunkce, uvozovek a mezer. Toto číslo vynásobíme 8 bity. Dostaneme 108*8=864 bitů.

Úkol 3: Oba texty obsahují stejný počet znaků. První text je napsán v ruštině a druhý v jazyce kmene Naguri, jehož abeceda se skládá ze 16 znaků. Čí text nese velké množství informace?

Řešení:

1) I = K * a (informační objem textu je roven součinu počtu znaků a informační váhy jednoho znaku).

2) Protože Oba texty mají stejný počet znaků (K), rozdíl pak závisí na informačním obsahu jednoho znaku abecedy (a).

3) 2 a1 = 32, tzn. a 1 = 5 bitů, 2 a2 = 16, tzn. a 2 = 4 bity.

4) I 1 = K * 5 bitů, I 2 = K * 4 bity.

5) To znamená, že text psaný v ruštině nese 5/4krát více informací.

Úkol 4: Velikost zprávy obsahující 2048 znaků byla 1/512 MB. Určete sílu abecedy.

Řešení:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bitů - převedení informačního objemu zprávy na bity.

2) a = I / K = 16384 /1024 = 16 bitů - odpovídá jednomu znaku abecedy.

3) 2*16*2048 = 65536 znaků – síla použité abecedy.

Úkol 5: Laserová tiskárna Canon LBP tiskne průměrnou rychlostí 6,3 Kbps. Jak dlouho bude trvat tisk 8stránkového dokumentu, pokud víte, že jedna stránka má průměrně 45 řádků a 70 znaků na řádek (1 znak - 1 bajt)?

Řešení:

1) Najděte množství informací obsažených na 1 stránce: 45 * 70 * 8 bitů = 25200 bitů

2) Najděte množství informací na 8 stránkách: 25200 * 8 = 201600 bitů

3) Redukujeme na běžné měrné jednotky. Za tímto účelem převedeme Mbity na bity: 6,3*1024=6451,2 bitů/s.

4) Najděte čas tisku: 201600: 6451,2 = 31 sekund.

Bibliografie

    Ageev V.M. Teorie informace a kódování: vzorkování a kódování naměřených informací. - M.: MAI, 1977.

    Kuzmin I.V., Kedrus V.A. Základy teorie informace a kódování. - Kyjev, škola Vishcha, 1986.

    Nejjednodušší metody šifrování textu / D.M. Zlatopolský. – M.: Chistye Prudy, 2007 – 32 s.

    Ugrinovič N.D. Počítačová věda a informační technologie. Učebnice pro ročníky 10-11 / N.D. Ugrinovich. – M.: BINOM. Laboratoř znalostí, 2003. – 512 s.

    http://school497.spb.edu.ru/uchint002/les10/les.html#n

Jakákoli čísla (v rámci určitých limitů) v paměti počítače jsou zakódována jako čísla binární systém Zúčtování. K tomu existují jednoduchá a jasná pravidla překladu. V dnešní době se však počítač používá mnohem více než jako pracant náročných výpočtů. Například text a multimediální informace. Proto vyvstává první otázka:

Jak se ukládají znaky (písmena) do paměti počítače?

Každé písmeno patří do určité abecedy, ve které symboly následují za sebou, a proto mohou být číslovány po sobě jdoucími celými čísly. Každé písmeno může být spojeno s kladným celým číslem a nazýváno jeho kód znaku. Právě tento kód bude uložen v paměti počítače a po zobrazení na obrazovce nebo papíru bude „přeměněn“ na odpovídající symbol. Pro odlišení reprezentace čísel od reprezentace symbolů v paměti počítače je také nutné ukládat informace o tom, jaká data jsou zakódována v konkrétní oblasti paměti.

Shoda písmen určité abecedy s kódovými čísly tvoří tzv. kódovací tabulku. Jinými slovy, každý znak konkrétní abecedy má svůj vlastní číselný kód v souladu s určitými kódovací tabulka.

Na světě je však spousta abeced (anglická, ruská, čínská atd.). Takže další otázka zní:

Jak zakódovat všechny abecedy používané v počítači?

Abychom na tuto otázku odpověděli, vydejme se historickou cestou.

V 60. letech 20. století vyvinul American National Standards Institute (ANSI) tabulku kódování znaků, která byla následně použita ve všech operačních systémech. Tato tabulka se nazývá ASCII (American Standard Code for Information Interchange). O něco později se objevila rozšířená verze ASCII.

V souladu s tabulkou ASCII kódování Pro reprezentaci jednoho znaku je přidělen 1 bajt (8 bitů). Sada 8 buněk může přijmout 28 = 256 různé významy. Prvních 128 hodnot (od 0 do 127) je konstantních a tvoří tzv. hlavní část tabulky, která obsahuje desetinná čísla, písmena latinské abecedy (velká a malá písmena), interpunkční znaménka (tečka, čárka, závorky , atd.), stejně jako mezery a různé servisní znaky (tabulátor, odřádkování atd.). Hodnoty od 128 do 255 formuláře doplňková část tabulky, kde je zvykem kódovat znaky národních abeced.

Protože existuje tolik národních abeced, rozšířené ASCII tabulky přicházejí v mnoha variantách. Dokonce i pro ruský jazyk existuje několik kódovacích tabulek (běžné jsou Windows-1251 a Koi8-r). To vše vytváří další potíže. Například odešleme dopis napsaný v jednom kódování a příjemce se ho snaží přečíst v jiném. V důsledku toho vidí krakozabry. Čtenář proto musí pro text použít jinou tabulku kódování.

Je tu další problém. Abecedy některých jazyků mají příliš mnoho znaků, než aby se vešly na určené pozice 128 až 255 jednobajtové znakové sady.

Třetím problémem je, co dělat, pokud text používá několik jazyků (například ruština, angličtina a francouzština)? Nemůžete používat dva stoly najednou...

K vyřešení těchto problémů najednou byl vyvinut Unicode.

Standard kódování znaků Unicode

K vyřešení výše uvedených problémů byl na počátku 90. let vyvinut standard kódování znaků, tzv Unicode. Tato norma umožňuje používat v textu téměř jakýkoli jazyk a symboly.

Unicode poskytuje 31 bitů (4 bajty mínus jeden bit) pro kódování znaků. Počet možných kombinací dává neuvěřitelné číslo: 231 = 2 147 483 684 (tedy více než dvě miliardy). Proto Unicode popisuje abecedy všech známé jazyky, dokonce i „mrtvé“ a fiktivní, obsahuje mnoho matematických a dalších speciálních symbolů. nicméně informační kapacita 31bitový Unicode je stále příliš velký. Častěji se proto používá zkrácená 16bitová verze (216 = 65 536 hodnot), kde jsou zakódovány všechny moderní abecedy.

V Unicode je prvních 128 kódů stejných jako ASCII tabulka.

Relevantnost. Zavedení informačních technologií ovlivnilo technologii toku dokumentů v rámci a mezi organizacemi a mezi jednotlivými uživateli. Velká důležitost v této oblasti získává elektronická správa dokumentů, která umožňuje opustit papírová média (snížit jejich podíl na celkovém toku) a vyměňovat dokumenty mezi entitami v v elektronické podobě. Výhody tohoto přístupu jsou zřejmé: snížení nákladů na zpracování a skladování dokumentů a jejich rychlé hledání. Upuštění od správy papírových dokumentů však vyvolalo řadu problémů souvisejících se zajištěním integrity přenášený dokument a ověření pravosti jeho autora.

Cíl práce. Uveďte základní pojmy na téma „Kódování textových informací“, odrážejte schopnosti útočníka při implementaci hrozeb zaměřených na narušení integrity přenášených zpráv a navrhněte způsoby řešení problému.

co je kód? Kód je systém symbolů pro prezentaci informací.

Kódování– je prezentace informací pohodlným způsobem alternativní forma použití nějakého kódu pro přenos, zpracování nebo uložení a dekódování je proces obnovy původní formy prezentace informací.

Osobní počítač zpracovává číselné, textové, grafické, zvukové a obrazové informace. V počítači je reprezentován binárním kódem, pokud je tedy použita abeceda dvou znaků - 0 a 1. V binárním kódu je nejsnáze reprezentován jako elektrický impuls, jeho nepřítomnost (0) a přítomnost (1). Tento typ kódování se nazývá binární.

Prvky zakódované informace:

Písmena, slova a fráze přirozeného jazyka;

Interpunkční znaménka, aritmetika a logické operace, atd;

Dědičné informace atd.

Samotné operační znaky a operátory porovnání jsou kódová označení, představující písmena a kombinace písmen, číslic, grafické symboly, elektromagnetické impulsy, světlo a zvukové signály atd.

Metody kódování:číselné(pomocí čísel) symbolický(pomocí znaků abecedy zdrojový text) A grafický(pomocí obrázků, ikon)

Cíle kódování:

A) Pohodlí ukládání, zpracování, přenosu a výměny informací mezi subjekty;

B) Vizualizace displeje;

C) Identifikace objektů a subjektů;

D) Skrývání tajných informací.

Rozlišovat jednoúrovňový A víceúrovňový kódování informací. Jednoúrovňové kódování je světelné signály Semafor. Víceúrovňová reprezentace vizuálního (grafického) obrazu ve formě souboru fotografie. Nejprve se vizuální obraz rozdělí na pixely, každá jednotlivá část obrazu je zakódována elementárním prvkem a prvek je zase zakódován jako sada barev (RGB: červená - červená, zelená - zelená, modrá - modrá) s odpovídající intenzitou, která je reprezentována jako číselná hodnota (množiny těchto čísel jsou zakódovány v jpeg formáty, png atd.). Nakonec jsou výsledná čísla zakódována jako elektromagnetické signály pro přenos přes komunikační kanály nebo oblasti. Samá čísla softwarové zpracování jsou prezentovány v souladu s přijatý systémčíselné kódování.

Rozlišovat reverzibilní A nevratné kódování. S reverzibilní je možné zprávu jednoznačně rekonstruovat bez ztráty kvality, například kódováním pomocí Morseovy abecedy. Pokud je to nevratné, jednoznačné obnovení původního obrazu je nemožné. Například kódování audiovizuálních informací ( jpg formáty, mp3 nebo avi) nebo hash.

Existovat veřejnost A tajný kódovací systémy. První se používají k usnadnění výměny informací, druhé - k jejich skrytí před cizinci.

Kódování textových informací. Uživatel zpracovává text složený z písmen, číslic, interpunkčních znamének a dalších prvků.

Pro zakódování jednoho znaku potřebujete 1 bajt paměti nebo 8 bitů. Pomocí jednoduchého vzorce spojujícího počet možných událostí (K) a množství informací (I) vypočítáme, kolik různých symbolů lze zakódovat: K = 2^I = 28 = 256. Pro kódování textových informací se používá abeceda s kapacitou 256 znaků.

Zásada dané kódování je, že každý znak (písmeno, znak) má svůj vlastní binární kód od 00000000 do 11111111.

Existuje pět různých kódovacích tabulek pro kódování písmen ruské abecedy (KOI - 8, SR1251, SR866, Mas, ISO). Texty zakódované v jedné tabulce se nebudou správně zobrazovat v jiném kódování:

Pro jednoho binární kód PROTI různé tabulky různé symboly odpovídají:

Tabulka 1 – Soulad různé postavy binární kód

Binární kód Desetinný kód KOI8 CP1251 CP866 Mas ISO
11000010 194 B V - - T

Překódování textových dokumentů se provádí pomocí zabudovaných programů textové editory a procesory. Od začátku roku 1997 Microsoft roku Office podporuje nové Unicode kódování, dokáže zakódovat nikoli 256, ale 655369 znaků (pro každý znak začaly být alokovány 2 bajty).

Bity a bajty.Číslo vnímané strojem obsahuje určité množství informací. Je roven jednomu bitu. To platí pro každou jednu a každou nulu, která tvoří tu či onu sekvenci zašifrovaných informací. V souladu s tím může být množství informací v každém případě určeno jednoduše pomocí znalosti počtu znaků v sekvenci binárního kódu. Budou si číselně rovny. 2 číslice v kódu nesou 2 bity informace, 10 číslic – 10 bitů a tak dále. Princip určování objemu informací:

Obrázek 1 – definice objemu informací

Problém integrity informací. Problém integrity informací ušel od svého vzniku až do současnosti poměrně dlouhou cestu. dlouhá cesta. Zpočátku existovaly dva způsoby, jak problém vyřešit: pomocí kryptografických metod ochrana informací a ukládání dat a softwarová a hardwarová kontrola přístupu k datům a zdrojům počítačového systému. Stojí za zvážení, že na počátku 80. let byly počítačové systémy špatně distribuované, globální a lokální technologie počítačové sítě byly zapnuté počáteční fáze jeho vývoj a tyto úkoly byly úspěšně vyřešeny.

Moderní metody zpracování, přenosu a skladování informační bezpečnost přispěly ke vzniku hrozeb spojených s možností ztráty, zkreslení a prozrazení dat adresovaných nebo patřících jiným uživatelům. Zajištění integrity informací je proto jednou z předních oblastí vývoje IT.

Informační bezpečnost se týká ochrany informací před jejich nelegální spotřebou: seznámením, transformací a zničením.

Rozlišovat přírodní (nezávislý na lidské činnosti) A umělý (způsobené lidskou činností) ohrožení bezpečnosti informací. Umělé se podle motivů dělí na neúmyslné (náhodné) a záměrné (úmyslné).

Zajištění, že zpráva nebyla během přenosu změněna, je nezbytné pro odesílatele i příjemce. e-mailem. Příjemce musí být schopen rozpoznat skutečnost, že v dokumentu byly provedeny deformace.

Problémem ověření identity autora zprávy je zajistit, aby se žádný subjekt nemohl podepsat jiným než svým jménem. V běžném toku papírových dokumentů jsou informace v dokumentu a vlastnoruční podpis autora přísně spojeny s fyzickým médiem (papírem). Pro elektronickou správu dokumentů neexistuje striktní spojení mezi informacemi a fyzickými médii.

Podívejme se na metody hackování počítačové systémy, všechny pokusy jsou rozděleny do 3 skupin:
1. Útoky na úrovni operačního systému: krádež hesla, skenování pevné disky počítač, svoz odpadu (získání přístupu k vzdálené objekty v koši), spuštění programu jménem uživatele, úprava kódu nebo dat subsystému atd.
2. Útok na úrovni systémů správy databází: 2 scénáře, v prvním případě výsledky aritmetické operace přes DBMS číselná pole jsou zaokrouhlena dolů a rozdíl je sečten v jiném DBMS záznamu, ve druhém případě hacker získá přístup ke statistickým údajům
3. Útoky na úrovni síťového softwaru. Síťový software (NOS) je nejzranitelnější: zachycení zpráv na routeru, vytvoření falešného routeru, narušení zpráv, odmítnutí služby

Uveďme si schopnosti útočníka při implementaci hrozeb zaměřených na narušení integrity přenášených zpráv a pravosti jejich autorství:

A) Aktivní odposlech. Vetřelec zachytí přenášené zprávy jejich změnou.

B) Maškaráda. Pachatel zašle předplatiteli B dokument, podepsaný jménem předplatitele A.

V) Renegáti.Účastník A tvrdí, že neposílal zprávy účastníkovi B, ačkoli ve skutečnosti ano. V tomto případě je účastník A útočník.

G) Substituce. Předplatitel B se mění/formuluje nový dokument, tvrdí, že ji obdržel od účastníka A. Příjemcem zprávy B je nepoctivý uživatel.

K analýze integrity informací se používá přístup založený na výpočtu kontrolní součet přenášená zpráva a hashovací funkce (algoritmus, který umožňuje, aby zpráva libovolné délky byla reprezentována jako krátká hodnota pevné délky).

H a ve všech fázích životní cyklus existuje ohrožení CI (informační integrita):

Na zpracování informací k narušení čchi dochází v důsledku technické závady, algoritmické a softwarové chyby, chyby a destruktivní akce servisního personálu, vnější zásahy, destruktivní a škodlivé programy (viry, červi).

Probíhá převody informace – různé druhy interference přirozeného i umělého původu. Je možné zkreslení, zničení a zachycení informací.

Probíhá úložný prostor hlavní hrozbou je neautorizovaný přístup za účelem úpravy informací, malwaru (viry, červi, logické bomby) a technických poruch.

Probíhá stárnutí– ztráta technologií schopných reprodukovat informace a fyzické stárnutí nosičů informací.

Ohrožení digitálních informací vzniká v průběhu celého životního cyklu informací od okamžiku jejich objevení až po zahájení likvidace.

Opatření k zamezení úniku informací technické kanály zahrnují inspekce prostor k odhalení odposlechových zařízení a také posouzení zabezpečení prostor před možným využitím úniku informací vzdálené metody odposlech a průzkum vozidel, kde jsou vedeny důvěrné rozhovory.

Zajištění integrity informací. Pro zajištění CI nutná podmínka je dostupnost vysoce spolehlivé technické prostředky(TS), včetně hardwarových a/nebo softwarových komponent a různé softwarové metody, výrazně rozšiřující možnost zajištění bezpečnosti uložených informací. TS poskytuje vysokou odolnost proti chybám a ochranu informací před možnými hrozbami. Patří mezi ně prostředky ochrany proti elektromagnetickému pulzu (EMP). Většina účinná metoda snížení intenzity EMR je stínění– umístění zařízení v elektricky vodivém krytu, který zabraňuje pronikání elektromagnetického pole.

NA organizační metody zahrnout Řízení přístupu, která organizuje přístup k informacím o používaném zařízení a zahrnuje poměrně velký seznam činností, od výběru zaměstnanců až po práci s vybavením a dokumenty. Patří mezi ně technologie pro ochranu, zpracování a ukládání dokumentů, certifikace prostor a pracovních prostor a postupy pro ochranu informací před náhodnými/neoprávněnými akcemi. Speciální pozornost věnujte pozornost ochraně operačních systémů (OS), které zajišťují fungování téměř všech součástí systému. Nejúčinnější mechanismus řízení přístupu pro OS je izolovaný softwarové prostředí(IPS). Odolnost informačního systému vůči různým destruktivním a škodlivým programům zvyšuje informační systém a zajišťuje integritu informací.

Antivirová ochrana. Aktuálně pod počítačový virus běžně srozumitelné programový kód, která má schopnost vytvářet kopie sebe sama a má mechanismy, které tyto kopie vkládají do spustitelných objektů výpočetní systém. Škodlivé programy (viry) mají mnoho typů a typů, liší se pouze způsobem, jakým působí různé soubory, umístění do paměti počítače nebo programů, objekty vlivu. Hlavní vlastností virů, která je odlišuje od mnoha programů a činí je nejnebezpečnějšími, je jejich schopnost reprodukce.

CI poskytuje použití antivirových programů, ale žádný z nich nezaručuje detekci neznámého viru. Použité heuristické skenery ne vždy poskytují správnou diagnózu. Příkladem takových chyb jsou dva antivirové programy běžící na stejném počítači: soubory z jednoho antiviru jsou přijímány jako malware jiný antivirus.

Používání lokální sítě které nemají připojení k internetu, je nejlepším způsobem ochrany před viry. Zároveň je nutné přísně kontrolovat různá paměťová média s aplikační programy které lze použít k přenosu viru.

Kódování odolné proti hluku. Informace jsou nejzranitelnější během procesu jejich přenosu. Řízení přístupu odstraňuje mnoho hrozeb, ale při použití v kanálu je nemožné

připojení bezdrátových linek. Právě v takových oblastech ICS jsou informace nejzranitelnější. Poskytnutí CI je dosaženo snížením objemu přenášené informace. Této redukce lze dosáhnout optimálním zdrojovým kódováním.

Dynamická kompresní metoda. V tomto přístupu obsahuje komprimovaná struktura zprávy slovník a komprimované informace. Pokud však dojde k chybě ve slovníku během přenosu nebo ukládání, pak dochází k efektu šíření chyb, který vede ke zkreslení/zničení informace.

Steganografie. Každý, kdo pracuje v kryptografii, tento termín zná. Existují tři oblasti steganografie: skrývání dat, digitální vodoznaky a záhlaví. Na skrytý přenos informací, současně se zajištěním důvěrnosti je řešena i otázka poskytování digitálních dat. Nemůžete změnit, co nevidíte – hlavní argument pro použití steganografie. Její hlavní nevýhoda– větší objem nádoby. To se ale dá zmírnit tím, že ho předáte jako kontejner užitečné informace, není pro CI rozhodující.

Rezervace používá se při přenosu a ukládání informací. Během přenosu lze zprávu několikrát opakovat v jednom směru nebo odeslat do všech možných směrů. Tento přístup lze považovat za jednu z metod PCI. Při ukládání je myšlenka zálohování poměrně jednoduchá - vytváření kopií přijatých souborů a jejich ukládání odděleně od originálních dokumentů. Často jsou taková skladovací zařízení vytvářena na geograficky rozptýlených místech.

Nevýhodou rezervace je možnost jejího neoprávněného odebrání, protože informace dostupné na externí zařízeníúložiště je nechráněné.

Závěr. Jakákoli informace zobrazená na monitoru počítače před tím, než se tam objeví, podléhá kódování, které spočívá v převodu informací do strojový jazyk. Představuje sekvenci elektrické impulsy– nuly a jedničky. Pro kódování různých znaků existují samostatné tabulky.

  • Andrianov, V.I. " Špionážní věci"a zařízení na ochranu předmětů a informací: referenční kniha. příspěvek / V.I. Andrianov, V.A. Borodin, A.V. Sokolov. Petrohrad: Lan, 1996. – 272 s.
  • Baranov, A.P. Problémy zajištění informační bezpečnosti v účelových informačních a telekomunikačních systémech a způsoby jejich řešení // Informační společnost. - 1997. číslo 1. - S. 13-17.
  • Počet zobrazení publikace: Prosím, čekejte

    Dnes kódování ASCII je standard pro reprezentaci prvních 128 znaků (včetně čísel a interpunkce) anglické abecedy v určitém pořadí.

    Nicméně i 1 bajt umožňuje kódovat 2 krát více hodnot, tedy ne 128, ale až 256 různé významy. Proto dostatečně rychle vyměnit zákl ASCII Začaly se objevovat rozšířenější verze tohoto slavného a populárního kódování, ve kterém byly také kódovány znaky abecedy a tedy i text různých jazyků, včetně ruštiny.

    Rozšíření ASCII pro Rusko

    Dnes pro ruští uživatelé prioritou je kódování Windows 1251 a také kódování Unicode UTF 8 který vznikl z ASCII.

    Ve skutečnosti může mít někdo velmi spravedlivou otázku: "Proč jsou tato kódování textu vůbec potřebná?"
    Stojí za to připomenout, že počítač je pouze stroj, který musí jednat přísně podle pokynů. Aby bylo jasné, co je třeba udělat s každým napsaným symbolem, je reprezentován jako sada vektorových formulářů, z nichž každá sada je odeslána na správné místo, aby se na obrazovce objevilo to či ono označení.

    Písma jsou zodpovědná za tvorbu vektorových formulářů a samotný proces kódování závisí na operačním systému a také na programech v něm použitých. Každý text je tedy ve své podstatě určitým souborem bajtů, každý z nich představuje kódování jednoho psaného znaku. Program, který zobrazuje tištěné informace na obrazovce (může to být prohlížeč nebo textový procesor), analyzuje kód, najde vhodné mapování na základě jeho kódu v tabulce kódování, převede jej na požadované vektorová forma a zobrazí jej v textovém souboru.

    Kódování CP866 a KOI8-R byly široce používány před příchodem grafického operačního systému, který si získal popularitu po celém světě - Okna. Nyní je nejoblíbenější kódování, které podporuje ruštinu Windows 1251.

    Není však jediný, takže výrobci písem pro ruštinu používají v software, čas od času, dokonce dodnes, se objevují potíže související s nesprávným zobrazováním symbolů a výskytem tzv. krakozyabrů. Výsledkem jsou tyto trapné hieroglyfy nesprávné použití kódovací tabulky, to znamená, že během kódování a dekódování byly použity různé tabulky.

    Stejná situace nastává na webových stránkách, blozích a dalších zdrojích, kde jsou informace v ruštině a jiných cizích znacích kromě angličtiny. Tato situace určil základní předpoklad pro vytvoření univerzálního kódování, které umožňuje kódovat text v jakémkoli jazyce, dokonce i v čínštině, kde je podstatně více znaků než 256.

    Univerzální kódování

    První verzí univerzálního kódování vyvinutého v rámci konsorcia Unicode bylo kódování UTF 32. Ke kódování každého znaku bylo použito 32 bitů. Nyní byla realizována možnost kódovat obrovské množství znaků, ale objevil se další problém – většina Evropské země takový počet postav navíc byl zcela zbytečný. Koneckonců, dokumenty se ukázaly být velmi těžké. Proto vyměnit UTF 32 přišel UTF 16, který se stal základem pro všechny symboly používané u nás i mimo něj.

    Nespokojených lidí ale bylo stále poměrně dost. Například ti, kteří komunikovali pouze v anglický jazyk, od kdy se stěhuje z ASCII až UTF 16 jejich dokumenty se stále zvětšovaly, a to výrazně, téměř dvakrát.
    Výsledkem bylo kódování s proměnnou délkou UTF 8, což umožnilo nezvyšovat váhu textu.

    Krakozyabry a způsoby jejich řešení

    Obecně se kódování nastavuje na stránce, kde se vytváří samotná informační zpráva. V důsledku toho se na začátku dokumentu vytvoří jakási značka, ve které je zapamatováno, zda jsou kódy znaků zapsány v přímém nebo obráceném pořadí. UTF16.

    Pokud bylo něco vytištěno UTF-8, pak na začátku není značka, protože samotná možnost zápisu znakového kódu v opačném pořadí v tomto kódování chybí.

    Proto byste měli uložit vše napsané v editoru bez značek ( kusovník), aby se snížila pravděpodobnost, že se v dokumentu objeví nesmysly.

    Ještě jeden užitečné rady pro boj s krakozyabry - do záhlaví kódu každé stránky webu napište informace o správném kódování textu, aby nedošlo k záměně ani na místním hostiteli, ani na serveru.

    Například takto



    
    Horní