mājas › Tālrunis › Kods 39 pilns ASCII rakstzīmju komplekts. Teksta informācijas kodēšana

Kods 39 pilns ASCII rakstzīmju komplekts. Teksta informācijas kodēšana

Sveiki, dārgie emuāra vietnes lasītāji. Šodien mēs ar jums runāsim par to, no kurienes vietnē un programmās nāk krakozyabrs, kādi teksta kodējumi pastāv un kuri no tiem būtu jāizmanto. Ieskatīsimies tuvāk to izstrādes vēsturē, sākot no pamata ASCII, kā arī tā paplašinātajām versijām CP866, KOI8-R, Windows 1251 un beidzot ar modernajiem Unicode Consortium kodējumiem UTF 16 un 8.

Dažiem šī informācija var šķist nevajadzīga, bet vai jūs zināt, cik daudz jautājumu es saņemu tieši par rāpojošo krakozyabrs (nesalasāmu rakstzīmju kopu). Tagad man būs iespēja visiem atsaukties uz šī raksta tekstu un atrast savas kļūdas. Nu, sagatavojieties uzņemt informāciju un mēģiniet sekot stāsta gaitai.

ASCII - pamata teksta kodējums latīņu alfabētam

Teksta kodējumu attīstība notika vienlaikus ar IT nozares veidošanos, un šajā laikā tajās izdevās piedzīvot diezgan daudz izmaiņu. Vēsturiski viss sākās ar EBCDIC, kas bija diezgan disonējoša krievu izrunā, kas ļāva kodēt latīņu alfabēta burtus, arābu ciparus un pieturzīmes ar vadības rakstzīmēm.

Bet tomēr mūsdienu teksta kodējumu izstrādes sākumpunkts ir jāuzskata par slaveno ASCII(Amerikas standarta informācijas apmaiņas kods, ko krievu valodā parasti izrunā kā “aski”). Tajā aprakstītas pirmās 128 rakstzīmes, ko visbiežāk izmanto angliski runājošie lietotāji — latīņu burti, arābu cipari un pieturzīmes.

Šīs 128 rakstzīmes, kas aprakstītas ASCII, ietvēra arī dažas pakalpojumu rakstzīmes, piemēram, iekavas, jaucējzīmes, zvaigznītes utt. Patiesībā jūs varat tos redzēt pats:

Šīs 128 rakstzīmes no sākotnējās ASCII versijas ir kļuvušas par standartu, un jebkurā citā kodējumā jūs tās noteikti atradīsit, un tās parādīsies šādā secībā.

Bet fakts ir tāds, ka ar vienu informācijas baitu jūs varat iekodēt nevis 128, bet pat 256 dažādas vērtības (divas ar astoņu pakāpju ir vienādas ar 256), tāpēc pēc Asuka pamata versijas vesela virkne paplašināti ASCII kodējumi, kurā bez 128 pamata rakstzīmēm bija iespējams iekodēt arī nacionālā kodējuma (piemēram, krievu) simbolus.

Šeit, iespējams, ir vērts pastāstīt nedaudz vairāk par skaitļu sistēmām, kas tiek izmantotas aprakstā. Pirmkārt, kā jūs visi zināt, dators darbojas tikai ar skaitļiem binārajā sistēmā, proti, ar nullēm un vieniniekiem (“Būla algebra”, ja kāds to apguva institūtā vai skolā). , katrs no tiem ir divi pakāpē, sākot no nulles, un līdz diviem līdz septītajam:

Nav grūti saprast, ka visas iespējamās nulles un vieninieku kombinācijas šādā dizainā var būt tikai 256. Skaitļa pārvēršana no binārās sistēmas decimālajā sistēmā ir pavisam vienkārša. Jums vienkārši jāsaskaita visas divu pilnvaras ar vienu virs tām.

Mūsu piemērā tas izrādās 1 (2 līdz nulles pakāpei) plus 8 (divi līdz 3 pakāpei), plus 32 (divi līdz piektajai pakāpei), plus 64 (līdz sestajai pakāpei), plus 128 (līdz septītajai pakāpei). Kopā ir 233 decimāldaļās. Kā redzat, viss ir ļoti vienkārši.

Bet, ja jūs rūpīgi aplūkojat tabulu ar ASCII rakstzīmēm, jūs redzēsit, ka tās ir attēlotas heksadecimālajā kodējumā. Piemēram, "zvaigznīte" atbilst heksadecimālajam skaitlim 2A valodā Aski. Jūs droši vien zināt, ka heksadecimālajā skaitļu sistēmā papildus arābu cipariem tiek izmantoti arī latīņu burti no A (nozīmē desmit) līdz F (nozīmē piecpadsmit).

Nu tad priekš bināro skaitļu pārvēršana heksadecimālā izmantojiet šādu vienkāršu un acīmredzamu metodi. Katrs informācijas baits ir sadalīts divās daļās pa četriem bitiem, kā parādīts iepriekš redzamajā ekrānuzņēmumā. Tas. Katrā pusbaitā bināri var kodēt tikai sešpadsmit vērtības (no divām līdz ceturtajai pakāpei), ko var viegli attēlot kā heksadecimālu skaitli.

Turklāt baita kreisajā pusē grādi būs jāskaita vēlreiz, sākot no nulles, nevis kā parādīts ekrānuzņēmumā. Rezultātā, veicot vienkāršus aprēķinus, mēs iegūstam, ka ekrānuzņēmumā ir kodēts skaitlis E9. Es ceru, ka mana argumentācijas gaita un šīs mīklas risinājums jums bija skaidrs. Nu, tagad faktiski turpināsim runāt par teksta kodējumu.

Asuka paplašinātās versijas - CP866 un KOI8-R kodējumi ar pseidogrāfiju

Tātad, mēs sākām runāt par ASCII, kas it kā bija sākumpunkts visu mūsdienu kodējumu izstrādei (Windows 1251, Unicode, UTF 8).

Sākotnēji tajā bija tikai 128 latīņu alfabēta rakstzīmes, arābu cipari un kaut kas cits, taču paplašinātajā versijā kļuva iespējams izmantot visas 256 vērtības, kuras var iekodēt vienā informācijas baitā. Tie. Kļuva iespēja Aski pievienot savas valodas burtu simbolus.

Šeit mums atkal būs jāatkāpjas, lai paskaidrotu - kāpēc mums vispār ir vajadzīgi kodējumi? tekstus un kāpēc tas ir tik svarīgi. Datora ekrāna rakstzīmes tiek veidotas, pamatojoties uz divām lietām - dažādu rakstzīmju vektoru formu (attēlu) kopām (tās atrodas failos ar ) un kodu, kas ļauj izvilkt no šīs vektoru formu kopas (fonta fails). ) tieši tā rakstzīme, kas jāievieto pareizajā vietā.

Skaidrs, ka par vektoru formām atbild paši fonti, bet par kodējumu atbild operētājsistēma un tajā izmantotās programmas. Tie. jebkurš teksts jūsu datorā būs baitu kopa, no kuriem katrs kodē vienu šī teksta rakstzīmi.

Programma, kas parāda šo tekstu ekrānā (teksta redaktors, pārlūkprogramma utt.), parsējot kodu, nolasa nākamās rakstzīmes kodējumu un meklē atbilstošo vektora formu vajadzīgajā fonta failā, kas ir savienots, lai parādītu šo teksta dokuments. Viss ir vienkārši un banāli.

Tas nozīmē, ka, lai iekodētu jebkuru mums nepieciešamo rakstzīmi (piemēram, no nacionālā alfabēta), ir jāievēro divi nosacījumi - šīs rakstzīmes vektora formai jābūt izmantotajā fontā un šī rakstzīme var tikt kodēta paplašinātos ASCII kodējumos viens baits. Tāpēc šādu iespēju ir vesela virkne. Tikai krievu valodas rakstzīmju kodēšanai ir vairākas paplašinātās Aska šķirnes.

Piemēram, sākotnēji parādījās CP866, kurā bija iespēja izmantot krievu alfabēta rakstzīmes un bija paplašināta ASCII versija.

Tie. tās augšējā daļa pilnībā sakrita ar Aska pamatversiju (128 latīņu rakstzīmes, cipari un citas stulbības), kas ir parādīta ekrānuzņēmumā tieši augšā, bet tabulas apakšējā daļa ar CP866 kodējumu bija tāda, kā norādīts ekrānuzņēmumā tieši zemāk. un ļāva iekodēt vēl 128 zīmes (krievu burtus un visādas pseidogrāfijas):

Redziet, labajā kolonnā skaitļi sākas ar 8, jo... skaitļi no 0 līdz 7 attiecas uz ASCII pamata daļu (skatiet pirmo ekrānuzņēmumu). Tas. Krievu burtam "M" CP866 būs kods 9C (tas atrodas atbilstošās rindas ar 9 un kolonnas ar ciparu C krustpunktā heksadecimālajā skaitļu sistēmā), ko var ierakstīt vienā informācijas baitā, un ja ir piemērots fonts ar krievu rakstzīmēm, šis burts bez problēmām parādīsies tekstā.

No kurienes radās šī summa? pseidogrāfija CP866? Būtība ir tāda, ka šis krievu teksta kodējums tika izstrādāts tajos pinkainajos gados, kad grafiskās operētājsistēmas nebija tik plaši izplatītas kā tagad. Un Dosa un līdzīgās teksta operētājsistēmās pseidogrāfija ļāva vismaz kaut kā dažādot tekstu noformējumu, un tāpēc CP866 un visi citi tā līdzīgie no Asuka paplašināto versiju kategorijas tajā ir ļoti daudz.

CP866 izplatīja IBM, taču papildus tam tika izstrādāti vairāki kodējumi krievu valodas rakstzīmēm, piemēram, var attiecināt to pašu veidu (paplašinātu ASCII). KOI8-R:

Tās darbības princips paliek tāds pats kā nedaudz iepriekš aprakstītajam CP866 - katra teksta rakstzīme tiek kodēta ar vienu baitu. Ekrānuzņēmumā redzama KOI8-R tabulas otrā puse, jo pirmā puse pilnībā atbilst pamata Asuka, kas ir parādīta šī raksta pirmajā ekrānuzņēmumā.

Starp KOI8-R kodējuma iezīmēm var atzīmēt, ka krievu burti tās tabulā nav alfabēta secībā, kā, piemēram, viņi to darīja CP866.

Ja paskatās uz pašu pirmo ekrānuzņēmumu (pamatdaļas, kas ir iekļauta visos paplašinātajos kodējumos), jūs pamanīsit, ka KOI8-R krievu burti atrodas tajās pašās tabulas šūnās, kur atbilst latīņu alfabēta burti. no tabulas pirmās daļas. Tas tika darīts, lai ērtāk pārslēgtos no krievu valodas uz latīņu rakstzīmēm, atmetot tikai vienu bitu (divus uz septīto pakāpi jeb 128).

Windows 1251 - modernā ASCII versija un kāpēc rodas plaisas

Teksta kodējumu tālākā attīstība bija saistīta ar to, ka grafiskās operētājsistēmas kļuva arvien populārākas un ar laiku pazuda nepieciešamība tajās izmantot pseidogrāfiju. Rezultātā radās vesela grupa, kas būtībā joprojām bija Asuka paplašinātās versijas (viena teksta rakstzīme ir kodēta tikai ar vienu informācijas baitu), bet bez pseidogrāfisko simbolu izmantošanas.

Tie piederēja tā sauktajiem ANSI kodējumiem, kurus izstrādāja Amerikas standartu institūts. Parastā valodā nosaukums kirilica tika izmantots arī versijai ar krievu valodas atbalstu. Piemērs tam būtu.

Tas labvēlīgi atšķīrās no iepriekš izmantotajiem CP866 un KOI8-R ar to, ka tajā pseidogrāfisko simbolu vietu ieņēma trūkstošie krievu tipogrāfijas simboli (izņemot akcenta zīmi), kā arī simboli, kas lietoti slāvu valodās, kas ir tuvas. Krievu (ukraiņu, baltkrievu utt.):

Sakarā ar tik daudz krievu valodas kodējumu fontu ražotājiem un programmatūras ražotājiem pastāvīgi bija galvassāpes, un jūs un es, dārgie lasītāji, bieži ieguvām to pašu bēdīgi slaveno. krakozyabry kad radās neskaidrības ar tekstā izmantoto versiju.

Ļoti bieži tie parādījās, sūtot un saņemot ziņojumus pa e-pastu, kas ietvēra ļoti sarežģītu konvertēšanas tabulu izveidi, kas faktiski nevarēja atrisināt šo problēmu principiāli, un lietotāji bieži izmantoja saraksti, lai izvairītos no bēdīgi slaveniem trikiem, izmantojot Krievu kodējumi, piemēram, CP866, KOI8-R vai Windows 1251.

Faktiski plaisas, kas parādījās krievu valodas teksta vietā, radās nepareizas šīs valodas kodējuma lietošanas rezultātā, kas neatbilda tai, kurā īsziņa sākotnēji tika kodēta.

Pieņemsim, ka, ja mēģināsit parādīt rakstzīmes, kas kodētas, izmantojot CP866, izmantojot Windows 1251 kodu tabulu, tad iznāks tās pašas muļķības (bezjēdzīga rakstzīmju kopa), pilnībā aizstājot ziņojuma tekstu.

Līdzīga situācija ļoti bieži rodas forumos vai emuāros, kad teksts ar krievu rakstzīmēm kļūdaini tiek saglabāts nepareizā kodējumā, kas tiek izmantots vietnē pēc noklusējuma, vai nepareizā teksta redaktorā, kas kodam pievieno gagus, kas nav redzami neapbruņotu aci.

Galu galā daudziem apnika šī situācija ar daudzajiem kodējumiem un nemitīgi ložņājošiem stulbiem, un parādījās priekšnoteikumi jaunas universālas variācijas izveidei, kas aizstātu visas esošās un beidzot atrisinātu problēmu ar izskatu. no nelasāmiem tekstiem. Turklāt radās problēma ar tādām valodām kā ķīniešu valoda, kur bija daudz vairāk valodas rakstzīmju nekā 256.

Unicode - universālie kodējumi UTF 8, 16 un 32

Šos tūkstošiem Dienvidaustrumāzijas valodu grupas rakstzīmju nav iespējams aprakstīt vienā informācijas baitā, kas tika piešķirts rakstzīmju kodēšanai ASCII paplašinātajās versijās. Rezultātā tika izveidots konsorcijs ar nosaukumu Unicode(Unicode - Unicode Consortium), sadarbojoties daudziem IT nozares līderiem (tiem, kas ražo programmatūru, kas kodē aparatūru, kas veido fontus), kuri bija ieinteresēti universāla teksta kodējuma rašanās.

Pirmā variācija, kas tika izlaista Unicode konsorcija aizgādībā, bija UTF 32. Skaitlis kodējuma nosaukumā nozīmē bitu skaitu, kas tiek izmantots vienas rakstzīmes kodēšanai. 32 biti ir vienādi ar 4 baitiem informācijas, kas būs nepieciešama vienas rakstzīmes kodēšanai jaunajā universālajā UTF kodējumā.

Rezultātā vienam un tam pašam failam ar tekstu, kas kodēts paplašinātajā ASCII versijā un UTF-32, pēdējā gadījumā būs četras reizes lielāks izmērs (svērums). Tas ir slikti, bet tagad mums ir iespēja, izmantojot YTF, kodēt rakstzīmju skaitu, kas vienāds ar diviem līdz trīsdesmit sekunžu pakāpei ( miljardiem rakstzīmju, kas segs jebkuru patiešām nepieciešamo vērtību ar milzīgu rezervi).

Bet daudzām valstīm ar Eiropas grupas valodām vispār nebija nepieciešams izmantot tik milzīgu rakstzīmju skaitu kodēšanā, tomēr, izmantojot UTF-32, tās bez iemesla saņēma četrkārtīgu teksta dokumentu svara pieaugumu, un rezultātā interneta trafika un uzglabāto datu apjoma pieaugums. Tas ir daudz, un neviens nevarēja atļauties šādus atkritumus.

Unikoda izstrādes rezultātā UTF-16, kas izrādījās tik veiksmīgs, ka pēc noklusējuma tika pieņemts kā pamatvieta visām mūsu izmantotajām rakstzīmēm. Tas izmanto divus baitus, lai kodētu vienu rakstzīmi. Apskatīsim, kā šī lieta izskatās.

Operētājsistēmā Windows varat sekot ceļam "Sākt" - "Programmas" - "Piederumi" - "Sistēmas rīki" - "Rakstzīmju tabula". Rezultātā tiks atvērta tabula ar visu jūsu sistēmā instalēto fontu vektoru formām. Ja sadaļā “Papildu opcijas” atlasīsit Unikoda rakstzīmju kopu, katram fontam atsevišķi varēsiet redzēt visu tajā iekļauto rakstzīmju klāstu.

Starp citu, noklikšķinot uz jebkura no tiem, jūs varat redzēt tā divus baitus kods UTF-16 formātā, kas sastāv no četriem heksadecimālajiem cipariem:

Cik rakstzīmju var kodēt UTF-16, izmantojot 16 bitus? 65 536 (divi līdz sešpadsmit), un tas ir skaitlis, kas tika pieņemts kā Unicode bāzes vieta. Turklāt ir veidi, kā, izmantojot to, kodēt aptuveni divus miljonus rakstzīmju, taču tie bija ierobežoti līdz miljona rakstzīmju tekstam.

Bet pat šī veiksmīgā Unicode kodējuma versija nesagādāja lielu gandarījumu tiem, kuri rakstīja, teiksim, programmas tikai angļu valodā, jo viņiem pēc pārejas no paplašinātās ASCII versijas uz UTF-16 dokumentu svars dubultojās ( viens baits uz katru rakstzīmi Aski un divi baiti vienai rakstzīmei YUTF-16).

Tieši tāpēc, lai apmierinātu visus un visu Unicode konsorcijā, tika nolemts nākt klajā mainīga garuma kodējums. To sauca par UTF-8. Neskatoties uz astoņiem tā nosaukumā, tam faktiski ir mainīgs garums, t.i. Katru teksta rakstzīmi var iekodēt secībā no viena līdz sešiem baitiem.

Praksē UTF-8 izmanto tikai diapazonu no viena līdz četriem baitiem, jo tālāk par četriem koda baitiem vairs pat teorētiski neko nav iespējams iedomāties. Visas latīņu rakstzīmes tajā ir iekodētas vienā baitā, tāpat kā vecajā labajā ASCII.

Ievērības cienīgs ir tas, ka, ja tiek kodēts tikai latīņu alfabēts, pat tās programmas, kuras nesaprot Unicode, joprojām nolasīs YTF-8 kodēto. Tie. Asuka galvenā daļa tika vienkārši pārcelta uz šo Unicode konsorcija izveidi.

Kirilicas rakstzīmes UTF-8 ir kodētas divos baitos, un, piemēram, gruzīnu rakstzīmes ir kodētas trīs baitos. Unikoda konsorcijs pēc UTF 16 un 8 izveidošanas atrisināja galveno problēmu - tagad mums ir fontiem ir viena koda vieta. Un tagad to ražotāji to var aizpildīt tikai ar teksta rakstzīmju vektoru formām, pamatojoties uz viņu stiprajām pusēm un iespējām. Tagad tie ir pat komplekti.

Iepriekš redzamajā “Rakstzīmju tabulā” varat redzēt, ka dažādi fonti atbalsta dažādu rakstzīmju skaitu. Daži ar Unicode bagātināti fonti var būt diezgan smagi. Taču tagad tie atšķiras nevis ar to, ka radīti dažādiem kodējumiem, bet gan ar to, ka fontu ražotājs ir vai nav pilnībā aizpildījis vienotā koda telpu ar noteiktām vektoru formām.

Traki vārdi krievu burtu vietā - kā to labot

Tagad redzēsim, kā teksta vietā parādās krakozyabrs vai, citiem vārdiem sakot, kā tiek izvēlēts pareizais krievu valodas teksta kodējums. Faktiski tas ir iestatīts programmā, kurā veidojat vai rediģējat tieši šo tekstu vai kodu, izmantojot teksta fragmentus.

Lai rediģētu un izveidotu teksta failus, es personīgi izmantoju ļoti labu, manuprāt, . Tomēr tas var izcelt simtiem citu programmēšanas un iezīmēšanas valodu sintaksi, kā arī to var paplašināt, izmantojot spraudņus. Izlasiet detalizētu pārskatu par šo brīnišķīgo programmu norādītajā saitē.

Notepad++ augšējā izvēlnē ir vienums “Kodējumi”, kurā jums būs iespēja pārveidot esošo opciju uz to, kas jūsu vietnē tiek izmantota pēc noklusējuma:

Vietnei, kurā darbojas Joomla 1.5 un jaunāka versija, kā arī emuāra gadījumā, izmantojot WordPress, ir jāizvēlas opcija, lai izvairītos no plaisu parādīšanās. UTF 8 bez BOM. Kas ir MK prefikss?

Fakts ir tāds, ka, izstrādājot YUTF-16 kodējumu, viņi kaut kādu iemeslu dēļ nolēma tam pievienot tādu lietu kā iespēju rakstīt rakstzīmju kodu gan tiešā secībā (piemēram, 0A15), gan apgrieztā secībā (150A). . Un, lai programmas precīzi saprastu, kādā secībā nolasīt kodus, tas tika izgudrots BOM(Baitu pasūtījuma atzīme jeb, citiem vārdiem sakot, paraksts), kas izpaudās, pievienojot trīs papildu baitus pašā dokumentu sākumā.

UTF-8 kodējumā Unicode konsorcijā netika nodrošināti MK, un tāpēc paraksta pievienošana (tie bēdīgi slavenie papildu trīs baiti dokumenta sākumā) vienkārši neļauj dažām programmām nolasīt kodu. Tāpēc, saglabājot failus UTF, mums vienmēr ir jāizvēlas opcija bez BOM (bez paraksta). Tātad jūs esat iepriekš pasargāt sevi no rāpošanas krakozyabrs.

Jāatzīmē, ka dažas Windows programmas to nevar izdarīt (tās nevar saglabāt tekstu UTF-8 bez MK), piemēram, tas pats bēdīgi slavenais Windows Notepad. Tas saglabā dokumentu UTF-8, bet joprojām pievieno parakstu (trīs papildu baiti) tā sākumam. Turklāt šie baiti vienmēr būs vienādi - lasiet kodu tiešā secībā. Bet serveros šī sīkuma dēļ var rasties problēma - iznāks blēži.

Tāpēc nekādā gadījumā Neizmantojiet parasto Windows piezīmju grāmatiņu lai rediģētu dokumentus savā vietnē, ja nevēlaties, lai parādās plaisas. Par labāko un vienkāršāko variantu uzskatu jau pieminēto Notepad++ redaktoru, kuram praktiski nav nekādu trūkumu un sastāv tikai no priekšrocībām.

Programmā Notepad++, atlasot kodējumu, jums būs iespēja konvertēt tekstu uz UCS-2 kodējumu, kas pēc būtības ir ļoti tuvs Unicode standartam. Arī Notepad būs iespējams tekstu kodēt ANSI, t.i. attiecībā uz krievu valodu tā būs Windows 1251, kuru mēs jau aprakstījām tieši iepriekš. No kurienes šī informācija nāk?

Tas ir reģistrēts jūsu Windows operētājsistēmas reģistrā - kuru kodējumu izvēlēties ANSI gadījumā, kuru izvēlēties OEM gadījumā (krievu valodai tas būs CP866). Ja savā datorā iestatīsit citu noklusējuma valodu, šie kodējumi tiks aizstāti ar līdzīgiem kodinājumiem no ANSI vai OEM kategorijas tai pašai valodai.

Kad esat saglabājis dokumentu programmā Notepad++ vajadzīgajā kodējumā vai atverot dokumentu no vietnes rediģēšanai, redaktora apakšējā labajā stūrī varat redzēt tā nosaukumu:

Lai izvairītos no apsārtuma Papildus iepriekš aprakstītajām darbībām būs noderīgi visu vietnes lapu avota koda galvenē ierakstīt informāciju par šo kodējumu, lai serverī vai vietējā resursdatorā nerastos neskaidrības.

Kopumā visas hiperteksta iezīmēšanas valodas, izņemot HTML, izmanto īpašu xml deklarāciju, kas norāda teksta kodējumu.

Pirms koda parsēšanas pārlūkprogramma zina, kura versija tiek izmantota un kā tieši tai jāinterpretē šīs valodas rakstzīmju kodi. Taču ievērības cienīgs ir tas, ka, saglabājot dokumentu noklusējuma Unicode, tad šo xml deklarāciju var izlaist (kodējums tiks uzskatīts par UTF-8, ja nav BOM, vai UTF-16, ja ir MK).

Html valodas dokumenta gadījumā kodējums tiek izmantots, lai norādītu Meta elements, kas ir rakstīts starp sākuma un aizvēršanas tagiem Head:

... ...

Šis ieraksts ir diezgan atšķirīgs no pieņemtā, taču tas pilnībā atbilst jaunajam Html 5 standartam, kas tiek lēnām ieviests, un to pilnībā pareizi sapratīs visas pašlaik izmantotās pārlūkprogrammas.

Teorētiski labāk būtu ievietot Meta elementu, kas norāda HTML dokumenta kodējumu pēc iespējas augstāk dokumenta galvenē lai brīdī, kad tiek sastapta pirmā rakstzīme tekstā, kas nav no pamata ANSI (kas vienmēr tiek nolasītas pareizi un jebkurā variantā), pārlūkprogrammai jau vajadzētu būt informācijai, kā interpretēt šo rakstzīmju kodus.

Veiksmi tev! Uz drīzu tikšanos emuāra vietnes lapās

Vairāk video varat skatīties, apmeklējot

");">

Jūs varētu interesēt

Kas ir URL adreses, kā atšķiras absolūtās un relatīvās saites vietnei?
OpenServer – mūsdienīgs lokālais serveris un piemērs, kā to izmantot WordPress instalēšanai datorā
Kas ir Chmod, kādas atļaujas piešķirt failiem un mapēm (777, 755, 666) un kā to izdarīt, izmantojot PHP
Yandex meklēšana pēc vietnes un tiešsaistes veikala

Unicode (angļu valodā Unicode) ir rakstzīmju kodēšanas standarts. Vienkārši sakot, šī ir atbilstības tabula starp teksta rakstzīmēm ( , burti, pieturzīmju elementi) binārie kodi. Dators saprot tikai nulles un vieninieku secību. Lai tas zinātu, kas tieši tam ir jāparāda ekrānā, katram simbolam ir jāpiešķir savs unikālais numurs. Astoņdesmitajos gados rakstzīmes tika kodētas vienā baitā, tas ir, astoņos bitos (katrs bits ir 0 vai 1). Tādējādi izrādījās, ka viena tabula (aka kodējums vai komplekts) var uzņemt tikai 256 rakstzīmes. Ar to var nepietikt pat vienai valodai. Tāpēc parādījās daudz dažādu kodējumu, ar kuriem neskaidrības bieži noveda pie tā, ka ekrānā lasāma teksta vietā parādījās dīvainas ķibeles. Bija nepieciešams vienots standarts, kas kļuva par Unicode. Visbiežāk izmantotais kodējums ir UTF-8 (Unicode Transformation Format), kas izmanto 1 līdz 4 baitus, lai attēlotu rakstzīmi.

Simboli

Rakstzīmes Unikoda tabulās ir numurētas ar heksadecimālajiem cipariem. Piemēram, kirilicas lielais burts M ir apzīmēts ar U+041C. Tas nozīmē, ka tas atrodas 041. rindas un C kolonnas krustpunktā. Varat to vienkārši nokopēt un pēc tam kaut kur ielīmēt. Lai nerakņātos pa vairāku kilometru sarakstu, jāizmanto meklēšana. Pārejot uz simbolu lapu, jūs redzēsiet tās Unikoda numuru un veidu, kā tas ir rakstīts dažādos fontos. Jūs varat ievadīt pašu zīmi meklēšanas joslā, pat ja tā vietā ir uzzīmēts kvadrāts, vismaz lai uzzinātu, kas tas bija. Turklāt šajā vietnē ir īpašas (un nejaušas) viena veida ikonu kopas, kas savāktas no dažādām sadaļām, lai atvieglotu lietošanu.

Unikoda standarts ir starptautisks. Tajā ir iekļauti varoņi no gandrīz visiem pasaules skriptiem. Ieskaitot tos, kas vairs netiek izmantoti. Ēģiptes hieroglifi, ģermāņu rūnas, maiju raksti, ķīļraksti un seno valstu alfabēti. Tiek prezentēti arī svaru un mēru apzīmējumi, mūzikas notācijas un matemātiskie jēdzieni.

Unikoda konsorcijs pats neizgudro jaunas rakstzīmes. Tabulām tiek pievienotas tās ikonas, kuras atrod savu pielietojumu sabiedrībā. Piemēram, rubļa zīme tika aktīvi izmantota sešus gadus, pirms tā tika pievienota Unicode. Emociju piktogrammas (emocijas) arī vispirms tika plaši izmantotas Japānā, pirms tās tika iekļautas kodējumā. Bet preču zīmes un uzņēmumu logotipi principā netiek pievienoti. Pat tādi izplatīti kā Apple apple vai Windows karogs. Līdz šim versijā 8.0 ir kodēti aptuveni 120 tūkstoši rakstzīmju.

Kā zināms, dators informāciju glabā binārā formā, attēlojot to kā vieninieku un nulles secību. Lai informāciju pārvērstu cilvēka uztverei ērtā formā, katra unikālā skaitļu secība tiek parādīta ar tai atbilstošo simbolu.

Viena no sistēmām bināro kodu korelēšanai ar drukātajām un kontroles rakstzīmēm ir

Pašreizējā datortehnoloģiju attīstības līmenī lietotājam nav jāzina katras konkrētās rakstzīmes kods. Tomēr vispārēja izpratne par to, kā tiek veikta kodēšana, ir ārkārtīgi noderīga un dažām speciālistu kategorijām pat nepieciešama.

ASCII izveide

Kodējums sākotnēji tika izstrādāts 1963. gadā un pēc tam atjaunināts divas reizes 25 gadu laikā.

Sākotnējā versijā ASCII rakstzīmju tabula ietvēra 128 rakstzīmes, vēlāk parādījās paplašināta versija, kurā tika saglabātas pirmās 128 rakstzīmes, un kodiem ar astoto bitu tika piešķirtas iepriekš trūkstošās rakstzīmes.

Daudzus gadus šis kodējums bija vispopulārākais pasaulē. 2006. gadā latīņu 1252 ieņēma vadošo pozīciju, un no 2007. gada beigām līdz mūsdienām Unicode ir stingri turējis vadošo pozīciju.

ASCII attēlojums datorā

Katrai ASCII rakstzīmei ir savs kods, kas sastāv no 8 rakstzīmēm, kas apzīmē nulli vai vienu. Minimālais skaitlis šajā attēlojumā ir nulle (binārajā sistēmā astoņas nulles), kas ir tabulas pirmā elementa kods.

Divi kodi tabulā tika rezervēti, lai pārslēgtos starp standarta US-ASCII un tā nacionālo variantu.

Pēc tam, kad ASCII sāka ietvert nevis 128, bet 256 rakstzīmes, plaši izplatījās kodēšanas variants, kurā tabulas sākotnējā versija tika saglabāta pirmajos 128 kodos ar 8. bitu nulli. Tautas rakstzīmes tika saglabātas tabulas augšējā pusē (128.-255. pozīcija).

Lietotājam nav tieši jāzina ASCII rakstzīmju kodi. Programmatūras izstrādātājam parasti ir jāzina tikai elementa numurs tabulā, lai vajadzības gadījumā aprēķinātu tā kodu, izmantojot bināro sistēmu.

krievu valoda

Pēc kodējumu izstrādes skandināvu valodām, ķīniešu, korejiešu, grieķu uc 70. gadu sākumā Padomju Savienība sāka veidot savu versiju. Drīzumā tika izstrādāta 8 bitu kodējuma versija ar nosaukumu KOI8, saglabājot pirmos 128 ASCII rakstzīmju kodus un piešķirot tādu pašu vietu skaitu nacionālā alfabēta burtiem un papildu rakstzīmēm.

Pirms Unicode ieviešanas KOI8 dominēja Krievijas interneta segmentā. Bija kodēšanas iespējas gan krievu, gan ukraiņu alfabētam.

ASCII problēmas

Tā kā elementu skaits pat paplašinātajā tabulā nepārsniedza 256, nebija iespējas vienā kodējumā ievietot vairākus dažādus skriptus. Deviņdesmitajos gados Runet parādījās “crocozyabr” problēma, kad teksti, kas tika rakstīti krievu ASCII rakstzīmēs, tika parādīti nepareizi.

Problēma bija tā, ka dažādie ASCII kodi nesakrita. Atcerēsimies, ka dažādas rakstzīmes varēja atrasties pozīcijās 128-255, un, mainot vienu kirilicas kodējumu pret citu, visi teksta burti tika aizstāti ar citiem ar identisku numuru citā kodējuma versijā.

Pašreizējais stāvoklis

Līdz ar Unicode parādīšanos ASCII popularitāte sāka strauji kristies.

Iemesls tam ir fakts, ka jaunais kodējums ļāva uzņemt rakstzīmes no gandrīz visām rakstītajām valodām. Šajā gadījumā pirmās 128 ASCII rakstzīmes atbilst tām pašām Unicode rakstzīmēm.

2000. gadā ASCII bija vispopulārākais kodējums internetā, un to izmantoja 60% Google indeksēto tīmekļa lapu. Līdz 2012. gadam šādu lapu īpatsvars bija samazinājies līdz 17%, un populārākā kodējuma vietu ieņēma Unicode (UTF-8).

Tādējādi ASCII ir svarīga informācijas tehnoloģiju vēstures sastāvdaļa, taču tā izmantošana nākotnē šķiet neperspektīva.

Dators izprot procesu, kā to pārvērš formā, kas ļauj ērtāk pārraidīt, uzglabāt vai automātiski apstrādāt šos datus. Šim nolūkam tiek izmantotas dažādas tabulas. ASCII bija pirmā sistēma, kas tika izstrādāta ASV darbam ar tekstu angļu valodā, kas vēlāk kļuva plaši izplatīta visā pasaulē. Tālāk esošais raksts ir veltīts tā aprakstam, funkcijām, īpašībām un turpmākai izmantošanai.

Informācijas attēlošana un uzglabāšana datorā

Datora monitora vai viena vai otra mobilā digitālā sīkrīka simboli tiek veidoti, pamatojoties uz dažādu rakstzīmju vektoru formu komplektiem un kodu, kas ļauj starp tiem atrast simbolu, kas jāievieto pareizajā vietā. Tas attēlo bitu secību. Tādējādi katrai rakstzīmei unikāli jāatbilst nulles un vieninieku kopai, kas parādās noteiktā, unikālā secībā.

Kā tas viss sākās

Vēsturiski pirmie datori bija angļu valodā. Lai tajos iekodētu simbolisku informāciju, pietika ar tikai 7 bitu atmiņas izmantošanu, savukārt šim nolūkam tika atvēlēts 1 baits, kas sastāv no 8 bitiem. Datoram saprotamo rakstzīmju skaits šajā gadījumā bija 128. Šīs rakstzīmes ietvēra angļu alfabētu ar pieturzīmēm, cipariem un dažām īpašām rakstzīmēm. 1963. gadā izstrādāto angļu valodas septiņu bitu kodējumu ar atbilstošo tabulu (koda lapu) sauca par Amerikas standarta informācijas apmaiņas kodu. Parasti tā apzīmēšanai tika izmantots un joprojām tiek izmantots saīsinājums “ASCII kodējums”.

Pāreja uz daudzvalodību

Laika gaitā datori kļuva plaši izmantoti valstīs, kurās nerunā angliski. Šajā sakarā bija nepieciešami kodējumi, kas ļauj izmantot valsts valodas. Tika nolemts neizgudrot riteni no jauna un par pamatu ņemt ASCII. Kodēšanas tabula jaunajā izdevumā ir ievērojami paplašināta. 8. bita izmantošana ļāva datorvalodā tulkot 256 rakstzīmes.

Apraksts

ASCII kodējumam ir tabula, kas ir sadalīta 2 daļās. Tikai tā pirmā puse tiek uzskatīta par vispārpieņemtu starptautisku standartu. Tas iekļauj:

Rakstzīmes ar sērijas numuriem no 0 līdz 31, kas kodētas secībās no 00000000 līdz 00011111. Tās ir rezervētas kontroles rakstzīmēm, kas kontrolē teksta attēlošanas procesu ekrānā vai printerī, skaņas signāla atskaņošanu utt.
Rakstzīmes ar NN tabulā no 32 līdz 127, kodējušas secības no 00100000 līdz 01111111, veido tabulas standarta daļu. Tajos ietilpst atstarpe (N 32), latīņu alfabēta burti (mazie un lielie burti), desmit ciparu skaitļi no 0 līdz 9, pieturzīmes, dažādu stilu iekavas un citi simboli.
Rakstzīmes ar sērijas numuriem no 128 līdz 255, kas kodētas ar secībām no 10000000 līdz 11111111. Tie ietver nacionālo alfabētu burtus, kas nav latīņu alfabēts. Tieši šī alternatīvā ASCII tabulas daļa tiek izmantota, lai krievu rakstzīmes pārvērstu datora formā.

Daži īpašumi

ASCII kodējuma iezīmes ietver atšķirību starp burtiem “A” - “Z” ar mazajiem un lielajiem burtiem tikai par vienu bitu. Šis apstāklis ievērojami vienkāršo reģistra konvertēšanu, kā arī pārbauda, vai tas pieder noteiktam vērtību diapazonam. Turklāt visi burti ASCII kodēšanas sistēmā tiek attēloti ar saviem kārtas numuriem alfabētā, kas binārajā skaitļu sistēmā tiek rakstīti ar 5 cipariem, pirms kuriem ir 011 2 mazajiem burtiem un 010 2 lielajiem burtiem.

Viena no ASCII kodējuma iezīmēm ir 10 ciparu attēlojums - "0" - "9". Otrajā skaitļu sistēmā tie sākas ar 00112 un beidzas ar 2 skaitļu vērtībām. Tādējādi 0101 2 ir līdzvērtīgs decimālajam skaitlim pieci, tāpēc rakstzīme "5" tiek rakstīta kā 0011 01012. Pamatojoties uz iepriekš minēto, jūs varat viegli pārvērst BCD skaitļus ASCII virknē, pievienojot bitu secību 00112 katram nibble pa kreisi.

"Unikods"

Kā jūs zināt, lai parādītu tekstus Dienvidaustrumāzijas grupas valodās, ir nepieciešami tūkstošiem rakstzīmju. Šāds skaits no tiem nekādi nav aprakstāms vienā informācijas baitā, tāpēc pat ASCII paplašinātās versijas vairs nevarēja apmierināt dažādu valstu lietotāju pieaugošās vajadzības.

Tādējādi radās nepieciešamība izveidot universālu teksta kodējumu, kura izstrādi, sadarbojoties ar daudziem globālās IT nozares līderiem, uzņēmās Unicode konsorcijs. Tās speciālisti izveidoja UTF 32 sistēmu. Tajā 1 rakstzīmes kodēšanai tika piešķirti 32 biti, kas veido 4 baitus informācijas. Galvenais trūkums bija straujš nepieciešamās atmiņas apjoma pieaugums pat 4 reizes, kas radīja daudzas problēmas.

Tajā pašā laikā lielākajā daļā valstu, kurās oficiālās valodas pieder indoeiropiešu grupai, rakstzīmju skaits, kas vienāds ar 2 32, ir vairāk nekā pārmērīgs.

Unicode konsorcija speciālistu turpmākā darba rezultātā parādījās UTF-16 kodējums. Tā kļuva par simboliskas informācijas konvertēšanas iespēju, kas bija piemērota ikvienam gan nepieciešamās atmiņas apjoma, gan kodēto rakstzīmju skaita ziņā. Tāpēc UTF-16 tika pieņemts pēc noklusējuma, un vienai rakstzīmei ir jārezervē 2 baiti.

Pat šai diezgan progresīvajai un veiksmīgajai Unicode versijai bija daži trūkumi, un pēc pārejas no paplašinātās ASCII versijas uz UTF-16 dokumenta svars dubultojās.

Šajā sakarā tika nolemts izmantot UTF-8 mainīga garuma kodējumu. Šajā gadījumā katra avota teksta rakstzīme tiek kodēta kā secība, kuras garums ir no 1 līdz 6 baitiem.

Sazinieties ar Amerikas standarta kodu informācijas apmaiņai

Visas latīņu rakstzīmes UTF-8 mainīgajā garumā tiek kodētas 1 baitā, tāpat kā ASCII kodēšanas sistēmā.

YTF-8 īpatnība ir tāda, ka tekstu latīņu valodā, neizmantojot citas rakstzīmes, pat programmas, kas nesaprot Unicode, joprojām varēs to lasīt. Citiem vārdiem sakot, pamata ASCII teksta kodējums vienkārši kļūst par daļu no jaunā mainīga garuma UTF. Kirilicas rakstzīmes YTF-8 aizņem 2 baitus, un, piemēram, gruzīnu rakstzīmes - 3 baitus. Izveidojot UTF-16 un 8, tika atrisināta galvenā problēma izveidot vienu koda telpu fontos. Kopš tā laika fontu ražotāji tabulu var aizpildīt tikai ar teksta rakstzīmju vektorformām, pamatojoties uz savām vajadzībām.

Dažādas operētājsistēmas dod priekšroku dažādiem kodējumiem. Lai varētu lasīt un rediģēt tekstus, kas rakstīti citā kodējumā, tiek izmantotas krievu teksta konvertēšanas programmas. Dažos teksta redaktoros ir iebūvēti pārkodētāji un tie ļauj lasīt tekstu neatkarīgi no kodējuma.

Tagad jūs zināt, cik rakstzīmju ir ASCII kodējumā un kā un kāpēc tas tika izstrādāts. Protams, mūsdienās Unicode standarts ir visizplatītākais pasaulē. Tomēr nedrīkst aizmirst, ka tas ir balstīts uz ASCII, tāpēc ir jānovērtē tā izstrādātāju ieguldījums IT jomā.

decembris	Hex	Simbols	decembris	Hex	Simbols
000	00	speciālists. NOP	128	80	Ђ
001	01	speciālists. SOH	129	81	Ѓ
002	02	speciālists. STX	130	82	‚
003	03	speciālists. ETX	131	83	ѓ
004	04	speciālists. EOT	132	84	„
005	05	speciālists. ENQ	133	85	…
006	06	speciālists. ACK	134	86	†
007	07	speciālists. BEL	135	87	‡
008	08	speciālists. B.S.	136	88	€
009	09	speciālists. TAB	137	89	‰
010	0A	speciālists. LF	138	8A	Љ
011	0B	speciālists. VT	139	8B	‹ ‹
012	0C	speciālists. FF	140	8C	Њ
013	0D	speciālists. CR	141	8D	Ќ
014	0E	speciālists. SO	142	8E	Ћ
015	0F	speciālists. S.I.	143	8F	Џ
016	10	speciālists. DLE	144	90	ђ
017	11	speciālists. DC1	145	91	‘
018	12	speciālists. DC2	146	92	’
019	13	speciālists. DC3	147	93	“
020	14	speciālists. DC4	148	94	”
021	15	speciālists. N.A.K.	149	95
022	16	speciālists. SYN	150	96	–
023	17	speciālists. ETB	151	97	—
024	18	speciālists. VAR	152	98
025	19	speciālists. E.M.	153	99	™
026	1A	speciālists. SUB	154	9A	љ
027	1B	speciālists. ESC	155	9B	›
028	1C	speciālists. FS	156	9C	њ
029	1D	speciālists. G.S.	157	9D	ќ
030	1E	speciālists. R.S.	158	9E	ћ
031	1F	speciālists. ASV	159	9F	џ
032	20	sajūgs SP (kosmoss)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Yo
041	29	)	169	A9	©
042	2A	*	170	A.A.	Є
043	2B	+	171	AB	«
044	2C	,	172	A.C.	¬
045	2D	-	173	AD
046	2E	.	174	A.E.	®
047	2F	/	175	A.F.	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	BA.	є
059	3B	;	187	BB	»
060	3C	<	188	B.C.	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	BE	ѕ
063	3F	?	191	B.F.	ї
064	40	@	192	C0	A
065	41	A	193	C1	B
066	42	B	194	C2	IN
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	UN
071	47	G	199	C7	Z
072	48	H	200	C8	UN
073	49	es	201	C9	Y
074	4A	Dž	202	C.A.	UZ
075	4B	K	203	C.B.	L
076	4C	L	204	CC	M
077	4D	M	205	CD	N
078	4E	N	206	C.E.	PAR
079	4F	O	207	CF	P
080	50	P	208	D0	R
081	51	J	209	D1	AR
082	52	R	210	D2	T
083	53	S	211	D3	U
084	54	T	212	D4	F
085	55	U	213	D5	X
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	Sh
089	59	Y	217	D9	SCH
090	5A	Z	218	D.A.	Kommersant
091	5B	[	219	D.B.	Y
092	5C	\	220	DC	b
093	5D	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	DF	es
096	60	`	224	E0	A
097	61	a	225	E1	b
098	62	b	226	E2	V
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	un
103	67	g	231	E7	h
104	68	h	232	E8	Un
105	69	i	233	E9	th
106	6A	j	234	E.A.	Uz
107	6B	k	235	E.B.	l
108	6C	l	236	E.C.	m
109	6D	m	237	ED	n
110	6E	n	238	E.E.	O
111	6F	o	239	E.F.	P
112	70	lpp	240	F0	R
113	71	q	241	F1	Ar
114	72	r	242	F2	T
115	73	s	243	F3	plkst
116	74	t	244	F4	f
117	75	u	245	F5	X
118	76	v	246	F6	ts
119	77	w	247	F7	h
120	78	x	248	F8	w
121	79	y	249	F9	sch
122	7A	z	250	F.A.	ъ
123	7B	{	251	FB	s
124	7C	\|	252	F.C.	b
125	7D	}	253	FD	uh
126	7E	~	254	F.E.	Yu
127	7F	Speciālists. DEL	255	FF	es

ASCII Windows rakstzīmju kodu tabula.
Speciālo (kontroles) rakstzīmju apraksts

Jāatzīmē, ka ASCII tabulas vadības rakstzīmes sākotnēji tika izmantotas, lai nodrošinātu datu apmaiņu, izmantojot teletaipu, datu ievadi no perforētās lentes un vienkāršai ārējo ierīču vadībai.
Pašlaik lielākā daļa ASCII tabulas vadības rakstzīmju vairs nenes šo slodzi, un tās var izmantot citiem mērķiem.

Kods	Apraksts
NUL, 00	Nulle, tukša
SOH, 01	Virsraksta sākums
STX, 02	Teksta sākums, teksta sākums.
ETX, 03	Teksta beigas, teksta beigas
EOT, 04	Pārraides beigas
ENQ, 05	Jautājiet. Lūdzu apstipriniet
AK, 06	Atzinība. Es apstiprinu
BEL, 07	Zvanīt, zvani
BS, 08	Backspace, atgriezieties vienu rakstzīmi atpakaļ
CILNE, 09	Cilne, horizontāla cilne
LF, 0A	Līnijas padeve, līnijas padeve. Mūsdienās lielākajā daļā programmēšanas valodu tas tiek apzīmēts kā \n
VT, 0B	Vertikāla cilne, vertikāla tabula.
FF, 0C	Veidlapas plūsma, lapas plūsma, jauna lapa
CR, 0D	Karieta atgriešana, karietes atgriešana. Mūsdienās lielākajā daļā programmēšanas valodu to apzīmē kā \r
SO,0E	Shift Out, mainiet tintes lentes krāsu drukas ierīcē
SI,0F	Shift In, atgrieziet drukas ierīces tintes lentes krāsu atpakaļ
DLE, 10	Data Link Escape, pārslēdzot kanālu uz datu pārraidi
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Ierīču vadība, ierīces vadības simboli
NAK, 15	Negatīvs apstiprinājums, es neapstiprinu.
SYN, 16	Sinhronizācija. Sinhronizācijas simbols
ETB, 17	Teksta bloka beigas, teksta bloka beigas
CAN, 18	Atcelt, iepriekš pārsūtīta atcelšana
EM, 19	Vidēja beigas
SUB, 1A	Aizstājējs, aizstājējs. Novietots simbola vietā, kura nozīme pārraides laikā tika zaudēta vai sabojāta
ESC, 1B	Escape Control Sequence
FS, 1C	Failu atdalītājs, failu atdalītājs
GS, 1D	Grupas atdalītājs
RS, 1E	Ierakstu atdalītājs, ierakstu atdalītājs
ASV, 1F	Vienības atdalītājs
DEL, 7F	Dzēst, dzēst pēdējo rakstzīmi.