shtëpi › Telefoni › Kodi 39 grup i plotë i karaktereve ascii. Kodimi i informacionit të tekstit

Kodi 39 grup i plotë i karaktereve ascii. Kodimi i informacionit të tekstit

Përshëndetje, të dashur lexues të faqes së blogut. Sot do t'ju flasim se nga vijnë krakozyabrs në një faqe interneti dhe në programe, cilat kodime teksti ekzistojnë dhe cilat duhet të përdoren. Le të hedhim një vështrim më të afërt në historinë e zhvillimit të tyre, duke filluar nga ASCII bazë, si dhe versionet e tij të zgjeruara CP866, KOI8-R, Windows 1251 dhe duke përfunduar me kodimet moderne të Konsorciumit Unicode UTF 16 dhe 8.

Për disa, ky informacion mund të duket i panevojshëm, por a e dini se sa pyetje marr posaçërisht në lidhje me krakoziabrët zvarritës (grup karakteresh të palexueshëm). Tani do të kem mundësinë t'i referoj të gjithë në tekstin e këtij artikulli dhe të gjej gabimet e mia. Epo, përgatituni të përthithni informacionin dhe përpiquni të ndiqni rrjedhën e tregimit.

ASCII - kodimi bazë i tekstit për alfabetin latin

Zhvillimi i kodimeve të tekstit ndodhi njëkohësisht me formimin e industrisë së IT, dhe gjatë kësaj kohe ata arritën të pësojnë mjaft ndryshime. Historikisht, gjithçka filloi me EBCDIC, i cili ishte mjaft disonant në shqiptimin rus, gjë që bëri të mundur kodimin e shkronjave të alfabetit latin, numrave arabë dhe shenjave të pikësimit me karaktere kontrolli.

Por megjithatë, pika fillestare për zhvillimin e kodimeve moderne të tekstit duhet të konsiderohet e famshme ASCII(Kodi Standard Amerikan për Shkëmbimin e Informacionit, i cili në Rusisht zakonisht shqiptohet si "aski"). Ai përshkruan 128 karakteret e para më të përdorura nga përdoruesit anglishtfolës - shkronja latine, numra arabë dhe shenja pikësimi.

Këto 128 karaktere të përshkruara në ASCII përfshinin gjithashtu disa karaktere shërbimi si kllapa, shenja hash, yje, etj. Në fakt, ju mund t'i shihni ato vetë:

Janë këta 128 karaktere nga versioni origjinal i ASCII që janë bërë standard dhe në çdo kodim tjetër do t'i gjeni patjetër dhe do të shfaqen në këtë renditje.

Por fakti është se me një bajt informacioni mund të kodoni jo 128, por deri në 256 vlera të ndryshme (dy në fuqinë e tetë janë të barabartë me 256), kështu që pas versionit bazë të Asuka një seri e tërë kodime të zgjeruara ASCII, në të cilën, përveç 128 karaktereve bazë, ishte gjithashtu e mundur të kodoheshin simbole të kodimit kombëtar (për shembull, rusisht).

Këtu, ndoshta ia vlen të thuhet pak më shumë për sistemet e numrave që përdoren në përshkrim. Së pari, siç e dini të gjithë, një kompjuter punon vetëm me numra në sistemin binar, përkatësisht me zero dhe njëshe ("algjebra Boolean", nëse dikush e ka marrë atë në një institut apo shkollë). , secila prej të cilave është një dy në fuqi, duke filluar nga zero, dhe deri në dy në të shtatën:

Nuk është e vështirë të kuptohet se të gjitha kombinimet e mundshme të zerave dhe njësheve në një dizajn të tillë mund të jenë vetëm 256. Shndërrimi i një numri nga sistemi binar në sistemin dhjetor është mjaft i thjeshtë. Ju vetëm duhet të shtoni të gjitha fuqitë e dy me një mbi to.

Në shembullin tonë, kjo rezulton të jetë 1 (2 në fuqinë e zeros) plus 8 (dy në fuqinë e 3), plus 32 (dy në fuqinë e pestë), plus 64 (në fuqinë e gjashtë), plus 128 (në fuqinë e shtatë). Totali është 233 në shënimin dhjetor. Siç mund ta shihni, gjithçka është shumë e thjeshtë.

Por nëse shikoni nga afër tabelën me karaktere ASCII, do të shihni se ato përfaqësohen në kodim heksadecimal. Për shembull, "ylli" korrespondon me numrin heksadecimal 2A në Aski. Ju ndoshta e dini se në sistemin heksadecimal të numrave, përveç numrave arabë, përdoren edhe shkronja latine nga A (do të thotë dhjetë) në F (do të thotë pesëmbëdhjetë).

Epo atëherë, për konvertimi i numrit binar në heksadecimal përdorni metodën e mëposhtme të thjeshtë dhe të dukshme. Çdo bajt informacioni është i ndarë në dy pjesë me katër bit, siç tregohet në pamjen e mësipërme të ekranit. Se. Në çdo gjysmë bajt, vetëm gjashtëmbëdhjetë vlera (dy deri në fuqinë e katërt) mund të kodohen në binare, të cilat lehtë mund të përfaqësohen si një numër heksadecimal.

Për më tepër, në gjysmën e majtë të bajtit, shkallët do të duhet të numërohen përsëri duke filluar nga zero, dhe jo siç tregohet në pamjen e ekranit. Si rezultat, përmes llogaritjeve të thjeshta, marrim se numri E9 është i koduar në pamjen e ekranit. Shpresoj që rrjedha e arsyetimit tim dhe zgjidhja e kësaj enigme të ishin të qarta për ju. Epo, tani le të vazhdojmë, në fakt, duke folur për kodimet e tekstit.

Versione të zgjeruara të kodimeve Asuka - CP866 dhe KOI8-R me pseudografi

Pra, filluam të flasim për ASCII, i cili ishte, si të thuash, pika fillestare për zhvillimin e të gjitha kodimeve moderne (Windows 1251, Unicode, UTF 8).

Fillimisht, ai përmbante vetëm 128 karaktere të alfabetit latin, numra arabë dhe diçka tjetër, por në versionin e zgjeruar u bë e mundur të përdoren të gjitha 256 vlerat që mund të kodohen në një bajt informacioni. Ato. U bë e mundur të shtoni simbole të shkronjave të gjuhës suaj në Aski.

Këtu do të duhet të dalim përsëri për të shpjeguar - pse na duhen fare kodimet? tekstet dhe pse është kaq e rëndësishme. Karakteret në ekranin e kompjuterit tuaj formohen në bazë të dy gjërave - grupe formash vektoriale (përfaqësime) të karaktereve të ndryshme (ato janë të vendosura në skedarë me ) dhe kodi që ju lejon të tërhiqni nga ky grup formash vektoriale (skedari i shkronjave ) pikërisht karakteri që do të duhet të futet në vendin e duhur.

Është e qartë se vetë fontet janë përgjegjës për format e vektorit, por sistemi operativ dhe programet e përdorura në të janë përgjegjës për kodimin. Ato. çdo tekst në kompjuterin tuaj do të jetë një grup bajtësh, secili prej të cilëve kodon një karakter të vetëm të këtij teksti.

Programi që shfaq këtë tekst në ekran (redaktori i tekstit, shfletuesi, etj.), kur analizon kodin, lexon kodimin e karakterit tjetër dhe kërkon formën përkatëse vektoriale në skedarin e shkronjave të kërkuara, i cili është i lidhur për të shfaqur këtë dokument teksti. Gjithçka është e thjeshtë dhe banale.

Kjo do të thotë që për të koduar çdo karakter që na nevojitet (për shembull, nga alfabeti kombëtar), duhet të plotësohen dy kushte - forma vektoriale e këtij karakteri duhet të jetë në fontin e përdorur dhe ky karakter mund të kodohet në kodime të zgjeruara ASCII në një bajt. Prandaj, ka një grup të tërë opsionesh të tilla. Vetëm për kodimin e karaktereve të gjuhës ruse, ekzistojnë disa lloje të Aska të zgjeruar.

Për shembull, u shfaq fillimisht CP866, i cili kishte aftësinë për të përdorur karaktere nga alfabeti rus dhe ishte një version i zgjeruar i ASCII.

Ato. pjesa e sipërme e saj përkoi plotësisht me versionin bazë të Aska (128 karaktere latine, numra dhe gërmadha të tjera), i cili është paraqitur në pamjen e ekranit pak më lart, por pjesa e poshtme e tabelës me kodimin CP866 kishte pamjen e treguar në pamjen e ekranit pak më poshtë dhe ju lejoi të kodoni 128 shenja të tjera (shkronja ruse dhe të gjitha llojet e pseudografisë):

Shikoni, në kolonën e djathtë numrat fillojnë me 8, sepse... numrat nga 0 në 7 i referohen pjesës bazë të ASCII (shih pamjen e parë të ekranit). Se. Shkronja ruse "M" në CP866 do të ketë kodin 9C (ai ndodhet në kryqëzimin e rreshtit përkatës me 9 dhe kolonës me numrin C në sistemin heksadecimal të numrave), i cili mund të shkruhet në një bajt informacioni, dhe nëse ka një font të përshtatshëm me karaktere ruse, kjo letër pa probleme do të shfaqet në tekst.

Nga ka ardhur kjo shumë? pseudografia në CP866? E gjithë çështja është se ky kodim për tekstin rus u zhvillua në ato vite të ashpra kur sistemet operative grafike nuk ishin aq të përhapura sa janë tani. Dhe në Dosa dhe sistemet operative të tekstit të ngjashëm, pseudografia bëri të mundur që të paktën disi të diversifikohej dizajni i teksteve, dhe për këtë arsye CP866 dhe të gjithë bashkëmoshatarët e tij nga kategoria e versioneve të zgjeruara të Asuka janë të bollshme në të.

CP866 u shpërnda nga IBM, por përveç kësaj, u zhvilluan një numër kodimesh për karakteret e gjuhës ruse, për shembull, i njëjti lloj (ASCII i zgjeruar) mund t'i atribuohet KOI8-R:

Parimi i funksionimit të tij mbetet i njëjtë me atë të CP866 të përshkruar pak më herët - çdo karakter i tekstit është i koduar nga një bajt i vetëm. Pamja e ekranit tregon gjysmën e dytë të tabelës KOI8-R, sepse gjysma e parë është plotësisht në përputhje me Asuka bazë, e cila tregohet në pamjen e parë të ekranit në këtë artikull.

Ndër veçoritë e kodimit KOI8-R, mund të vërehet se shkronjat ruse në tabelën e tij nuk janë në rend alfabetik, siç, për shembull, ata e bënë atë në CP866.

Nëse shikoni pamjen e parë të ekranit (të pjesës bazë, e cila përfshihet në të gjitha kodimet e zgjeruara), do të vini re se në KOI8-R shkronjat ruse ndodhen në të njëjtat qeliza të tabelës si shkronjat përkatëse të alfabetit latin. nga pjesa e parë e tabelës. Kjo u bë për lehtësinë e kalimit nga karakteret ruse në latine duke hedhur vetëm një bit (dy në fuqinë e shtatë ose 128).

Windows 1251 - versioni modern i ASCII dhe pse dalin çarjet

Zhvillimi i mëtejshëm i kodimeve të tekstit ishte për shkak të faktit se sistemet operative grafike po fitonin popullaritet dhe nevoja për të përdorur pseudografinë në to u zhduk me kalimin e kohës. Si rezultat, u ngrit një grup i tërë që, në thelb, ishin ende versione të zgjeruara të Asuka (një karakter i tekstit është i koduar me vetëm një bajt informacioni), por pa përdorimin e simboleve pseudografike.

Ato i përkisnin të ashtuquajturave kodime ANSI, të cilat u zhvilluan nga Instituti Amerikan i Standardeve. Në gjuhën e zakonshme, emri cirilik u përdor gjithashtu për versionin me mbështetjen e gjuhës ruse. Një shembull i kësaj do të ishte.

Ai ndryshonte në mënyrë të favorshme nga CP866 dhe KOI8-R të përdorura më parë në atë që vendin e simboleve pseudografike në të e zunë simbolet që mungonin të tipografisë ruse (përveç shenjës së theksit), si dhe simbolet e përdorura në gjuhët sllave afër Rusisht (ukrainas, bjellorusisht, etj.):

Për shkak të një bollëk të tillë kodimesh në gjuhën ruse, prodhuesit e shkronjave dhe prodhuesit e softuerëve vazhdimisht kishin dhimbje koke, dhe ju dhe unë, të dashur lexues, shpesh i kishim të njëjtat famëkeqe krakozyabry, kur pati konfuzion me versionin e përdorur në tekst.

Shumë shpesh ato dolën kur dërgonin dhe merrnin mesazhe me postë elektronike, gjë që përfshinte krijimin e tabelave shumë komplekse të konvertimit, të cilat, në fakt, nuk mund ta zgjidhnin këtë problem në thelb, dhe përdoruesit shpesh përdornin për korrespondencë për të shmangur mashtrimet famëkeqe kur përdornin. Kodimet ruse si CP866, KOI8-R ose Windows 1251.

Në fakt, çarjet që shfaqeshin në vend të tekstit rus ishin rezultat i përdorimit të gabuar të kodimit të kësaj gjuhe, i cili nuk korrespondonte me atë në të cilin ishte koduar fillimisht mesazhi me tekst.

Le të themi që nëse përpiqeni të shfaqni karaktere të koduara duke përdorur CP866 duke përdorur tabelën e kodit të Windows 1251, atëherë do të dalin të njëjtat gërmadha (një grup karakteresh të pakuptimta), duke zëvendësuar plotësisht tekstin e mesazhit.

Një situatë e ngjashme lind shumë shpesh në forume ose blogje, kur teksti me karaktere ruse ruhet gabimisht në kodimin e gabuar që përdoret në sit si parazgjedhje, ose në redaktuesin e gabuar të tekstit, i cili shton gags në kod që nuk janë të dukshëm për syri i lirë.

Në fund, shumë njerëz u lodhën nga kjo situatë me shumë kodime dhe rrëmujë vazhdimisht, dhe u shfaqën parakushtet për krijimin e një variacioni të ri universal që do të zëvendësonte të gjitha ato ekzistuese dhe do të zgjidhte përfundimisht problemin me pamjen. e teksteve të palexueshme. Përveç kësaj, ekzistonte problemi i gjuhëve si kineze, ku kishte shumë më tepër karaktere gjuhësore se 256.

Unicode - kodime universale UTF 8, 16 dhe 32

Këto mijëra karaktere të grupit të gjuhëve të Azisë Juglindore nuk mund të përshkruheshin në një bajt informacioni që ishte ndarë për kodimin e karaktereve në versionet e zgjeruara të ASCII. Si rezultat, u krijua një konsorcium i quajtur Unicode(Unicode - Unicode Consortium) me bashkëpunimin e shumë drejtuesve të industrisë së IT (ata që prodhojnë softuer, që kodojnë harduerin, që krijojnë fontet), të cilët ishin të interesuar për shfaqjen e një kodimi universal të tekstit.

Variacioni i parë i lëshuar nën kujdesin e Konsorciumit Unicode ishte UTF 32. Numri në emrin e kodimit nënkupton numrin e biteve që përdoren për të koduar një karakter. 32 bit janë të barabartë me 4 bajtë informacion që do të nevojiten për të koduar një karakter të vetëm në kodimin e ri universal UTF.

Si rezultat, i njëjti skedar me tekst të koduar në versionin e zgjeruar të ASCII dhe në UTF-32, në rastin e fundit, do të ketë një madhësi (peshë) katër herë më të madhe. Kjo është e keqe, por tani kemi mundësinë të kodojmë duke përdorur YTF një numër karakteresh të barabartë me dy me fuqinë tridhjetë e dytë ( miliarda personazhe, e cila do të mbulojë çdo vlerë vërtet të nevojshme me një diferencë kolosale).

Por shumë vende me gjuhë të grupit evropian nuk kishin nevojë të përdornin fare një numër kaq të madh karakteresh në kodim, megjithatë, kur përdornin UTF-32, ata pa asnjë arsye morën një rritje katërfish në peshën e dokumenteve të tekstit, dhe si rezultat, një rritje në vëllimin e trafikut të internetit dhe vëllimit të të dhënave të ruajtura. Kjo është shumë, dhe askush nuk mund të përballonte mbeturina të tilla.

Si rezultat i zhvillimit të Unicode, UTF-16, e cila doli të ishte aq e suksesshme sa u miratua si parazgjedhje si hapësira bazë për të gjithë karakteret që përdorim. Ai përdor dy bajt për të koduar një karakter. Le të shohim se si duket kjo gjë.

Në sistemin operativ Windows, mund të ndiqni shtegun "Fillimi" - "Programet" - "Aksesorët" - "Mjetet e Sistemit" - "Tabela e Karaktereve". Si rezultat, do të hapet një tabelë me format vektoriale të të gjitha shkronjave të instaluara në sistemin tuaj. Nëse zgjidhni grupin e karaktereve Unicode në "Opsionet e avancuara", do të mund të shihni për secilin font veçmas të gjithë gamën e karaktereve të përfshira në të.

Nga rruga, duke klikuar në ndonjë prej tyre, mund të shihni dy bajtin e tij kodi në formatin UTF-16, i përbërë nga katër shifra heksadecimal:

Sa karaktere mund të kodohen në UTF-16 duke përdorur 16 bit? 65,536 (dy në fuqinë e gjashtëmbëdhjetë), dhe ky është numri që u miratua si hapësira bazë në Unicode. Përveç kësaj, ka mënyra për të koduar rreth dy milionë karaktere duke e përdorur atë, por ato ishin të kufizuara në një hapësirë të zgjeruar prej një milion karakteresh teksti.

Por edhe ky version i suksesshëm i kodimit Unicode nuk u solli shumë kënaqësi atyre që shkruan, të themi, programe vetëm në anglisht, sepse për ta, pas kalimit nga versioni i zgjeruar i ASCII në UTF-16, pesha e dokumenteve u dyfishua ( një bajt për karakter në Aski dhe dy bajt për të njëjtin karakter në YUTF-16).

Ishte pikërisht për të kënaqur të gjithë dhe gjithçka në konsorciumin Unicode që u vendos të dilte kodimi me gjatësi të ndryshueshme. U quajt UTF-8. Pavarësisht tetë në emër të tij, në fakt ka një gjatësi të ndryshueshme, d.m.th. Çdo karakter i tekstit mund të kodohet në një sekuencë prej një deri në gjashtë bajt në gjatësi.

Në praktikë, UTF-8 përdor vetëm diapazonin nga një deri në katër bajt, sepse përtej katër bajteve të kodit nuk është më as teorikisht e mundur të imagjinohet asgjë. Të gjitha karakteret latine në të janë të koduara në një bajt, ashtu si në ASCII të mirë të vjetër.

Ajo që vlen të përmendet është se në rastin e kodimit vetëm të alfabetit latin, edhe ato programe që nuk kuptojnë Unicode do të lexojnë përsëri atë që është e koduar në YTF-8. Ato. pjesa kryesore e Asuka thjesht u transferua në këtë krijim të konsorciumit Unicode.

Karakteret cirilike në UTF-8 janë të koduara në dy bajt, dhe, për shembull, karakteret gjeorgjiane janë të koduara në tre bajtë. Konsorciumi Unicode, pasi krijoi UTF 16 dhe 8, zgjidhi problemin kryesor - tani kemi fontet kanë një hapësirë të vetme kodi. Dhe tani prodhuesit e tyre mund ta mbushin atë vetëm me forma vektoriale të karaktereve të tekstit bazuar në pikat e forta dhe aftësitë e tyre. Tani ata vijnë edhe në grupe.

Në "Tabela e karaktereve" më sipër mund të shihni se shkronja të ndryshme mbështesin numra të ndryshëm karakteresh. Disa fonte të pasura me Unicode mund të jenë mjaft të rënda. Por tani ato ndryshojnë jo në faktin se janë krijuar për kodime të ndryshme, por në faktin se prodhuesi i shkronjave ka ose nuk e ka mbushur plotësisht hapësirën e kodit të vetëm me forma të caktuara vektoriale.

Fjalë të çmendura në vend të shkronjave ruse - si ta rregulloni

Le të shohim tani se si shfaqen krakozyabrs në vend të tekstit ose, me fjalë të tjera, si zgjidhet kodimi i saktë për tekstin rus. Në fakt, ai vendoset në programin në të cilin krijoni ose redaktoni pikërisht këtë tekst ose kod duke përdorur fragmente teksti.

Për të redaktuar dhe krijuar skedarë teksti, unë personalisht përdor një shumë të mirë, për mendimin tim, . Sidoqoftë, ai mund të nxjerrë në pah sintaksën e qindra gjuhëve të tjera të programimit dhe shënjimit, dhe gjithashtu ka aftësinë për t'u zgjeruar duke përdorur shtojca. Lexoni një përmbledhje të detajuar të këtij programi të mrekullueshëm në lidhjen e dhënë.

Në menynë e sipërme të Notepad++ ka një artikull "Encodings", ku do të keni mundësinë të konvertoni një opsion ekzistues në atë të përdorur si parazgjedhje në faqen tuaj:

Në rastin e një sajti në Joomla 1.5 dhe më të lartë, si dhe në rastin e një blogu në WordPress, duhet të zgjidhni opsionin për të shmangur shfaqjen e çarjeve UTF 8 pa BOM. Çfarë është prefiksi BOM?

Fakti është se kur ata po zhvillonin kodimin YUTF-16, për disa arsye ata vendosën t'i bashkëngjitnin një gjë të tillë si aftësia për të shkruar kodin e karakterit si në sekuencë të drejtpërdrejtë (për shembull, 0A15) dhe në të kundërt (150A) . Dhe në mënyrë që programet të kuptojnë saktësisht se në çfarë sekuence për të lexuar kodet, ajo u shpik BOM(Byte Order Mark ose, me fjalë të tjera, nënshkrimi), i cili u shpreh duke shtuar tre bajt shtesë në fillimin e dokumenteve.

Në kodimin UTF-8, nuk parashikohej asnjë BOM në konsorciumin Unicode, dhe për këtë arsye shtimi i një nënshkrimi (ato tre bajt famëkeq shtesë në fillim të dokumentit) thjesht parandalon disa programe të lexojnë kodin. Prandaj, gjatë ruajtjes së skedarëve në UTF, gjithmonë duhet të zgjedhim opsionin pa BOM (pa nënshkrim). Pra, ju jeni paraprakisht mbroni veten nga zvarritja e krakozyabrs.

Ajo që vlen të përmendet është se disa programe në Windows nuk mund ta bëjnë këtë (ata nuk mund të ruajnë tekstin në UTF-8 pa një BOM), për shembull, i njëjti Notepad famëkeq i Windows. Ai e ruan dokumentin në UTF-8, por gjithsesi shton nënshkrimin (tre bajtë shtesë) në fillim të tij. Për më tepër, këto byte do të jenë gjithmonë të njëjta - lexoni kodin në sekuencë të drejtpërdrejtë. Por në serverë, për shkak të kësaj gjëje të vogël, mund të lindë një problem - mashtruesit do të dalin.

Prandaj, në asnjë rrethanë Mos përdorni bllok shënimesh të zakonshme të Windows për të modifikuar dokumentet në faqen tuaj nëse nuk dëshironi që të shfaqen ndonjë çarje. Unë e konsideroj redaktuesin e përmendur tashmë Notepad ++ si opsionin më të mirë dhe më të thjeshtë, i cili praktikisht nuk ka të meta dhe përbëhet vetëm nga avantazhe.

Në Notepad++, kur zgjidhni një kodim, do të keni mundësinë të konvertoni tekstin në kodimin UCS-2, i cili për nga natyra është shumë afër standardit Unicode. Gjithashtu në Notepad do të mund të kodohet teksti në ANSI, d.m.th. në lidhje me gjuhën ruse, ky do të jetë Windows 1251, të cilin e kemi përshkruar tashmë më lart.

Është i regjistruar në regjistrin e sistemit tuaj operativ Windows - cilin kodim të zgjidhni në rastin e ANSI, cilin të zgjidhni në rastin e OEM (për gjuhën ruse do të jetë CP866). Nëse vendosni një gjuhë tjetër të paracaktuar në kompjuterin tuaj, atëherë këto kodime do të zëvendësohen me të ngjashme nga kategoria ANSI ose OEM për të njëjtën gjuhë.

Pasi ta ruani dokumentin në Notepad++ në kodimin që ju nevojitet ose të hapni dokumentin nga faqja për modifikim, mund ta shihni emrin e tij në këndin e poshtëm djathtas të redaktuesit:

Për të shmangur skuqjet Përveç veprimeve të përshkruara më lart, do të jetë e dobishme të shkruani informacione në lidhje me këtë kodim në kokën e kodit burimor të të gjitha faqeve të faqes, në mënyrë që të mos ketë konfuzion në server ose host lokal.

Në përgjithësi, të gjitha gjuhët e shënjimit të hipertekstit përveç Html përdorin një deklaratë të veçantë xml, e cila specifikon kodimin e tekstit.

Para se të analizojë kodin, shfletuesi e di se cili version është duke u përdorur dhe se si saktësisht duhet të interpretojë kodet e karaktereve të asaj gjuhe. Por ajo që vlen të përmendet është se nëse e ruani dokumentin në Unicode të paracaktuar, atëherë kjo deklaratë xml mund të hiqet (kodimi do të konsiderohet UTF-8 nëse nuk ka BOM ose UTF-16 nëse ka një BOM).

Në rastin e një dokumenti të gjuhës Html, kodimi përdoret për të treguar Elementi meta, i cili shkruhet midis etiketave të hapjes dhe mbylljes së kokës:

... ...

Kjo hyrje është mjaft e ndryshme nga ajo e miratuar, por është plotësisht në përputhje me standardin e ri Html 5 që po prezantohet ngadalë dhe do të kuptohet plotësisht saktë nga çdo shfletues i përdorur aktualisht.

Në teori, do të ishte më mirë të vendosni një element Meta që tregon kodimin e dokumentit Html sa më lart që të jetë e mundur në kokën e dokumentit në mënyrë që në momentin e takimit të karakterit të parë në tekst jo nga ANSI bazë (të cilat lexohen gjithmonë saktë dhe në çdo variacion), shfletuesi duhet të ketë tashmë informacion se si të interpretojë kodet e këtyre karaktereve.

Paç fat! Shihemi së shpejti në faqet e faqes së blogut

Mund të shikoni më shumë video duke shkuar te

");">

Ju mund të jeni të interesuar

Cilat janë adresat URL, si ndryshojnë lidhjet absolute dhe relative për një sajt?
OpenServer - një server modern lokal dhe një shembull se si ta përdorni atë për të instaluar WordPress në një kompjuter
Çfarë është Chmod, çfarë lejesh për t'u caktuar skedarëve dhe dosjeve (777, 755, 666) dhe si ta bëjmë atë nëpërmjet PHP
Kërkimi Yandex sipas faqes dhe dyqanit në internet

Unicode (Unicode në anglisht) është një standard kodimi i karaktereve. E thënë thjesht, kjo është një tabelë e korrespondencës midis karaktereve të tekstit (, shkronja, elementet e pikësimit) kodet binare. Kompjuteri kupton vetëm sekuencën e zerove dhe njësheve. Në mënyrë që të dijë se çfarë saktësisht duhet të shfaqë në ekran, është e nevojshme t'i caktoni secilit personazh numrin e tij unik. Në vitet tetëdhjetë, karakteret u koduan në një bajt, domethënë tetë bit (çdo bit është 0 ose 1). Kështu, doli se një tabelë (aka kodimi ose grup) mund të strehojë vetëm 256 karaktere. Kjo mund të mos mjaftojë as për një gjuhë. Prandaj, u shfaqën shumë kodime të ndryshme, konfuzioni me të cilin shpesh çonte në shfaqjen e disa gërmadhave të çuditshme në ekran në vend të tekstit të lexueshëm. Kërkohej një standard i vetëm, i cili u bë Unicode. Kodimi më i përdorur është UTF-8 (Unicode Transformation Format), i cili përdor 1 deri në 4 bajt për të përfaqësuar një karakter.

Simbolet

Karakteret në tabelat Unicode numërohen me numra heksadecimal. Për shembull, shkronja e madhe cirilike M është caktuar U+041C. Kjo do të thotë se ai qëndron në kryqëzimin e rreshtit 041 dhe kolonës C. Ju thjesht mund ta kopjoni atë dhe pastaj ta ngjisni diku. Për të mos gërmuar nëpër një listë shumë kilometrash, duhet të përdorni kërkimin. Kur të shkoni në faqen e simboleve, do të shihni numrin e tij Unicode dhe mënyrën se si është shkruar me shkronja të ndryshme. Mund ta futni vetë shenjën në shiritin e kërkimit, edhe nëse në vend të tij vizatohet një katror, të paktën për të zbuluar se çfarë ishte. Gjithashtu, në këtë faqe ka grupe të veçanta (dhe të rastësishme) të të njëjtit lloj ikonash, të mbledhura nga seksione të ndryshme, për lehtësinë e përdorimit.

Standardi Unicode është ndërkombëtar. Ai përfshin personazhe nga pothuajse të gjitha skenarët e botës. Përfshirë ato që nuk përdoren më. Hieroglifet egjiptiane, runat gjermanike, shkrimet maja, kuneiformat dhe alfabetet e shteteve antike. Janë paraqitur edhe emërtimet e peshave dhe masave, shënimet muzikore dhe konceptet matematikore.

Vetë Konsorciumi Unicode nuk shpik personazhe të rinj. Në tabela shtohen ato ikona që gjejnë përdorim në shoqëri. Për shembull, shenja rubla u përdor në mënyrë aktive për gjashtë vjet përpara se të shtohej në Unicode. Piktogramet emoji (emoticons) gjithashtu u përdorën gjerësisht për herë të parë në Japoni përpara se të përfshiheshin në kodim. Por markat tregtare dhe logot e kompanisë nuk shtohen në parim. Edhe ato të zakonshme si molla Apple ose flamuri i Windows. Deri më sot, rreth 120 mijë karaktere janë të koduara në versionin 8.0.

Siç e dini, një kompjuter ruan informacionin në formë binare, duke e paraqitur atë si një sekuencë njësh dhe zero. Për të përkthyer informacionin në një formë të përshtatshme për perceptimin njerëzor, çdo sekuencë unike e numrave zëvendësohet nga simboli i tij përkatës kur shfaqet.

Një nga sistemet për korrelimin e kodeve binare me karakteret e printuara dhe të kontrollit është

Në nivelin aktual të zhvillimit të teknologjisë kompjuterike, përdoruesi nuk kërkohet të dijë kodin e çdo karakteri specifik. Sidoqoftë, një kuptim i përgjithshëm se si kryhet kodimi është jashtëzakonisht i dobishëm, dhe për disa kategori specialistësh, madje i nevojshëm.

Krijimi i ASCII

Kodimi u zhvillua fillimisht në 1963 dhe më pas u përditësua dy herë gjatë 25 viteve.

Në versionin origjinal, tabela e karaktereve ASCII përfshinte 128 karaktere më vonë u shfaq një version i zgjeruar, ku u ruajtën 128 karakteret e para dhe karakteret që mungonin më parë iu caktuan kodeve me bitin e tetë të përfshirë;

Për shumë vite, ky kodim ishte më i popullarizuari në botë. Në vitin 2006, Latin 1252 zuri pozitën udhëheqëse, dhe nga fundi i vitit 2007 e deri më sot, Unicode ka mbajtur me vendosmëri pozicionin drejtues.

Përfaqësimi kompjuterik i ASCII

Çdo karakter ASCII ka kodin e vet, i përbërë nga 8 karaktere që përfaqësojnë një zero ose një. Numri minimal në këtë paraqitje është zero (tetë zero në sistemin binar), që është kodi i elementit të parë në tabelë.

Dy kode në tabelë u rezervuan për kalimin midis standardit US-ASCII dhe variantit të tij kombëtar.

Pasi ASCII filloi të përfshijë jo 128, por 256 karaktere, u përhap gjerësisht një variant kodimi, në të cilin versioni origjinal i tabelës u ruajt në 128 kodet e para me bitin e 8-të zero. Në gjysmën e sipërme të tabelës (pozicionet 128-255) ruheshin karakteret e shkruara kombëtare.

Përdoruesi nuk ka nevojë të dijë drejtpërdrejt kodet e karaktereve ASCII. Një zhvillues softuerësh zakonisht duhet të dijë vetëm numrin e elementit në tabelë për të llogaritur kodin e tij duke përdorur sistemin binar nëse është e nevojshme.

Gjuha ruse

Pas zhvillimit të kodimeve për gjuhët skandinave, kineze, koreane, greqisht, etj. në fillim të viteve 70, Bashkimi Sovjetik filloi të krijonte versionin e tij. Së shpejti, u zhvillua një version i një kodimi 8-bit të quajtur KOI8, duke ruajtur 128 kodet e para të karaktereve ASCII dhe duke caktuar të njëjtin numër pozicionesh për shkronjat e alfabetit kombëtar dhe karaktere shtesë.

Para prezantimit të Unicode, KOI8 dominonte segmentin rus të internetit. Kishte opsione kodimi për alfabetin rus dhe ukrainas.

Problemet ASCII

Meqenëse numri i elementeve edhe në tabelën e zgjeruar nuk i kalonte 256, nuk ekzistonte mundësia e vendosjes së disa skripteve të ndryshme në një kodim. Në vitet '90, problemi "crocozyabr" u shfaq në Runet, kur tekstet e shtypura me karaktere ruse ASCII u shfaqën gabimisht.

Problemi ishte se kodet e ndryshme ASCII nuk përputheshin me njëri-tjetrin. Le të kujtojmë se karaktere të ndryshme mund të vendosen në pozicionet 128-255, dhe kur ndryshoni një kodim cirilik në një tjetër, të gjitha shkronjat e tekstit u zëvendësuan me të tjera që kishin një numër identik në një version të ndryshëm të kodimit.

Gjendja e tanishme

Me ardhjen e Unicode, popullariteti i ASCII filloi të bjerë ndjeshëm.

Arsyeja për këtë qëndron në faktin se kodimi i ri bëri të mundur akomodimin e karaktereve nga pothuajse të gjitha gjuhët e shkruara. Në këtë rast, 128 karakteret e para ASCII korrespondojnë me të njëjtat karaktere në Unicode.

Në vitin 2000, ASCII ishte kodimi më i popullarizuar në internet dhe përdorej në 60% të faqeve të internetit të indeksuara nga Google. Deri në vitin 2012, pjesa e faqeve të tilla kishte rënë në 17%, dhe Unicode (UTF-8) zuri vendin e kodimit më të njohur.

Kështu, ASCII është një pjesë e rëndësishme e historisë së teknologjisë së informacionit, por përdorimi i tij në të ardhmen duket jo premtues.

Një kompjuter kupton procesin e konvertimit të tij në një formë që lejon transmetimin, ruajtjen ose përpunimin automatik të këtyre të dhënave më të përshtatshme. Për këtë qëllim përdoren tabela të ndryshme. ASCII ishte sistemi i parë i zhvilluar në Shtetet e Bashkuara për të punuar me tekst në anglisht, i cili më pas u përhap në të gjithë botën. Artikulli më poshtë i kushtohet përshkrimit, veçorive, vetive dhe përdorimit të mëtejshëm të tij.

Shfaqja dhe ruajtja e informacionit në një kompjuter

Simbolet në një monitor kompjuteri ose një ose një tjetër vegël dixhitale celulare formohen bazuar në grupe të formave vektoriale të karaktereve të ndryshme dhe një kod që ju lejon të gjeni midis tyre simbolin që duhet të futet në vendin e duhur. Ai përfaqëson një sekuencë bitash. Kështu, çdo karakter duhet të korrespondojë në mënyrë unike me një grup zero dhe njësh, të cilat shfaqen në një rend të caktuar, unik.

Si filloi gjithçka

Historikisht, kompjuterët e parë ishin në gjuhën angleze. Për të koduar informacionin simbolik në to, mjaftonte të përdoreshin vetëm 7 bit memorie, ndërsa për këtë u nda 1 bajt i përbërë nga 8 bit. Numri i karaktereve të kuptuara nga kompjuteri në këtë rast ishte 128. Këto karaktere përfshinin alfabetin anglez me shenjat e pikësimit, numrat dhe disa karaktere të veçanta. Kodimi shtatë-bit në gjuhën angleze me tabelën përkatëse (faqe kodi), i zhvilluar në vitin 1963, u quajt Kodi Standard Amerikan për Shkëmbimin e Informacionit. Zakonisht, shkurtesa "ASCII encoding" përdoret dhe përdoret ende për ta treguar atë.

Kalimi në shumëgjuhësi

Me kalimin e kohës, kompjuterët u përdorën gjerësisht në vendet jo anglishtfolëse. Në këtë drejtim, lindi nevoja për kodime që lejojnë përdorimin e gjuhëve kombëtare. U vendos që të mos rikrijohej rrota dhe të merrej si bazë ASCII. Tabela e kodimit në edicionin e ri është zgjeruar ndjeshëm. Përdorimi i bitit të 8-të bëri të mundur përkthimin e 256 karaktereve në një gjuhë kompjuteri.

Përshkrim

Kodimi ASCII ka një tabelë që është e ndarë në 2 pjesë. Vetëm gjysma e parë e tij konsiderohet të jetë një standard ndërkombëtar përgjithësisht i pranuar. Ai përfshin:

Karakteret me numra serialë nga 0 deri në 31, të koduar në sekuenca nga 00000000 deri në 00011111. Ato janë të rezervuara për karakteret e kontrollit që kontrollojnë procesin e shfaqjes së tekstit në ekran ose printer, tingëllimin e një sinjali zanor etj.
Karakteret me NN në tabelën nga 32 në 127, të koduar nga sekuencat nga 00100000 deri në 01111111 përbëjnë pjesën standarde të tabelës. Këto përfshijnë hapësirën (N 32), shkronjat e alfabetit latin (të vogla dhe të mëdha), numrat dhjetëshifrorë nga 0 në 9, shenjat e pikësimit, kllapat e stileve të ndryshme dhe simbole të tjera.
Karaktere me numra serialë nga 128 në 255, të koduar nga sekuenca nga 10000000 deri në 11111111. Këto përfshijnë shkronja të alfabeteve kombëtare të ndryshme nga latinishtja. Është kjo pjesë alternative e tabelës ASCII që përdoret për të kthyer karakteret ruse në formë kompjuteri.

Disa prona

Karakteristikat e kodimit ASCII përfshijnë ndryshimin midis shkronjave "A" - "Z" të shkronjave të vogla dhe të mëdha me vetëm një bit. Kjo rrethanë thjeshton shumë konvertimin e regjistrit, si dhe kontrollon nëse ai i përket një diapazoni të caktuar vlerash. Për më tepër, të gjitha shkronjat në sistemin e kodimit ASCII përfaqësohen nga numrat e tyre të sekuencës në alfabet, të cilët shkruhen me 5 shifra në sistemin e numrave binar, të paraprirë nga 011 2 për shkronjat e vogla dhe 010 2 për shkronjat e mëdha.

Një nga veçoritë e kodimit ASCII është paraqitja e 10 shifrave - "0" - "9". Në sistemin e dytë të numrave fillojnë me 00112 dhe përfundojnë me 2 vlera numrash. Kështu, 0101 2 është ekuivalent me numrin dhjetor pesë, kështu që karakteri "5" shkruhet si 0011 01012. Bazuar në sa më sipër, ju mund t'i konvertoni lehtësisht numrat BCD në një varg ASCII duke shtuar sekuencën e biteve 00112 në çdo gërvishtje në majtas.

"Unicode"

Siç e dini, mijëra karaktere kërkohen për të shfaqur tekste në gjuhët e grupit të Azisë Juglindore. Një numër i tillë i tyre nuk mund të përshkruhet në asnjë mënyrë në një bajt informacioni, kështu që edhe versionet e zgjeruara të ASCII nuk mund të plotësonin më nevojat e shtuara të përdoruesve nga vende të ndryshme.

Kështu, lindi nevoja për të krijuar një kodim universal të tekstit, zhvillimi i të cilit, në bashkëpunim me shumë drejtues të industrisë globale të IT, u ndërmor nga konsorciumi Unicode. Specialistët e tij krijuan sistemin UTF 32 Në të, 32 bit u ndanë për të koduar 1 karakter, duke përbërë 4 bajt informacion. Disavantazhi kryesor ishte një rritje e mprehtë e sasisë së kujtesës së kërkuar deri në 4 herë, gjë që solli shumë probleme.

Në të njëjtën kohë, për shumicën e vendeve me gjuhë zyrtare që i përkasin grupit indo-evropian, numri i karaktereve të barabartë me 2 32 është më se i tepërt.

Si rezultat i punës së mëtejshme nga specialistë nga konsorciumi Unicode, u shfaq kodimi UTF-16. Ai u bë opsioni për konvertimin e informacionit simbolik që i përshtatej të gjithëve si për sa i përket sasisë së memories së kërkuar ashtu edhe për numrin e karaktereve të koduara. Kjo është arsyeja pse UTF-16 u miratua si parazgjedhje dhe kërkon që 2 bajt të rezervohen për një karakter.

Edhe ky version mjaft i avancuar dhe i suksesshëm i Unicode kishte disa të meta, dhe pas kalimit nga versioni i zgjeruar i ASCII në UTF-16, pesha e dokumentit u dyfishua.

Në këtë drejtim, u vendos që të përdoret kodimi me gjatësi të ndryshueshme UTF-8. Në këtë rast, çdo karakter i tekstit burim është i koduar si një sekuencë me gjatësi nga 1 deri në 6 bajt.

Kontaktoni kodin standard amerikan për shkëmbim informacioni

Të gjitha karakteret latine në gjatësinë e ndryshueshme UTF-8 janë të koduara në 1 bajt, si në sistemin e kodimit ASCII.

Një veçori e veçantë e YTF-8 është se në rastin e tekstit në latinisht pa përdorur karaktere të tjera, edhe programet që nuk e kuptojnë Unicode do të jenë ende në gjendje ta lexojnë atë. Me fjalë të tjera, kodimi bazë i tekstit ASCII thjesht bëhet pjesë e UTF-së së re me gjatësi të ndryshueshme. Karakteret cirilike në YTF-8 zënë 2 bajt, dhe, për shembull, karakteret gjeorgjiane - 3 bajtë. Duke krijuar UTF-16 dhe 8, u zgjidh problemi kryesor i krijimit të një hapësire të vetme kodi në fonte. Që atëherë, prodhuesit e shkronjave mund ta mbushin tabelën vetëm me forma vektoriale të karaktereve të tekstit bazuar në nevojat e tyre.

Sisteme të ndryshme operative preferojnë kodime të ndryshme. Për të qenë në gjendje të lexoni dhe modifikoni tekstet e shtypura në një kodim tjetër, përdoren programe ruse të konvertimit të tekstit. Disa redaktues teksti përmbajnë transkoder të integruar dhe ju lejojnë të lexoni tekst pavarësisht nga kodimi.

Tani e dini se sa karaktere janë në kodimin ASCII dhe si dhe pse u zhvillua. Sigurisht, sot standardi Unicode është më i përhapuri në botë. Megjithatë, nuk duhet të harrojmë se bazohet në ASCII, ndaj duhet vlerësuar kontributi i zhvilluesve të tij në fushën e IT.

dhjetor	Hex	Simboli	dhjetor	Hex	Simboli
000	00	specialist. JO	128	80	Ђ
001	01	specialist. SOH	129	81	Ѓ
002	02	specialist. STX	130	82	‚
003	03	specialist. ETX	131	83	ѓ
004	04	specialist. EOT	132	84	„
005	05	specialist. ENQ	133	85	…
006	06	specialist. ACK	134	86	†
007	07	specialist. BEL	135	87	‡
008	08	specialist. B.S.	136	88	€
009	09	specialist. TAB	137	89	‰
010	0A	specialist. LF	138	8A	Љ
011	0B	specialist. VT	139	8B	‹ ‹
012	0C	specialist. FF	140	8C	Њ
013	0D	specialist. CR	141	8D	Ќ
014	0E	specialist. KËSHTU QË	142	8E	Ћ
015	0F	specialist. S.I.	143	8F	Џ
016	10	specialist. DLE	144	90	ђ
017	11	specialist. DC1	145	91	‘
018	12	specialist. DC2	146	92	’
019	13	specialist. DC3	147	93	“
020	14	specialist. DC4	148	94	”
021	15	specialist. N.A.K.	149	95
022	16	specialist. SYN	150	96	–
023	17	specialist. ETB	151	97	—
024	18	specialist. MUND	152	98
025	19	specialist. E.M.	153	99	™
026	1A	specialist. NËN	154	9A	љ
027	1B	specialist. ESC	155	9B	›
028	1C	specialist. FS	156	9C	њ
029	1D	specialist. G.S.	157	9D	ќ
030	1E	specialist. R.S.	158	9E	ћ
031	1F	specialist. SHBA	159	9F	џ
032	20	tufë SP (Hapësirë)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Jo
041	29	)	169	A9	©
042	2A	*	170	A.A.	Є
043	2B	+	171	AB	«
044	2C	,	172	A.C.	¬
045	2D	-	173	pas Krishtit
046	2E	.	174	A.E.	®
047	2F	/	175	A.F.	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	B.A.	є
059	3B	;	187	BB	»
060	3C	<	188	B.C.	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	BE	ѕ
063	3F	?	191	B.F.	ї
064	40	@	192	C0	A
065	41	A	193	C1	B
066	42	B	194	C2	NË
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	DHE
071	47	G	199	C7	Z
072	48	H	200	C8	DHE
073	49	I	201	C9	Y
074	4A	J	202	C.A.	TE
075	4B	K	203	C.B.	L
076	4C	L	204	CC	M
077	4D	M	205	CD	N
078	4E	N	206	C.E.	RRETH
079	4F	O	207	CF	P
080	50	P	208	D0	R
081	51	P	209	D1	ME
082	52	R	210	D2	T
083	53	S	211	D3	U
084	54	T	212	D4	F
085	55	U	213	D5	X
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	Sh
089	59	Y	217	D9	SCH
090	5A	Z	218	D.A.	Kommersant
091	5B	[	219	D.B.	Y
092	5C	\	220	DC	b
093	5D	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	DF	I
096	60	`	224	E0	A
097	61	a	225	E1	b
098	62	b	226	E2	V
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	dhe
103	67	g	231	E7	h
104	68	h	232	E8	Dhe
105	69	i	233	E9	th
106	6A	j	234	E.A.	te
107	6B	k	235	E.B.	l
108	6C	l	236	E.C.	m
109	6D	m	237	ED	n
110	6E	n	238	E.E.	O
111	6F	o	239	E.F.	P
112	70	fq	240	F0	R
113	71	q	241	F1	Me
114	72	r	242	F2	T
115	73	s	243	F3	në
116	74	t	244	F4	f
117	75	u	245	F5	X
118	76	v	246	F6	ts
119	77	w	247	F7	h
120	78	x	248	F8	w
121	79	y	249	F9	sch
122	7A	z	250	F.A.	ъ
123	7B	{	251	FB	s
124	7C	\|	252	F.C.	b
125	7D	}	253	FD	uh
126	7E	~	254	F.E.	Ju
127	7F	Specialist. DEL	255	FF	I

Tabela e kodit të karaktereve të Windows ASCII.
Përshkrimi i karaktereve speciale (kontroll).

Duhet të theksohet se karakteret e kontrollit të tabelës ASCII fillimisht u përdorën për të siguruar shkëmbimin e të dhënave përmes makinës së shtypit, futjen e të dhënave nga shiriti i shtypur dhe për kontrollin e thjeshtë të pajisjeve të jashtme.
Aktualisht, shumica e karaktereve të kontrollit të tabelës ASCII nuk e mbajnë më këtë ngarkesë dhe mund të përdoren për qëllime të tjera.

Kodi	Përshkrim
NUL, 00	Nul, bosh
SOH, 01	Fillimi i Drejtimit
STX, 02	Fillimi i TeXt, fillimi i tekstit.
ETX, 03	Fundi i TeXt, fundi i tekstit
EOT, 04	Fundi i Transmetimit
ENQ, 05	Pyete. Ju lutem konfirmoni
ACK, 06	Mirënjohje. Unë konfirmoj
BEL, 07	Bell, telefononi
BS, 08	Backspace, kthehu një personazh prapa
TAB, 09	Skeda, skeda horizontale
LF, 0A	Furnizimi i linjës, furnizimi i linjës. Në ditët e sotme në shumicën e gjuhëve programuese shënohet si \n
VT, 0B	Skeda vertikale, tabela vertikale.
FF, 0C	Furnizimi i formularit, furnizimi i faqeve, faqe e re
CR, 0D	Carriage Return, karroca kthimi. Në ditët e sotme në shumicën e gjuhëve programuese shënohet si \r
SO,0E	Shift Out, ndryshoni ngjyrën e shiritit të bojës në pajisjen e printimit
SI,0F	Shift In, kthejeni përsëri ngjyrën e shiritit të bojës në pajisjen e printimit
DLE, 10	Data Link Escape, duke kaluar kanalin në transmetimin e të dhënave
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Kontrolli i pajisjes, simbolet e kontrollit të pajisjes
NAK, 15	Mirënjohje negative, nuk e konfirmoj.
SYN, 16	Sinkronizimi. Simboli i sinkronizimit
ETB, 17	Fundi i bllokut të tekstit, fundi i bllokut të tekstit
MUND, 18	Anulimi, anulimi i një të transmetuar më parë
EM, 19	Fundi i Mediumit
SUB, 1A	Zëvendësim, zëvendësues. Vendosur në vend të një simboli kuptimi i të cilit humbi ose u korruptua gjatë transmetimit
ESC, 1B	Sekuenca e kontrollit të arratisjes
FS, 1C	Ndarës i skedarëve, ndarës i skedarëve
GS, 1D	Ndarës grupi
RS, 1E	Ndarës rekord, ndarës rekord
SHBA, 1F	Ndarës i njësisë
DEL, 7F	Fshi, fshi karakterin e fundit.