Tabela e zgjeruar e simboleve. Kodimi i informacionit të tekstit

Mbivendosja e karaktereve

Karakteri BS (backspace) lejon printerin të printojë një karakter mbi tjetrin. ASCII parashikoi shtimin e diakritikëve në shkronja në këtë mënyrë, për shembull:

  • a BS "→ á
  • a BS ` → à
  • a BS ^ → â
  • o BS / → ø
  • c BS , → ç
  • n BS ~ → с

shënim: në shkronjat e vjetra, apostrofi " vizatohej i pjerrët në të majtë, dhe tilda ~ u zhvendos lart, kështu që ato thjesht përshtaten me rolin e një akute dhe një tilde sipër.

Nëse i njëjti karakter mbivendoset në një karakter, rezultati është një efekt shkronjash të theksuara, dhe nëse një nënvizim mbivendoset mbi një karakter, rezultati është tekst i nënvizuar.

  • a BS a → a
  • aBS_→ a

shënim: Kjo përdoret, për shembull, në sistemin e ndihmës mashkullore.

Variantet kombëtare të ASCII

Standardi ISO 646 (ECMA-6) parashikon mundësinë e vendosjes së simboleve kombëtare në vend @ [ \ ] ^ ` { | } ~ . Përveç kësaj, në vend # mund të postohet £ , dhe në vend $ - ¤ . Ky sistem është i përshtatshëm për gjuhët evropiane ku nevojiten vetëm disa karaktere shtesë. Versioni i ASCII pa karaktere kombëtare quhet US-ASCII, ose "Versioni i referencës ndërkombëtare".

Më pas, doli të ishte më i përshtatshëm përdorimi i kodimeve 8-bit (faqet e kodit), ku gjysma e poshtme e tabelës së kodit (0-127) është e zënë nga karakteret US-ASCII, dhe gjysma e sipërme (128-255) është e zënë nga karaktere shtesë, duke përfshirë një grup karakteresh kombëtare. Kështu, gjysma e sipërme e tabelës ASCII, përpara miratimit të gjerë të Unicode, u përdor në mënyrë aktive për të përfaqësuar karaktere të lokalizuara, shkronja të gjuhës lokale. Mungesa e një standardi të unifikuar për vendosjen e karaktereve cirilike në tabelën ASCII shkaktoi shumë probleme me kodimet (KOI-8, Windows-1251 dhe të tjerët). Gjuhët e tjera me shkrime jo latine gjithashtu vuajtën nga të pasurit e disa kodimeve të ndryshme.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
0. NUL SOM EOA MVZ EQT W.R.U. RU ZILE BKSP HT LF VT FF CR KËSHTU QË S.I.
1. DC 0 DC 1 DC 2 DC 3 DC 4 ERR SINKORONIZA L.E.M. S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7
2.
3.
4. BLANK ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
A. @ A B C D E F G H I J K L M N O
B. P P R S T U V W X Y Z [ \ ]
C.
D.
E. a b c d e f g h i j k l m n o
F. fq q r s t u v w x y z ESC DEL

Në ata kompjuterë ku njësia minimale e adresueshme e memories ishte një fjalë 36-bit, fillimisht u përdorën karaktere 6-bit (1 fjalë = 6 karaktere). Pas kalimit në ASCII, kompjuterë të tillë filluan të përmbajnë ose 5 karaktere shtatë-bitësh (1 bit mbeti shtesë) ose 4 karaktere nëntë-bitësh në një fjalë.

Kodet ASCII përdoren gjithashtu për të përcaktuar se cili tast shtypet gjatë programimit. Për një tastierë standarde QWERTY, tabela e kodeve duket si kjo:

Bashkësia e karaktereve me të cilat shkruhet teksti quhet alfabeti.

Numri i karaktereve në alfabet është i tij pushtet.

Formula për përcaktimin e sasisë së informacionit: N=2b,

ku N është fuqia e alfabetit (numri i karaktereve),

b – numri i biteve (pesha e informacionit të simbolit).

Alfabeti me një kapacitet prej 256 karakteresh mund të strehojë pothuajse të gjitha karakteret e nevojshme. Ky alfabet quhet mjaftueshëm.

Sepse 256 = 2 8, atëherë pesha e 1 karakterit është 8 bit.

Njësisë matëse 8 bit iu dha emri 1 bajt:

1 bajt = 8 bit.

Kodi binar i çdo karakteri në tekstin kompjuterik merr 1 bajt memorie.

Si paraqitet informacioni i tekstit në kujtesën e kompjuterit?

Lehtësia e kodimit të karaktereve byte-pas-byte është e dukshme sepse një bajt është pjesa më e vogël e adresueshme e memories dhe, për rrjedhojë, procesori mund të qaset në secilin karakter veçmas kur përpunon tekstin. Nga ana tjetër, 256 karaktere është një numër mjaft i mjaftueshëm për të përfaqësuar një shumëllojshmëri të gjerë informacionesh simbolike.

Tani shtrohet pyetja, cilin kod binar tetë-bit t'i caktojmë secilit karakter.

Është e qartë se kjo është një çështje e kushtëzuar, ju mund të gjeni shumë metoda kodimi.

Të gjithë karakteret e alfabetit të kompjuterit numërohen nga 0 në 255. Çdo numër korrespondon me një kod binar tetë-bitësh nga 00000000 deri në 11111111. Ky kod është thjesht numri serial i karakterit në sistemin e numrave binar.

Një tabelë në të cilën të gjithë karaktereve të alfabetit të kompjuterit u caktohen numra serialë quhet tabelë koduese.

Lloje të ndryshme kompjuterësh përdorin tabela të ndryshme kodimi.

Tabela është bërë standardi ndërkombëtar për PC ASCII(lexo aski) (American Standard Code for Information Interchange).

Tabela e kodeve ASCII është e ndarë në dy pjesë.

Vetëm gjysma e parë e tabelës është standardi ndërkombëtar, d.m.th. simbolet me numra nga 0 (00000000), deri në 127 (01111111).

Struktura e tabelës koduese ASCII

Numër serik

Kodi

Simboli

0 - 31

00000000 - 00011111

Simbolet me numra nga 0 në 31 zakonisht quhen simbole kontrolli.
Funksioni i tyre është të kontrollojnë procesin e shfaqjes së tekstit në ekran ose printimit, tingullit të një sinjali zanor, shënimit të tekstit, etj.

32 - 127

00100000 - 01111111

Pjesa standarde e tabelës (anglisht). Këtu përfshihen shkronjat e vogla dhe të mëdha të alfabetit latin, numrat dhjetorë, shenjat e pikësimit, të gjitha llojet e kllapave, simbolet tregtare dhe të tjera.
Karakteri 32 është një hapësirë, d.m.th. pozicion bosh në tekst.
Të gjitha të tjerat pasqyrohen nga shenja të caktuara.

128 - 255

10000000 - 11111111

Pjesa alternative e tabelës (rusisht).
Gjysma e dytë e tabelës së kodeve ASCII, e quajtur faqja e kodit (128 kode, duke filluar nga 10000000 dhe duke përfunduar me 11111111), mund të ketë opsione të ndryshme, secili opsion ka numrin e vet.
Faqja e kodit përdoret kryesisht për të akomoduar alfabete kombëtare të ndryshme nga latinishtja. Në kodimet kombëtare ruse, karakteret nga alfabeti rus vendosen në këtë pjesë të tabelës.

Gjysma e parë e tabelës së kodit ASCII


Ju lutemi vini re se në tabelën e kodimit, shkronjat (të mëdha dhe të vogla) janë renditur sipas rendit alfabetik, dhe numrat janë renditur në rend rritës. Ky respektim i rendit leksikografik në renditjen e simboleve quhet parimi i kodimit sekuencial të alfabetit.

Për shkronjat e alfabetit rus, respektohet gjithashtu parimi i kodimit sekuencial.

Gjysma e dytë e tabelës së kodit ASCII


Për fat të keq, aktualisht ekzistojnë pesë kodime të ndryshme cirilike (KOI8-R, Windows. MS-DOS, Macintosh dhe ISO). Për shkak të kësaj, shpesh lindin probleme me transferimin e tekstit rus nga një kompjuter në tjetrin, nga një sistem softuer në tjetrin.

Kronologjikisht, një nga standardet e para për kodimin e shkronjave ruse në kompjuter ishte KOI8 ("Kodi i shkëmbimit të informacionit, 8-bit"). Ky kodim u përdor përsëri në vitet '70 në kompjuterët e serisë kompjuterike ES, dhe nga mesi i viteve '80 filloi të përdoret në versionet e para të rusifikuara të sistemit operativ UNIX.

Nga fillimi i viteve '90, koha e mbizotërimit të sistemit operativ MS DOS, kodimi CP866 mbetet ("CP" do të thotë "Faqja e kodit", "faqja e kodit").

Kompjuterët Apple që përdorin sistemin operativ Mac OS përdorin kodimin e tyre Mac.

Për më tepër, Organizata Ndërkombëtare e Standardeve (ISO) ka miratuar një kodim tjetër të quajtur ISO 8859-5 si standard për gjuhën ruse.

Kodimi më i zakonshëm që përdoret aktualisht është Microsoft Windows, shkurtuar CP1251.

Që nga fundi i viteve '90, problemi i standardizimit të kodimit të karaktereve është zgjidhur me futjen e një standardi të ri ndërkombëtar të quajtur Unicode. Ky është një kodim 16-bit, d.m.th. cakton 2 bajt memorie për çdo karakter. Sigurisht, kjo rrit sasinë e kujtesës së zënë me 2 herë. Por një tabelë e tillë kodi lejon përfshirjen deri në 65536 karaktere. Specifikimi i plotë i standardit Unicode përfshin të gjitha alfabetet ekzistuese, të zhdukura dhe të krijuara artificialisht të botës, si dhe shumë simbole matematikore, muzikore, kimike dhe të tjera.

Le të përpiqemi të përdorim një tabelë ASCII për të imagjinuar se si do të duken fjalët në kujtesën e kompjuterit.

Paraqitja e brendshme e fjalëve në kujtesën e kompjuterit

Ndonjëherë ndodh që një tekst i përbërë nga shkronja të alfabetit rus të marrë nga një kompjuter tjetër nuk mund të lexohet - një lloj "abracadabra" është i dukshëm në ekranin e monitorit. Kjo ndodh sepse kompjuterët përdorin kodime të ndryshme të karaktereve për gjuhën ruse.

Le të kujtojmë disa fakte që dimë:

Tërësia e simboleve me të cilat shkruhet teksti quhet alfabet.

Numri i karaktereve në një alfabet është fuqia e tij.

Formula për përcaktimin e sasisë së informacionit: N = 2 b,

ku N është fuqia e alfabetit (numri i karaktereve),

b - numri i biteve (pesha e informacionit të simbolit).

Alfabeti me një kapacitet prej 256 karakteresh mund të strehojë pothuajse të gjitha karakteret e nevojshme. Një alfabet i tillë quhet i mjaftueshëm.

Sepse 256 = 2 8 , atëherë pesha e 1 karakteri është 8 bit.

Njësisë matëse 8 bit iu dha emri 1 bajt:

1 bajt = 8 bit.

Kodi binar i çdo karakteri në tekstin kompjuterik merr 1 bajt memorie.

Si paraqitet informacioni i tekstit në memorien e kompjuterit?

Kodimi konsiston në caktimin e çdo karakteri të një kodi dhjetor unik nga 0 në 255 ose një kod binar korrespondues nga 00000000 në 11111111. Kështu, një person i dallon karakteret sipas skicës së tyre dhe një kompjuter nga kodi i tyre.

Lehtësia e kodimit të karaktereve byte-pas-byte është e dukshme sepse një bajt është pjesa më e vogël e adresueshme e memories dhe, për rrjedhojë, procesori mund të qaset në secilin karakter veçmas kur përpunon tekstin. Nga ana tjetër, 256 karaktere është një numër mjaft i mjaftueshëm për të përfaqësuar një shumëllojshmëri të gjerë informacionesh simbolike.

Tani shtrohet pyetja, cilin kod binar tetë-bit t'i caktojmë secilit karakter.

Është e qartë se kjo është një çështje e kushtëzuar, ju mund të gjeni shumë metoda kodimi.

Tabela ASCII është bërë standardi ndërkombëtar për PC (lexo aski) (American Standard Code for Information Interchange).

Vetëm gjysma e parë e tabelës është standardi ndërkombëtar, d.m.th. karaktere me numra nga 0 (00000000), deri në 127 (01111111).

Numër serik

Simboli

00000000 - 00011111


Funksioni i tyre është të kontrollojnë procesin e shfaqjes së tekstit në ekran ose printimit, tingullit të një sinjali zanor, shënimit të tekstit, etj.

32 - 127

00100000 - 01111111


128 - 255

10000000 - 11111111


Gjysma e dytë e tabelës së kodeve ASCII, e quajtur faqja e kodit (128 kode, duke filluar me 10000000 dhe duke përfunduar me 11111111), mund të ketë variante të ndryshme, secili variant ka numrin e vet.


Ju lutemi vini re se në tabelën e kodimit, shkronjat (të mëdha dhe të vogla) janë renditur sipas rendit alfabetik, dhe numrat janë renditur në rend rritës. Ky respektim i rendit leksikografik në renditjen e simboleve quhet parimi i kodimit sekuencial të alfabetit.


Kodimi më i zakonshëm që përdoret aktualisht është Microsoft Windows, shkurtuar CP1251.

Që nga fundi i viteve '90, problemi i standardizimit të kodimit të karaktereve është zgjidhur me futjen e një standardi të ri ndërkombëtar të quajtur Unicode. . Ky është një kodim 16-bit, d.m.th. cakton 2 bajt memorie për çdo karakter. Sigurisht, kjo rrit sasinë e kujtesës së zënë me 2 herë. Por një tabelë e tillë kodi lejon përfshirjen deri në 65536 karaktere. Specifikimi i plotë i standardit Unicode përfshin të gjitha alfabetet ekzistuese, të zhdukura dhe të krijuara artificialisht të botës, si dhe shumë simbole matematikore, muzikore, kimike dhe të tjera.

Le të përpiqemi të përdorim një tabelë ASCII për të imagjinuar se si do të duken fjalët në kujtesën e kompjuterit.

Fjalët

Kujtesa

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Kur futni informacionin e tekstit në një kompjuter, karakteret (shkronjat, numrat, shenjat) kodohen duke përdorur sisteme të ndryshme kodi, të cilat përbëhen nga një grup tabelash kodesh të vendosura në faqet përkatëse të standardeve për kodimin e informacionit të tekstit. Në tabela të tilla, çdo karakteri i caktohet një kod numerik specifik në një sistem numrash heksadecimal ose dhjetor, d.m.th., tabelat e kodeve pasqyrojnë korrespondencën midis imazheve të simboleve dhe kodeve numerike dhe janë të destinuara për kodimin dhe dekodimin e informacionit të tekstit. Kur futni informacionin e tekstit duke përdorur një tastierë kompjuteri, çdo karakter i futur kodohet, d.m.th., konvertohet në një kod numerik kur informacioni i tekstit nxirret në një pajisje dalëse kompjuterike (ekran, printer ose ploter), imazhi i tij ndërtohet duke përdorur kodin numerik të; karakteri. Caktimi i një kodi numerik specifik në një simbol është rezultat i një marrëveshjeje midis organizatave përkatëse në vende të ndryshme. Aktualisht, nuk ka asnjë tabelë të vetme të kodit universal që përputhet me shkronjat e alfabeteve kombëtare të vendeve të ndryshme.

Tabelat moderne të kodeve përfshijnë pjesë ndërkombëtare dhe kombëtare, d.m.th. përmbajnë shkronja të alfabetit latin dhe kombëtar, numra, veprime aritmetike dhe shenja pikësimi, simbole matematikore dhe kontrolluese dhe simbole pseudografike. Pjesa ndërkombëtare e tabelës së kodit bazuar në standard ASCII (Kodi Standard Amerikan për Shkëmbimin e Informacionit), kodon gjysmën e parë të karaktereve në tabelën e kodeve me kode numerike nga 0 në 7 F 16, ose në sistemin e numrave dhjetorë nga 0 në 127. Në këtë rast, kodet nga 0 deri në 20 16 (0 ? 32 10) u caktohen tasteve funksionale (F1, F2, F3, etj.) të tastierës së kompjuterit personal. Në Fig. 3.1 tregon pjesën ndërkombëtare të tabelave të kodit bazuar në standard ASCII. Qelizat e tabelës numërohen përkatësisht në sistemet e numrave dhjetorë dhe heksadecimalë.

Figura 3.1. Pjesa ndërkombëtare e tabelës së kodeve (standarde ASCII) me numra qelizash të paraqitur në sistemet e numrave dhjetorë (a) dhe heksadecimal (b).


Pjesa kombëtare e tabelave të kodeve përmban kode të alfabeteve kombëtare, e cila quhet edhe një tabelë e grupeve të karaktereve (grup karakteresh).

Aktualisht, për të mbështetur shkronjat e alfabetit rus (cirilik), ekzistojnë disa tabela kodesh (kodime) që përdoren nga sisteme të ndryshme operative, gjë që është një pengesë e rëndësishme dhe në disa raste çon në probleme që lidhen me operacionet e dekodimit të vlerave të karaktereve numerike. Në tabelë 3.1 tregon emrat e faqeve të kodit (standardet) në të cilat ndodhen tabelat e kodit cirilik (kodimet).

Tabela 3.1

Një nga standardet e para për kodimin e alfabetit cirilik në kompjuter ishte standardi KOI8-R. Pjesa kombëtare e tabelës së kodit të këtij standardi është paraqitur në Fig. 3.2.

Oriz. 3.2. Pjesa kombëtare e tabelës së kodit të standardit KOI8-R


Aktualisht, përdoret gjithashtu tabela e kodit e vendosur në faqen CP866 të standardit të kodimit të informacionit të tekstit, i cili përdoret në sistemin operativ. MS DOS ose seancë MS DOS për kodimin e alfabetit cirilik (Fig. 3.3, A).

Oriz. 3.3. Pjesa kombëtare e tabelës së kodit, e vendosur në faqen CP866 (a) dhe në faqen CP1251 (b) të standardit të kodimit të informacionit të tekstit


Aktualisht, tabela e kodit më e përdorur për kodimin e alfabetit cirilik ndodhet në faqen CP1251 të standardit përkatës, i cili përdoret në sistemet operative të familjes. Dritaret kompanitë Microsoft(Fig. 3.2, b). Në të gjitha tabelat e kodit të paraqitura, përveç tabelës standarde Unicode Për të koduar një karakter, ndahen 8 shifra binare (8 bit).

Në fund të shekullit të kaluar, u shfaq një standard i ri ndërkombëtar Unicode në të cilin një karakter paraqitet si një kod binar me dy bajtë. Aplikimi i këtij standardi është një vazhdimësi e zhvillimit të një standardi ndërkombëtar universal për të zgjidhur problemin e përputhshmërisë së kodimeve kombëtare të karaktereve. Duke përdorur këtë standard, mund të kodohen 2 16 = 65536 karaktere të ndryshme. Në Fig. 3.4 tregon tabelën e kodit 0400 (alfabeti rus) i standardit Unicode.

Oriz. 3.4. Tabela e kodit Unicode 0400


Le të shpjegojmë atë që është thënë në lidhje me kodimin e informacionit të tekstit duke përdorur një shembull.

Shembulli 3.1

Kodoni fjalën "Kompjuter" si një sekuencë numrash dhjetorë dhe heksadecimalë duke përdorur kodimin CP1251. Cilat karaktere do të shfaqen në tabelat e kodeve CP866 dhe KOI8-R kur përdorni kodin e marrë.

Sekuencat e kodit heksadecimal dhe binar të fjalës "Kompjuter" bazuar në tabelën e kodimit CP1251 (shih Fig. 3.3, b) do të duket kështu:

Kjo sekuencë kodi në kodimet SR866 dhe KOI8-R do të rezultojë në shfaqjen e karaktereve të mëposhtme:

Për të kthyer dokumentet e tekstit në gjuhën ruse nga një standard kodimi i informacionit të tekstit në një tjetër, përdoren programe speciale - konvertues. Konvertuesit zakonisht ndërtohen në programe të tjera. Një shembull do të ishte një program shfletuesi - Internet Explorer (IE), i cili ka një konvertues të integruar. Një program shfletuesi është një program i veçantë për shikimin e përmbajtjes. faqet e internetit në rrjetin global kompjuterik të internetit. Le të përdorim këtë program për të konfirmuar rezultatin e hartës së simboleve të marrë në shembullin 3.1. Për ta bërë këtë, ne do të kryejmë hapat e mëposhtëm.

1. Hapni programin Notepad (NotePad). Programi Notepad në sistemin operativ Windows XP nisur duke përdorur komandën: [Button Filloni– Programet – Standard – Notepad]. Në dritaren e programit Notepad që hapet, shkruani fjalën "Kompjuter" duke përdorur sintaksën e gjuhës së shënjimit të dokumentit të hipertekstit - HTML (Hyper Text Markup Language). Kjo gjuhë përdoret për të krijuar dokumente në internet. Teksti duhet të duket si ky:

Uji kompjuterik

, Ku

Dhe

etiketat (konstruktet e veçanta) të gjuhës HTML për shënimin e kokës. Në Fig. 3.5 tregon rezultatin e këtyre veprimeve.

Oriz. 3.5. Shfaqja e tekstit në dritaren e Notepad


Le ta ruajmë këtë tekst duke ekzekutuar komandën: [File - Save as...] në dosjen përkatëse në kompjuter gjatë ruajtjes së tekstit, do t'i japim skedarit një emër - Shënim, me një zgjatje skedari; html.

2. Le të hapim programin Internet Explorer, duke ekzekutuar komandën: [Button Filloni- Programet - Internet Explorer]. Kur filloni programin, dritarja e treguar në Fig. 3.6

Oriz. 3.6. Dritarja e hyrjes jashtë linje


Zgjidhni dhe aktivizoni butonin Jashtë linje Në këtë rast, kompjuteri nuk do të lidhet me internetin global. Do të shfaqet dritarja kryesore e programit Microsoft Internet Explorer, treguar në Fig. 3.7.

Oriz. 3.7. Dritarja kryesore e Microsoft Internet Explorer


Le të ekzekutojmë komandën e mëposhtme: [File – Open], do të shfaqet një dritare (Fig. 3.8), në të cilën duhet të specifikoni emrin e skedarit dhe të klikoni butonin Ne rregull ose shtypni butonin Rishiko… dhe gjeni skedarin Prim.html.

Oriz. 3.8. Hap dritaren


Dritarja kryesore e programit Internet Explorer do të marrë formën e treguar në Fig. 3.9. Fjala "Kompjuter" do të shfaqet në dritare. Tjetra, duke përdorur menunë e sipërme të programit Internet Explorer, ekzekutoni komandën e mëposhtme: [View – Encoding – Cyrillic (DOS)]. Pas ekzekutimit të kësaj komande në dritaren e programit Internet Explorer Do të shfaqen simbolet e paraqitura në Fig. 3.10. Gjatë ekzekutimit të komandës: [View – Encoding – Cyrillic (KOI8-R) ] në dritaren e programit Internet Explorer Do të shfaqen simbolet e paraqitura në Fig. 3.11.

Oriz. 3.9. Karakteret e shfaqura me kodimin CP1251


Oriz. 3.10. Karakteret shfaqen kur kodimi CP866 është aktivizuar për një sekuencë kodi të përfaqësuar në kodimin CP1251


Oriz. 3.11. Karakteret shfaqen kur aktivizohet kodimi KOI8-R për një sekuencë kodi të përfaqësuar në kodimin CP1251


Kështu, të marra duke përdorur programin Internet Explorer sekuencat e karaktereve përkojnë me sekuencat e karaktereve të marra duke përdorur tabelat e kodeve CP866 dhe KOI8-R në shembullin 3.1.

3.2. Kodimi i informacionit grafik

Informacioni grafik i paraqitur në formën e fotografive, fotografive, rrëshqitjeve, imazheve lëvizëse (animacion, video), diagrame, vizatime mund të krijohet dhe modifikohet duke përdorur një kompjuter dhe kodohet në përputhje me rrethanat. Aktualisht, ekziston një numër mjaft i madh i programeve aplikative për përpunimin e informacionit grafik, por të gjitha ato zbatojnë tre lloje të grafikës kompjuterike: raster, vektor dhe fraktal.

Nëse shikoni më nga afër imazhin grafik në ekranin e monitorit të kompjuterit, mund të shihni një numër të madh pikash me shumë ngjyra (pikselë - nga anglishtja. piksel edukuar nga elementi i figurës - element i figurës), të cilat, kur mblidhen së bashku, formojnë një imazh të caktuar grafik. Nga kjo mund të konkludojmë: një imazh grafik në një kompjuter është i koduar në një mënyrë të caktuar dhe duhet të paraqitet në formën e një skedari grafik. Një skedar është njësia bazë strukturore e organizimit dhe ruajtjes së të dhënave në një kompjuter dhe, në këtë rast, duhet të përmbajë informacion se si të paraqitet ky grup pikash në ekranin e monitorit.

Skedarët e krijuar në bazë të grafikës vektoriale përmbajnë informacion në formën e marrëdhënieve matematikore (funksionet matematikore që përshkruajnë marrëdhëniet lineare) dhe të dhëna përkatëse se si të ndërtohet një imazh i një objekti duke përdorur segmente të linjës (vektorë) kur shfaqen në një monitor kompjuteri.

Skedarët e krijuar bazuar në grafikë raster kërkojnë ruajtjen e të dhënave për secilën pikë individuale në imazh. Për të shfaqur grafikë raster, nuk kërkohen llogaritjet komplekse matematikore, mjafton thjesht të merrni të dhëna për secilën pikë të figurës (koordinatat dhe ngjyrën e saj) dhe t'i shfaqni ato në ekranin e monitorit të kompjuterit.

Gjatë procesit të kodimit, një imazh diskretizohet në hapësirë, d.m.th., imazhi ndahet në pika individuale dhe secilës pikë i jepet një kod ngjyre (e verdhë, e kuqe, blu, etj.). Për të koduar secilën pikë të një imazhi grafik me ngjyra, përdoret parimi i zbërthimit të një ngjyre arbitrare në përbërësit e saj kryesorë, për të cilat përdoren tre ngjyra kryesore: e kuqe (fjala angleze E kuqe, shënohet me një shkronjë TE), jeshile (E gjelbër, shënohet me një shkronjë G), blu (Blu, shënohet me ahu NË).Çdo ngjyrë e një pike e perceptuar nga syri i njeriut mund të merret me shtimin (përzierjen) shtesë (proporcionale) të tre ngjyrave kryesore - të kuqe, jeshile dhe blu. Ky sistem kodimi quhet sistem ngjyrash RGB. Skedarët grafikë që përdorin një sistem ngjyrash RGB përfaqësojnë çdo pikë të imazhit si një treshe ngjyrash - tre vlera numerike R, G Dhe NË, intensitetet përkatëse të ngjyrave të kuqe, jeshile dhe blu. Procesi i kodimit të një imazhi grafik kryhet duke përdorur mjete të ndryshme teknike (skaner, aparat fotografik dixhital, kamera dixhitale video, etj.); rezultati është një imazh raster. Kur riprodhoni imazhe grafike me ngjyra në një ekran me ngjyra të monitorit të kompjuterit, ngjyra e secilës pikë (piksel) të një imazhi të tillë merret duke përzier tre ngjyra kryesore R, G Dhe B.

Cilësia e një imazhi raster përcaktohet nga dy parametra kryesorë - rezolucioni (numri i pikselëve horizontalisht dhe vertikalisht) dhe paleta e ngjyrave të përdorura (numri i ngjyrave të specifikuara për çdo piksel të figurës). Rezolucioni specifikohet duke treguar numrin e pikselëve horizontalisht dhe vertikalisht, për shembull 800 me 600 piksele.

Ekziston një lidhje midis numrit të ngjyrave të caktuara në një pikë në një imazh raster dhe sasisë së informacionit që duhet të ndahet për të ruajtur ngjyrën e pikës, të përcaktuar nga marrëdhënia (formula e R. Hartley):

Ku I- sasia e informacionit; N - numri i ngjyrave të caktuara në pikë.

Sasia e informacionit të kërkuar për të ruajtur ngjyrën e një pike quhet gjithashtu thellësia e ngjyrës, ose cilësia e paraqitjes së ngjyrave.

Pra, nëse numri i ngjyrave të specifikuara për një pikë imazhi është N= 256, atëherë sasia e informacionit të kërkuar për ruajtjen e tij (thellësia e ngjyrës) në përputhje me formulën (3.1) do të jetë e barabartë me I= 8 bit.

Kompjuterët përdorin mënyra të ndryshme grafike të monitorit për të shfaqur informacionin grafik. Këtu duhet theksuar se përveç modalitetit grafik të monitorit, ekziston edhe një modalitet teksti, në të cilin ekrani i monitorit ndahet në mënyrë konvencionale në 25 rreshta me 80 karaktere për rresht. Këto mënyra grafike karakterizohen nga rezolucioni i ekranit të monitorit dhe cilësia e ngjyrave (thellësia e ngjyrave). Për të vendosur modalitetin grafik të ekranit të monitorit në sistemin operativ MS Windows XP duhet të ekzekutoni komandën: [Button Filloni– Cilësimet – Paneli i kontrollit – Ekrani]. Në kutinë e dialogut "Properties: Screen" që shfaqet (Fig. 3.12), duhet të zgjidhni skedën "Parametrat" ​​dhe të përdorni rrëshqitësin "Rezolucioni i ekranit" për të zgjedhur rezolucionin e duhur të ekranit (800 me 600 piksele, 1024 me 768 piksele, etj.). Duke përdorur listën rënëse "Cilësia e ngjyrave", mund të zgjidhni thellësinë e ngjyrës - "Më e lartë (32 bit)", "Mesatarisht (16 bit)", etj., dhe numri i ngjyrave të caktuara për secilën pikë në imazh do të të jetë përkatësisht 2 32 (4294967296), 2 16 (65536), etj.

Oriz. 3.12. Kutia e dialogut të vetive të shfaqjes


Për të zbatuar secilën nga mënyrat grafike të ekranit të monitorit, kërkohet një sasi e caktuar memorie video kompjuterike. Vëllimi i kërkuar i informacionit të kujtesës video (V) përcaktohet nga relacioni

Ku TE - numri i pikave të imazhit në ekranin e monitorit (K = A · B); A - numri i pikave horizontale në ekranin e monitorit; NË - numri i pikave vertikale në ekranin e monitorit; I– sasia e informacionit (thellësia e ngjyrës).

Pra, nëse ekrani i monitorit ka një rezolucion prej 1024 me 768 piksele dhe një gamë të përbërë nga 65,536 ngjyra, atëherë thellësia e ngjyrës në përputhje me formulën (3.1) do të jetë I = log 2 65,538 = 16 bit, numri i pikselëve të imazhit do të të jetë i barabartë me: K = 1024 x 768 = 786432, dhe vëllimi i kërkuar i informacionit të kujtesës video në përputhje me (3.2) do të jetë i barabartë me

V= 786432 · 16 bit = 12582912 bit = 1572864 byte = 1536 KB = 1,5 MB.

Si përfundim, duhet theksuar se përveç karakteristikave të listuara, karakteristikat më të rëndësishme të një monitori janë dimensionet gjeometrike të ekranit të tij dhe pikat e imazhit. Dimensionet gjeometrike të ekranit përcaktohen nga madhësia diagonale e monitorit. Madhësia diagonale e monitorëve specifikohet në inç (1 inç = 1" = 25,4 mm) dhe mund të marrë vlera të barabarta me: 14", 15", 17", 21", etj. Teknologjitë moderne të prodhimit të monitorëve mund të ofrojnë një imazh madhësia e pikës e barabartë me 0.22 mm.

Kështu, për çdo monitor ekziston një rezolutë maksimale e mundshme fizike e ekranit, e përcaktuar nga madhësia e diagonales së tij dhe madhësia e pikës së imazhit.

Ushtrime për të bërë vetë

1. Përdorimi i programit MS Excel konvertoni tabelat e kodit ASCII, SR866, SR1251, KOI8-R në tabela të formës: në qelizat e kolonës së parë të tabelave shkruani sipas rendit alfabetik shkronjat e mëdha dhe më pas të vogla të alfabetit latin dhe cirilik, në qelizat e kolona e dytë - kodet që korrespondojnë me shkronjat në sistemin e numrave dhjetorë, në qelizat kolona e tretë janë kodet që korrespondojnë me shkronjat në sistemin e numrave heksadecimal. Vlerat e kodit duhet të zgjidhen nga tabelat përkatëse të kodit.

2. Kodoni dhe shkruani fjalët e mëposhtme si një sekuencë numrash në sistemet e numrave dhjetorë dhe heksadecimal:

a) Internet Explorer, b) Microsoft Office; V) CorelDRAW.

Kodimi kryhet duke përdorur tabelën e modernizuar të kodimit ASCII të marrë në ushtrimin e mëparshëm.

3. Duke përdorur tabelën e kodimit të modernizuar KOI8-R, deshifroni sekuencat e numrave të shkruar në sistemin heksadecimal të numrave:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Si do të duket fjala "Cybernetics" e shkruar në kodimin SR1251 kur përdorni kodimet SR866 dhe KOI8-R? Kontrolloni rezultatet duke përdorur programin Internet Explorer.

5. Duke përdorur tabelën e kodeve të paraqitur në Fig. 3.1 A, deshifroni sekuencat e mëposhtme të kodit të shkruara në sistemin e numrave binar:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Përcaktoni vëllimin e informacionit të fjalës "Ekonomi", të koduar duke përdorur tabelat e kodeve SR866, SR1251, Unicode dhe KOI8-R.

7. Përcaktoni vëllimin e informacionit të skedarit të marrë si rezultat i skanimit të një imazhi me ngjyra me përmasa 12x12 cm Rezolucioni i skanerit të përdorur për të skanuar këtë imazh është 600 dpi. Skaneri vendos thellësinë e ngjyrës së pikës së imazhit në 16 bit.

Rezolucioni i skanerit 600 dpi (inç pika - pika për inç) përcakton aftësinë e një skaneri me këtë rezolucion për të dalluar 600 pika në një segment 1 inç.

8. Përcaktoni vëllimin e informacionit të skedarit të marrë si rezultat i skanimit të një imazhi me ngjyra të madhësisë A4. Rezolucioni i skanerit të përdorur për të skanuar këtë imazh është 1200 dpi. Skaneri vendos thellësinë e ngjyrës së pikës së imazhit në 24 bit.

9. Përcaktoni numrin e ngjyrave në paleta në thellësi ngjyrash prej 8, 16, 24 dhe 32 bit.

10. Përcaktoni sasinë e kërkuar të kujtesës video për mënyrat grafike të ekranit të monitorit 640 me 480, 800 me 600, 1024 me 768 dhe 1280 me 1024 piksele me një thellësi ngjyrash të pikselit të imazhit prej 8, 16, 24 dhe 32 bit. Përmblidhni rezultatet në një tabelë. Zhvilloni në MS Excel program për automatizimin e llogaritjeve.

11. Përcaktoni numrin maksimal të ngjyrave që mund të përdoren për të ruajtur një imazh me përmasa 32 me 32 piksele, nëse kompjuteri ka 2 KB memorie të alokuar për imazhin.

12. Përcaktoni rezolucionin maksimal të mundshëm të një ekrani monitori me një gjatësi diagonale prej 15" dhe një madhësi të pikës së imazhit prej 0,28 mm.

13. Cilat mënyra grafike të monitorit mund të sigurohen nga 64 MB memorie video?

Përmbajtja

I. Historia e kodimit të informacionit………………………………..3

II. Kodimi i informacionit……………………………………………………4

III. Kodimi i informacionit të tekstit……………………………….4

IV. Llojet e tabelave koduese……………………………………………………………………………

V. Llogaritja e sasisë së informacionit në tekst…………………………14

Lista e referencave…………………………………..16

I . Historia e kodimit të informacionit

Njerëzimi ka përdorur enkriptimin (kodimin) e tekstit që nga momenti kur u shfaq informacioni i parë sekret. Këtu janë disa teknika të kodimit të tekstit që u shpikën në faza të ndryshme të zhvillimit të mendimit njerëzor:

Kriptografia është shkrim i fshehtë, një sistem i ndryshimit të shkrimit për ta bërë tekstin të pakuptueshëm për të painiciuarit;

Kodi Morse ose kodi i pabarabartë telegrafik, në të cilin çdo shkronjë ose shenjë përfaqësohet nga kombinimi i vet i shpërthimeve të shkurtra elementare të rrymës elektrike (pika) dhe shpërthimeve elementare me kohëzgjatje të trefishtë (dash);

gjuha e shenjave është një gjuhë e shenjave e përdorur nga njerëzit me dëmtim të dëgjimit.

Një nga metodat më të hershme të njohura të enkriptimit është emëruar pas perandorit romak Julius Caesar (shekulli I para Krishtit). Kjo metodë bazohet në zëvendësimin e secilës shkronjë të tekstit të koduar me një tjetër, duke zhvendosur alfabetin nga shkronja origjinale me një numër të caktuar karakteresh, dhe alfabeti lexohet në një rreth, domethënë pas shkronjës i, konsiderohet a. . Pra, fjala "byte", kur zhvendoset dy karaktere në të djathtë, kodohet me fjalën "gwlf". Procesi i kundërt i deshifrimit të një fjale të caktuar është i nevojshëm për të zëvendësuar secilën shkronjë të koduar me të dytën në të majtë të saj.

II. Informacion kodues

Një kod është një grup konventash (ose sinjalesh) për regjistrimin (ose komunikimin) e disa koncepteve të paracaktuara.

Kodimi i informacionit është procesi i formimit të një përfaqësimi specifik të informacionit. Në një kuptim më të ngushtë, termi "kodim" shpesh kuptohet si një kalim nga një formë e përfaqësimit të informacionit në një tjetër, më i përshtatshëm për ruajtje, transmetim ose përpunim.

Zakonisht, çdo imazh kur kodohet (nganjëherë quhet enkriptim) përfaqësohet nga një shenjë e veçantë.

Një shenjë është një element i një grupi të fundëm elementësh të ndryshëm nga njëri-tjetri.

Në një kuptim më të ngushtë, termi "kodim" shpesh kuptohet si një kalim nga një formë e përfaqësimit të informacionit në një tjetër, më i përshtatshëm për ruajtje, transmetim ose përpunim.

Ju mund të përpunoni informacionin e tekstit në një kompjuter. Kur futet në një kompjuter, çdo shkronjë është e koduar me një numër të caktuar dhe kur del në pajisje të jashtme (ekran ose printim), imazhet e shkronjave ndërtohen nga këta numra për perceptimin e njeriut. Korrespondenca midis një grupi shkronjash dhe numrash quhet kodim i karaktereve.

Si rregull, të gjithë numrat në një kompjuter përfaqësohen duke përdorur zero dhe njëshe (jo dhjetë shifra, siç është zakonisht për njerëzit). Me fjalë të tjera, kompjuterët zakonisht punojnë në sistemin e numrave binar, pasi kjo i bën pajisjet për përpunimin e tyre shumë më të thjeshta. Futja e numrave në një kompjuter dhe nxjerrja e tyre për lexim njerëzor mund të bëhet në formën e zakonshme dhjetore dhe të gjitha konvertimet e nevojshme kryhen nga programet që funksionojnë në kompjuter.

III. Kodimi i informacionit të tekstit

I njëjti informacion mund të paraqitet (i koduar) në disa forma. Me ardhjen e kompjuterëve, lindi nevoja për të koduar të gjitha llojet e informacionit me të cilat merren si individi ashtu edhe njerëzimi në tërësi. Por njerëzimi filloi të zgjidhte problemin e kodimit të informacionit shumë përpara ardhjes së kompjuterëve. Arritjet madhështore të njerëzimit - shkrimi dhe aritmetika - nuk janë gjë tjetër veçse një sistem për kodimin e të folurit dhe informacionit numerik. Informacioni nuk shfaqet kurrë në formën e tij të pastër, ai gjithmonë paraqitet disi, disi i koduar.

Kodimi binar është një nga mënyrat e zakonshme të paraqitjes së informacionit. Në kompjuterë, robotë dhe makina të kontrolluara numerikisht, si rregull, i gjithë informacioni me të cilin merret pajisja kodohet në formën e fjalëve të alfabetit binar.

Që nga fundi i viteve '60, kompjuterët janë përdorur gjithnjë e më shumë për të përpunuar informacionin e tekstit, dhe aktualisht pjesa më e madhe e kompjuterëve personalë në botë (dhe shumicën e kohës) janë të zënë me përpunimin e informacionit të tekstit. Të gjitha këto lloje të informacionit në një kompjuter paraqiten në kod binar, domethënë përdoret një alfabet i fuqisë dy (vetëm dy karaktere 0 dhe 1). Kjo për faktin se është i përshtatshëm për të përfaqësuar informacionin në formën e një sekuence të impulseve elektrike: nuk ka impuls (0), ka një impuls (1).

Një kodim i tillë zakonisht quhet binar, dhe sekuencat logjike të zerove dhe njësheve quhen gjuhë makine.

Nga pikëpamja kompjuterike, teksti përbëhet nga karaktere individuale. Simbolet përfshijnë jo vetëm shkronja (të mëdha ose të vogla, latine ose rusisht), por edhe numra, shenja pikësimi, karaktere të veçanta si "=", "(", "&", etj., dhe madje (kushtojini vëmendje të veçantë!) hapësirat. mes fjalëve.

Tekstet futen në kujtesën e kompjuterit duke përdorur tastierën. Shkronjat, numrat, shenjat e pikësimit dhe simbolet e tjera me të cilat jemi njohur janë të shkruara në taste. Ata futin RAM në kodin binar. Kjo do të thotë që çdo karakter përfaqësohet si një kod binar 8-bit.

Tradicionalisht, për të koduar një karakter, përdoret një sasi informacioni e barabartë me 1 bajt, d.m.th. I = 1 bajt = 8 bit. Duke përdorur një formulë që lidh numrin e ngjarjeve të mundshme K dhe sasinë e informacionit I, mund të llogaritni se sa simbole të ndryshme mund të kodohen (duke supozuar se simbolet janë ngjarje të mundshme): K = 2 I = 2 8 = 256, d.m.th. përfaqësojnë informacionin e tekstit, ju mund të përdorni një alfabet me një kapacitet prej 256 karaktere.

Ky numër karakteresh është mjaft i mjaftueshëm për të përfaqësuar informacionin e tekstit, duke përfshirë shkronjat e mëdha dhe të vogla të alfabetit rus dhe latin, numrat, shenjat, simbolet grafike, etj.

Kodimi konsiston në caktimin e çdo karakteri të një kodi dhjetor unik nga 0 në 255 ose një kod binar korrespondues nga 00000000 në 11111111. Kështu, një person i dallon karakteret sipas skicës së tyre dhe një kompjuter nga kodi i tyre.

Lehtësia e kodimit të karaktereve byte-pas-byte është e dukshme sepse një bajt është pjesa më e vogël e adresueshme e memories dhe, për rrjedhojë, procesori mund të qaset në secilin karakter veçmas kur përpunon tekstin. Nga ana tjetër, 256 karaktere është një numër mjaft i mjaftueshëm për të përfaqësuar një shumëllojshmëri të gjerë informacionesh simbolike.

Në procesin e shfaqjes së një simboli në një ekran kompjuteri, kryhet procesi i kundërt - dekodimi, domethënë konvertimi i kodit të simbolit në imazhin e tij. Është e rëndësishme që caktimi i një kodi specifik për një simbol është një çështje marrëveshjeje, e cila regjistrohet në tabelën e kodeve.

Tani shtrohet pyetja, cilin kod binar tetë-bit t'i caktojmë secilit karakter. Është e qartë se kjo është një çështje e kushtëzuar, ju mund të gjeni shumë metoda kodimi.

Të gjithë karakteret e alfabetit të kompjuterit numërohen nga 0 në 255. Çdo numër korrespondon me një kod binar tetë-bitësh nga 00000000 deri në 11111111. Ky kod është thjesht numri serial i karakterit në sistemin e numrave binar.

IV . Llojet e tabelave koduese

Një tabelë në të cilën të gjithë karaktereve të alfabetit të kompjuterit u caktohen numra serialë quhet tabelë koduese.

Lloje të ndryshme kompjuterësh përdorin tabela të ndryshme kodimi.

Tabela e kodeve ASCII (Kodi standard amerikan për shkëmbimin e informacionit) është miratuar si një standard ndërkombëtar, duke koduar gjysmën e parë të karaktereve me kode numerike nga 0 në 127 (kodet nga 0 në 32 nuk u caktohen karaktereve, por tasteve të funksionit) .

Tabela e kodeve ASCII është e ndarë në dy pjesë.

Vetëm gjysma e parë e tabelës është standardi ndërkombëtar, d.m.th. karaktere me numra nga 0 (00000000), deri në 127 (01111111).

Struktura e tabelës koduese ASCII

Numër serik Kodi Simboli
0 - 31 00000000 - 00011111

Simbolet me numra nga 0 në 31 zakonisht quhen simbole kontrolli.

Funksioni i tyre është të kontrollojnë procesin e shfaqjes së tekstit në ekran ose printimit, tingullit të një sinjali zanor, shënimit të tekstit, etj.

32 - 127 0100000 - 01111111

Pjesa standarde e tabelës (anglisht). Këtu përfshihen shkronjat e vogla dhe të mëdha të alfabetit latin, numrat dhjetorë, shenjat e pikësimit, të gjitha llojet e kllapave, simbolet tregtare dhe të tjera.

Karakteri 32 është një hapësirë, d.m.th. pozicion bosh në tekst.

Të gjitha të tjerat pasqyrohen nga shenja të caktuara.

128 - 255 10000000 - 11111111

Pjesa alternative e tabelës (rusisht).

Gjysma e dytë e tabelës së kodeve ASCII, e quajtur faqja e kodit (128 kode, duke filluar nga 10000000 dhe duke përfunduar me 11111111), mund të ketë opsione të ndryshme, secili opsion ka numrin e vet.

Faqja e kodit përdoret kryesisht për të akomoduar alfabete kombëtare të ndryshme nga latinishtja. Në kodimet kombëtare ruse, karakteret nga alfabeti rus vendosen në këtë pjesë të tabelës.

Gjysma e parë e tabelës së kodit ASCII

Ju lutemi vini re se në tabelën e kodimit, shkronjat (të mëdha dhe të vogla) janë renditur sipas rendit alfabetik, dhe numrat janë renditur në rend rritës. Ky respektim i rendit leksikografik në renditjen e simboleve quhet parimi i kodimit sekuencial të alfabetit.

Për shkronjat e alfabetit rus, respektohet gjithashtu parimi i kodimit sekuencial.

Gjysma e dytë e tabelës së kodit ASCII

Për fat të keq, aktualisht ekzistojnë pesë kodime të ndryshme cirilike (KOI8-R, Windows. MS-DOS, Macintosh dhe ISO). Për shkak të kësaj, shpesh lindin probleme me transferimin e tekstit rus nga një kompjuter në tjetrin, nga një sistem softuer në tjetrin.

Kronologjikisht, një nga standardet e para për kodimin e shkronjave ruse në kompjuter ishte KOI8 ("Kodi i shkëmbimit të informacionit, 8-bit"). Ky kodim u përdor përsëri në vitet '70 në kompjuterët e serisë kompjuterike ES, dhe nga mesi i viteve '80 filloi të përdoret në versionet e para të rusifikuara të sistemit operativ UNIX.

Nga fillimi i viteve '90, koha e mbizotërimit të sistemit operativ MS DOS, kodimi CP866 mbetet ("CP" do të thotë "Faqja e kodit", "faqja e kodit").

Kompjuterët Apple që përdorin sistemin operativ Mac OS përdorin kodimin e tyre Mac.

Për më tepër, Organizata Ndërkombëtare e Standardeve (ISO) ka miratuar një kodim tjetër të quajtur ISO 8859-5 si standard për gjuhën ruse.

Kodimi më i zakonshëm që përdoret aktualisht është Microsoft Windows, shkurtuar CP1251. Prezantuar nga Microsoft; Duke marrë parasysh shpërndarjen e gjerë të sistemeve operative (OS) dhe produkteve të tjera softuerike të kësaj kompanie në Federatën Ruse, ajo ka gjetur një shpërndarje të gjerë.

Që nga fundi i viteve '90, problemi i standardizimit të kodimit të karaktereve është zgjidhur me prezantimin e një standardi të ri ndërkombëtar të quajtur Unicode.

Ky është një kodim 16-bit, d.m.th. cakton 2 bajt memorie për çdo karakter. Sigurisht, kjo rrit sasinë e kujtesës së zënë me 2 herë. Por një tabelë e tillë kodi lejon përfshirjen deri në 65536 karaktere. Specifikimi i plotë i standardit Unicode përfshin të gjitha alfabetet ekzistuese, të zhdukura dhe të krijuara artificialisht të botës, si dhe shumë simbole matematikore, muzikore, kimike dhe të tjera.

Paraqitja e brendshme e fjalëve në kujtesën e kompjuterit

duke përdorur një tabelë ASCII

Ndonjëherë ndodh që një tekst i përbërë nga shkronja të alfabetit rus të marrë nga një kompjuter tjetër nuk mund të lexohet - një lloj "abracadabra" është i dukshëm në ekranin e monitorit. Kjo ndodh sepse kompjuterët përdorin kodime të ndryshme të karaktereve për gjuhën ruse.

Kështu, çdo kodim specifikohet nga tabela e tij e kodit. Siç mund të shihet nga tabela, karaktere të ndryshme i caktohen të njëjtit kod binar në kodime të ndryshme.

Për shembull, sekuenca e kodeve numerike 221, 194, 204 në kodimin CP1251 formon fjalën "kompjuter", ndërsa në kodime të tjera do të jetë një grup i pakuptimtë karakteresh.

Për fat të mirë, në shumicën e rasteve, përdoruesi nuk duhet të shqetësohet për transkodimin e dokumenteve të tekstit, pasi kjo bëhet nga programe të veçanta konvertuese të integruara në aplikacione.

V . Llogaritja e sasisë së informacionit të tekstit

Detyra 1: Kodoni fjalën "Romë" duke përdorur tabelat e kodimit KOI8-R dhe CP1251.

Zgjidhja:

Detyra 2: Duke supozuar se çdo karakter është i koduar në një bajt, vlerësoni vëllimin e informacionit të fjalisë së mëposhtme:

“Xhaxhai im ka rregullat më të ndershme,

Kur u sëmura rëndë,

Ai e detyroi veten të respektonte

Dhe nuk mund të mendoja për asgjë më të mirë."

Zgjidhja: Kjo frazë ka 108 karaktere, duke përfshirë shenjat e pikësimit, thonjëzat dhe hapësirat. Ne e shumëzojmë këtë numër me 8 bit. Marrim 108*8=864 bit.

Detyra 3: Të dy tekstet përmbajnë të njëjtin numër karakteresh. Teksti i parë është shkruar në rusisht, dhe i dyti në gjuhën e fisit Naguri, alfabeti i të cilit përbëhet nga 16 karaktere. Teksti i kujt përmban më shumë informacion?

Zgjidhja:

1) I = K * a (vëllimi i informacionit të tekstit është i barabartë me produktin e numrit të karaktereve dhe peshës së informacionit të një karakteri).

2) Sepse Të dy tekstet kanë të njëjtin numër karakteresh (K), atëherë ndryshimi varet nga përmbajtja e informacionit të një karakteri të alfabetit (a).

3) 2 a1 = 32, d.m.th. a 1 = 5 bit, 2 a2 = 16, d.m.th. dhe 2 = 4 bit.

4) I 1 = K * 5 bit, I 2 = K * 4 bit.

5) Kjo do të thotë që teksti i shkruar në Rusisht përmban 5/4 herë më shumë informacion.

Detyra 4: Madhësia e mesazhit, që përmban 2048 karaktere, ishte 1/512 e një MB. Përcaktoni fuqinë e alfabetit.

Zgjidhja:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bit - konvertoi vëllimin e informacionit të mesazhit në bit.

2) a = I / K = 16384 /1024 = 16 bit - llogarit një karakter të alfabetit.

3) 2*16*2048 = 65536 karaktere – fuqia e alfabetit të përdorur.

Detyra 5: Printeri lazer Canon LBP printon me një shpejtësi mesatare prej 6,3 Kbps. Sa kohë do të duhet për të printuar një dokument me 8 faqe, nëse e dini se një faqe ka mesatarisht 45 rreshta dhe 70 karaktere për rresht (1 karakter - 1 bajt)?

Zgjidhja:

1) Gjeni sasinë e informacionit që përmban 1 faqe: 45 * 70 * 8 bit = 25200 bit

2) Gjeni sasinë e informacionit në 8 faqe: 25200 * 8 = 201600 bit

3) Ne reduktojmë në njësi të zakonshme matëse. Për ta bërë këtë, ne konvertojmë Mbit në bit: 6.3*1024=6451.2 bit/sek.

4) Gjeni kohën e printimit: 201600: 6451.2 =31 sekonda.

Bibliografi

1. Ageev V.M. Teoria e informacionit dhe kodimit: kampionimi dhe kodimi i informacionit të matjes. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Bazat e teorisë dhe kodimit të informacionit. - Kiev, shkolla Vishcha, 1986.

3. Metodat më të thjeshta të kriptimit të tekstit / D.M. Zlatopolsky. – M.: Chistye Prudy, 2007 – 32 f.

4. Ugrinovich N.D. Shkenca kompjuterike dhe teknologjia e informacionit. Libër mësuesi për klasat 10-11 / N.D. Ugrinovich. – M.: BINOM. Laboratori i Dijes, 2003. – 512 f.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Material për vetë-studim në temën e Leksionit 2

Kodimi ASCII

Tabela e kodimit ASCII (ASCII - Kodi standard amerikan për shkëmbimin e informacionit - Kodi standard amerikan për shkëmbimin e informacionit).

Në total, 256 karaktere të ndryshme mund të kodohen duke përdorur tabelën e kodimit ASCII (Figura 1). Kjo tabelë është e ndarë në dy pjesë: kryesore (me kode nga OOh deri në 7Fh) dhe ajo shtesë (nga 80h në FFh, ku shkronja h tregon se kodi i përket sistemit të numrave heksadecimal).

Foto 1

Për të koduar një karakter nga tabela, ndahen 8 bit (1 bajt). Kur përpunoni informacionin e tekstit, një bajt mund të përmbajë kodin e një karakteri të caktuar - një shkronjë, numër, shenjë pikësimi, shenjë veprimi, etj. Çdo karakter ka kodin e vet në formën e një numri të plotë. Në këtë rast, të gjitha kodet mblidhen në tabela të veçanta të quajtura tabela kodimi. Me ndihmën e tyre, kodi i simbolit shndërrohet në paraqitjen e tij të dukshme në ekranin e monitorit. Si rezultat, çdo tekst në kujtesën e kompjuterit përfaqësohet si një sekuencë bajtesh me kode karakteresh.

Për shembull, fjala përshëndetje! do të kodohet si më poshtë (Tabela 1).

Tabela 1

Kodi binar

Kodi dhjetor

Figura 1 tregon karakteret e përfshira në kodimin standard (anglisht) dhe të zgjeruar (rusisht) ASCII.

Gjysma e parë e tabelës ASCII është e standardizuar. Ai përmban kode kontrolli (nga 00h deri në 20h dhe 77h). Këto kode janë hequr nga tabela sepse nuk zbatohen për elementët e tekstit. Këtu vendosen edhe shenjat e pikësimit dhe simbolet matematikore: 2lh - !, 26h - &, 28h - (, 2Bh -+,..., germa latine të mëdha dhe të vogla: 41h - A, 61h – a.

Gjysma e dytë e tabelës përmban shkronja kombëtare, simbole pseudografike nga të cilat mund të ndërtohen tabelat dhe simbole të veçanta matematikore. Pjesa e poshtme e tabelës së kodimit mund të zëvendësohet duke përdorur drejtuesit e duhur - programet ndihmëse të kontrollit. Kjo teknikë ju lejon të përdorni disa shkronja dhe shkronjat e tyre.

Ekrani për çdo kod simboli duhet të shfaqë një imazh të simbolit - jo vetëm një kod dixhital, por një fotografi përkatëse, pasi çdo simbol ka formën e vet. Një përshkrim i formës së çdo karakteri ruhet në një memorie të veçantë të ekranit - një gjenerues karakteresh. Shfaqja e një karakteri në ekranin e një ekrani të PC IBM, për shembull, kryhet duke përdorur pika që formojnë një matricë karakteresh. Çdo piksel në një matricë të tillë është një element imazhi dhe mund të jetë i ndritshëm ose i errët. Një pikë e errët është e koduar si 0, një pikë e lehtë (e ndritshme) si 1. Nëse përfaqësoni pikselët e errët në fushën e matricës së një shenje si një pikë dhe pikselat e lehta si një yll, mund të përshkruani grafikisht formën e simbolit.

Njerëzit në vende të ndryshme përdorin simbole për të shkruar fjalë në gjuhët e tyre amtare. Këto ditë, shumica e aplikacioneve, duke përfshirë sistemet e postës elektronike dhe shfletuesit e uebit, janë të pastër 8-bit, që do të thotë se mund të shfaqin dhe pranojnë saktë karaktere 8-bitësh, sipas standardit ISO-8859-1.

Ka më shumë se 256 karaktere në botë (nëse merrni parasysh cirilik, arabisht, kinezisht, japonez, korean dhe tajlandez), dhe gjithnjë e më shumë karaktere të reja po shfaqen. Dhe kjo krijon boshllëqet e mëposhtme për shumë përdorues:

Nuk është e mundur të përdoren karaktere nga grupe të ndryshme kodimi në të njëjtin dokument. Meqenëse çdo dokument teksti përdor grupin e vet të kodimeve, ka vështirësi të mëdha me njohjen automatike të tekstit.

Shfaqen simbole të reja (për shembull: Euro), si rezultat i të cilave ISO po zhvillon një standard të ri, ISO-8859-15, i cili është shumë i ngjashëm me standardin ISO-8859-1. Dallimi është se tabela e vjetër e kodimit ISO-8859-1 ka hequr simbolet për monedhat e vjetra që nuk janë aktualisht në përdorim për të lënë vend për simbolet e reja të prezantuara (si për shembull Euro). Si rezultat, përdoruesit mund të kenë të njëjtat dokumente në disqet e tyre, por në kodime të ndryshme. Zgjidhja e këtyre problemeve është miratimi i një grupi të vetëm ndërkombëtar kodimesh të quajtur Kodimi Universal ose Unicode.

Kodimi Unicode

Standardi u propozua në 1991 nga organizata jofitimprurëse Unicode Consortium, Unicode Inc. Përdorimi i këtij standardi ju lejon të kodoni një numër shumë të madh karakteresh nga skriptet e ndryshme: Dokumentet Unicode mund të përmbajnë karaktere kineze, simbole matematikore, shkronja të alfabetit grek, alfabet latin dhe cirilik, dhe ndërrimi i faqeve të kodit bëhet i panevojshëm.

Standardi përbëhet nga dy seksione kryesore: grupi universal i karaktereve (UCS) dhe familja e kodimit (UTF, formati i transformimit Unicode). Grupi universal i karaktereve specifikon një korrespondencë një-për-një midis karaktereve dhe kodeve - elementë të hapësirës së kodit që përfaqësojnë numra të plotë jo negativë. Një familje kodimi përcakton paraqitjen e makinës të një sekuence kodesh UCS.

Standardi Unicode u zhvillua për të krijuar një kodim të vetëm karakteresh për të gjitha gjuhët e shkruara moderne dhe shumë të lashta. Çdo karakter në këtë standard është i koduar me 16 bit, gjë që e lejon atë të mbulojë një numër pakrahasueshëm më të madh karakteresh sesa kodimet 8-bitëshe të pranuara më parë. Një tjetër ndryshim i rëndësishëm midis Unicode dhe sistemeve të tjera të kodimit është se ai jo vetëm që cakton një kod unik për çdo karakter, por gjithashtu përcakton karakteristika të ndryshme të atij karakteri, për shembull:

    lloji i karakterit (shkronja e madhe, shkronja e vogël, numri, shenja e pikësimit, etj.);

    atributet e karaktereve (shfaqja nga e majta në të djathtë ose nga e djathta në të majtë, hapësira, ndërprerja e rreshtit, etj.);

    shkronja përkatëse e madhe ose e vogël (përkatësisht për shkronjat e vogla dhe të mëdha);

    vlerën numerike përkatëse (për karakteret numerike).

I gjithë diapazoni i kodeve nga 0 në FFFF është i ndarë në disa nëngrupe standarde, secila prej të cilave korrespondon ose me alfabetin e një gjuhe ose me një grup karakteresh të veçanta që janë të ngjashëm në funksionet e tyre. Diagrami më poshtë përmban një listë të përgjithshme të nëngrupeve Unicode 3.0 (Figura 2).

Figura 2

Standardi Unicode është baza për ruajtjen e tekstit në shumë sisteme kompjuterike moderne. Megjithatë, ai nuk është i pajtueshëm me shumicën e protokolleve të internetit, sepse kodet e tij mund të përmbajnë çdo vlerë bajt, dhe protokollet zakonisht përdorin bajt 00 - 1F dhe FE - FF si bajt shërbimi. Për të arritur përputhshmërinë, janë zhvilluar disa Formate të Transformimit të Unicode (UTF), nga të cilat UTF-8 është deri tani më i zakonshmi. Ky format përcakton rregullat e mëposhtme për konvertimin e çdo kodi Unicode në një grup bajtësh (një deri në tre) të përshtatshëm për transport nga protokollet e Internetit.

Këtu x, y, z tregojnë pjesët e kodit burimor që duhet të nxirren, së pari më pak të rëndësishme, dhe të futen në bajtet e rezultatit nga e djathta në të majtë derisa të plotësohen të gjitha pozicionet e specifikuara.

Zhvillimi i mëtejshëm i standardit Unicode shoqërohet me shtimin e planeve të reja gjuhësore, d.m.th. karaktere në intervalet 10000 - 1FFFF, 20000 - 2FFFF, etj., ku supozohet të përfshijë kodimin për skriptet e gjuhëve të vdekura që nuk përfshihen në tabelën e mësipërme. Një format i ri, UTF-16, u zhvillua për të koduar këto karaktere shtesë.

Pra, ekzistojnë 4 mënyra kryesore për të koduar bajtet e Unicode:

UTF-8: 128 karaktere të koduara në një bajt (format ASCII), 1920 karaktere të koduara në 2 bajt ((shkronja romake, greke, cirilike, kopte, armene, hebraike, arabe), 63488 karaktere të koduara në 3 bajt (kineze, japoneze etj. .) 2,147,418,112 karakteret e mbetura (jo të përdorura ende) mund të kodohen me 4, 5 ose 6 bajt.

UCS-2: Çdo karakter përfaqësohet nga 2 bajt. Ky kodim përfshin vetëm 65,535 karakteret e para nga formati Unicode.

UTF-16: Një zgjerim i UCS-2, ai përmban 1,114,112 karaktere të formatit Unicode. 65.535 karakteret e para përfaqësohen me 2 bajt, pjesa tjetër me 4 bajt.

USC-4: Çdo karakter është i koduar në 4 bajt.

Nga rruga, në faqen tonë të internetit mund të konvertoni çdo tekst në kod dhjetor, heksadecimal, binar duke përdorur Kalkulatorin e Kodit në internet.

Tabela ASCII

ASCII (Kodi standard amerikan për shkëmbimin e informacionit)

Tabela përmbledhëse e kodeve ASCII

Tabela e kodit të karaktereve të Windows ASCII (Win-1251)

Simboli

specialist. Tabelimi

specialist. LF (Kthimi me karrocë)

specialist. CR (Linja e re)

tufë SP (Hapësirë)

Simboli

Tabela e zgjeruar e kodit ASCII

Formatimi i simboleve.

Backspace (Ktheje një karakter). Tregon që mekanizmi i printimit ose kursori i ekranit po lëviz një pozicion prapa.

Tabela horizontale. Tregon lëvizjen e motorit të printimit ose të kursorit të ekranit në "stop ndalesën" tjetër të përshkruar.

Furnizimi i linjës. Tregon lëvizjen e mekanizmit të printimit ose kursorit të ekranit në fillim të rreshtit tjetër (në një rresht poshtë).

Tabelimi vertikal. Tregon lëvizjen e motorit të printimit ose kursorit të ekranit në grupin vijues të rreshtave.

Furnizimi i formularit. Tregon lëvizjen e motorit të printimit ose kursorit të ekranit në pozicionin fillestar të faqes, formularit ose ekranit tjetër.

Kthim ngarkese. Tregon lëvizjen e mekanizmit të printimit ose kursorit të ekranit në pozicionin kryesor (më të majtë) të linjës aktuale.

Transferimi i të dhënave.

Fillimi i titullit. Përdoret për të përcaktuar fillimin e një titulli, i cili mund të përmbajë informacione rutimi ose një adresë.

Fillimi i tekstit. Tregon fillimin e tekstit dhe në të njëjtën kohë fundin e titullit.

Fundi i tekstit. Zbatohet kur përfundon tekstin që fillon me karakterin STX.

hetim. Kërkesë për të dhëna identifikimi (si p.sh. "Kush je ti?") nga një stacion i largët.

pranoni. Pajisja marrëse ia transmeton këtë karakter dërguesit si konfirmim për marrjen e suksesshme të të dhënave.

Mirënjohja negative. Pajisja marrëse ia transmeton këtë karakter dërguesit në rast të refuzimit (dështimit) të marrjes së të dhënave.

Sinkron/Idle. Përdoret në sistemet e transmisionit të sinkronizuar. Kur nuk ka transmetim të të dhënave, sistemi dërgon vazhdimisht simbolet SYN për të siguruar sinkronizimin.

Fundi i bllokut të transmetimit. Tregon fundin e një blloku të dhënash për qëllime komunikimi. Përdoret për të ndarë sasi të mëdha të dhënash në blloqe të veçanta.

Ndarja e shenjave gjatë transmetimit të informacionit.

Simbole të tjera.

I pavlefshëm. (Pa karakter - pa të dhëna). Përdoret për transmetim kur nuk ka të dhëna.

Zile (Thirrje). Përdoret për të kontrolluar pajisjet e alarmit.

Zhvendos jashtë. Tregon që të gjitha fjalët e koduara pasuese duhet të interpretohen sipas grupit të karaktereve të jashtme përpara mbërritjes së karakterit SI.

Shift In. Tregon që kombinimet pasuese të kodeve duhet të interpretohen sipas grupit standard të karaktereve.

Arratisja e lidhjes së të dhënave. Ndryshimi i kuptimit të karaktereve të mëposhtme. Përdoret për kontroll shtesë ose për transmetimin e një kombinimi arbitrar të biteve.

DC1, DC2, DC3, DC4

Kontrollet e pajisjes. Simbolet për funksionimin e pajisjeve ndihmëse (funksione speciale).

Anulo. Tregon që të dhënat që i paraprijnë këtij karakteri në një mesazh ose bllok duhet të injorohen (zakonisht nëse zbulohet një gabim).

Fundi i Mediumit. Tregon fundin fizik të një shiriti ose mediumi tjetër ruajtës

Zëvendësues. Përdoret për të zëvendësuar një karakter të gabuar ose të pavlefshëm.

Arratisje (Zgjerim). Përdoret për të zgjeruar kodin duke treguar se një karakter pasues ka një kuptim alternativ.

Hapësirë. Një karakter pa printim që përdoret për të ndarë fjalët ose për të lëvizur motorin e printimit ose kursorin e ekranit një pozicion përpara.

Fshije. Përdoret për të hequr (fshirë) karakterin e mëparshëm në një mesazh

Çdo kompjuter ka grupin e vet të karaktereve që ai zbaton. Ky grup përmban 26 shkronja të mëdha dhe të vogla, numra dhe karaktere speciale (pikë, hapësirë, etj.). Kur konvertohen në numra të plotë, simbolet quhen kode. Standardet u zhvilluan në mënyrë që kompjuterët të kishin të njëjtat grupe kodesh.

Standardi ASCII

ASCII (American Standard Code for Information Interchange) është një kod standard amerikan për shkëmbimin e informacionit. Çdo karakter ASCII ka 7 bit, kështu që numri maksimal i karaktereve është 128 (Tabela 1). Kodet 0 deri në 1F janë karaktere kontrolli që nuk printohen. Për transmetimin e të dhënave nevojiten shumë karaktere ASCII jo të printueshme. Për shembull, një mesazh mund të përbëhet nga karakteri i fillimit të titullit SOH, vetë titulli dhe karakteri i fillimit të tekstit STX, vetë teksti dhe karakteri i fundit i tekstit ETX, dhe fundi i transmetimit personazhi EOT. Sidoqoftë, të dhënat përmes rrjetit transmetohen në pako, të cilat vetë janë përgjegjëse për fillimin dhe përfundimin e transmetimit. Pra, karakteret jo të printueshme pothuajse nuk përdoren kurrë.

Tabela 1 - Tabela e kodit ASCII

Numri Ekipi Kuptimi Numri Ekipi Kuptimi
0 NUL Treguesi null 10 DLE Dalja nga sistemi i transmetimit
1 SOH fillimi i titullit 11 DC1 Menaxhimi i pajisjes
2 STX Fillimi i tekstit 12 DC2 Menaxhimi i pajisjes
3 ETX Fundi i tekstit 13 DC3 Menaxhimi i pajisjes
4 EOT Fundi i transmetimit 14 DC4 Menaxhimi i pajisjes
5 ACK Kërkesë 15 N.A.K. Moskonfirmimi i pritjes
6 BEL Konfirmimi i pranimit 16 SYN E thjeshtë
7 B.S. Simboli i ziles 17 ETB Fundi i bllokut të transmetimit
8 HT Hap prapa 18 MUND shenjë
9 LF Tabelimi horizontal 19 E.M. Fundi i medias
A VT Përkthimi i linjës 1A NËN Abonim
B FF Skeda vertikale 1B ESC Dilni
C CR Përkthimi i faqes 1C FS Ndarës i skedarëve
D KËSHTU QË Kthim ngarkese 1D G.S. Ndarës grupi
E S.I. Kaloni në regjistër shtesë 1E R.S. Ndarës i rekordit
S.I. Kalo në kasë standarde 1F SHBA Ndarës i moduleve
Numri Simboli Numri Simboli Numri Simboli Numri Simboli Numri Simboli Numri Simboli
20 hapësirë 30 0 40 @ 50 P 60 . 70 fq
21 ! 31 1 41 A 51 P 61 a 71 q
22 32 2 42 B 52 R 62 b 72 r
23 # 33 3 43 C 53 S 63 c 73 s
24 φ 34 4 44 D 54 T 64 d 74 t
25 % 35 5 45 E 55 DHE 65 e 75 Dhe
26 & 36 6 46 F 56 V 66 f 76 v
27 37 7 47 G 57 W 67 g 77 w
28 ( 38 8 48 H 58 X 68 h 78 x
29 ) 39 9 49 I 59 Y 69 i 70 y
2A 3A ; 4A J 5A Z 6A j 7A z
2B + 3B ; 4B K 5B [ 6B k 7B {
2C 3C < 4C L 5C \ 6C l 7C |
2D 3D = 4D M 5D ] 6D m 7D }
2E 3E > 4E N 5E 6E n 7E ~
2F / 3F g 4F O 5F _ 6F o 7F DEL

Standardi Unicode

Kodimi i mëparshëm është i mirë për anglishten, por nuk është i përshtatshëm për gjuhët e tjera. Për shembull, gjermanishtja ka umlaut, dhe frëngjishtja ka mbishkrime. Disa gjuhë kanë alfabete krejtësisht të ndryshme. Përpjekja e parë për të zgjeruar ASCII ishte IS646, e cila zgjeroi kodimin e mëparshëm me 128 karaktere shtesë. U shtuan shkronja latine me goditje dhe diakritikë dhe morën emrin - Latin 1. Përpjekja tjetër ishte IS 8859 - e cila përmbante një faqe kodi. Kishte edhe përpjekje për zgjerime, por kjo nuk ishte universale. U krijua kodimi UNICODE (është 10646). Ideja pas kodimit është që çdo karakteri t'i caktohet një vlerë e vetme konstante 16-bitëshe, e cila quhet - treguesi i kodit. Në total janë 65536 tregues. Për të kursyer hapësirë, ne përdorëm Latin-1 për kodet 0 -255, duke ndryshuar lehtësisht ASII në UNICODE. Ky standard zgjidhi shumë probleme, por jo të gjitha. Për shkak të ardhjes së fjalëve të reja, për shembull, për gjuhën japoneze, është e nevojshme të rritet numri i termave me rreth 20 mijë.



 Top