mājas › Pakalpojumi › Paplašināta simbolu tabula. Teksta informācijas kodēšana

Paplašināta simbolu tabula. Teksta informācijas kodēšana

Rakstzīmju pārklājums

BS (backspace) rakstzīme ļauj printerim drukāt vienu rakstzīmi virs otras. ASCII ir paredzēts, lai burtiem pievienotu diakritikas šādā veidā, piemēram:

a BS " → á
a BS ` → à
a BS ^ → â
o BS / → ø
c BS , → ç
n BS ~ → с

Piezīme: vecos fontos apostrofs " tika zīmēts slīpi pa kreisi, un tilde ~ tika pārvietota uz augšu, tāpēc tie atbilst akūts un tildes lomai augšpusē.

Ja uz rakstzīmes tiek uzklāta viena un tā pati rakstzīme, rezultāts ir treknrakstā fonta efekts, un, ja rakstzīmei tiek uzklāts pasvītrojums, rezultāts ir pasvītrots teksts.

a BS a → a
aBS_→ a

Piezīme: To izmanto, piemēram, vīriešu palīdzības sistēmā.

Nacionālie ASCII varianti

ISO 646 (ECMA-6) standarts paredz iespēju izvietot valsts simbolus @ [ \ ] ^ ` { | } ~ . Papildus tam uz vietas # var izlikt £ , un vietā $ - ¤ . Šī sistēma ir labi piemērota Eiropas valodām, kur nepieciešamas tikai dažas papildu rakstzīmes. ASCII versiju bez nacionālajām rakstzīmēm sauc par US-ASCII jeb "Starptautisko atsauces versiju".

Pēc tam izrādījās ērtāk izmantot 8 bitu kodējumus (kodu lapas), kur kodu tabulas apakšējo pusi (0-127) aizņem US-ASCII rakstzīmes, bet augšējo pusi (128-255) ar papildu rakstzīmēm, tostarp nacionālo rakstzīmju kopu. Tādējādi ASCII tabulas augšējā puse pirms Unicode plašās ieviešanas tika aktīvi izmantota, lai attēlotu lokalizētas rakstzīmes, vietējās valodas burtus. Vienota standarta trūkums kirilicas rakstzīmju ievietošanai ASCII tabulā radīja daudzas problēmas ar kodējumu (KOI-8, Windows-1251 un citiem). Citas valodas ar rakstiem, kas nav latīņu rakstības, arī cieta no vairāku dažādu kodējumu.

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
0.	NUL	SOM	EOA	EOM	EQT	W.R.U.	RU	ZVANS	BKSP	HT	LF	VT	FF	CR	SO	S.I.
1.	DC 0	DC 1	DC 2	DC 3	DC 4	ERR	SYNC	L.E.M.	S 0	S 1	S 2	S 3	S 4	S 5	S 6	S 7
2.
3.
4.	TUKŠS	!	"	#	$	%	&	"	(	)	*	+	,	-	.	/
5.	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
6.
7.
8.
9.
A.	@	A	B	C	D	E	F	G	H	es	Dž	K	L	M	N	O
B.	P	J	R	S	T	U	V	W	X	Y	Z	[	\	]		←
C.
D.
E.		a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
F.	lpp	q	r	s	t	u	v	w	x	y	z				ESC	DEL

Tajos datoros, kur minimālā adresējamā atmiņas vienība bija 36 bitu vārds, sākotnēji tika izmantotas 6 bitu rakstzīmes (1 vārds = 6 rakstzīmes). Pēc pārejas uz ASCII šādos datoros sāka būt vai nu 5 septiņu bitu rakstzīmes (1 bits palika papildus), vai 4 deviņu bitu rakstzīmes vienā vārdā.

ASCII kodus izmanto arī, lai noteiktu, kurš taustiņš tiek nospiests programmēšanas laikā. Standarta QWERTY tastatūrai kodu tabula izskatās šādi:

Tiek izsaukta rakstzīmju kopa, ar kuru tiek rakstīts teksts alfabēts.

Rakstzīmju skaits alfabētā ir tā jauda.

Formula informācijas apjoma noteikšanai: N=2b,

kur N ir alfabēta pakāpe (rakstzīmju skaits),

b – bitu skaits (simbola informācijas svars).

Alfabēts ar ietilpību 256 rakstzīmes var uzņemt gandrīz visas nepieciešamās rakstzīmes. Šo alfabētu sauc pietiekams.

Jo 256 = 2 8, tad 1 rakstzīmes svars ir 8 biti.

Mērvienībai 8 biti tika dots nosaukums 1 baits:

1 baits = 8 biti.

Katras rakstzīmes binārais kods datora tekstā aizņem 1 baitu atmiņas.

Kā teksta informācija tiek attēlota datora atmiņā?

Bitu pa baitam rakstzīmju kodēšanas ērtības ir acīmredzamas, jo baits ir mazākā adresējamā atmiņas daļa, un tāpēc procesors, apstrādājot tekstu, var piekļūt katrai rakstzīmei atsevišķi. No otras puses, 256 rakstzīmes ir pietiekami daudz, lai attēlotu visdažādāko simbolisko informāciju.

Tagad rodas jautājums, kuru astoņu bitu bināro kodu piešķirt katrai rakstzīmei.

Ir skaidrs, ka tas ir nosacīts jautājums, jūs varat nākt klajā ar daudzām kodēšanas metodēm.

Visas datora alfabēta rakstzīmes ir numurētas no 0 līdz 255. Katrs cipars atbilst astoņu bitu binārajam kodam no 00000000 līdz 11111111. Šis kods ir vienkārši rakstzīmes sērijas numurs binārajā skaitļu sistēmā.

Tabulu, kurā visām datora alfabēta rakstzīmēm ir piešķirti sērijas numuri, sauc par kodēšanas tabulu.

Dažādu veidu datoros tiek izmantotas dažādas kodēšanas tabulas.

Tabula ir kļuvusi par starptautisku standartu personālajiem datoriem ASCII(lasīt aski) (Amerikas standarta informācijas apmaiņas kods).

ASCII kodu tabula ir sadalīta divās daļās.

Tikai tabulas pirmā puse ir starptautiskais standarts, t.i. simboli ar cipariem no 0 (00000000), līdz 127 (01111111).

ASCII kodēšanas tabulas struktūra

Sērijas numurs	Kods	Simbols
0 - 31	00000000 - 00011111	Simbolus ar cipariem no 0 līdz 31 parasti sauc par vadības simboliem. To funkcija ir kontrolēt teksta parādīšanas ekrānā vai drukāšanas procesu, skaņas signāla atskaņošanu, teksta iezīmēšanu utt.
32 - 127	00100000 - 01111111	Standarta tabulas daļa (angļu val.). Tas ietver latīņu alfabēta mazos un lielos burtus, decimālskaitļus, pieturzīmes, visa veida iekavas, komerciālos un citus simbolus. 32. rakstzīme ir atstarpe, t.i. tukša vieta tekstā. Visi pārējie ir atspoguļoti noteiktās zīmēs.
128 - 255	10000000 - 11111111	Alternatīvā tabulas daļa (krievu val.). ASCII kodu tabulas otrajā pusē, ko sauc par kodu lapu (128 kodi, sākot no 10000000 un beidzot ar 11111111), var būt dažādas opcijas, katrai opcijai ir savs numurs. Kodu lapa galvenokārt tiek izmantota, lai iekļautu nacionālos alfabētus, izņemot latīņu alfabētu. Krievu nacionālajos kodējumos šajā tabulas daļā ir ievietotas rakstzīmes no krievu alfabēta.

ASCII kodu tabulas pirmā puse

Lūdzu, ņemiet vērā, ka kodēšanas tabulā burti (lielie un mazie) ir sakārtoti alfabētiskā secībā, un cipari ir sakārtoti augošā secībā. Šo leksikogrāfiskās kārtības ievērošanu rakstzīmju izkārtojumā sauc par alfabēta secīgās kodēšanas principu.

Krievu alfabēta burtiem tiek ievērots arī secīgās kodēšanas princips.

ASCII kodu tabulas otrā puse

Diemžēl šobrīd ir pieci dažādi kirilicas kodējumi (KOI8-R, Windows. MS-DOS, Macintosh un ISO). Šī iemesla dēļ bieži rodas problēmas ar krievu valodas teksta pārsūtīšanu no viena datora uz otru, no vienas programmatūras sistēmas uz citu.

Hronoloģiski viens no pirmajiem standartiem krievu burtu kodēšanai datoros bija KOI8 ("Informācijas apmaiņas kods, 8-bit"). Šis kodējums tika izmantots 70. gados ES datoru sērijas datoros, un no 80. gadu vidus to sāka izmantot pirmajās operētājsistēmas UNIX rusificētajās versijās.

No 90. gadu sākuma, MS DOS operētājsistēmas dominēšanas laika, saglabājas CP866 kodējums ("CP" nozīmē "koda lapa", "koda lapa").

Apple datori, kuros darbojas operētājsistēma Mac OS, izmanto savu Mac kodējumu.

Turklāt Starptautiskā standartu organizācija (ISO) ir apstiprinājusi citu kodējumu ar nosaukumu ISO 8859-5 kā krievu valodas standartu.

Pašlaik visbiežāk izmantotais kodējums ir Microsoft Windows, saīsināts CP1251.

Kopš 90. gadu beigām rakstzīmju kodēšanas standartizācijas problēma ir atrisināta, ieviešot jaunu starptautisku standartu ar nosaukumu. Unicode. Šis ir 16 bitu kodējums, t.i. tas katrai rakstzīmei piešķir 2 baitus atmiņas. Protams, tas palielina aizņemtās atmiņas apjomu 2 reizes. Bet šāda kodu tabula ļauj iekļaut līdz 65536 rakstzīmēm. Pilnīgā Unicode standarta specifikācijā ir iekļauti visi pasaulē esošie, izmirušie un mākslīgi izveidotie alfabēti, kā arī daudzi matemātiskie, muzikālie, ķīmiskie un citi simboli.

Mēģināsim izmantot ASCII tabulu, lai iedomāties, kā vārdi izskatīsies datora atmiņā.

Vārdu iekšējais attēlojums datora atmiņā

Dažreiz gadās, ka tekstu, kas sastāv no krievu alfabēta burtiem, kas saņemts no cita datora, nevar nolasīt - monitora ekrānā ir redzama sava veida “abrakadabra”. Tas notiek tāpēc, ka datori izmanto dažādus krievu valodas rakstzīmju kodējumus.

Atcerēsimies dažus mums zināmus faktus:

Simbolu kopu, ar kuru tiek rakstīts teksts, sauc par alfabētu.

Rakstzīmju skaits alfabētā ir tā kardinalitāte.

Formula informācijas apjoma noteikšanai: N = 2 b,

kur N ir alfabēta pakāpe (rakstzīmju skaits),

b - bitu skaits (simbola informācijas svars).

Alfabēts ar ietilpību 256 rakstzīmes var uzņemt gandrīz visas nepieciešamās rakstzīmes. Šādu alfabētu sauc par pietiekamu.

Jo 256 = 28 , tad 1 rakstzīmes svars ir 8 biti.

Mērvienībai 8 biti tika dots nosaukums 1 baits:

1 baits = 8 biti.

Katras rakstzīmes binārais kods datora tekstā aizņem 1 baitu atmiņas.

Kā teksta informācija tiek attēlota datora atmiņā?

Kodēšana sastāv no tā, ka katrai rakstzīmei tiek piešķirts unikāls decimālais kods no 0 līdz 255 vai atbilstošs binārs kods no 00000000 līdz 11111111. Tādējādi cilvēks atšķir rakstzīmes pēc to kontūras, bet dators pēc koda.

Tagad rodas jautājums, kuru astoņu bitu bināro kodu piešķirt katrai rakstzīmei.

Ir skaidrs, ka tas ir nosacīts jautājums, jūs varat nākt klajā ar daudzām kodēšanas metodēm.

ASCII tabula ir kļuvusi par starptautisko standartu personālajiem datoriem (lasīt aski) (Amerikas standarta informācijas apmaiņas kods).

Tikai tabulas pirmā puse ir starptautiskais standarts, t.i. rakstzīmes ar cipariem no 0 (00000000) līdz 127 (01111111).

Sērijas numurs		Simbols
	00000000 - 00011111	To funkcija ir kontrolēt teksta parādīšanas ekrānā vai drukāšanas procesu, skaņas signāla atskaņošanu, teksta iezīmēšanu utt.
32 - 127	00100000 - 01111111
128 - 255	10000000 - 11111111	ASCII kodu tabulas otrajai pusei, ko sauc par kodu lapu (128 kodi, sākot ar 10000000 un beidzot ar 11111111), var būt dažādi varianti, katram variantam ir savs numurs.

Pašlaik visbiežāk izmantotais kodējums ir Microsoft Windows, saīsināts CP1251.

Kopš 90. gadu beigām rakstzīmju kodēšanas standartizācijas problēma ir atrisināta, ieviešot jaunu starptautisku standartu ar nosaukumu Unicode. . Šis ir 16 bitu kodējums, t.i. tas katrai rakstzīmei piešķir 2 baitus atmiņas. Protams, tas palielina aizņemtās atmiņas apjomu 2 reizes. Bet šāda kodu tabula ļauj iekļaut līdz 65536 rakstzīmēm. Pilnīgā Unicode standarta specifikācijā ir iekļauti visi pasaulē esošie, izmirušie un mākslīgi izveidotie alfabēti, kā arī daudzi matemātiskie, muzikālie, ķīmiskie un citi simboli.

Mēģināsim izmantot ASCII tabulu, lai iedomāties, kā vārdi izskatīsies datora atmiņā.

Vārdi

Atmiņa

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Ievadot teksta informāciju datorā, rakstzīmes (burti, cipari, zīmes) tiek kodētas, izmantojot dažādas kodu sistēmas, kuras sastāv no kodu tabulu kopas, kas atrodas attiecīgajās teksta informācijas kodēšanas standartu lapās. Šādās tabulās katrai rakstzīmei tiek piešķirts konkrēts ciparu kods heksadecimālā vai decimālā skaitļu sistēmā, t.i., kodu tabulas atspoguļo simbolu attēlu un ciparu kodu atbilstību un ir paredzētas teksta informācijas kodēšanai un atkodēšanai. Ievadot teksta informāciju, izmantojot datora tastatūru, katra ievadītā rakstzīme tiek kodēta, t.i., pārvēršot ciparu kodā, kad teksta informācija tiek izvadīta uz datora izvades ierīci (displeju, printeri vai ploteri), tās attēls tiek konstruēts, izmantojot ciparu kodu; raksturs. Konkrēta ciparu koda piešķiršana simbolam ir vienošanās rezultāts starp attiecīgajām organizācijām dažādās valstīs. Pašlaik nav vienotas universālas kodu tabulas, kas atbilstu dažādu valstu nacionālo alfabētu burtiem.

Mūsdienu kodu tabulās ir iekļautas starptautiskās un nacionālās daļas, t.i., tajās ir latīņu un nacionālo alfabēta burti, skaitļi, aritmētiskās darbības un pieturzīmes, matemātiskie un vadības simboli un pseidogrāfiskie simboli. Starptautiskā kodu tabulas daļa, kuras pamatā ir standarts ASCII (Amerikas standarta kods informācijas apmaiņai), kodu tabulas rakstzīmju pirmo pusi kodē ar ciparu kodiem no 0 līdz 7 F 16, vai decimālo skaitļu sistēmā no 0 līdz 127. Šajā gadījumā personālā datora tastatūras funkciju taustiņiem (F1, F2, F3 utt.) tiek piešķirti kodi no 0 līdz 20 16 (0 ? 32 10). Attēlā 3.1 parāda starptautisko kodu tabulu daļu, pamatojoties uz standartu ASCII Tabulas šūnas ir numurētas attiecīgi decimālajā un heksadecimālajā skaitļu sistēmā.

3.1.attēls. Kodu tabulas starptautiskā daļa (standarta ASCII) ar šūnu numuriem decimālo (a) un heksadecimālo (b) skaitļu sistēmā

Kodu tabulu nacionālā daļa satur nacionālo alfabētu kodus, ko sauc arī par rakstzīmju kopu tabulu (rakstzīmju kopa).

Pašlaik, lai atbalstītu krievu alfabēta (kirilicas) burtus, ir vairākas kodu tabulas (kodējumi), kuras izmanto dažādas operētājsistēmas, kas ir būtisks trūkums un dažos gadījumos rada problēmas, kas saistītas ar ciparu rakstzīmju vērtību dekodēšanas darbībām. Tabulā 3.1 parāda kodu lapu (standartu) nosaukumus, uz kurām atrodas kirilicas kodu tabulas (kodējumi).

3.1. tabula

Viens no pirmajiem standartiem kirilicas alfabēta kodēšanai datoros bija KOI8-R standarts. Šī standarta kodu tabulas nacionālā daļa ir parādīta attēlā. 3.2.

Rīsi. 3.2. KOI8-R standarta kodu tabulas nacionālā daļa

Šobrīd tiek izmantota arī operētājsistēmā izmantotā teksta informācijas kodēšanas standarta CP866 lappusē esošā kodu tabula. MS DOS vai sesija MS DOS kirilicas alfabēta kodēšanai (3.3. att., A).

Rīsi. 3.3. Kodu tabulas nacionālā daļa, kas atrodas teksta informācijas kodēšanas standarta CP866 (a) un CP1251 (b) lapā.

Pašlaik visplašāk izmantotā kodu tabula kirilicas alfabēta kodēšanai atrodas attiecīgā standarta CP1251 lapā, kas tiek izmantota saimes operētājsistēmās. Windows kompānijas Microsoft(3.2. att. b). Visās uzrādītajās kodu tabulās, izņemot standarta tabulu Unicode Lai kodētu vienu rakstzīmi, tiek piešķirti 8 bināri cipari (8 biti).

Pagājušā gadsimta beigās parādījās jauns starptautisks standarts Unicode kurā viena rakstzīme ir attēlota kā divu baitu binārs kods. Šī standarta pielietošana ir universāla starptautiskā standarta izstrādes turpinājums, lai atrisinātu nacionālo rakstzīmju kodējumu saderības problēmu. Izmantojot šo standartu, var kodēt 2 16 = 65536 dažādas rakstzīmes. Attēlā 3.4 parāda standarta kodu tabulu 0400 (krievu alfabēts). Unicode.

Rīsi. 3.4. Unikoda kodu tabula 0400

Paskaidrosim, kas ir teikts par teksta informācijas kodēšanu, izmantojot piemēru.

Piemērs 3.1

Kodējiet vārdu “Dators” kā decimālo un heksadecimālo skaitļu secību, izmantojot CP1251 kodējumu. Kādas rakstzīmes tiks parādītas CP866 un KOI8-R kodu tabulās, izmantojot saņemto kodu.

Vārda “Dators” heksadecimālā un binārā koda secības, pamatojoties uz CP1251 kodēšanas tabulu (sk. 3.3. att., b) izskatīsies šādi:

Šī kodu secība SR866 un KOI8-R kodējumos parādīs šādas rakstzīmes:

Lai pārvērstu krievu valodas teksta dokumentus no viena teksta informācijas kodēšanas standarta uz citu, tiek izmantotas īpašas programmas - pārveidotāji. Pārveidotāji parasti ir iebūvēti citās programmās. Piemērs varētu būt pārlūkprogrammas programma - Internet Explorer (IE), kurā ir iebūvēts pārveidotājs. Pārlūka programma ir īpaša programma satura skatīšanai. Web lapas globālajā datortīklā Internets. Izmantosim šo programmu, lai apstiprinātu 3.1. piemērā iegūto simbolu kartēšanas rezultātu. Lai to izdarītu, mēs veiksim šādas darbības.

1. Palaidiet programmu Notepad (Piezīmju bloks). Notepad programma operētājsistēmā Windows XP palaista, izmantojot komandu: [Button Sākt– Programmas – Standarta – Notepad]. Atvērtajā Notepad programmas logā ierakstiet vārdu “Dators”, izmantojot hiperteksta dokumenta iezīmēšanas valodas sintaksi - HTML (hiperteksta iezīmēšanas valoda).Šo valodu izmanto, lai izveidotu dokumentus internetā. Tekstam vajadzētu izskatīties šādi:

Datorūdens

, Kur

Un

valodas tagi (īpašas konstrukcijas). HTML galvenes iezīmēšanai. Attēlā 3.5 parāda šo darbību rezultātu.

Rīsi. 3.5. Teksta parādīšana Notepad logā

Saglabāsim šo tekstu, izpildot komandu: [Fails - Saglabāt kā...] datora atbilstošajā mapē, saglabājot tekstu, failam piešķirsim nosaukumu - Piezīme, ar faila paplašinājumu. html.

2. Palaidīsim programmu Internet Explorer, izpildot komandu: [Button Sākt- Programmas - Internet Explorer]. Palaižot programmu, logs, kas parādīts attēlā. 3.6

Rīsi. 3.6. Bezsaistes piekļuves logs

Izvēlieties un aktivizējiet pogu BezsaistēŠajā gadījumā dators neveidos savienojumu ar globālo internetu. Parādīsies programmas galvenais logs Microsoft Internet Explorer, attēlā parādīts. 3.7.

Rīsi. 3.7. Microsoft Internet Explorer galvenais logs

Izpildīsim šādu komandu: [File – Open], parādīsies logs (3.8. att.), kurā jānorāda faila nosaukums un jānoklikšķina uz pogas labi vai nospiediet pogu Pārskatīt… un atrodiet failu Prim.html.

Rīsi. 3.8. Atvērt logu

Programmas Internet Explorer galvenajam logam būs tāda forma, kā parādīts attēlā. 3.9. Logā parādīsies vārds “Dators”. Tālāk, izmantojot programmas augšējo izvēlni Internet Explorer, palaidiet šādu komandu: [Skats - Kodējums - Kirilica (DOS)]. Pēc šīs komandas izpildīšanas programmas logā Internet Explorer Tiks parādīti attēlā redzamie simboli. 3.10. Izpildot komandu: [Skatīt – Kodējums – Kirilica (KOI8-R) ] programmas logā Internet Explorer Tiks parādīti attēlā redzamie simboli. 3.11.

Rīsi. 3.9. Rakstzīmes tiek rādītas ar CP1251 kodējumu

Rīsi. 3.10. Rakstzīmes, kas tiek rādītas, kad CP866 kodējums ir iespējots koda secībai, kas attēlota CP1251 kodējumā

Rīsi. 3.11. Rakstzīmes, kas tiek rādītas, kad ir iespējots KOI8-R kodējums koda secībai, kas attēlota CP1251 kodējumā

Tādējādi iegūts, izmantojot programmu Internet Explorer rakstzīmju secības sakrīt ar rakstzīmju secībām, kas iegūtas, izmantojot CP866 un KOI8-R kodu tabulas 3.1. piemērā.

3.2. Grafiskās informācijas kodēšana

Grafisko informāciju attēlu, fotogrāfiju, slaidu, kustīgu attēlu (animācijas, video), diagrammu, zīmējumu veidā var izveidot un rediģēt, izmantojot datoru, un tā tiek atbilstoši kodēta. Pašlaik grafiskās informācijas apstrādei ir diezgan daudz lietojumprogrammu, taču tās visas realizē trīs veidu datorgrafikas: rastra, vektora un fraktāļu.

Ja tuvāk aplūkojat grafisko attēlu datora monitora ekrānā, jūs varat redzēt lielu skaitu daudzkrāsainu punktu (pikseļi - no angļu valodas. pikseļu izglītots no attēla elements - attēla elements), kas, apkopoti kopā, veido doto grafisko attēlu. No tā varam secināt: grafiskais attēls datorā ir noteiktā veidā kodēts un ir jāparāda grafiskā faila formā. Fails ir pamata struktūrvienība datu organizēšanai un uzglabāšanai datorā, un šajā gadījumā tajā ir jāsatur informācija par to, kā monitora ekrānā parādīt šo punktu kopu.

Faili, kas izveidoti, pamatojoties uz vektorgrafiku, satur informāciju matemātisko attiecību veidā (matemātiskās funkcijas, kas apraksta lineāras attiecības) un atbilstošus datus par to, kā izveidot objekta attēlu, izmantojot līniju segmentus (vektorus), kad tas tiek parādīts datora monitorā.

Failiem, kas izveidoti, pamatojoties uz rastra grafiku, ir jāsaglabā dati par katru atsevišķu attēla punktu. Lai parādītu rastra grafiku, nav nepieciešami sarežģīti matemātiski aprēķini, vienkārši iegūstot datus par katru attēla punktu (tā koordinātas un krāsu) un parādīt tos datora monitora ekrānā.

Kodēšanas procesā attēls tiek telpiski diskretizēts, t.i., attēls tiek sadalīts atsevišķos punktos un katram punktam tiek piešķirts krāsu kods (dzeltens, sarkans, zils utt.). Lai kodētu katru krāsu grafiskā attēla punktu, tiek izmantots patvaļīgas krāsas sadalīšanas princips galvenajos komponentos, kam tiek izmantotas trīs pamatkrāsas: sarkana (angļu vārds Sarkans, apzīmēts ar burtu UZ), zaļš (zaļš, apzīmēts ar burtu G), zils (zils, apzīmē ar dižskābarža IN). Jebkuru cilvēka acs uztvertā punkta krāsu var iegūt, aditīvi (proporcionāli) pievienojot (sajaucot) trīs pamatkrāsas - sarkanu, zaļu un zilu. Šo kodēšanas sistēmu sauc par krāsu sistēmu RGB. Grafikas faili, kas izmanto krāsu sistēmu RGB attēlot katru attēla punktu kā krāsu tripletu - trīs skaitliskās vērtības R, G Un IN, atbilstošās sarkanās, zaļās un zilās krāsas intensitātes. Grafiskā attēla kodēšanas process tiek veikts, izmantojot dažādus tehniskos līdzekļus (skeneris, digitālā kamera, digitālā videokamera utt.); rezultāts ir rastra attēls. Reproducējot krāsainos grafiskos attēlus uz krāsu datora monitora, katra šāda attēla punkta (pikseļa) krāsa tiek iegūta, sajaucot trīs pamatkrāsas. R,G Un B.

Rastra attēla kvalitāti nosaka divi galvenie parametri - izšķirtspēja (pikseļu skaits horizontāli un vertikāli) un izmantotā krāsu palete (norādīto krāsu skaits katram attēla pikselim). Izšķirtspēja tiek norādīta, norādot pikseļu skaitu horizontāli un vertikāli, piemēram, 800 x 600 pikseļi.

Pastāv sakarība starp rastra attēla punktam piešķirto krāsu skaitu un informācijas daudzumu, kas jāpiešķir, lai saglabātu punkta krāsu, ko nosaka attiecība (R. Hārtlija formula):

Kur es– informācijas apjoms; N – punktam piešķirto krāsu skaits.

Informācijas apjomu, kas nepieciešams, lai saglabātu punkta krāsu, sauc arī par krāsu dziļumu vai krāsu atveides kvalitāti.

Tātad, ja attēla punktam norādītais krāsu skaits ir N= 256, tad tās uzglabāšanai nepieciešamais informācijas apjoms (krāsu dziļums) saskaņā ar formulu (3.1) būs vienāds ar es= 8 biti.

Datori izmanto dažādus monitora grafiskos režīmus, lai parādītu grafisko informāciju. Šeit jāatzīmē, ka papildus monitora grafiskajam režīmam ir arī teksta režīms, kurā monitora ekrāns nosacīti tiek sadalīts 25 rindās pa 80 rakstzīmēm katrā rindā. Šos grafikas režīmus raksturo monitora ekrāna izšķirtspēja un krāsu kvalitāte (krāsu dziļums). Lai iestatītu monitora ekrāna grafisko režīmu operētājsistēmā MS Windows XP jums ir jāizpilda komanda: [Button Sākt– Iestatījumi – Vadības panelis – Ekrāns]. Parādītajā dialoglodziņā “Properties: Screen” (3.12. att.) jāizvēlas cilne “Parameters” un jāizmanto slīdnis “Screen Resolution”, lai atlasītu atbilstošo ekrāna izšķirtspēju (800 x 600 pikseļi, 1024 x 768 pikseļi, utt.). Izmantojot nolaižamo sarakstu "Krāsu kvalitāte", varat izvēlēties krāsu dziļumu - "Augstākais (32 biti)", "Vidējs (16 biti)" utt., un katram attēla punktam piešķirto krāsu skaits būt attiecīgi 2 32 (4294967296), 2 16 (65536) utt.

Rīsi. 3.12. Displeja rekvizītu dialoglodziņš

Lai ieviestu katru no monitora ekrāna grafiskajiem režīmiem, ir nepieciešams noteikts datora video atmiņas apjoms. Nepieciešamais video atmiņas informācijas apjoms (V) tiek noteikts no attiecības

Kur UZ - attēla punktu skaits monitora ekrānā (K = A · B); A - horizontālo punktu skaits monitora ekrānā; IN - vertikālo punktu skaits monitora ekrānā; es– informācijas apjoms (krāsu dziļums).

Tātad, ja monitora ekrāna izšķirtspēja ir 1024x768 pikseļi un palete sastāv no 65 536 krāsām, tad krāsu dziļums saskaņā ar formulu (3.1) būs I = log 2 65 538 = 16 biti, attēla pikseļu skaits būs jābūt vienādam ar: K = 1024 x 768 = 786432, un nepieciešamais video atmiņas informācijas apjoms saskaņā ar (3.2) būs vienāds ar

V= 786432 · 16 biti = 12582912 biti = 1572864 baiti = 1536 KB = 1,5 MB.

Noslēgumā jāatzīmē, ka papildus uzskaitītajiem parametriem svarīgākie monitora raksturlielumi ir tā ekrāna un attēla punktu ģeometriskie izmēri. Ekrāna ģeometriskos izmērus nosaka monitora diagonāles izmērs. Monitoru diagonāles izmērs ir norādīts collās (1 colla = 1" = 25,4 mm) un var iegūt vērtības, kas vienādas ar: 14", 15", 17", 21" utt. Mūsdienu monitoru ražošanas tehnoloģijas var nodrošināt attēlu punkta izmērs vienāds ar 0,22 mm.

Tādējādi katram monitoram ir fiziski maksimālā iespējamā ekrāna izšķirtspēja, ko nosaka tā diagonāles izmērs un attēla punkta izmērs.

Vingrinājumi, kas jāveic patstāvīgi

1. Programmas izmantošana MS Excel konvertējiet ASCII, SR866, SR1251, KOI8-R kodu tabulas par tabulām šādā formā: tabulu pirmās kolonnas šūnās ierakstiet alfabētiskā secībā latīņu un kirilicas alfabēta lielos un pēc tam mazos burtus, otrā kolonna - kodi, kas atbilst burtiem decimālo skaitļu sistēmā, šūnās trešā kolonna ir kodi, kas atbilst burtiem heksadecimālajā skaitļu sistēmā. Kodu vērtības ir jāizvēlas no attiecīgajām kodu tabulām.

2. Kodējiet un pierakstiet šādus vārdus kā skaitļu virkni decimālo un heksadecimālo skaitļu sistēmā:

a) Internet Explorer, b) Microsoft Office; V) CorelDRAW.

Kodēšana tiek veikta, izmantojot modernizēto ASCII kodēšanas tabulu, kas iegūta iepriekšējā uzdevumā.

3. Izmantojot modernizēto KOI8-R kodēšanas tabulu, atšifrējiet heksadecimālajā skaitļu sistēmā ierakstīto skaitļu secības:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Kā izskatīsies vārds “Cybernetics”, kas rakstīts SR1251 kodējumā, izmantojot SR866 un KOI8-R kodējumus? Pārbaudiet rezultātus, izmantojot programmu Internet Explorer.

5. Izmantojot kodu tabulu, kas parādīta attēlā. 3.1 A, atšifrējiet šādas binārā skaitļu sistēmā ierakstītas kodu secības:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Noteikt informācijas apjomu vārdam “Ekonomika”, kas kodēts, izmantojot kodu tabulas SR866, SR1251, Unicode un KOI8-R.

7. Nosakiet faila informācijas apjomu, kas iegūts, skenējot krāsainu attēlu ar izmēru 12x12 cm. Šī attēla skenēšanai izmantotā skenera izšķirtspēja ir 600 dpi. Skeneris attēla punkta krāsu dziļumu iestata uz 16 bitiem.

Skenera izšķirtspēja 600 dpi (punktu colla - punkti collā) nosaka skenera ar šo izšķirtspēju spēju atšķirt 600 punktus 1 collas segmentā.

8. Noteikt A4 izmēra krāsaina attēla skenēšanas rezultātā iegūtā faila informācijas apjomu. Šī attēla skenēšanai izmantotā skenera izšķirtspēja ir 1200 dpi. Skeneris attēla punkta krāsu dziļumu iestata uz 24 bitiem.

9. Nosakiet krāsu skaitu paletē 8, 16, 24 un 32 bitu krāsu dziļumos.

10. Nosakiet nepieciešamo video atmiņas apjomu monitora ekrāna grafiskajiem režīmiem 640x480, 800x600, 1024x768 un 1280x1024 pikseļi ar attēla pikseļu krāsu dziļumu 8, 16, 24 un 32 biti. Apkopojiet rezultātus tabulā. Attīstīties MS Excel programma aprēķinu automatizēšanai.

11. Nosakiet maksimālo krāsu skaitu, ko var izmantot, lai saglabātu attēlu ar izmēru 32 x 32 pikseļi, ja datoram attēlam ir atvēlēti 2 KB atmiņas.

12. Nosakiet maksimālo iespējamo izšķirtspēju monitora ekrānam ar diagonāles garumu 15" un attēla punkta izmēru 0,28 mm.

13. Kādus monitora grafiskos režīmus var nodrošināt 64 MB video atmiņa?

Saturs

I. Informācijas kodēšanas vēsture……………………………..3

II. Informācijas kodēšana………………………………………………………4

III. Teksta informācijas kodēšana……………………………….4

IV. Kodēšanas tabulu veidi……………………………………………………………6

V. Teksta informācijas apjoma aprēķins…………………………14

Literatūras saraksts……………………………………..16

es . Informācijas kodēšanas vēsture

Cilvēce izmanto teksta šifrēšanu (kodēšanu) kopš brīža, kad parādījās pirmā slepenā informācija. Šeit ir vairākas teksta kodēšanas metodes, kas tika izgudrotas dažādos cilvēka domas attīstības posmos:

Kriptogrāfija ir slepena rakstīšana, rakstības maiņas sistēma, lai padarītu tekstu nesaprotamu nezinātājam;

Morzes kods vai nevienmērīgs telegrāfa kods, kurā katrs burts vai zīme tiek attēlota ar savu īsu elementāru elektriskās strāvas uzliesmojumu (punktu) un trīskāršu elementāru uzliesmojumu (domuzīme) kombināciju;

zīmju valoda ir zīmju valoda, ko lieto cilvēki ar dzirdes traucējumiem.

Viena no senākajām zināmajām šifrēšanas metodēm ir nosaukta Romas imperatora Jūlija Cēzara (1. gadsimtā pirms mūsu ēras) vārdā. Šīs metodes pamatā ir katra šifrētā teksta burta aizstāšana ar citu, pārbīdot alfabētu no sākotnējā burta par noteiktu rakstzīmju skaitu, un alfabēts tiek lasīts aplī, tas ir, aiz burta i tiek uzskatīts a. . Tātad vārds “baits”, pabīdot divas rakstzīmes pa labi, tiek kodēts kā vārds “gwlf”. Dotā vārda atšifrēšanas apgrieztais process ir nepieciešams, lai katru šifrēto burtu aizstātu ar otro pa kreisi no tā.

II. Kodēšanas informācija

Kods ir vienošanos (vai signālu) kopa dažu iepriekš definētu jēdzienu ierakstīšanai (vai paziņošanai).

Informācijas kodēšana ir process, kurā tiek veidots īpašs informācijas attēlojums. Šaurākā nozīmē termins “kodēšana” bieži tiek saprasts kā pāreja no viena informācijas attēlojuma veida uz citu, ērtāku uzglabāšanai, pārraidīšanai vai apstrādei.

Parasti katrs attēls kodēšanas laikā (dažkārt saukts par šifrēšanu) tiek attēlots ar atsevišķu zīmi.

Zīme ir ierobežotas elementu kopas elements, kas atšķiras viens no otra.

Šaurākā nozīmē termins “kodēšana” bieži tiek saprasts kā pāreja no viena informācijas attēlojuma veida uz citu, ērtāku uzglabāšanai, pārraidīšanai vai apstrādei.

Teksta informāciju var apstrādāt datorā. Ievadot datorā, katrs burts tiek kodēts ar noteiktu numuru, un, izvadot to ārējās ierīcēs (ekrānā vai drukā), no šiem cipariem tiek veidoti burtu attēli cilvēka uztverei. Atbilstību starp burtu un ciparu kopu sauc par rakstzīmju kodējumu.

Parasti visi skaitļi datorā tiek attēloti, izmantojot nulles un vieniniekus (nevis desmit ciparus, kā parasti cilvēkiem). Citiem vārdiem sakot, datori parasti darbojas bināro skaitļu sistēmā, jo tas padara to apstrādes ierīces daudz vienkāršākas. Ciparu ievadīšanu datorā un izvadīšanu cilvēka lasīšanai var veikt parastajā decimāldaļā, un visas nepieciešamās konvertācijas veic datorā strādājošas programmas.

III. Teksta informācijas kodēšana

To pašu informāciju var pasniegt (kodēt) vairākos veidos. Līdz ar datoru parādīšanos radās nepieciešamība kodēt visa veida informāciju, ar ko nodarbojas gan indivīds, gan cilvēce kopumā. Bet cilvēce sāka risināt informācijas kodēšanas problēmu ilgi pirms datoru parādīšanās. Cilvēces grandiozie sasniegumi - rakstīšana un aritmētika - ir nekas vairāk kā runas un skaitliskās informācijas kodēšanas sistēma. Informācija nekad neparādās tīrā veidā, tā vienmēr tiek kaut kā pasniegta, kaut kā iekodēta.

Binārā kodēšana ir viens no izplatītākajiem informācijas attēlošanas veidiem. Datoros, robotos un ciparvadāmās mašīnās, kā likums, visa informācija, ar ko ierīce nodarbojas, tiek kodēta binārā alfabēta vārdu veidā.

Kopš 60. gadu beigām datori arvien vairāk tiek izmantoti teksta informācijas apstrādei, un šobrīd lielākā daļa personālo datoru pasaulē (un lielāko daļu laika) ir aizņemti ar teksta informācijas apstrādi. Visi šie informācijas veidi datorā tiek parādīti binārā kodā, tas ir, tiek izmantots alfabēts ar jaudu divi (tikai divas rakstzīmes 0 un 1). Tas ir saistīts ar faktu, ka informāciju ir ērti attēlot elektrisko impulsu secības veidā: nav impulsa (0), ir impulss (1).

Šādu kodēšanu parasti sauc par bināro, un pašas nulles un vieninieku loģiskās secības sauc par mašīnvalodu.

No datora viedokļa teksts sastāv no atsevišķām rakstzīmēm. Simboli ietver ne tikai burtus (lielos vai mazos, latīņu vai krievu), bet arī ciparus, pieturzīmes, speciālās rakstzīmes, piemēram, "=", "(", "&" utt., Un pat (pievērsiet īpašu uzmanību!) atstarpes starp vārdiem.

Teksti tiek ievadīti datora atmiņā, izmantojot tastatūru. Uz taustiņiem ir rakstīti burti, cipari, pieturzīmes un citi mums pazīstami simboli. Viņi ievada RAM binārā kodā. Tas nozīmē, ka katra rakstzīme ir attēlota ar 8 bitu bināro kodu.

Tradicionāli vienas rakstzīmes kodēšanai tiek izmantots informācijas apjoms, kas vienāds ar 1 baitu, t.i., I = 1 baits = 8 biti. Izmantojot formulu, kas savieno iespējamo notikumu skaitu K un informācijas daudzumu I, var aprēķināt, cik daudz dažādu simbolu var iekodēt (pieņemot, ka simboli ir iespējamie notikumi): K = 2 I = 2 8 = 256, t.i., lai To attēlo teksta informāciju, varat izmantot alfabētu ar 256 rakstzīmju ietilpību.

Šis rakstzīmju skaits ir pilnīgi pietiekams, lai attēlotu teksta informāciju, ieskaitot krievu un latīņu alfabēta lielos un mazos burtus, ciparus, zīmes, grafiskos simbolus utt.

Simbola parādīšanas procesā datora ekrānā tiek veikts apgrieztais process - dekodēšana, tas ir, simbola koda pārvēršana tā attēlā. Būtiski, ka konkrēta koda piešķiršana simbolam ir vienošanās jautājums, kas tiek ierakstīts kodu tabulā.

Tagad rodas jautājums, kuru astoņu bitu bināro kodu piešķirt katrai rakstzīmei. Ir skaidrs, ka tas ir nosacīts jautājums, jūs varat nākt klajā ar daudzām kodēšanas metodēm.

IV . Kodēšanas tabulu veidi

Tabulu, kurā visām datora alfabēta rakstzīmēm ir piešķirti sērijas numuri, sauc par kodēšanas tabulu.

Dažādu veidu datoros tiek izmantotas dažādas kodēšanas tabulas.

ASCII kodu tabula (American Standard Code for Information Interchange) ir pieņemta kā starptautisks standarts, kas kodē rakstzīmju pirmo pusi ar ciparu kodiem no 0 līdz 127 (kodi no 0 līdz 32 tiek piešķirti nevis rakstzīmēm, bet gan funkciju taustiņiem) .

ASCII kodu tabula ir sadalīta divās daļās.

Tikai tabulas pirmā puse ir starptautiskais standarts, t.i. rakstzīmes ar cipariem no 0 (00000000) līdz 127 (01111111).

ASCII kodēšanas tabulas struktūra

Sērijas numurs	Kods	Simbols
0 - 31	00000000 - 00011111	Simbolus ar cipariem no 0 līdz 31 parasti sauc par vadības simboliem. To funkcija ir kontrolēt teksta parādīšanas ekrānā vai drukāšanas procesu, skaņas signāla atskaņošanu, teksta iezīmēšanu utt.
32 - 127	0100000 - 01111111	Standarta tabulas daļa (angļu val.). Tas ietver latīņu alfabēta mazos un lielos burtus, decimālskaitļus, pieturzīmes, visa veida iekavas, komerciālos un citus simbolus. 32. rakstzīme ir atstarpe, t.i. tukša vieta tekstā. Visi pārējie ir atspoguļoti noteiktās zīmēs.
128 - 255	10000000 - 11111111	Alternatīvā tabulas daļa (krievu val.). ASCII kodu tabulas otrajā pusē, ko sauc par kodu lapu (128 kodi, sākot no 10000000 un beidzot ar 11111111), var būt dažādas opcijas, katrai opcijai ir savs numurs. Kodu lapa galvenokārt tiek izmantota, lai iekļautu nacionālos alfabētus, izņemot latīņu alfabētu. Krievu nacionālajos kodējumos šajā tabulas daļā ir ievietotas rakstzīmes no krievu alfabēta.

ASCII kodu tabulas pirmā puse

Krievu alfabēta burtiem tiek ievērots arī secīgās kodēšanas princips.

ASCII kodu tabulas otrā puse

No 90. gadu sākuma, MS DOS operētājsistēmas dominēšanas laika, saglabājas CP866 kodējums ("CP" nozīmē "koda lapa", "koda lapa").

Apple datori, kuros darbojas operētājsistēma Mac OS, izmanto savu Mac kodējumu.

Turklāt Starptautiskā standartu organizācija (ISO) ir apstiprinājusi citu kodējumu ar nosaukumu ISO 8859-5 kā krievu valodas standartu.

Pašlaik visbiežāk izmantotais kodējums ir Microsoft Windows, saīsināts CP1251. Ieviesa Microsoft; Ņemot vērā šī uzņēmuma operētājsistēmu (OS) un citu programmatūras produktu plašo izplatību Krievijas Federācijā, tas ir atradis plašu izplatību.

Kopš 90. gadu beigām rakstzīmju kodēšanas standartizācijas problēma ir atrisināta, ieviešot jaunu starptautisku standartu ar nosaukumu Unicode.

Šis ir 16 bitu kodējums, t.i. tas katrai rakstzīmei piešķir 2 baitus atmiņas. Protams, tas palielina aizņemtās atmiņas apjomu 2 reizes. Bet šāda kodu tabula ļauj iekļaut līdz 65536 rakstzīmēm. Pilnīgā Unicode standarta specifikācijā ir iekļauti visi pasaulē esošie, izmirušie un mākslīgi izveidotie alfabēti, kā arī daudzi matemātiskie, muzikālie, ķīmiskie un citi simboli.

Vārdu iekšējais attēlojums datora atmiņā

izmantojot ASCII tabulu

Tādējādi katrs kodējums ir norādīts ar savu kodu tabulu. Kā redzams tabulā, vienam un tam pašam binārajam kodam tiek piešķirtas dažādas rakstzīmes dažādos kodējumos.

Piemēram, ciparu kodu 221, 194, 204 secība CP1251 kodējumā veido vārdu “dators”, savukārt citos kodējumos tā būs bezjēdzīga rakstzīmju kopa.

Par laimi, vairumā gadījumu lietotājam nav jāuztraucas par teksta dokumentu pārkodēšanu, jo to veic īpašas lietojumprogrammās iebūvētas pārveidotāju programmas.

V . Teksta informācijas apjoma aprēķins

1. uzdevums: Kodējiet vārdu “Roma”, izmantojot kodēšanas tabulas KOI8-R un CP1251.

Risinājums:

2. uzdevums: Pieņemot, ka katra rakstzīme ir kodēta vienā baitā, novērtējiet šāda teikuma informācijas apjomu:

"Manam onkulim ir visgodīgākie noteikumi,

Kad es smagi saslimu,

Viņš piespieda sevi cienīt

Un es nevarēju iedomāties neko labāku. ”

Risinājums:Šajā frāzē ir 108 rakstzīmes, ieskaitot pieturzīmes, pēdiņas un atstarpes. Mēs reizinām šo skaitli ar 8 bitiem. Mēs iegūstam 108 * 8 = 864 bitus.

3. uzdevums: Abos tekstos ir vienāds rakstzīmju skaits. Pirmais teksts ir rakstīts krievu valodā, bet otrais - Naguri cilts valodā, kuras alfabēts sastāv no 16 rakstzīmēm. Kurā tekstā ir vairāk informācijas?

Risinājums:

1) I = K * a (teksta informācijas apjoms ir vienāds ar rakstzīmju skaita un vienas rakstzīmes informācijas svara reizinājumu).

2) jo Abos tekstos ir vienāds zīmju skaits (K), tad atšķirība ir atkarīga no vienas alfabēta rakstzīmes informācijas satura (a).

3) 2 a1 = 32, t.i. a 1 = 5 biti, 2 a2 = 16, t.i. un 2 = 4 biti.

4) I 1 = K * 5 biti, I 2 = K * 4 biti.

5) Tas nozīmē, ka krievu valodā rakstītais teksts satur 5/4 reizes vairāk informācijas.

4. uzdevums: Ziņojuma lielums, kas satur 2048 rakstzīmes, bija 1/512 MB. Nosakiet alfabēta spēku.

Risinājums:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 biti - pārveidoja ziņojuma informācijas apjomu bitos.

2) a = I / K = 16384 / 1024 = 16 biti - veido vienu alfabēta rakstzīmi.

3) 2*16*2048 = 65536 rakstzīmes – izmantotā alfabēta jauda.

5. uzdevums: Canon LBP lāzerprinteris drukā ar vidējo ātrumu 6,3 Kbps. Cik ilgs laiks būs nepieciešams 8 lappušu dokumenta izdrukāšanai, ja zināt, ka vienā lapā ir vidēji 45 rindas un 70 rakstzīmes katrā rindā (1 rakstzīme - 1 baits)?

Risinājums:

1) Atrodiet 1 lappusē esošās informācijas apjomu: 45 * 70 * 8 biti = 25200 biti

2) Atrodiet informācijas apjomu 8 lapās: 25200 * 8 = 201600 biti

3) Mēs reducējam uz kopējām mērvienībām. Lai to izdarītu, mēs pārvēršam Mbitus bitos: 6,3*1024=6451,2 biti/sek.

4) Atrodiet drukāšanas laiku: 201600: 6451,2 =31 sekunde.

Bibliogrāfija

1. Agejevs V.M. Informācijas un kodēšanas teorija: mērījumu informācijas paraugu ņemšana un kodēšana. - M.: MAI, 1977. gads.

2. Kuzmins I.V., Kedrus V.A. Informācijas teorijas un kodēšanas pamati. - Kijeva, Viščas skola, 1986. gads.

3. Vienkāršākās teksta šifrēšanas metodes / D.M. Zlatopoļskis. – M.: Chistye Prudy, 2007 – 32 lpp.

4. Ugrinovičs N.D. Datorzinātne un informācijas tehnoloģijas. Mācību grāmata 10.-11.klasei / N.D.Ugrinovičs. – M.: BINOM. Zināšanu laboratorija, 2003. – 512 lpp.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Materiāls pašmācībai par 2.lekcijas tēmu

Kodēšana ASCII

ASCII kodēšanas tabula (ASCII — Amerikas standarta informācijas apmaiņas kods — Amerikas standarta informācijas apmaiņas kods).

Kopumā, izmantojot ASCII kodēšanas tabulu, var kodēt 256 dažādas rakstzīmes (1. attēls). Šī tabula ir sadalīta divās daļās: galvenajā (ar kodiem no OOh līdz 7Fh) un papildu (no 80h līdz FFh, kur burts h norāda, ka kods pieder pie heksadecimālās skaitļu sistēmas).

1. attēls

Lai kodētu vienu rakstzīmi no tabulas, tiek piešķirti 8 biti (1 baits). Apstrādājot teksta informāciju, vienā baitā var būt noteiktas rakstzīmes kods - burts, cipars, pieturzīme, darbības zīme utt. Katrai rakstzīmei ir savs kods vesela skaitļa formā. Šajā gadījumā visi kodi tiek apkopoti īpašās tabulās, ko sauc par kodēšanas tabulām. Ar to palīdzību simbola kods tiek pārveidots tā redzamajā attēlojumā monitora ekrānā. Rezultātā jebkurš datora atmiņā esošais teksts tiek attēlots kā baitu secība ar rakstzīmju kodiem.

Piemēram, vārds sveiks! tiks kodēti šādi (1. tabula).

1. tabula


Binārais kods
Kods aiz komata

1. attēlā parādītas rakstzīmes, kas iekļautas standarta (angļu) un paplašinātajā (krievu) ASCII kodējumā.

ASCII tabulas pirmā puse ir standartizēta. Tajā ir kontroles kodi (no 00h līdz 20h un 77h). Šie kodi ir noņemti no tabulas, jo tie neattiecas uz teksta elementiem. Šeit tiek ievietotas arī pieturzīmes un matemātiskie simboli: 2lh - !, 26h - &, 28h - (, 2Bh -+,..., lielie un mazie latīņu burti: 41h - A, 61h – a.

Tabulas otrajā pusē ir nacionālie fonti, pseidogrāfiskie simboli, no kuriem var konstruēt tabulas, un īpaši matemātiski simboli. Kodēšanas tabulas apakšējo daļu var nomainīt, izmantojot atbilstošus draiverus - vadības palīgprogrammas. Šis paņēmiens ļauj izmantot vairākus fontus un to burtveidolus.

Katra simbola koda displejā ir jāparāda simbola attēls - ne tikai digitālais kods, bet arī atbilstošs attēls, jo katram simbolam ir sava forma. Katras rakstzīmes formas apraksts tiek saglabāts īpašā displeja atmiņā - rakstzīmju ģeneratorā. Piemēram, rakstzīmes izcelšana IBM PC displeja ekrānā tiek veikta, izmantojot punktus, kas veido rakstzīmju matricu. Katrs pikselis šādā matricā ir attēla elements un var būt gaišs vai tumšs. Tumšs punkts tiek kodēts kā 0, gaišs (spilgts) punkts ir 1. Ja zīmes matricas laukā attēlojat tumšos pikseļus kā punktu, bet gaišos pikseļus kā zvaigznīti, varat grafiski attēlot simbola formu.

Cilvēki dažādās valstīs izmanto simbolus, lai rakstītu vārdus savā dzimtajā valodā. Mūsdienās lielākā daļa lietojumprogrammu, tostarp e-pasta sistēmas un tīmekļa pārlūkprogrammas, ir tikai 8 bitu, kas nozīmē, ka saskaņā ar ISO-8859-1 standartu tās var parādīt un pareizi pieņemt tikai 8 bitu rakstzīmes.

Pasaulē ir vairāk nekā 256 rakstzīmes (ja ņem vērā kirilicas, arābu, ķīniešu, japāņu, korejiešu un taju), un parādās arvien jaunas rakstzīmes. Un tas daudziem lietotājiem rada šādas nepilnības:

Vienā dokumentā nav iespējams izmantot rakstzīmes no dažādām kodēšanas kopām. Tā kā katrs teksta dokuments izmanto savu kodējumu kopu, pastāv lielas grūtības ar automātisko teksta atpazīšanu.

Parādās jauni simboli (piemēram: eiro), kā rezultātā ISO izstrādā jaunu standartu ISO-8859-15, kas ir ļoti līdzīgs ISO-8859-1 standartam. Atšķirība ir tāda, ka vecajā ISO-8859-1 kodēšanas tabulā ir noņemti simboli vecajām valūtām, kuras pašlaik netiek izmantotas, lai atbrīvotu vietu jaunieviestiem simboliem (piemēram, eiro). Rezultātā lietotāju diskos var būt vieni un tie paši dokumenti, bet atšķirīgā kodējumā. Šo problēmu risinājums ir vienota starptautiska kodējumu kopa, ko sauc par universālo kodēšanu vai unikodu, pieņemšana.

Kodēšana Unicode

Standartu 1991. gadā ierosināja bezpeļņas organizācija Unicode Consortium (Unicode Inc.). Šī standarta izmantošana ļauj kodēt ļoti lielu skaitu rakstzīmju no dažādiem skriptiem: Unikoda dokumentos var būt ķīniešu rakstzīmes, matemātiskos simbolus, grieķu alfabēta burtus, latīņu un kirilicas alfabētu, un pārslēgt kodu lapas kļūst nevajadzīgas.

Standarts sastāv no divām galvenajām sadaļām: universālās rakstzīmju kopas (UCS) un kodēšanas saimes (UTF, Unicode transformācijas formāts). Universālā rakstzīmju kopa nosaka vienu pret vienu atbilstību starp rakstzīmēm un kodiem - koda telpas elementiem, kas attēlo nenegatīvus veselus skaitļus. Kodēšanas saime nosaka UCS kodu secības mašīntēlu.

Unikoda standarts tika izstrādāts, lai izveidotu vienu rakstzīmju kodējumu visām mūsdienu un daudzām senajām rakstītajām valodām. Katra rakstzīme šajā standartā ir kodēta ar 16 bitiem, kas ļauj aptvert nesalīdzināmi lielāku rakstzīmju skaitu nekā iepriekš pieņemtie 8 bitu kodējumi. Vēl viena svarīga atšķirība starp Unicode un citām kodēšanas sistēmām ir tā, ka tā ne tikai piešķir unikālu kodu katrai rakstzīmei, bet arī nosaka dažādas šīs rakstzīmes īpašības, piemēram:

rakstzīmju veids (lielais burts, mazais burts, cipars, pieturzīme utt.);

rakstzīmju atribūti (displejs no kreisās uz labo vai no labās uz kreiso, atstarpe, rindiņas pārtraukums utt.);

atbilstošo lielo vai mazo burtu (attiecīgi mazajiem un lielajiem burtiem);

atbilstošo skaitlisko vērtību (ciparu rakstzīmēm).

Viss kodu diapazons no 0 līdz FFFF ir sadalīts vairākās standarta apakškopās, no kurām katra atbilst vai nu valodas alfabētam, vai speciālo rakstzīmju grupai, kas savās funkcijās ir līdzīgas. Tālāk esošajā diagrammā ir vispārīgs Unicode 3.0 apakškopu saraksts (2. attēls).

2. attēls

Unikoda standarts ir pamats teksta glabāšanai daudzās mūsdienu datorsistēmās. Tomēr tas nav saderīgs ar lielāko daļu interneta protokolu, jo tā kodi var saturēt jebkuras baitu vērtības, un protokolos kā pakalpojuma baiti parasti tiek izmantoti baiti 00–1F un FE–FF. Lai panāktu saderību, ir izstrādāti vairāki Unicode transformācijas formāti (UTF, Unicode Transformation Formats), no kuriem mūsdienās visizplatītākais ir UTF-8. Šis formāts definē šādus noteikumus katra Unikoda koda konvertēšanai baitu komplektā (no viena līdz trīs), kas ir piemēroti transportēšanai, izmantojot interneta protokolus.

Šeit x, y, z apzīmē avota koda bitus, kas ir jāizņem, sākot ar mazāk nozīmīgo, un jāievada rezultāta baitos no labās uz kreiso pusi, līdz visas norādītās pozīcijas ir aizpildītas.

Unikoda standarta tālāka attīstība ir saistīta ar jaunu valodas plakņu pievienošanu, t.i. rakstzīmes diapazonā no 10000 - 1FFFF, 20000 - 2FFFF utt., kur ir paredzēts iekļaut kodējumu mirušo valodu skriptiem, kas nav iekļauti iepriekšējā tabulā. Šo papildu rakstzīmju kodēšanai tika izstrādāts jauns formāts UTF-16.

Tātad ir 4 galvenie veidi, kā kodēt unikoda baitus:

UTF-8: 128 rakstzīmes, kas kodētas vienā baitā (ASCII formāts), 1920 rakstzīmes, kas kodētas 2 baitos ((romiešu, grieķu, kirilicas, koptu, armēņu, ebreju, arābu rakstzīmes), 63488 rakstzīmes, kas kodētas 3 baitos (ķīniešu, japāņu utt. .) Atlikušās 2 147 418 112 rakstzīmes (vēl nav izmantotas) var kodēt ar 4, 5 vai 6 baitiem.

UCS-2: katru rakstzīmi attēlo 2 baiti. Šis kodējums ietver tikai pirmās 65 535 rakstzīmes no Unikoda formāta.

UTF-16: UCS-2 paplašinājums, tajā ir 1 114 112 unikoda formāta rakstzīmes. Pirmās 65 535 rakstzīmes attēlo 2 baiti, pārējās - 4 baiti.

USC-4: katra rakstzīme ir kodēta 4 baitos.

Starp citu, mūsu vietnē jūs varat pārvērst jebkuru tekstu decimālajā, heksadecimālajā, binārajā kodā, izmantojot tiešsaistes kodu kalkulatoru.

ASCII tabula

ASCII (Amerikas standarta kods informācijas apmaiņai)

ASCII kodu kopsavilkuma tabula

ASCII Windows rakstzīmju kodu tabula (Win-1251)

		Simbols









		speciālists. Tabulēšana
		speciālists. LF (pārvadājuma atgriešana)


		speciālists. CR (jauna rinda)


















		sajūgs SP (kosmoss)

		Simbols

Paplašināta ASCII kodu tabula

Simbolu formatēšana.

	Backspace (atgriež vienu rakstzīmi). Norāda, ka drukas mehānisms vai displeja kursors pārvietojas par vienu pozīciju atpakaļ.
	Horizontālā tabula. Norāda drukas dzinēja vai displeja kursora kustību uz nākamo noteikto "tabulēšanas pieturu".
	Līnijas padeve. Norāda drukas mehānisma vai displeja kursora kustību uz nākamās rindas sākumu (vienu rindiņu uz leju).
	Vertikālā tabula. Norāda drukas dzinēja vai displeja kursora kustību uz nākamo līniju grupu.
	Veidlapas plūsma. Norāda drukas programmas vai displeja kursora kustību uz nākamās lapas, veidlapas vai ekrāna sākuma pozīciju.
	Rakstatgriezes. Norāda drukāšanas mehānisma vai displeja kursora kustību pašreizējās līnijas sākuma (tālākajā kreisajā) pozīcijā.

Datu pārsūtīšana.

	Virsraksta sākums. Izmanto, lai definētu galvenes sākumu, kas var saturēt maršrutēšanas informāciju vai adresi.
	Teksta sākums. Parāda teksta sākumu un vienlaikus virsraksta beigas.
	Teksta beigas. Attiecas, beidzot tekstu, kas sākās ar STX rakstzīmi.
	Izziņa. Pieprasīt identifikācijas datus (piemēram, "Kas jūs esat?") no attālās stacijas.
	Atzīt. Saņēmēja ierīce nosūta šo rakstzīmi sūtītājam kā apstiprinājumu veiksmīgai datu saņemšanai.
	Negatīvs apstiprinājums. Datu saņemšanas atteikuma (neatteices) gadījumā saņēmēja ierīce pārsūta šo rakstzīmi sūtītājam.
	Sinhrons/dīkstāve. Izmanto sinhronizētās pārraides sistēmās. Ja datu pārraide nenotiek, sistēma nepārtraukti sūta SYN simbolus, lai nodrošinātu sinhronizāciju.
	Pārraides bloka beigas. Saziņas nolūkos norāda datu bloka beigas. Izmanto, lai sadalītu lielu datu apjomu atsevišķos blokos.

Dalīšanas zīmes, pārraidot informāciju.

Citi simboli.

	Null. (Nav rakstzīmju - nav datu). Izmanto pārraidei, ja nav datu.
	Zvans (Zvans). Izmanto trauksmes ierīču vadīšanai.
	Shift Out. Norāda, ka visi nākamie koda vārdi ir jāinterpretē saskaņā ar ārējo rakstzīmju kopu pirms SI rakstzīmes ienākšanas.
	Shift In. Norāda, ka nākamie koda vārdi jāinterpretē atbilstoši standarta rakstzīmju kopai.
	Datu saites aizbēgšana. Tālāk norādīto rakstzīmju nozīmes maiņa. Izmanto papildu kontrolei vai patvaļīgas bitu kombinācijas pārsūtīšanai.
DC1, DC2, DC3, DC4	Ierīču vadīklas. Papildierīču darbības simboli (īpašas funkcijas).
	Atcelt. Norāda, ka dati, kas ziņojumā vai blokā ir pirms šīs rakstzīmes, ir jāignorē (parasti, ja tiek atklāta kļūda).
	Vidēja beigas. Norāda lentes vai cita datu nesēja fizisko galu
	Aizstājējs. Izmanto, lai aizstātu kļūdainu vai nederīgu rakstzīmi.
	Bēgšana (paplašināšana). Izmanto, lai paplašinātu kodu, norādot, ka nākamajai rakstzīmei ir alternatīva nozīme.
	Kosmoss. Nedrukājoša rakstzīme, ko izmanto, lai atdalītu vārdus vai pārvietotu drukas programmu vai displeja kursoru vienu pozīciju uz priekšu.
	Dzēst. Izmanto, lai ziņojumā noņemtu (dzēstu) iepriekšējo rakstzīmi

Katram datoram ir savs rakstzīmju kopums, ko tas ievieš. Šajā komplektā ir 26 lielie un mazie burti, cipari un speciālās rakstzīmes (punkts, atstarpe utt.). Ja simbolus pārvērš veselos skaitļos, tos sauc par kodiem. Standarti tika izstrādāti, lai datoriem būtu vienādi kodu komplekti.

ASCII standarts

ASCII (American Standard Code for Information Interchange) ir amerikāņu standarta kods informācijas apmaiņai. Katrai ASCII rakstzīmei ir 7 biti, tāpēc maksimālais rakstzīmju skaits ir 128 (1. tabula). Kodi no 0 līdz 1F ir kontroles rakstzīmes, kas netiek drukātas. Datu pārsūtīšanai ir nepieciešamas daudzas nedrukājamas ASCII rakstzīmes. Piemēram, ziņojums var sastāvēt no galvenes sākuma rakstzīmes SOH, pašas galvenes un teksta sākuma rakstzīmes STX, paša teksta un teksta beigu rakstzīmes ETX, kā arī nosūtīšanas beigu rakstzīmes. raksturs EOT. Tomēr dati tīklā tiek pārsūtīti paketēs, kuras pašas ir atbildīgas par pārraides sākumu un beigām. Tātad nedrukājamas rakstzīmes gandrīz nekad netiek izmantotas.

1. tabula - ASCII kodu tabula

Numurs	Komanda	Nozīme	Numurs	Komanda	Nozīme
0	NUL	Nulles rādītājs	10	DLE	Iziet no pārvades sistēmas
1	SOH	virsraksta sākums	11	DC1	Ierīču pārvaldība
2	STX	Teksta sākums	12	DC2	Ierīču pārvaldība
3	ETX	Teksta beigas	13	DC3	Ierīču pārvaldība
4	EOT	Pārraides beigas	14	DC4	Ierīču pārvaldība
5	ACK	Pieprasīt	15	N.A.K.	Uzņemšanas neapstiprināšana
6	BEL	Pieņemšanas apstiprinājums	16	SYN	Vienkārši
7	B.S.	Zvana simbols	17	ETB	Pārraides bloka beigas
8	HT	Atkāpties	18	VAR	Atzīmēt
9	LF	Horizontālā tabula	19	E.M.	Mediju beigas
A	VT	Līnijas tulkojums	1A	SUB	Apakšraksts
B	FF	Vertikālā cilne	1B	ESC	Izeja
C	CR	Lapas tulkojums	1C	FS	Failu atdalītājs
D	SO	Rakstatgriezes	1D	G.S.	Grupas atdalītājs
E	S.I.	Pārslēdzieties uz papildu reģistru	1E	R.S.	Ierakstu atdalītājs
	S.I.	Pārslēdzieties uz standarta korpusu	1F	ASV	Moduļu atdalītājs

Numurs	Simbols	Numurs	Simbols	Numurs	Simbols	Numurs	Simbols	Numurs	Simbols	Numurs	Simbols
20	telpa	30	0	40	@	50	P	60	.	70	lpp
21	!	31	1	41	A	51	J	61	a	71	q
22	‘	32	2	42	B	52	R	62	b	72	r
23	#	33	3	43	C	53	S	63	c	73	s
24	φ	34	4	44	D	54	T	64	d	74	t
25	%	35	5	45	E	55	UN	65	e	75	Un
26	&	36	6	46	F	56	V	66	f	76	v
27	‘	37	7	47	G	57	W	67	g	77	w
28	(	38	8	48	H	58	X	68	h	78	x
29	)	39	9	49	es	59	Y	69	i	70	y
2A	‘	3A	;	4A	Dž	5A	Z	6A	j	7A	z
2B	+	3B	;	4B	K	5B	[	6B	k	7B	{
2C	‘	3C	<	4C	L	5C	\	6C	l	7C	\|
2D	—	3D	=	4D	M	5D	]	6D	m	7D	}
2E		3E	>	4E	N	5E	—	6E	n	7E	~
2F	/	3F	g	4F	O	5F	_	6F	o	7F	DEL

Unikoda standarts

Iepriekšējais kodējums ir lieliski piemērots angļu valodai, taču tas nav ērts citām valodām. Piemēram, vācu valodā ir umlauts, bet franču valodā ir augšraksti. Dažām valodām ir pilnīgi atšķirīgi alfabēti. Pirmais mēģinājums paplašināt ASCII bija IS646, kas pagarināja iepriekšējo kodējumu par papildu 128 rakstzīmēm. Tika pievienoti latīņu burti ar triepieniem un diakritiskajām zīmēm, un tika iegūts nosaukums - latīņu 1. Nākamais mēģinājums bija IS 8859 - kurā bija koda lapa. Bija arī mēģinājumi pagarināt, taču tas nebija universāls. Tika izveidots UNICODE kodējums (ir 10646). Kodēšanas ideja ir piešķirt katrai rakstzīmei vienu konstantu 16 bitu vērtību, ko sauc - koda rādītājs. Kopumā ir 65536 rādītāji. Lai ietaupītu vietu, kodiem 0 -255 izmantojām Latin-1, viegli mainot ASII uz UNICODE. Šis standarts atrisināja daudzas problēmas, bet ne visas. Sakarā ar jaunu vārdu ienākšanu, piemēram, japāņu valodai, ir nepieciešams palielināt terminu skaitu par aptuveni 20 tūkstošiem.

Populārs kategorijā: