Co je podstatou xml. Základní XML konstrukce - XML prvky, tagy, atributy, instrukce pro zpracování, sekce CDATA, komentáře. Atributy XML. Pravidla pro zápis atributů v XML
Úvod do správného značkování
XML prostředek Rozšiřitelný značkovací jazyk s důrazem na označení(označení). Můžete vytvořit text a označit jej pomocí orámovacích značek, čímž přeměníte každé slovo, větu nebo fragment na identifikovatelné, seřaditelné informace. Soubory, které vytvoříte, popř kopie dokumentu, sestávají z prvků (tagů) a textu a prvky pomáhají správně porozumět dokumentu při čtení na papíře nebo jej dokonce zpracovat v elektronické podobě. Čím více popisných prvků, tím více částí dokumentu lze identifikovat. Od počátků značkování je jednou z jeho výhod to, že pokud se ztratí počítačový systém vytištěné data stále zůstávají čitelné díky tagům.
Značkovací jazyky se vyvinuly od prvních forem vytvořených společnostmi a vládními agenturami až po Standardní jazyk zobecněné značkování (Standard Generalized Markup Language – SGML), Hypertextový jazyk značkování (Hypertext Markup Language - HTML) a nakonec do XML. SGML se může zdát složité a HTML (které bylo zpočátku v podstatě jen sbírkou prvků) se ukázalo jako málo výkonné k identifikaci informací. XML bylo navrženo jako snadno použitelný a snadno rozšiřitelný značkovací jazyk.
V XML si můžete vytvořit svůj vlastní vlastní prvky, což vám umožní přesně reprezentovat části dat. Dokumenty lze nejen rozdělit do odstavců a nadpisů, ale také lze zvýraznit jakékoli fragmenty v dokumentu. Aby to bylo efektivní, musíte definovat konečný seznam vašich prvků a držet se ho. Prvky lze definovat v definici typu dokumentu (DTD) nebo ve schématu, jak je stručně popsáno níže. Jakmile si osvojíte a začnete používat XML, nebojte se experimentovat s názvy prvků při vytváření skutečných souborů.
Vytvoření dokumentu XML
Jak již bylo zmíněno, soubory XML se skládají z textu a značek. Většina text je umístěn v prvcích, ve kterých je text obklopen tagy. Řekněme například, že chcete vytvořit kuchařku v XML formát. Máme recept tzv Zmrzlinový pohár, který je potřeba převést do XML. Pro označení názvu receptu uzavřeme jeho text do prvku, který začíná a končí značkami. Tento prvek lze nazvat název receptu . Chcete-li označit počáteční značku prvku, umístěte jeho název do lomených závorek<>), takhle:
Názvy prvků lze vytvářet pro jednotlivé dokumenty nebo pro skupiny dokumentů. Podle vašich požadavků můžete určit pravidla, která je nutné u prvků dodržovat. Prvky mohou být přísně specifické nebo zcela obecné. Pravidla musí také definovat, co je přijatelné zahrnout do každého prvku. Mohou být přísné, volné nebo mezi nimi. Jednoduše vytvořte prvky, které definují části vašeho dokumentu, které považujete za důležité.
Začněte vytvářet soubor XML
První řádek dokumentu XML může být deklarace XML. Tato volitelná část souboru jej identifikuje jako soubor XML, což může pomoci automatické nástroje a aby lidé rozpoznali soubor jako XML spíše než SGML nebo jiné označení.
Prohlášení může vypadat jednoduše
Vytvoření kořenového prvku
Počáteční a koncové značky kořenový prvek obklopí celý text dokumentu XML. V souboru by měl být pouze jeden kořenový prvek a to je pro něj požadovaný „kryt“. ukazuje úryvek příkladu, který zde používám, s kořenovým prvkem
Výpis 1. Kořenový prvek
Při vytváření dokumentu umístíte text a další značky mezi
Názvy prvků
Respektování malých a velkých písmen ve značkách
Při vytváření XML se musí velikost písmen počáteční a koncové značky shodovat. V opačném případě se může při používání nebo prohlížení XML zobrazit chybová zpráva. Například, Internet Explorer nezobrazuje text v případě neshody velkých a malých písmen. Místo toho zobrazuje zprávy o neshodě mezi počáteční a koncovou značkou.
Takže máme kořenový prvek
- V názvech prvků nejsou povoleny mezery.
- Jména musí začínat písmenem, nikoli číslicí nebo znakem. (Po tomto prvním písmenu můžete použít libovolnou kombinaci písmen, číslic a platných symbolů.)
- Na případu nezáleží, ale určitě ho dodržujte, aby nedošlo k záměně.
Výpis 2. Další prvky
XML dokument může obsahovat prázdné značky, které v sobě nemají nic a které lze vyjádřit jako jeden tag spíše než jako pár otevíracích a uzavíracích tagů. Může to být například samostatná značka HTML styl . Neobsahuje žádné podřízené prvky ani text, takže je prázdný prvek, a to může být zapsáno jako (s mezerou a známým koncovým lomítkem na konci).
Vnořovací prvky
Příloha je umístění prvků uvnitř jiných prvků. Tyto nové prvky se nazývají dceřiné společnosti prvky a prvky, které je obklopují, jsou jejich rodiče prvky. V kořenovém prvku
Typický chyba syntaxe spojené s vnořením nadřazených a podřízených prvků. Každý podřízený prvek musí být umístěn zcela mezi počáteční a uzavírací značku svého nadřazeného prvku. Podřízené prvky musí skončit dříve, než začne další podřízený prvek.
Příklad správné přílohy je uveden v. Značky začínají a končí bez vazba s jinými značkami.
Výpis 3. Správné vnoření prvků XML.
Přidání atributů
Někdy se přidávají prvky Atributy. Atributy se skládají z páru název-hodnota, odkud je hodnota převzata dvojité uvozovky("), takto: type="dessert" . Atributy umožňují uložit spolu s prvkem další možnosti, změnou hodnot těchto parametrů z prvku na prvek ve stejném dokumentu.
Atribut – nebo dokonce více atributů – je specifikován v počáteční značce prvku:
Výpis 4. Náš soubor XML s prvky a atributy
Lze použít libovolný počet atributů. Zvažte, jaké podrobnosti můžete do dokumentu přidat. Atributy jsou užitečné zejména v případě, že se budou ukládat dokumenty – například podle typu receptur. Názvy atributů mohou obsahovat stejné znaky jako názvy prvků, se stejnými pravidly pro vyloučení mezer a zahájení názvu písmenem.
Správně a nesprávně vytvořené XML
Pokud se budete řídit pravidly definovanými ve vašem frameworku, můžete snadno vytvořit správně vytvořený kód XML. Opravte XML je kód XML sestavený v souladu se všemi pravidly XML: správné pojmenování prvků, příloha, pojmenování atributů atd.
V závislosti na tom, co přesně s XML děláte, možná budete muset pracovat s dobře vytvořeným XML. Zvažte výše uvedený příklad řazení podle typu receptury. Je nutné, aby prvky
Je velmi důležité mít možnost úspěšně otestovat kód a zajistit, aby hodnota tohoto atributu byla vždy přítomna. Probíhá ověřování (ověření) se týká kontroly struktury dokumentu z hlediska souladu s pravidly, která jsou pro něj stanovena, a definice podřízených prvků pro každý nadřazený prvek. Tato pravidla jsou definována v Popis typu dokumentu (DTD) nebo ve schématu. Toto ověření vyžaduje vytvoření DTD nebo schématu a následné propojení DTD soubor
nebo schémata v jejich souborech XML.
Chcete-li povolit ověření, musíte na začátek vašich dokumentů XML umístit deklaraci typu dokumentu (DOCTYPE). Tento řádek obsahuje odkaz na DTD nebo schéma (seznam prvků a pravidel), které budou použity k ověření tohoto dokumentu. Řetězec DOCTYPE může být něco jako řetězec v .
Výpis 5. DOCTYPE Tento příklad znamená, že váš soubor seznamu položek pojmenovaný název_souboru.dtd umístěného na vašem počítači (tj. v adresáři SYSTEM, nikoli v obecný katalog
VEŘEJNOST).
Použití entit Entity
mohou být fragmenty textu nebo speciální znaky. Mohou být zadány uvnitř dokumentu nebo mimo něj. Aby se předešlo chybám a aby se zobrazovaly správně, musí být entity správně deklarovány a vyjádřeny. Speciální znaky nelze zadávat přímo do textu. Pro použití v textu je třeba z nich vytvořit entity a použít kódy těchto znaků. Fráze, jako je název společnosti, můžete definovat jako entity a poté je používat v celém textu. Chcete-li vytvořit entitu, pojmenujte ji a vložte tento název a vložte jej do textu za ampersand (&) a zakončený středníkem – například (nebo jiný název). Poté vložte tento kód do řádku DOCTYPE hranaté závorky(), jako v . Tento kód určuje text, který je nahrazen entitou.
Výpis 6. Entita
Použití entit pomáhá vyhnout se opakování stejné fráze nebo informace znovu a znovu. Může také usnadnit úpravu textu (například pokud společnost změní svůj název) na mnoha místech najednou jednoduchým nastavením řetězce definice entity.
Jak se vyvarovat chyb
Zatímco se učíte vytvářet soubory XML, otevřete je v XML editor ověřit jejich formální správnost a zajistit dodržování pravidel XML. Pokud máte například Windows® Internet Explorer®, můžete jednoduše otevřít svůj soubor XML v prohlížeči. Pokud se zobrazí vaše prvky, atributy a text, je soubor XML složen správně. Pokud se vyskytnou chyby, pravděpodobně jste něco pokazili v syntaxi a musíte pečlivě zkontrolovat dokument, zda neobsahuje překlepy nebo chybějící značky a interpunkci.
Závěr
Když jsem se pár naučil jednoduchá pravidla máte flexibilitu při vývoji vlastních prvků XML a jejich atributů. Pravidla XML nejsou složitá. Psaní dokumentu XML je také snadné. Klíčem je porozumět tomu, co od svých dokumentů chcete, pokud jde o možnosti řazení a vyhledávání, a poté navrhnout prvky a atributy tak, aby tyto požadavky splnily.
Když dobře rozumíte svému účelu a víte, jak svůj text označit, můžete vytvářet efektní prvky a atributy. Z tohoto pohledu je pečlivé označení vše, co je potřeba k vytvoření dobře vytvořeného a použitelného dokumentu XML.
XML je zkratka pro Extensible Markup Language, s důrazem na značkování. Můžete vytvořit text a označit jej pomocí orámovacích značek, čímž přeměníte každé slovo, větu nebo fragment na identifikovatelné, seřaditelné informace. Soubory nebo instance dokumentů, které vytvoříte, se skládají z prvků (tagů) a textu a tyto prvky vám pomohou správně porozumět dokumentu při čtení na papíře nebo jej dokonce zpracovávat elektronicky. Čím více popisných prvků, tím více částí dokumentu lze identifikovat. Od počátků značkování je jednou z jeho výhod to, že v případě ztráty počítačového systému zůstanou vytištěná data stále čitelná díky značkám.
Značkovací jazyky se vyvinuly od prvních forem vytvořených společnostmi a vládními agenturami přes standardní zobecněný značkovací jazyk (SGML), hypertextový značkovací jazyk (HTML) a nakonec k XML. SGML se může zdát složité a HTML (které bylo zpočátku v podstatě jen sbírkou prvků) se ukázalo jako málo výkonné k identifikaci informací. XML bylo navrženo jako snadno použitelný a snadno rozšiřitelný značkovací jazyk.
V XML můžete vytvářet své vlastní prvky, což vám umožní přesně reprezentovat části dat. Dokumenty lze nejen rozdělit do odstavců a nadpisů, ale také lze zvýraznit jakékoli fragmenty v dokumentu. Aby to bylo efektivní, musíte definovat konečný seznam vašich prvků a držet se ho. Prvky lze definovat v definici typu dokumentu (DTD) nebo ve schématu, jak je stručně popsáno níže. Jakmile si osvojíte a začnete používat XML, nebojte se experimentovat s názvy prvků při vytváření skutečných souborů.
Vytvoření dokumentu XML
Jak již bylo zmíněno, XML soubory se skládají z text a označení. Většina textu je umístěna v prvcích, kde je text obklopen značkami. Řekněme například, že chcete vytvořit kuchařku ve formátu XML. Máme recept s názvem Ice Cream Sundae, který je potřeba převést do XML. Pro označení názvu receptu uzavřeme jeho text do prvku, který začíná a končí značkami. Tento prvek lze nazvat název receptu . Chcete-li označit počáteční značku prvku, umístěte jeho název do lomených závorek<>), takhle:
Názvy prvků lze vytvářet pro jednotlivé dokumenty nebo pro skupiny dokumentů. Podle vašich požadavků můžete určit pravidla, která je nutné u prvků dodržovat. Prvky mohou být přísně specifické nebo zcela obecné. Pravidla musí také definovat, co je přijatelné zahrnout do každého prvku. Mohou být přísné, volné nebo mezi nimi. Jednoduše vytvořte prvky, které definují části vašeho dokumentu, které považujete za důležité.
Začněte vytvářet soubor XML
První řádek dokumentu XML může být XML deklarace. Tato volitelná část souboru jej identifikuje jako soubor XML, což může pomoci automatizovaným nástrojům a lidem rozpoznat soubor jako XML spíše než SGML nebo jiné označení.
Prohlášení může vypadat jednodušenebo zahrnout verzi XML a dokonce i kódování znaků, např.pro Unicode. Protože tato deklarace musí být na samém začátku souboru, pokud plánujete zkombinovat malé soubory XML do většího souboru, je nejlepší tento volitelný prvek přeskočit.
Vytvoření kořenového prvku
Počáteční a koncové značky kořenového prvku obklopují celý text dokumentu XML. V souboru by měl být pouze jeden kořenový prvek a to je pro něj požadovaný „kryt“. Výpis 1 ukazuje úryvek příkladu, který zde používám, s kořenovým prvkem
Výpis 1. Kořenový prvek
Při vytváření dokumentu mezi ně umístíte text a další značky
Respektování malých a velkých písmen ve značkách
Při vytváření XML se musí velikost písmen počáteční a koncové značky shodovat. V opačném případě se může při používání nebo prohlížení XML zobrazit chybová zpráva. Internet Explorer například nezobrazí text, pokud dojde k neshodě velkých a malých písmen. Místo toho zobrazuje zprávy o neshodě mezi počáteční a koncovou značkou.
Názvy prvků
Takže máme kořenový prvek
- V názvech prvků nejsou povoleny mezery.
- Jména musí začínat písmenem, nikoli číslicí nebo znakem. Po tomto prvním písmenu můžete použít libovolnou kombinaci písmen, číslic a platných symbolů.
- Na případu nezáleží, ale určitě ho dodržujte, aby nedošlo k záměně.
Výpis 2. Další prvky
Dokument XML může obsahovat prázdné tagy, které v sobě nemají nic a mohou být vyjádřeny jako jeden tag, nikoli jako dvojice počátečních a koncových tagů. Může to být například samostatná značka stylu HTML . Neobsahuje žádné podřízené prvky ani text, takže je to prázdný prvek a lze jej zapsat jako (s mezerou a známým koncovým lomítkem na konci).
Vnořovací prvky
Vnoření je umístění prvků uvnitř jiných prvků. Tyto nové prvky se nazývají děti a prvky, které je obklopují, se nazývají jejich rodičovské prvky. Ve výpisu 3 ke kořenovému prvku
Běžná syntaktická chyba zahrnuje vnoření nadřazených a podřízených prvků. Každý podřízený prvek musí být umístěn zcela mezi počáteční a uzavírací značku svého nadřazeného prvku. Podřízené prvky musí skončit dříve, než začne další podřízený prvek.
Příklad správného vnoření je uveden ve výpisu 3. Tagy začínají a končí bez prolínání s jinými tagy.
Výpis 3. Správné vnoření prvků XML.
Přidání atributů
K prvkům se někdy přidávají atributy. Atributy se skládají z páru název-hodnota, kde je hodnota uzavřena do dvojitých uvozovek ("), jako je tato: type="dessert" . Atributy umožňují ukládat další parametry s prvkem a měnit jejich hodnoty parametry z prvku do prvku ve stejném dokumentu.
Atribut – nebo dokonce několik atributů – je specifikován uvnitř počáteční značky prvku:
Výpis 4. Náš soubor XML s prvky a atributy
Lze použít libovolný počet atributů. Zvažte, jaké podrobnosti můžete do dokumentu přidat. Atributy jsou užitečné zejména v případě, že se budou ukládat dokumenty – například podle typu receptur. Názvy atributů mohou obsahovat stejné znaky jako názvy prvků, se stejnými pravidly pro vyloučení mezer a zahájení názvu písmenem.
Správně a nesprávně vytvořené XML
Pokud se budete řídit pravidly definovanými ve vašem frameworku, můžete snadno vytvořit správně vytvořený kód XML. Platný XML je kód XML, který dodržuje všechna pravidla XML: správné pojmenování prvků, vnoření, pojmenování atributů atd.
V závislosti na tom, co přesně s XML děláte, možná budete muset pracovat s dobře vytvořeným XML. Zvažte výše uvedený příklad řazení podle typu receptury. Je nutné, aby prvky
Validace znamená kontrolu struktury dokumentu z hlediska souladu s pravidly, která jsou pro ni stanovena, a definici podřízených prvků pro každý nadřazený prvek. Tato pravidla jsou definována v popisu typu dokumentu (DTD) nebo schématu. Tento typ ověření vyžaduje, abyste vytvořili DTD nebo schéma a poté odkazovali na DTD nebo soubor schématu v souborech XML.
Chcete-li povolit ověření, musíte na začátek vašich dokumentů XML umístit deklaraci typu dokumentu (DOCTYPE). Tento řádek obsahuje odkaz na DTD nebo schéma (seznam prvků a pravidel), které budou použity k ověření tohoto dokumentu. Řádek DOCTYPE může vypadat podobně jako ve výpisu 5.
Tento příklad znamená, že váš soubor se seznamem položek s názvem filename.dtd je umístěn na vašem počítači.
VEŘEJNOST).
(entita) mohou být fragmenty textu nebo speciální znaky. Mohou být zadány uvnitř dokumentu nebo mimo něj. Aby se předešlo chybám a aby se zobrazovaly správně, musí být entity správně deklarovány a vyjádřeny.
Speciální znaky nelze zadávat přímo do textu. Chcete-li v textu používat speciální znaky, musíte z nich vytvořit entity a použít kódy těchto znaků. Fráze, jako je název společnosti, můžete definovat jako entity a poté je používat v celém textu. Chcete-li vytvořit entitu, pojmenujte ji a vložte tento název a vložte jej do textu za ampersand (&) a zakončený středníkem – například (nebo jiný název). Poté zadejte tento kód do řádku DOCTYPE v hranatých závorkách(), jako ve výpisu 6. Tento kód určuje text, který je nahrazen entitou.
Výpis 6. Entita
Použití entit pomáhá vyhnout se opakování stejné fráze nebo informace znovu a znovu. Může také usnadnit úpravu textu (například pokud společnost změní svůj název) na mnoha místech najednou jednoduchým nastavením řetězce definice entity.
Jak se vyvarovat chyb
Až se naučíte vytvářet soubory XML, otevřete je v editoru XML, abyste se ujistili, že jsou formálně správné a že budou dodržována pravidla XML. Pokud máte například Windows® Internet Explorer®, můžete jednoduše otevřít svůj soubor XML v prohlížeči. Pokud se zobrazí vaše prvky, atributy a text, je soubor XML složen správně. Pokud se vyskytnou chyby, pravděpodobně jste něco pokazili v syntaxi a musíte pečlivě zkontrolovat dokument, zda neobsahuje překlepy nebo chybějící značky a interpunkci.
Jak je uvedeno v části Vnoření prvků, prvek obsahující jiný prvek se nazývá rodič tohoto vnořeného prvku. V níže uvedeném příkladu
Výpis 7. Dobře vytvořený dokument XML
Poznámka: Zalomení řádků usnadňuje čtení kódu a nemá vliv na samotný XML.
Můžete experimentovat s testovacími soubory a přesouvat počáteční a koncové značky, abyste viděli chybové zprávy.
Ověření XML
Obrázek 1 ukazuje dokument XML, jehož prvky se vykreslují bez selhání v aplikaci Internet Explorer. Text je orámován otevíracími a zavíracími tagy. Vedle nadřazených prvků jsou ikony plus (+) a mínus (-), které umožňují odstranit všechny vnořené prvky (jejich potomky) uvnitř prvků.
Obrázek 1. Příklad XML soubor se zhroucenými dětmi
Závěr
S ohledem na několik jednoduchých pravidel můžete flexibilně navrhovat své vlastní prvky XML a jejich atributy. Pravidla XML nejsou složitá. Psaní dokumentu XML je také snadné. Klíčem je porozumět tomu, co od svých dokumentů chcete, pokud jde o možnosti řazení a vyhledávání, a poté navrhnout prvky a atributy tak, aby tyto požadavky splnily.
Když dobře rozumíte svému účelu a víte, jak svůj text označit, můžete vytvářet efektní prvky a atributy. Z tohoto pohledu je pečlivé označení vše, co je potřeba k vytvoření dobře vytvořeného a použitelného dokumentu XML.
V tomto článku se tématu dotkneme Struktury dokumentů XML. Vy a já jsme o tom již mluvili a dnes napíšeme naši první XML dokument, a také podrobně vysvětlím jeho strukturu.
Dovolte mi, abych vám hned dal jednoduchý příklad XML dokumentu:
]>
Titul přichází hned na začátku XML dokument. Hlavička v příkladu je univerzální, jen kódování je někdy jiné. Dal jsem ten nejběžnější - UTF-8.
Následuje sekce DOCTYPE, který popisuje různé entity. Popsali jsme dva: " n"se smyslem" Přenosný počítač"A" G"se smyslem" Hra Esence je v jistém smyslu konstanta, kterou můžeme použít v těle XML dokument zkrátit záznam a usnadnit jeho budoucí údržbu.
Po sekci DOCTYPE příchod Tělo dokumentu XML. Zde je vše podobné syntaxi jazyka HTML, to znamená, že existují značky (jsou to také prvky), mají atributy a také interní značky. Ale na rozdíl od HTML, zde si názvy prvků vymýšlíte sami, také v XML velmi přísná syntaxe, to znamená, že by v hodnotách atributů značky neměly být žádné neuzavírací značky nebo chybějící uvozovky.
Věnujte pozornost tomu, jak se používají ty, které jsme popsali v části CDATA esence. Pokud potřebujete zobrazit nějaký speciální znak, např. & nebo < , pak musíte použít příslušné vyhrazené entity.
Ohledně vztahu mezi různé prvky. Jíst 5 typy připojení:
- Rodič. Rodič pro daný prvek je prvek, který je umístěn přesně na 1 notebooky"rodič je" nakupovat".
- Dětský prvek. Opak rodiče. Podřízený prvek je prvek, který je přesně zapnutý 1 o úroveň níže a umístěnou uvnitř daného prvku. Například podřízené prvky " nakupovat"jsou" notebooky"A" hry Vezměte prosím na vědomí, že vždy existuje jeden rodič, zatímco podřízených prvků může být mnoho.
- Předek. Předek je ten prvek pro daný prvek, který je více než 1 vyšší úroveň. Například pro prvek " prod"předek je" nakupovat".
- Potomek. Rovněž podřízený prvek, ale níže by měly být pouze prvky 1úroveň hnízdění v daný prvek. Například pro " nakupovat"potomek je" prod".
- Bratr. O prvku se říká, že je sourozencem jiného prvku, pokud je na stejné úrovni jako druhý. Samozřejmě je kromě jedné úrovně nutná i přítomnost společného rodiče. Například prvky " notebooky"A" hry"jsou bratři.
To je vše, o čem bych vám chtěl říct Struktura dokumentu XML. A abyste to posílili, doporučuji vám udělat jednoduchý úkol: udělat to uvnitř prvku prod další dva prvky, z nichž jeden bude obsahovat název produktu a druhý - jeho cenu. Pro kontrolu správnosti XML dokument, otevřete jej ve svém prohlížeči. Pokud se nevyskytnou žádné chyby, znamená to, že je vše zapsáno syntakticky správně.
XML (Extensible Markup Language) je nový značkovací jazyk dokumentů odvozený od SGML, který umožňuje strukturovat různé typy informací pomocí libovolné sady instrukcí. Vývojáře internetových aplikací, kteří se snaží využít nové technologie v praxi, mohou zajímat konkrétní otázky související s problematikou tvorby, zpracování XML dokumentů a jejich zobrazování na straně klienta. Tento článek poskytuje stručnou představu o tom, co je XML dokument a proč je potřeba, a na praktických příkladech ilustruje některé jednoduché, ale zatím bohužel špatně popsané mechanismy pro jeho zpracování.
Co je XML
Dnes lze XML použít v jakékoli aplikaci, která potřebuje strukturované informace – od komplexních geo informační systémy, s obrovským množstvím přenášených informací do běžných „jednopočítačových“ programů, které tento jazyk používají k popisu servisních informací. Při bližším pohledu na naše okolí informační svět Existuje mnoho úkolů spojených s vytvářením a zpracováním strukturovaných informací, k jejichž řešení lze XML použít:
- V první řadě může být tato technologie užitečná pro vývojáře komplexních informačních systémů, s velký počet aplikace propojené informačními toky různých struktur. V tomto případ XML- roli hrají dokumenty univerzální formát k výměně informací mezi samostatné komponenty velký program.
- XML je základní standard pro nový jazyk pro popis zdrojů RDF, který umožňuje zjednodušit mnoho problémů na webu spojených s vyhledáváním potřebných informací, zajištěním kontroly nad obsahem síťových zdrojů, vytvářením elektronických knihoven atd.
- jazyk XML umožňuje popisovat data libovolný typ a používá se k reprezentaci specializovaných informací, jako jsou chemické, matematické, fyzikální vzorce, lékařské předpisy, hudební notace atd. To znamená, že XML může sloužit mocný doplněk
- HTML pro distribuci „nestandardních“ informací na webu. Možná ve velmi blízké budoucnosti XML zcela nahradí HTML, alespoň již probíhají první pokusy o integraci těchto dvou jazyků (specifikace). Dokumenty XML lze použít jako přechodný datový formát v třívrstvých systémech. Typ interakce mezi aplikačními a databázovými servery závisí na konkrétním DBMS a dialektu SQL použitém pro přístup k datům. Pokud jsou výsledky dotazu prezentovány v nějakém univerzálním textový formát
- , pak se odkaz DBMS jako takový stane pro aplikaci „transparentním“. Kromě toho dnes W3C navrhlo specifikaci pro nový databázový dotazovací jazyk XQL, který se v budoucnu může stát alternativou k SQL.
- Informace obsažené v dokumentech XML lze upravovat, přenášet do klientského počítače a aktualizovat po částech. Vyvíjené specifikace XLink a Xpointer umožní odkazovat na jednotlivé prvky dokumentu s přihlédnutím k jejich vnoření a hodnotám atributů.
- Použití šablon stylů (XSL) vám umožňuje poskytovat zobrazení dokumentů XML nezávislé na výstupním zařízení. XML lze použít v běžné aplikace
pro ukládání a zpracování strukturovaných dat v jednotném formátu. XML dokument je běžný textový soubor
, ve kterém se pomocí speciálních značek vytvářejí datové prvky, jejichž posloupnost a vnořování určuje strukturu dokumentu a jeho obsah. Hlavní výhodou XML dokumentů je, že při relativně jednoduchém způsobu tvorby a zpracování (prostý text může být editován jakýmkoli testovacím procesorem a zpracován standardními XML parsery) umožňují vytvářet strukturované informace, které jsou dobře „srozumitelné“ pro počítače. .
Jak vytvořit dokument XML? Pro V nejjednodušším případě nebudete potřebovat nic jiného než běžný textový editor (podle mnoha webových designérů nejlepší nástroj pro tvorbu webových stránek). Zde je příklad malého dokumentu XML použitého místo běžného poznámkového bloku:
Při vytváření vlastního značkovacího jazyka můžete vymyslet libovolné názvy prvků (téměř jakékoli, protože seznam platných znaků je omezený a je uveden v ), odpovídající kontextu jejich použití. Náš příklad ukazuje pouze jeden z mnoha způsobů, jak vytvořit strukturu deníku. To je flexibilita a rozšiřitelnost jazyků odvozených z XML – jsou vytvářeny vývojářem „za chodu“, podle jeho představ o struktuře dokumentu, a pak je mohou používat univerzální prohlížeče spolu s jakýmkoli jiným XML -odvozené jazyky, protože všechny informace potřebné pro analýzu jsou obsaženy v dokumentu.
Při vytváření nového formátu je nutné vzít v úvahu skutečnost, že v zásadě nemohou existovat dokumenty „psané v XML“ - v každém případě autoři dokumentu pro jeho označení používají jazyk založený na standardu XML (tzv. tzv. XML-derived), ale ne XML samotné. Při ukládání vytvořeného souboru pro něj tedy můžete vybrat nějakou příponu vhodnou pro název (například noteML).
XML můžete použít k vytvoření dokumentů specifického typu a struktury potřebné pro konkrétní aplikaci. Pokud se však ukáže, že rozsah jazyka je dostatečně široký a začne být zajímavý pro velké množství vývojářů, pak může být jeho specifikace předložena k posouzení W3C a po dohodě všech zainteresovaných stran schválena konsorciem jako oficiální doporučení.
Je třeba poznamenat, že proces vzniku nová specifikace velmi dlouhé a složité. Jakýkoli dokument navržený W3C prochází několika fázemi, než se stane standardem. Za prvé, přání a doporučení pocházející od různých společností podílejících se na jeho vývoji jsou formalizována ve formě poznámky, která je brána v úvahu, jakýsi protokol o záměru. Informace obsažené v těchto dokumentech jsou určeny pouze pro diskusi členů konsorcia a není zaručeno, že se tyto komentáře následně stanou doporučeními.
Další etapou propagace dokumentu je pracovní verze specifikace, kterou sestavuje a následně upravuje speciálně vytvořená pracovní skupina (Working Group), v níž jsou zástupci firem zajímajících se o nápad. Všechny změny provedené v tomto dokumentu jsou nezbytně zveřejněny na serveru konsorcia www.w3.org a dokud se pracovní verze nestane doporučením, může sloužit pouze jako „hlavní hvězda“ pro vývojáře, se kterou může společnost kontrolovat své plány, ale by neměl být používán při vývoji softwaru.
V případě, že se strany dohodly na všech hlavních otázkách a v dokumentu budou provedeny významnější změny, pracovní verze se stává navrhovaným doporučením a po hlasování členů pracovní skupina se již může stát oficiálním doporučením W3C, které svým stavem odpovídá standardu na WWW.
XML generátory
Dokumenty XML mohou sloužit jako meziformát pro předávání informací z jedné aplikace do druhé (například jako výsledek databázového dotazu), takže jejich obsah je někdy generován a zpracováván programy automaticky. Není vždy nutné vytvářet XML dokument ručně.
Naším úkolem je například vytvořit formát pro ukládání registračních dat některých událostí vyskytujících se v systému (soubor protokolu). V nejjednodušším případě se můžeme omezit na zaznamenávání úspěšných i neúspěšných požadavků na naše zdroje – takový dokument by měl obsahovat informace o čase události, jejím výsledku (úspěch/chyba), IP adresu zdroje požadavku, informace o úspěšnosti a neúspěchu. URI zdroje a výsledný kód.
Náš dokument XML může vypadat takto:
Struktura dokumentu je poměrně jednoduchá - root at v tomto případě je prvek protokolu, každá událost, která nastane, je zaznamenána v prvku události a je popsána pomocí jeho atributů (datum - čas a výsledek - typ události) a interních prvků (metoda - metoda přístupu, ip-from - zdrojová adresa, url-to - požadovaný zdroj, odpověď - kód odpovědi). Tento dokument může být generován například modulem pro autentizaci systémového požadavku a používán programem pro zpracování registračních dat (prohlížeč protokolů).
Co je DTD?
Vytvořili jsme tedy dokument XML a ujistili se, že sada použitých tagů nám umožňuje provádět jakoukoli manipulaci s našimi informacemi. V tomto případě za účelem stanovení pravidel našeho nového jazyka, tzn. seznam platných prvků, jejich možný obsah a atributy, musíme vytvořit definice DTD (v době psaní tohoto článku ještě nebyla schválena specifikace pro XML dokumenty a DTD jsou zatím jediným standardním způsobem popisu gramatiky).
Malý příklad pro náš dokument XML:
Uložte tento soubor jako log.dtd a vložte nový řádek do dokumentu XML:
Nyní při zpracování dokumentu ověřovací XML analyzátor zkontroluje pořadí, ve kterém jsou prvky a jejich atributy definovány tak, jak je to specifikováno v našich DTD notacích, a zda vnitřní struktura (určující „sémantiku“ dokumentu) je porušena, vydá chybové hlášení.
Co jsou jmenné prostory?
Jak již bylo zmíněno dříve, krása používání XML spočívá ve schopnosti vymýšlet si vlastní značky, jejichž názvy by co nejvíce odpovídaly jejich účelu. Ale fantazie a slovník lidé nejsou neomezení, takže neexistuje absolutně žádná záruka, že názvy prvků, které zadáte, nebudou použity někým jiným. Dokud vaše aplikace zpracovává pouze nativní dokumenty XML, nebudou žádné problémy. Je ale docela možné, že stejný dokument bude obsahovat informace pro několik zpracovatelů současně. V tomto případě mohou být názvy některých prvků nebo jejich atributy stejné, což způsobí buď chybu v analyzátoru XML, nebo nesprávnou prezentaci dokumentu. Například v našem případě by prvek události mohl být snadno použit k záznamu dalších událostí a zpracován jinou aplikací.
Abychom tuto situaci napravili, musíme definovat jedinečná jména pro prvky a jejich atributy „přidáním“ nějaké univerzální, neopakující se předpony k jejich běžným jménům. K tomu slouží mechanismus Namespaces (Namespaces byly oficiálně schváleny W3C v lednu 1999 a nyní jsou součástí standardu XML). Podle této specifikace definovat "rozsah" tagu (ve skutečnosti tento termín, široce používaný v konvenčních programovacích jazycích, nelze použít v XML, protože neexistuje žádná sada jako taková, na které by bylo možné "rozsah" postavit. v rámci strukturovaného XML dokumentu ) je nutné definovat jedinečný atribut, který popisuje název prvku, pomocí kterého může analyzátor dokumentu určit, do které skupiny názvů patří (Identifikátory jmenného prostoru lze použít k popisu jedinečných jmen obou prvků a jejich atributy). V našem posledním příkladu by to mohlo být provedeno takto:
Jedinečnost atributu name je zajištěna použitím některých univerzálních identifikátorů zdroje (například URI nebo ISBN) jako jeho hodnoty.
Kompletní informace o použití jmenného prostoru najdete v tomto standardu. V budoucnu pro zjednodušení příkladů přeskočíme Namespace - descriptions.
Nástroje
Zpracování XML dokumentů
Hlavním limitujícím faktorem prosazování technologie XML na webu je dnes chybějící plná podpora tohoto formátu ze strany všech výrobců prohlížečů – programů nejčastěji používaných na straně klienta. Východiskem z této situace může být varianta, kdy zpracování XML dokumentů zvládne serverová strana Pomocí libovolného existujícího XML analyzátoru můžete vygenerovat potřebné informace na serveru a odeslat klientovi běžný HTML dokument. Tato metoda je však samozřejmě méně flexibilní a umožňuje používat technologii XML pouze pro ukládání strukturovaných informací, nikoli však pro jejich dynamickou změnu na straně klienta.
V srpnu 1997 byl schválen RFC 2376 MIME typy pro zdroje XML: text/xml a aplikace/xml. Proto mohou být XML dokumenty přenášeny přes HTTP a zobrazeny prohlížečem stejným způsobem jako běžné HTML stránky. Chcete-li to provést, musíte mírně změnit konfiguraci webového serveru (v Apache - přidat řádek "text/xml xml ddt" do souboru mime.types) a na straně klienta mít prohlížeč, který podporuje šablony stylů nebo JavaScript. Dnes takové prohlížeče jsou Internet společnosti Microsoft Explorer 5, první prohlížeč podporující specifikaci XML 1.0 a šablony stylů XSL; Prohlížeč Amaya, nabízený konsorciem speciálně pro účely testování () a podporuje téměř všechny vyvinuté standardy W3C. Podpora XML je plánována také pro budoucí verze Netscape Navigator.
Objektový model dokumentu DOM
Jedním z nejvýkonnějších rozhraní pro přístup k obsahu dokumentů XML je DOM.
Objektový model XML dokumentů je reprezentací jeho vnitřní struktury ve formě kolekce specifických objektů. Pro usnadnění jsou tyto objekty organizovány do jakési stromové datové struktury – každý prvek dokumentu lze přiřadit k samostatné větvi a veškerý jeho obsah ve formě sady vnořených prvků, komentářů, oddílů CDATA, atd. je v této struktuře reprezentován podstromy. Protože Protože každý správně vytvořený dokument XML musí mít definovaný hlavní prvek, veškerý obsah lze považovat za podstromy tohoto hlavního prvku, který se pak nazývá kořen stromu dokumentu. Pro následující fragment dokumentu XML:
Objektová reprezentace struktury dokumentu není pro vývojáře nic nového. Pro přístup k obsahu HTML stránky Skriptování již dlouho používá objektově orientovaný přístup – prvky dostupné pro Java Script nebo VBScript HTML dokument lze vytvářet, upravovat a prohlížet pomocí vhodných objektů. Jejich seznam a sada metod se ale neustále mění a závisí na typu prohlížeče a jazykové verzi. Za účelem poskytnutí rozhraní pro přístup k obsahu strukturovaného dokumentu, nezávislého na konkrétním programovacím jazyce a typu dokumentu, byla vyvinuta a oficiálně schválena specifikace objektového modelu DOM Level 1 v rámci konsorcia W3.
DOM je specifikace pro univerzální platformově a softwarově nezávislý přístup k obsahu dokumentů a je prostě jakýmsi API pro jejich handlery. DOM je standardní způsob konstrukce objektového modelu libovolného HTML nebo XML dokumentu, pomocí kterého lze vyhledávat potřebné fragmenty, vytvářet, mazat a upravovat jeho prvky.
Pro popis rozhraní pro přístup k obsahu XML dokumentů používá specifikace DOM platformově nezávislý jazyk IDL a pro jejich použití musí být „přeložen“ do konkrétního programovacího jazyka. To však dělají sami tvůrci analyzátorů, o způsobu implementace rozhraní možná nic nevíme – z pohledu vývojářů aplikací vypadá DOM jako sada objektů s určitými metodami a vlastnostmi. V další části se rychle podíváme na objektový model Microsoft Internet Explorer 5, který je přístupný ze skriptů Java Script a VBScript.
Při použití HTML zobrazená data logicky nesouvisí se značkami, které se používají pro označení, takže programy pro analýzu nemohou tyto značky použít k nalezení požadovaných fragmentů dokumentu. Navíc omezený počet HTML tagy ztěžuje použití k zobrazení specializovaných informací (jako jsou matematické vzorce).
Jako náhradu HTML byl navržen hypertextový značkovací jazyk XML (Extensible Markup Language). Tento jazyk lze použít k popisu gramatiky jiných jazyků a ke kontrole správnosti dokumentů. XML definuje, jak se značky vytvářejí, a usnadňuje jejich rozšíření. To umožňuje definovat vlastní značky pro identifikaci dat obsažených v dokumentu. Při vytváření struktury dokumentu se vytvářejí spojení mezi prvky a značkami nezbytnými k provádění operací prohlížení, vyhledávání a analýzy dokumentu. XML lze použít jako obecný dotazovací jazyk pro úložiště informací. Dokumenty XML tak mohou fungovat jako jedinečný způsob ukládání dat, včetně prostředků pro analýzu informací a jejich prezentaci.
Jazyk XML přilákal velkou pozornost vývojářů a uživatelů internetu. Objevují se nové jazyky vytvořené na základě XML a objevují se webové servery, které tuto technologii využívají k uspořádání informací na nich uložených. Úplné specifikace XML a souvisejících jazyků jsou k dispozici na oficiální stránce W3C - www.w3.org
Za rok narození XML lze považovat rok 1998, kdy byla schválena jazyková specifikace. Všechno to začalo tím, že se v roce 1986 objevil jazyk SGML. Přestože koncept hypertextu zavedl W. Bush již v roce 1945 a od 60. let se začaly objevovat aplikace využívající hypertextová data, nárůst aktivity kolem této technologie začal, když byla skutečná potřeba mechanismu pro kombinování více informací. zdroje, poskytující možnost tvorby, prohlížení textu. Pomocí SGML můžete popsat strukturovaná data, organizovat informace obsažené v dokumentech a prezentovat tyto informace v nějakém standardizovaném formátu. Jazyk SGML je určen pro tvorbu dalších značkovacích jazyků, definuje platnou sadu značek, jejich atributy a vnitřní strukturu dokumentu. Kontrola správného použití deskriptorů se provádí pomocí speciální sady pravidel nazývaných DTD popisy, které používá klientský program při analýze dokumentu. Pro každou třídu dokumentů je definována vlastní sada pravidel, která popisují gramatiku odpovídajícího značkovacího jazyka. Ale kvůli své složitosti se SGML používal hlavně k popisu syntaxe jiných jazyků, z nichž nejznámější je HTML.
HTML je zjednodušená verze značkovacího jazyka SGML. Mnohem jednodušší a pohodlnější než SGML, jazyk HTML umožňuje určit návrh prvků dokumentu a má určitou omezenou sadu instrukcí - značek, s jejichž pomocí se provádí proces označování. Instrukce HTML jsou primárně určeny k řízení procesu zobrazování obsahu dokumentu na obrazovce klientského programu a tím určují způsob prezentace dokumentu, nikoli však jeho strukturu. Prvek hypertextové databáze, popsaný HTML, je textový soubor, který lze snadno přenášet po síti pomocí HTTP protokol. Tato funkce, stejně jako skutečnost, že HTML je otevřený standard a obrovské množství uživatelů má možnost využít možnosti tohoto jazyka k návrhu svých dokumentů, jistě ovlivnily růst popularity HTML a učinily z něj dnes hlavní mechanismus pro prezentaci informací na webu
Použití hypertextového členění textového dokumentu v moderních informačních systémech je z velké části dáno tím, že hypertext umožňuje vytvořit mechanismus pro nelineární prohlížení informací. V takových systémech nejsou data prezentována jako nepřetržitý proud textových informací, ale jako soubor vzájemně propojených komponent, ve kterých se lze pohybovat pomocí hypertextových odkazů.
Nejpopulárnější hypertextový značkovací jazyk současnosti HTML byl vytvořen speciálně pro organizaci informací distribuovaných na internetu a je jednou z klíčových součástí technologie WWW. Pomocí modelu hypertextového dokumentu se způsob prezentace různých informačních zdrojů v síti stal uspořádanějším a uživatelé mají pohodlný mechanismus vyhledávání a prohlížení. potřebné informace.
Moderní aplikace však vyžadují nejen jazyk pro prezentaci dat na obrazovce klienta, ale také mechanismus, který umožňuje určit strukturu dokumentu a popsat prvky, které obsahuje. HTML má jednoduchou sadu příkazů a úspěšně se vyrovnává s úkolem popsat hypertextové informace zobrazené na obrazovce prohlížečem. Samotná zobrazená data však nejsou spojena se značkami, které se používají pro formátování, takže programy pro analýzu nemají možnost používat značky HTML k nalezení fragmentů dokumentu, které potřebujeme. Tito. že se s takovým popisem setkal například
růže,
divák bude vědět, jakou barvu má zobrazit text obsažený ve značkách a, ale je absolutně lhostejné, kde v dokumentu byla tato značka nalezena, v jakých dalších značkách je aktuální fragment uzavřen, zda fragmenty v něm vnořené existují, zda jsou vztahy mezi objekty vytvořeny správně. Tato „lhostejnost“ ke struktuře dokumentu vede k tomu, že vyhledávání nebo analýza informací v něm se nebude lišit od práce se souvislým textovým souborem, který není rozdělen na prvky. A to, jak víte, není nejefektivnější způsob práce s informacemi.
Další významnou nevýhodou HTML je omezená sada jeho značek. Pravidla DTD pro HTML definují pevnou sadu deskriptorů, a proto vývojář nemá možnost zadávat vlastní, speciální značky.
Shrneme-li vše, co bylo řečeno, lze tvrdit, že HTML plně nesplňuje požadavky, které vývojáři kladou na jazyky tohoto druhu.
Co je XML?
Termín XML označuje speciální typ hypertextového dokumentu. Co je špatného na běžných textových dokumentech a co je zvláštního na dokumentech XML?
V jakékoli textový dokument Můžete psát cokoli a jakýmkoli způsobem, například můžete mezi některá slova vložit jednu mezeru a mezi ostatní dvě mezery. Odstavec můžete zvýraznit červenou čarou se třemi mezerami a někdy mezi sousedními odstavci ponechat prázdný řádek. Na první řádek můžete napsat název dokumentu nebo můžete začít psát dokument s příjmením autora. Pokud je však třeba dokument publikovat, bude nutné jej předělat - odstavce by měly být formátovány jednotně, název by měl být z obecného vyprávění zvýrazněn jako prázdný řádek, mělo by být uvedeno příjmení autora a stručné shrnutí mezi nadpisem a prvním odstavcem atd. Stručně řečeno, bude potřeba připravit dokument nějakým standardním způsobem pro tuto publikaci. A pokud potřebujete tento dokument publikovat na jiném místě, budete muset znovu něco změnit a předělat. Ukazuje se, že existuje cesta ven - k pomoc přijde XML!
XML je ve skutečnosti metoda označování dokumentů navržená tak, aby v dokumentech vytvořila určitý druh struktury a definovala vztahy mezi různými prvky této struktury. K vytvoření takového označení se používají speciální instrukce nazývané tagy. Značky jsou umístěny mezi znaky< и >. Díky přítomnosti tagů je možné jednotné automatické zpracování a formátování XML dokumentů. Díky XML je také možné kontrolovat správnost dat uložených v dokumentech a také stanovit jednotný standard pro strukturu dokumentů, které mohou obsahovat libovolná data. XML je nepostradatelné při budování komplexních informačních systémů, ve kterých je otázka výměny informací mezi různými spotřebiteli velmi důležitá. Díky XML se můžete zbavit mnoha problémů spojených s nekompatibilitou mezi různými komponentami.
Příklad typického XML dokumentu |
První sériový letoun "Tu-214" vyrobený společností KAPO uskutečnil první zkušební let Letoun Tu-214, vyráběný v sériové verzi v Kazaňském sdružení letecké výroby /KAPO/, uskutečnil první zkušební let. O Společnosti PRIME-TASS to oznámila finanční leasingová společnost společnost /FLK/. Letoun byl vyroben pro leteckou společnost Chabarovsk Dalavia na základě dohody uzavřené v roce 2000 leasing dvou Tu-214 vyrobených v KAPO. Tu-214 navržený pro přepravu 164 cestujících na vzdálenost 7,2 tisíc km na trasách Moskva-Chabarovsk a také do Koreje Celkové náklady na přípravu výroby letounu činily 1,2 miliardy RUB Rozpočet země vyčleněný na tyto účely pouze 1,5 milionu rublů. Přípravy k výrobě byly prováděny na náklady prostředků z KAPO a rozpočtu Tatarstánu, jakož i v plné výši osvobození podniku od republikových a místních daně. Z republikového rozpočtu na certifikaci Na letadlo bylo přiděleno 97 milionů rublů a 275 milionů rublů ke spuštění leasingového mechanismu. |
Předběžná cena Tu-214 je 22-25 milionů dolarů. První dva řádky v tomto příkladu musí být přítomny. První řádek to znamená tento dokument je dokument XML a druhý ukazuje na speciální zdroj http://xml.prime-tass.ru/dtd/UIF.dtd , který obsahuje pravidla pro formátování tohoto XML dokumentu). Podrobnější informace o těchto „kouzelných slovíčkách“ a další lze získat na webových stránkách.
http://www.w3.org
. První označují otevírací tag, druhé označují párový uzavírací tag. V dokumentu XML musí mít každá úvodní značka odpovídající uzavírací značku.
Nezbývá než říci, co záznamy znamenají a k čemu jsou potřeba, jako např type="datetime" nebo type="string" uvnitř názvů značek ,
a zbývající značky jsou vnořeny do něj. Všechny tyto značky přicházejí v párech, např.
XML je značkovací jazyk, který popisuje celou třídu datových objektů nazývaných dokumenty XML. Tento jazyk se používá jako prostředek k popisu gramatiky jiných jazyků a ke kontrole správnosti dokumentů. Tito. Samotné XML neobsahuje žádné značkovací značky, pouze definuje pořadí, ve kterém jsou vytvářeny. Pokud tedy například považujeme za označení prvku růže dokument musí používat značku
Sadu štítků lze snadno rozšířit. Pokud, dejme tomu, chceme také naznačit, že popis květiny by měl smysluplně zapadnout do popisu skleníku, ve kterém kvete, pak jednoduše nastavíme nové tagy a zvolíme pořadí, ve kterém se objeví:
Pokud tam chceme zasadit několik dalších květin, musíme provést následující změny:
Jak vidíte, proces vytváření dokumentu XML je velmi jednoduchý a vyžaduje pouze základní znalosti HTML a porozumění úkolům, které chceme provádět pomocí XML jako značkovacího jazyka. To dává vývojářům jedinečnou možnost definovat vlastní příkazy, které jim umožní nejefektivněji definovat data obsažená v dokumentu. Autor dokumentu vytvoří jeho strukturu, vytvoří potřebná spojení mezi prvky pomocí těch příkazů, které splňují jeho požadavky, a dosáhne typu označení, které potřebuje k provádění operací prohlížení, vyhledávání a analýzy dokumentu.
Další zjevnou výhodou XML je možnost použít jej jako univerzální dotazovací jazyk pro úložiště informací. Dnes se v hlubinách W3C uvažuje o pracovní verzi standardu XML-QL (případně XQL), který se může v budoucnu stát vážnou konkurencí SQL. Kromě toho mohou dokumenty XML fungovat jako jedinečný způsob ukládání dat, který zahrnuje jak prostředky pro analýzu informací, tak jejich prezentaci na straně klienta. V této oblasti je jednou z perspektivních oblastí integrace technologií Java a XML, která umožňuje využít sílu obou technologií při budování strojově nezávislých aplikací využívajících i univerzální datový formát pro výměnu informací.
XML také umožňuje kontrolovat správnost dat uložených v dokumentech, kontrolovat hierarchické vztahy v rámci dokumentu a stanovit jednotný standard pro strukturu dokumentů, jejichž obsahem mohou být nejrůznější data. To znamená, že jej lze použít při budování komplexních informačních systémů, ve kterých je velmi důležitá otázka výměny informací mezi různými aplikacemi běžícími ve stejném systému. Vytvořením struktury pro mechanismus výměny informací na samém začátku práce na projektu se manažer může v budoucnu ušetřit mnoha problémů spojených s nekompatibilitou datových formátů používaných různými komponentami systému.
Jednou z výhod XML je také to, že programy pro zpracování dokumentů XML nejsou složité a již se objevily a jsou volně distribuovány nejrůznější softwarové produkty určené pro práci s dokumenty XML. XML je dnes podporováno v prohlížeči Microsoft Internet Explorer 4/0 a beta verzích IE5. Jeho podpora byla oznámena v následujících verzích Netscape Communicator, Oracle DBMS, DB-2, aplikace MS Office. To vše dává důvod předpokládat, že se s největší pravděpodobností v blízké budoucnosti stane XML hlavním jazykem pro výměnu informací pro informační systémy, čímž nahradí HTML. Známé specializované značkovací jazyky jako SMIL, CDF, MathML, XSL již byly vytvořeny na bázi XML a seznam pracovních návrhů nových jazyků zvažovaných W3C neustále roste.