Domov › Nastavení › Kreslení datových vitrín datového trhu. Data Mart. Nevýhody 3D vitrín

Kreslení datových vitrín datového trhu. Data Mart. Nevýhody 3D vitrín

Jednou z možností implementace datového skladu v praxi je vybudování datových tržišť (Data Marts). Někdy se jim také říká data marts. Datový trh je kolekce dat specifická pro doménu, která má konkrétní organizace. Obsah datových trhů je zpravidla určen k řešení určitého okruhu homogenních problémů v jedné nebo více souvisejících tematických oblastech nebo k plnění specifických obchodních funkcí nebo pro konkrétní oddělení. Například pro řešení problémů souvisejících s analýzou bankovních úvěrových služeb se používá jedna vitrína a pro analýzu aktivit banky na akciovém trhu slouží druhá.

Datový trh je tedy relativně malé a specializované datové úložiště obsahující pouze data specifická pro dané téma a určené pro použití konkrétní funkční jednotkou. Funkčně orientované datové trhy jsou tedy datové struktury, které poskytují řešení analytických problémů v konkrétní funkční oblasti nebo divizi společnosti, například řízení ziskovosti, analýza trhu, analýza zdrojů, analýza peněžních toků, klientská základna, marketingový průzkum, správa aktiv a pasiv atd. Data marts lze tedy považovat za malá tematická úložiště, která jsou vytvořena za tímto účelem informační podpora analytické úkoly konkrétních řídících úseků společnosti.

Uspořádání dat do vitríny je dáno potřebou poskytnout schopnost analyzovat data z konkrétní oblasti pomocí nejoptimálnějších prostředků.

Datové tržiště a datové sklady se od sebe značně liší. Pro řešení podnikových problémů přítomných v podnikovém informačním systému je vytvořen datový sklad. Datové sklady jsou obvykle vytvářeny a získávány centrálně řízenými organizacemi, jako jsou klasické organizace informační technologie, například banka. Datový sklad sestavuje celá korporace.

Datové tržiště je vyvinuto tak, aby vyhovovalo potřebám řešení specifického homogenního okruhu problémů. Jedna společnost tedy může mít mnoho různých datových trhů, z nichž každý má svůj vlastní vzhled a obsah.

Dalším rozdílem je granularita dat, protože datový trh obsahuje již agregovaná data. Naopak nejpodrobnější data obsahuje datový sklad.

Protože úroveň integrace v datových tržištích je vyšší než ve skladech, nelze granularitu datového tržiště snadno rozložit na granularitu skladu. Vždy ale můžete jít opačným směrem a jednotlivá data agregovat do zobecněných ukazatelů.

Na rozdíl od skladu obsahuje datové tržiště jen malé množství historických informací, vázaných pouze na krátké časové období a významných až v okamžiku, kdy splňují požadavky na řešení problému. Datové tržiště lze považovat za logicky nebo fyzicky oddělené podmnožiny datového skladu. Na Obr. Obrázek 2.20 ukazuje vztah mezi datovými tržišti a datovými sklady na příkladu bankovního odvětví.

Rýže. 2.20.

Data marts jsou obvykle hostována ve vrstvené technologii, která je optimální pro flexibilitu analýzy, ale není optimální pro velké objemy dat.

Struktura datových tržišť je také zaměřena na vícerozměrnou organizaci dat ve formě krychle. Jejich výstavba je však vzhledem k omezenému informačnímu rozsahu, který odpovídá potřebám jedné funkční oblasti, mnohem jednodušší a výnosnější.

Existují dva typy datových trhů – závislé a nezávislé. Závislý datový trh - je to ten, jehož zdrojem je datový sklad. Zdroj nezávislý datový trh je primární prostředí softwarové aplikace. Závislé datové tržiště jsou stabilní a mají robustní architekturu. Nezávislé datové tržiště jsou nestabilní a mají nestabilní architekturu, alespoň při přenosu dat.

Je třeba poznamenat, že data marts jsou ideální řešení Nejvýznamnějším konfliktem v návrhu datového skladu je výkon versus flexibilita. Obecně platí, že čím standardizovanější a flexibilnější je model datového skladu, tím méně efektivní je při odpovídání na dotazy. Je to dáno tím, že požadavky vstupující do standardně navrženého systému vyžadují podstatně více přípravných operací než v optimálně navrženém systému. Přesměrováním všech uživatelských požadavků na data marts, podporou flexibilního modelu datového skladu, mohou vývojáři dosáhnout flexibility a dlouhodobé stability struktury skladu, stejně jako optimální výkon pro požadavky uživatelů.

Jakmile jsou data uložena v úložišti, lze je distribuovat mezi mnoho datových trhů pro přístup podle uživatelských dotazů. Tyto datové obchody mohou přijímat různé tvary- od databází klient-server po desktopové databáze, Obap- kostky nebo i dynamické tabulky. Výběr nástrojů pro uživatelské dotazy může být široký a odrážet preference a zkušenosti konkrétních uživatelů. Široký výběr Takové nástroje a jejich snadné použití z nich učiní nejméně nákladnou část implementace projektu datového skladu. Pokud jsou data ve skladu dobře strukturovaná a mají ověřenou kvalitu, pak se jejich přenos do jiných datových trhů stane rutinní a nízkonákladovou operací.

Využití technologií data mart, závislých i nezávislých, nám umožňuje vyřešit problém konsolidace dat z různých zdrojů pro co nejvíce efektivní řešeníúkoly analýzy dat. V tomto případě mohou být zdroje různé účetní a systémy pomoci, lišící se architekturou a funkčností, zejména geograficky rozptýlenými.

TESTOVACÍ OTÁZKY

1. Formulujte koncept informační podpory. Jaké jsou její cíle a cíle?
2. Jaká je struktura subsystému „informační podpora“?
3. Jak můžeme definovat koncept informační podpory mimo stroj a ve stroji?
4. Co zahrnuje informační podpora mimo počítač?
5. Co se rozumí klasifikačním systémem a proč je klasifikace nezbytná?
6. Jaké vlastnosti charakterizuje kterýkoli klasifikační systém?
7. Jaké jsou hlavní rysy systému klasifikace faset?
8. Jaké požadavky je třeba dodržet při klasifikaci?
9. Vyjmenujte hlavní rysy hierarchický systém klasifikace.
10. Za jakým účelem jsou klasifikátory vyvíjeny a jaké jsou?
11. Kdy se používají systémy registračních kódů? Jaké systémy patří do této třídy?
12. K čemu se používají klasifikační kódovací systémy? Jaké systémy patří do této skupiny?
13. Co je podstatou čárového kódování?
14. Definujte dokument, jednotný systém dokumentace.
15. Co jsou diagramy toku informací a jaký je jejich hlavní účel?
16. Jaké jsou hlavní způsoby organizace vnitrostrojové informační podpory?
17. Uveďte hlavní nevýhody systémů s organizací souborů.
18. Definujte databázi. Jaké jsou jeho vlastnosti?
19. Jaké jsou hlavní strukturální jednotky databáze a jejich vztahy?
20. Vyjmenujte a popište hlavní fáze životního cyklu databáze.
21. Rozbalte hlavní fáze návrhu databáze.
22. Co je podstatou konceptuálního designu?
23. K čemu se používá model 7?? Jaká je jeho podstata a výhody?
24. Popište hlavní typy logické modely data.
25. Popište hierarchické a síťový model data.
26. Vysvětlete účel klíčových polí v relační databázi.
27. Jaké znáte typy spojení mezi objekty?
28. Co normální formy víš Popište jejich hlavní vlastnosti a účel.
29. V čem je postoj relační model? Pojmenujte hlavní vlastnosti vztahu.
30. Definujte následující pojmy: relace, n-tice, atribut, doména.
31. Jaký je princip normalizace vztahů?
32. Jaké jsou vlastnosti postrelačních databází?
33. Jaké jsou hlavní vlastnosti technologie Data Warehouse?
34. Definujte datový sklad a datový trh. Jaký je jejich rozdíl?
35. Jaké hlavní typy datových trhů znáte?
36. Co je podstatou pojmu „vícerozměrná krychle“?
37. Popište hlavní funkční bloky Systém řízení „Datový sklad“.
38. Popište vícerozměrnou strukturu datových skladů hvězd a sněhových vloček.
39. Jaké jsou hlavní zdroje dat vstupujících do informačního skladu?

Co je to datový sklad? Zpravidla se jedná o databázi, ve které je uložena celá masa informací o činnosti konkrétní společnosti. Často je však nutné izolovat od všech těchto rozsáhlých komplexních dat o jedné oblasti práce, divize nebo služby organizace. Zde přichází na pomoc další typ úložiště – tzv. data marts. Co to je, jaké jsou jeho výhody, nevýhody, odrůdy, budeme zvažovat v celém článku.

co to je?

Co jsou to data marts? Anglická verze - Data Mart. Pro tento pojem existuje několik synonym:

Specializované úložiště
Datový kiosek.
Datový trh atd.

Pojďme si definovat výklad pojmu „data showcase“:

Část databáze, datový sklad, který je navržen tak, aby představoval řadu vysoce specializovaných, tematických informací, orientovaných na požadavky zaměstnanců určitého oddělení, vektoru práce organizace.
Specializované úložiště informací, které obsahuje informace o jednom z vektorů činnosti společnosti.
Soubor tematicky souvisejících témat souvisejících s konkrétními oblastmi práce organizace.

V datovém tržišti nebude možné inzerovat. Je to jeden z typů úložiště interní informace organizaci spíše než poskytování informací do širokého kruhu uživatelů.

Koncept úložiště

Myšlenka vytvoření datových trhů byla navržena v roce 1991 společností Forrester Research. Autoři představili toto úložiště informace jako určitý soubor specifických databází, které obsahují informace související s konkrétními vektory aktivit korporace.

Společnost Forrester Research zdůraznila následující silné stránky svého projektu – data marts:

Předkládat analytikům pouze ty informace, které jsou skutečně potřebné pro konkrétní pracovní úkol nebo pracovní profil.
Maximální blízkost cílové části datového skladu k konkrétního uživatele.
Obsah tematických podmnožin dat dříve agregovaných specialisty, což je v budoucnu jednodušší na konfiguraci a navrhování.
Implementace datového tržiště (specializovaný typ datového skladu) není nutná výpočetní technika vysoký výkon.

Ale o tomtéž mluvil i Forrester Research slabiny jeho vynálezu:

Realizace informací teritoriálně distribuovaný systém, jehož redundance je špatně kontrolována.
Neexistují žádné navržené metody nebo metody, které by mohly zajistit integritu a konzistenci informací uložených v datovém tržišti (vysoce specializovaná databáze).

Pojďme nyní k nové téma.

Design vitríny

Hlavní příklad Datové tržiště jsou tematické podmnožiny předem agregovaných informací. Proto se takové databáze mnohem snáze navrhují a konfigurují. Vytvářejí podobné výkladní skříně pro hledání konkrétních odpovědí na požadavky uživatelů. Údaje v nich tvůrce přizpůsobuje konkrétním skupinám zaměstnanců. Taková optimalizace usnadňuje proces plnění vitrín a pomáhá zlepšit výkon takových databází.

Je známo, že návrh komplexních datových skladů je poměrně složitý proces, který může trvat i několik let. Ale datové tržiště, specifické pro jednotlivé struktury podniku nebo společnosti, je jednodušší a rychlejší vytvořit. Je třeba říci, že několik vitrín může úspěšně koexistovat s hlavním úložištěm informací, což o něm dává částečnou představu.

Jak jsme zmínili, navrhování datových tržišť je proces usnadněný technologií. Tvůrci VD si však musí pamatovat, že během výstavby mohou následně nastat problémy s integrací informací (pokud byl návrh proveden bez zohlednění komplexního obchodního modelu).

Nezávislé výklady: příklady

SQL data mart je analytická struktura, která podporuje provoz jedné z aplikací, oddělení nebo obchodních sekcí. Její zaměstnanci shrnují své požadavky na informace a přizpůsobují zobrazení vlastním obchodním potřebám. Dále přichází na řadu poskytnutí pracovníkům, kteří jsou v kontaktu s těmito údaji, pomocí určitých interaktivních reportovacích nástrojů.

Nezávislé datové trhy se historicky vyvinuly do velké organizace, které mají velké množství samostatných divizí s vlastními odděleními informačních technologií. Mezi jejich příklady patří následující:

Datový trh marketingového oddělení. Zahrnuje informace o produktech společnosti, jejích zákaznících, prodejních plánech atd.
Prezentace dat obchodního oddělení.
Ředitel pro vnitřní záležitosti finančního odboru.
Vnitřní záležitosti útvaru hodnocení rizik atd.

Výhody nezávislých výloh

Pojďme zvýraznit klíčové výhody data marts nalezená přímými tvůrci a uživateli:

Jsou maximálně zaměřeni na zaměstnance, poskytují mu pouze informace, které jsou nezbytné při plnění služebního úkolu.
Výrazně menší váha než databáze.
Vytváření výloh je technologicky jednodušší proces (než navrhování složitých datových skladů). Navíc vyplňování VD a práce s nimi pro koncové uživatele je jednodušší.
Obsahují souhrnné informace o určitých tématech.
Poměrně rychlá implementace datových trhů.
Vytvořeno k zodpovězení konkrétního souboru otázek.
Data jsou optimalizována pro použití konkrétním okruhem uživatelů. To zjednodušuje postup plnění HP a pomáhá zvýšit výkon systému.

Nevýhody nezávislých výloh

Pojďme definovat nevýhody datových trhů, které uživatelé a návrháři zdůrazňují:

Smíšený koncept

Co se stane, když zkombinujete koncepty datových tržišť a datových skladů? Tuto otázku položil v roce 1994 M. Demarest. Byl to on, kdo navrhl kombinaci výše uvedených konceptů pro další použití datové sklady (databáze) jako integrovaný jediný zdroj při navrhování datových tržišť.

Toto řešení kombinuje tři úrovně:

Obecná podniková databáze založená na relačním DBMS (systém správy databáze). Má slabě denormalizované nebo normalizované schéma (nebo podrobná data).
Databáze (DB) konkrétního oddělení, divize organizace nebo zaměstnance koncového uživatele. Je již implementován na základě vícerozměrného DBMS (agregovaná data).
Pracoviště zaměstnanců koncových uživatelů, na kterých jsou přímo instalovány analytické nástroje.

Tato vícerozměrná struktura se časem stane standardem v mnoha společnostech. Hlavní důvod Navíc kombinuje výhody dvou přístupů:

Kompaktní úložiště detailních informací, podpora rozsáhlých databází, která je implementována na bázi systémů pro správu relačních databází.
Snadné nastavení, rychlá reakce na požadavky uživatelů při práci s agregovanými informacemi na základě vícerozměrné systémy správa databáze.

Výhody 3D vitrín

Výhody tohoto typu VD jsou následující:

Zjednodušené vytváření takových datových trhů, protože jsou naplňovány ze standardizovaného spolehlivého jediného zdroje.
VD jsou synchronizované a kompatibilní s podnikovou databází.
Poměrně snadné rozšíření úložiště, možnost přidat nové vitríny.
Zaručený dobrý výkon systému.

Nevýhody 3D vitrín

Je zde také řada nevýhod:

Diskutovali jsme o tom, co je to data mart, jaké jsou rozdíly mezi konceptem nezávislých a tříúrovňových datových skladů, jaké jsou klíčové výhody a nevýhody takových velkých firemních informačních úložišť.

Při vývoji datového skladu vyvstávají následující otázky a je třeba je vyřešit:
1) jaká data by měla být uložena
2) Jak tato data najít a extrahovat
3) Jak zajistit správnost údajů.

V podstatě, pokud znáte odpovědi na tyto otázky, určíte rozsah úkolů, pro které je databáze, kterou navrhujete, určena a podle toho i okruh uživatelů. Vzniká tak úkol sběru, čištění a agregace.

Sběr dat se týká procesu organizování přenosu dat z externího zdroje do úložiště. Dnes tento proces nepředstavuje žádné zásadní obtíže. Téměř každý programátor může přenášet z jedné databáze do druhé.

Druhou částí související se sběrem je periodické doplňování. Zde je třeba rozhodnout, jak bude Databáze doplňována měsíčně, čtvrtletně atd. To se většinou řeší pomocí mechanismu událostí zde samozřejmě nikdo nic nedělá ručně. Je sestaven program, který to na základě nějaké události automaticky provede. Dostat tato data do skladu není nejjednodušší proces, protože data je potřeba organizovat – zajistit, aby docházela pravidelně a v požadované podobě. Například: město Moskva by se mělo psát identicky (někteří budou psát malými písmeny, jiní velkými písmeny). Problém s duplicitním vyloučením, takové informace mohou být možné. Druhým problémem je obnova chybějících dat. Například: je to typické pro zdravotnické zařízení a kvůli konkrétní nemoci lékař nezadává všechny údaje. Existuje test moči - hodnoty se odečítají ne pro všechny parametry, ale pro konkrétní onemocnění. Vzali jsme 5 údajů... a v tabulce je 20 ukazatelů. Obnovení chybějících dat je velmi velký problém, protože není jasné se rozhodnout. Protože co kam dát. To jednak brání zobecňování z nedostatku dat, protože prázdná data je potřeba sečíst nějakými konkrétními údaji a hned se zhorší ukazatele u některých sloupců. Na druhou stranu je fiktivní psát něco, co neodpovídá skutečnosti u jedné nemoci je ukazatel důležitý, u jiné ne. (oh šel dál). Odstranění nežádoucích znaků, převedení do jediného formátu. Při sběru dat je tedy velmi důležité se rozvíjet komplexní systém, která začíná vést k celkový vzhled. Není to složité, ale pečlivé a dlouhá práce vzít v úvahu všechny nuance. Například: prodejci v různá místa Stejnou kazetu mohou nazývat odlišně.

Data Marts

Koncept datových trhů byl navržen v roce 1992. Vznik konceptu data marts je dán tím, že se ukázalo, že přestože je datový sklad dobrá věc, jeho vývoj a implementace probíhá několik let. A to ovlivňuje náklady podniků, které se samy za sebe dlouho neplatí. Vzhledem k tomu, že často informační struktura společnosti mohou být složité a matoucí – vytvoření datového skladu nelze provést jedním tahem. Druhý problém, jak již bylo zmíněno, je s investicemi. Za třetí, velmi často existující operační systémy OLTP musí být také přepracovány tak, aby také ukládaly nebo si pamatovaly data, která jsou potřeba pro kostky. Důležitým bodem je, že stávající technologie v rozhodování je obtížné upravovat a měnit, a proto se jim musíte přizpůsobit, tedy přizpůsobit svá data stávajícím technologiím. Vznik datamartů byl proto pokusem zmírnit požadavky na datové sklady. Datový trh v podstatě označuje specializovaná skladovací zařízení, která slouží jedné z oblastí činnosti. Například: marketing, účetnictví zásob atd. Trasy jsou izolované od celého datového skladu a automatizované. Zpravidla se na prvním místě berou ty procesy, které jsou snadno automatizovatelné, dobře prostudované a ne tak složité, a implementace těchto datových trhů vám umožní rychle získat návratnost pomocí malých příkladů. Velmi často tedy dochází k rozvoji datových skladů a tržišť data přicházejí paralelně, to znamená, že v budoucnu potřebujeme datový sklad, ale vyvíjejí se výlohy, které začínají přinášet výsledky, na druhou stranu umožňují vývojářům ukázat zákazníkům, že efekt existuje. Stejně jako u datových skladů je standardem hvězdicová struktura a tabulka faktů.

Datové tržiště mají řadu nepochybných výhod:
-No, za prvé, analytici, kteří pracují s datovým trhem, vždy pracují s daty, která jsou snadno srozumitelná a viditelná. Například: analytik z obchodního oddělení. Nestará se o zásoby, výrobu atp. Hlavní je, že má soubor firem, kde prodává nějaký produkt. Nebolí ho jak, co, výroba atd.

„Kromě toho, protože datové tržiště jsou mnohem menší než databáze, jsou již nutné velké investice do výpočetního výkonu.

Dnes je jich poměrně hodně průmyslové systémy, které odpovídají konceptu datových trhů. Za prvé, počítačová společnost vydala produkt PowerMarcSuit. Dále společnost Stgentehnology vydala DataMapSollution. Společnost Oracle vydala produkt DataMapSuit. V roce '94 bylo navrženo zkombinovat koncepty datových tržišť a datových skladů a použít sklady pro datové tržiště. Od software pro analýzu datových skladů trvá sestavení velmi dlouho a sklad samotný se obtížně vytváří, shromažďování dat do databáze není tak obtížné, je obtížné k němu připojit software, který by provedl analýzu, takže Účelem sjednocení bylo, že samotné datové tržiště budou založeny na datech uložených v úložištích. No, byla navržena tzv. víceúrovňová architektura tří úrovní.

První úroveň obecné podnikové databáze založené na distribuovaném DBMS.

Druhá úroveň databáze oddělení. Typicky založené na desktopovém DBMS. Zde se ukládají agregovaná data, tzn relační databáze data ukládají provozní data a agregovaná data jsou vyřazena do úrovně 2, kde lze použít Desktop DBMS.

A třetí úrovní jsou konkrétní místa uživatelů-analytiků. Ti uživatelé, kteří vyvozují nějaké závěry na základě datových trhů.

Data Mart(Angličtina) Data Mart; další možnosti překladu: specializovaný datový sklad, datový kiosek, datový trh) - výsek datového skladu, což je pole tematických, vysoce cílených informací, zaměřených například na uživatele jedné pracovní skupiny nebo oddělení.

Koncept datového trhu

Koncept datových trhů byl navržen společností Forrester Research již v roce 1991. Podle autorů datové trhy- mnoho tematických databází (DB) obsahujících informace týkající se jednotlivých aspektů činnosti organizace.

Koncept má řadu nepochybných výhod:

Analytici vidí a pracují pouze s daty, která skutečně potřebují.
Cílová databáze je co nejblíže koncovému uživateli.
Datové tržiště obvykle obsahují tematické podmnožiny předem agregovaných dat a lze je snadněji navrhovat a přizpůsobovat.
Implementace datových trhů nevyžaduje vysoce výkonnou výpočetní technologii.

Koncept datových trhů má ale také velmi vážné mezery. V podstatě se jedná o implementaci geograficky distribuovaného informačního systému s malou kontrolovanou redundancí, ale nenabízí způsoby, jak zajistit integritu a konzistenci dat v něm uložených.

Smíšený koncept datových tržišť a datových skladů

Zdá se, že nápad spojit dva koncepty datových skladů a datových tržišť pochází od M. Demaresta, který v roce 1994 navrhl kombinaci těchto dvou konceptů a použití datového skladu jako jediného integrovaného zdroje dat pro datové tržiště.

A dnes je přesně toto víceúrovňové řešení:

první úroveň je obecná podniková databáze založená na relačním DBMS s normalizovaným nebo slabě denormalizovaným schématem (podrobná data);
druhá úroveň - databáze úrovně divize (příp koncový uživatel), implementované na základě vícerozměrného DBMS (agregovaná data);
třetí úroveň - pracovní stanice koncových uživatelů, na kterých jsou přímo nainstalovány analytické nástroje;

se postupně stává de facto standardem umožňujícím nejúplnější implementaci a využití výhod každého přístupu:

kompaktní úložiště podrobných dat a podpora velmi rozsáhlých databází poskytovaná relačními DBMS;
snadné nastavení a dobré časy odezva při práci s agregovanými daty poskytovanými multidimenzionálním DBMS.

Relační forma reprezentace dat použitá v centrální podnikové databázi poskytuje nejkompaktnější způsob ukládání dat. Moderní relační DBMS jsou již schopny pracovat s databázemi, které mají velikost řádově několik terabajtů. I když takový centrální systém obvykle nebude schopen poskytnout provozní režim zpracování analytických dotazů, při použití nových metod indexování a ukládání dat i částečné denormalizace tabulek se doba zpracování předem regulovaných dotazů (a za takové můžeme považovat regulované postupy nahrávání dat do vícerozměrných databází) ukazuje jako být docela přijatelné.

Na druhé straně poskytuje použití vícerozměrného DBMS v uzlech nižší úrovně minimální časy zpracování a reagování na neregulované požadavky uživatelů. Některé vícerozměrné DBMS navíc mají schopnost ukládat data jako průběžně(přímo ve vícerozměrné databázi) a dynamicky (po dobu trvání relace) načítat data z relačních databází (na základě regulovaných dotazů).

Je tak možné trvale uchovávat pouze data, která jsou v daném uzlu nejčastěji požadována. U všech ostatních jsou uloženy pouze popisy jejich struktury a programy pro jejich vyjmutí z centrální databáze. Přestože počáteční doba odezvy na taková virtuální data může být poměrně dlouhá, poskytuje toto řešení vysokou flexibilitu a vyžaduje méně nákladný hardware

Viz také

Vytvoření datového skladu

Koncepty

Možnosti

Prvky

Fakta

Měření

Plnicí

Použití datového skladu

Koncepty

Jazyky

Nástroje

Související témata

Lidé

Produkty

Napište recenzi na článek "Data Showcase"

Výňatek popisující Data Mart

"Makar Alekseich má seznamy," řekl záchranář. "Pojďte do důstojnických komnat, uvidíte tam sami," dodal a otočil se k Rostovovi.
"Ehm, je lepší nejít, otče," řekl doktor, "jinak bys mohl zůstat tady." "Ale Rostov se doktorovi uklonil a požádal záchranáře, aby ho doprovodil."
"Neobviňujte mě moc," křičel doktor zpod schodů.
Rostov a zdravotník vstoupili do chodby. Nemocniční pach byl v této temné chodbě tak silný, že se Rostov popadl za nos a musel se zastavit, aby sebral síly a šel dál. Vpravo se otevřely dveře a ven se o berlích naklonil hubený žlutý muž, bosý a jen ve spodním prádle.
Opřel se o překlad a díval se na kolemjdoucí zářícíma závistivýma očima. Rostov se podíval dveřmi a viděl, že na podlaze leží nemocní a zranění na slámě a kabátech.
-Můžu jít dovnitř a podívat se? zeptal se Rostov.
- Na co se mám dívat? - řekl záchranář. Ale právě proto, že ho zdravotník zjevně nechtěl pustit dovnitř, vstoupil Rostov do komnat vojáků. Zápach, který už cítil na chodbě, zde byl ještě silnější. Tato vůně se zde poněkud změnila; byl ostřejší a bylo cítit, že odtud pochází.
V dlouhé místnosti, jasně osvětlené sluncem přes velká okna, leželi nemocní a ranění ve dvou řadách s hlavami ke stěnám a uprostřed nechali průchod. Většina někteří byli v zapomnění a nevšímali si vstupujících. Všichni, kdo byli na památku, vstali nebo zvedli své hubené žluté tváře a všichni se stejným výrazem naděje na pomoc, výčitky a závisti na zdraví ostatních lidí, aniž by spustili oči, pohlédli na Rostov. Rostov vyšel doprostřed místnosti, nahlédl do sousedních místností s otevřenými dveřmi a na obou stranách uviděl totéž. Zastavil se a tiše se rozhlížel kolem sebe. Nikdy nečekal, že tohle uvidí. Před nimi ležel téměř přes střední uličku na holé podlaze nemocný muž, pravděpodobně kozák, protože měl vlasy ostříhané do rovnátka. Tento kozák ležel na zádech a měl roztažené obrovské ruce a nohy. Obličej měl karmínově rudý, oči měl úplně v sloup, takže bylo vidět jen bělmo, a na bosých nohách a na rukou, ještě rudých, měl napjaté žíly jako provazy. Udeřil se zadní částí hlavy o podlahu, řekl něco chraplavě a začal to slovo opakovat. Rostov poslouchal, co říkal, a rozpoznal slovo, které opakoval. To slovo bylo: pít – pít – pít! Rostov se rozhlédl a hledal někoho, kdo by mohl tohoto pacienta postavit na jeho místo a dát mu vodu.
-Kdo se tu stará o nemocné? “ zeptal se záchranáře. V tu chvíli z vedlejší místnosti vyšel voják z Furstadtu, ošetřovatel nemocnice, a před Rostovem se postavil mlaskavým krokem.
- Přeji vám pevné zdraví, vaše ctihodnosti! - vykřikl tento voják a obrátil oči v sloup na Rostova a evidentně si ho spletl s vedením nemocnice.
"Odveďte ho, dejte mu vodu," řekl Rostov a ukázal na kozáka.
"Poslouchám, vaše ctihodnosti," řekl voják s potěšením, obrátil oči v sloup ještě pilněji a natáhl se, ale nehnul se ze svého místa.
"Ne, tady se nedá nic dělat," pomyslel si Rostov, sklopil oči a chystal se jít ven, ale s pravá strana cítil významný pohled zaměřený na sebe a ohlédl se na něj. Téměř v rohu, seděl na kabátě s hubeným, přísným obličejem, žlutým jako kostra a neoholeným šedým plnovousem, seděl starý voják a zarputile se díval na Rostova. Na jedné straně mu soused starého vojáka něco pošeptal a ukázal na Rostov. Rostov si uvědomil, že starý muž ho má v úmyslu o něco požádat. Přišel blíž a viděl, že starý muž má pokrčenou jen jednu nohu a druhá vůbec není nad kolenem. Dalším sousedem starého muže, který nehybně ležel s hlavou odhozenou dozadu, docela daleko od něj, byl mladý voják s voskovou bledostí na obličeji s tupým nosem, stále pokrytým pihami a očima převrácenýma pod víčky. Rostov se podíval na vojáka s tupým nosem a po zádech mu přeběhl mráz.

Datový sklad Datový sklad je doménově specifická, integrovaná, historická, nezničitelná sbírka dat určená k podpoře rozhodování managementu. (William Inmon) Termín „datový sklad“ lze chápat jako spojení dvou základních myšlenek: integrace nesourodých dat do jednoho úložiště a oddělení datových sad a aplikací pro zpracování a analýzu.

Data z různých zdrojů jsou uložena v úložišti a jejich popisy jsou umístěny v úložišti metadat. Koncový uživatel používá různé nástroje může analyzovat data v úložišti. Výsledkem jsou informace ve formě připravených reportů, nalezených skrytých vzorců a případných předpovědí. Vzhledem k tomu, že prostředky koncového uživatele pro práci s datovým skladem mohou být velmi rozmanité, neměl by jejich výběr ovlivnit strukturu skladu a funkce jeho udržování v aktuálním stavu. Fyzická realizace tohoto schématu může být velmi různorodá. Koncepční model datové sklady

Přístupy a dostupná implementační řešení Společnost IBM Datový sklad Plus. Cílem je poskytovat integrovaný soubor softwarových produktů a služeb založených na jediné architektuře. Základem datových skladů je rodina DB2 DBMS. Výhodou IBM je, že data, která je třeba extrahovat z provozní databáze a umístit do datového skladu, jsou in systémy IBM. Úzká integrace softwarových produktů je proto přirozená. Nabízí se tři řešení pro datové sklady: Izolovaný datový trh. Navrženo pro řešení jednotlivých problémů mimo spojení s sdílené úložiště korporací. Závislý datový trh. Podobné jako izolovaný datový trh, ale zdroje dat jsou pod centralizovanou kontrolou. Globální datový sklad. Podnikový datový sklad, který je kompletně centrálně řízen a spravován. Globální datový sklad může být uložen centrálně nebo se může skládat z více datových trhů distribuovaných po síti.

Přístupy a dostupná implementační řešení (pokračování) Řešení Oracle Oracle je založeno na dvou faktorech: na široké nabídce produktů samotné společnosti a na aktivitách partnerů v rámci programu Warehouse Technology Initiative. Schopnosti společnosti Oracle v oblasti datových skladů jsou založeny na následujících komponentách: přítomnost relačního Oracle DBMS 7, který je neustále vylepšován, aby lépe vyhovoval potřebám datových skladů; existence množiny hotové aplikace, poskytování možností rozvoje datového skladu; vysoký technologický potenciál společnosti v oblasti analýzy dat; dostupnost řady produktů vyráběných jinými společnostmi.

Přístupy a dostupná implementační řešení (pokračování) Hewlett Packard OpenWarehouse. Spuštění tohoto programu by mělo poskytnout možnost vytvářet datové sklady založené na výkonné počítače HP, zařízení jiných výrobců a softwarové komponenty. Přístup HP je založen na platformách Unix a softwarový produkt Inteligentní sklad určený pro správu datových skladů. Základ pro budování datových skladů nabízený společností HP ponechává svobodu volby relačního DBMS, reengineeringových nástrojů atd. NCR Řešení problémů korporací, které mají stejně silné potřeby jak systémů pro podporu rozhodování, tak operačních systémů analytické zpracování data. Navrhovaná architektura se nazývá Enterprise Information Factory a je založena na zkušenostech s používáním Teradata DBMS a souvisejících metod paralelního zpracování.

Přístupy a dostupná implementační řešení (pokračování) Informix Software Strategie společnosti je zaměřena na rozšíření trhu s produktem On-Line Dinamic Parallel Server. Navrhovaná architektura je založena na čtyřech technologiích: relační databáze, software pro správu datového skladu, nástroje pro přístup k datům a platforma otevřené systémy. Po propuštění Univerzální server, na základě objektově-relačního přístupu lze očekávat, že bude sloužit i k budování datových skladů. SAS Institute Společnost se považuje za dodavatele kompletní řešení k uspořádání datového skladu. Tento přístup je založen na následujícím: poskytování přístupu k datům se schopností získávat je ze široké škály datových úložišť (relačních i nerelačních); transformace a manipulace s daty pomocí 4GL; dostupnost serveru vícerozměrné databáze data; velký soubor metod a nástrojů pro analytické zpracování a statistickou analýzu.

Přístupy a dostupná implementační řešení (konec) Sybase Strategie společnosti je založena na architektuře Warehouse WORKS, kterou vyvinula. Tento přístup je založen na systému správy relačních databází Sybase System 11, nástroji pro připojení a přístup k databázi OmniCONNECT a nástroji pro vývoj aplikací PowerBuilder. Společnost pokračuje ve vylepšování své DBMS, aby lépe vyhovovala potřebám datových skladů (například byla zavedena bitová indexace). Software AG Iniciativa pro otevřený datový sklad. Program je založen na základních produktech společnosti ADABAS a Natural 4GL, proprietárních a zakoupených nástrojích pro extrakci a analýzu dat a nástroji pro správu datového skladu SourcePoint. SourcePoint umožňuje automatizovat proces extrahování a přenosu dat a také jejich načítání do datového skladu.

Pravidla pro datové sklady (William a Kelly) 1. Datové sklady a operační prostředí musí být odděleny. 2. Data ve skladu musí být integrována. 3. Úložiště obsahuje nashromážděná data dlouho. 4. Data v úložišti jsou snímek dat získaných v momentálněčas. 5. Údaje ve skladu jsou věcně specifické. 6. Údaje ve skladu mají být čitelné a pravidelně aktualizované na základě provozních údajů. Data ve skladu nelze okamžitě aktualizovat.

Pravidla pro datové sklady (pokračování) 7. Životní cyklus v datovém skladu se liší od klasického informačního systému. V datovém skladu jsou v popředí data a v provozní databázi je v popředí proces. 8. Datový sklad uchovává data s několika úrovněmi podrobností (aktuální, stará, slabě zobecněná, vysoce zobecněná data). 9. Prostředí datového skladu se vyznačuje transakcemi, které čtou pouze velká množství dat. (Středa operační základna data – velký počet aktualizačních transakcí). 10. Datový sklad obsahuje systém, který sleduje zdroje dat, transformaci a ukládání.

Pravidla pro datové sklady (pokračování) 11. Metadata úložiště - podstatná součást této infrastruktury, protože popisuje zdroje, transformaci, ukládání, použití, vztahy, integraci a historii každého datového prvku. 12. Datový sklad musí mít mechanismus pro využití zdrojů k optimalizaci všech procesů. Dva přístupy: data jsou uložena ve formě krychlí; pokaždé, když je vytvořena virtuální krychle. Snaží se vytvořit krychli, aby do ní uložili data – například na nižší úroveň– samotná data, na další – první úroveň podrobností, na další – druhá atd. – k nejobecnějšímu ukazateli.

Virtuální datový sklad Virtuální datový sklad je systém, který poskytuje přístup k běžnému záznamovému systému, který emuluje práci s datovým skladem. Virtuální úložiště lze organizovat dvěma způsoby: vytvořit řadu „pohledů“ v databázi, použít speciální prostředky přístup k databázi (například desktopové OLAP produkty)

Výhody a nevýhody virtuální úložiště+ jednoduchost a nízké náklady na implementaci + jednotná platforma se zdrojem informací + absence síťová připojení mezi zdrojem informací a datovým skladem - práce s iluzí datového skladu - nízký výkon- složitost transformace dat a integrace dat s jinými zdroji - nedostatek historie - problémy s čistotou dat - závislost na dostupnosti a struktuře hlavní databáze

Data Marts Koncept datových tržišť byl navržen v roce 1992. Nástup datamartů byl pokusem změkčit požadavky na datové sklady. Datový trh označuje specializovaná skladovací zařízení, která slouží jedné z oblastí činnosti. Trasy jsou izolované od celého datového skladu a automatizované. Zpravidla se berou především ty procesy, které lze snadno automatizovat, jsou dobře prostudované, nejsou tak složité a implementace těchto datových trhů vám umožňuje rychle dosáhnout návratnosti pomocí malých příkladů. Velmi často probíhá vývoj datového skladu a datových trhů paralelně, to znamená, že v budoucnu je datový sklad potřeba, ale vyvíjejí se výklady, které začínají přinášet výsledky, na druhou stranu umožňují vývojářům ukázat zákazníkům že existuje efekt.

Výhody vitrín + jednoduchost a nízké náklady na realizaci + vysoký výkon díky fyzickému oddělení záznamových a analytických systémů, oddělení načítání a transformace dat do samostatného procesu, struktura úložiště dat optimalizovaná pro analýzu + podpora historie + možnost přidávat metadata

Dvouvrstvá architektura Datové sklady zahrnují výstavbu datových tržišť bez vytvoření centrálního úložiště, zatímco informace pocházejí ze záznamových systémů a jsou omezeny na konkrétní předmětnou oblast. Při stavbě martů se využívají základní principy budování datových skladů, lze je tedy považovat za miniaturní datové sklady. Dvouvrstvá skladovací struktura

V roce 1994 bylo navrženo spojit koncepty datových tržišť a datových skladů a využít sklady pro datové tržiště. Cílem sjednocení bylo, aby samotné datové tržiště vycházely z dat, která jsou uložena v datových skladech. Byla navržena tzv. víceúrovňová architektura tří úrovní: 1. úroveň obecné podnikové databáze založené na distribuované DBMS; 2. úroveň databáze katedry. Zde se ukládají agregovaná data, to znamená, že relační databáze ukládají provozní data a agregovaná data jsou vyřazena do úrovně 2. 3. úroveň jsou specifická místa uživatelských analytiků. Ti uživatelé, kteří vyvozují nějaké závěry na základě datových trhů.

Někdy jsou analýzy provedené v jednom oddělení v rozporu s výsledky získanými v jiném oddělení. Nedostatek konzistence je způsoben nejednotnými definicemi běžných obchodních pojmů a nekonzistentními údaji v celé organizaci. Okamžitým řešením tohoto problému je vytvoření koordinovaných datových tržišť, jinak známých jako integrovaný sklad. Vytváření koordinovaných datových tržišť zahrnuje návrh systému pro celou organizaci jako celek a jeho podrobný vývoj. jednotlivé funkce. Tento iterativní přístup snižuje možné riziko a okamžitě poskytuje mnoho výhod a také umožňuje vyvíjet systém v průběhu času, dokud analytické schopnosti nepokryjí celou činnost organizace.

Optimalizace koordinovaných výloh spočívá ve vytvoření struktury, která by umožnila co nejefektivnější analýzu dat a přípravu reportů a rychle poskytla klientovi potřebné informace o jeho podnikání. Pro tento účel se nejlépe hodí hvězdicový obvod. Hvězdicové schéma poskytuje dva typy tabulek – tabulky faktů a tabulky dimenzí. První obsahují historii transakcí spojenou s konkrétní modelovanou aktivitou. Ukládají odpovídající číselné indikátory a pole ID (identifikátory) pro každou z dimenzí. Ve hvězdicovém schématu jsou tabulky faktů obklopeny podpůrnými tabulkami dimenzí, což umožňuje uživateli rychle proniknout do dat a identifikovat korelace mezi dimenzemi a prvky v tabulkách faktů.

Architektura datového skladu Dnes bylo navrženo mnoho architektur, zvažme pět nejběžnějších: 1. nezávislé datové tržiště 2. architektura sběrnic datových tržišť s propojenými rozměrovými datovými tržišti 3. „hvězdná“ architektura (hub-and-spoke) 4. centralizovaný datový sklad 5. federovaná architektura.

Nezávislé datové tržiště Není neobvyklé, že každá divize společnosti vyvíjí svůj vlastní datový tržiště. Všechny tyto vitríny uspokojují potřeby, pro které byly vytvořeny, ale zároveň na sobě nejsou závislé a neposkytují jednotný pohled na situaci ve firmě. Obsahují nekonzistentní údaje, použití různé rozměry a ukazatelů, a proto je analýza dat mezi prodejnami obtížná.

Sběrnice propojených datových tržišť (Ralph Kimball) Vytvoření takové architektury začíná analýzou požadavků na konkrétní obchodní procesy, jako jsou objednávky, zákazníci, faktury a tak dále. První datový trh je vytvořen pro jeden obchodní proces pomocí dimenzí a indikátorů, které budou později použity v dalších komponentách. Pomocí těchto dimenzí jsou vyvíjeny následné datové tržiště, což vede k logicky integrovaným tržnicím.

Hvězdná architektura (Bill Inmon) Představuje centralizovaný datový sklad se závislými datovými tržišti. Tato architektura je vyvinuta na základě podnikové analýzy požadavků na data. Je důležité věnovat pozornost vytvoření škálovatelné a udržovatelné infrastruktury. Na základě použití reprezentace podnikových dat je architektura vyvíjena iterativně a zahrnuje jednu předmětovou oblast za druhou. Detailní data jsou uložena v normalizované podobě v datovém skladu. Závislé datové tržiště přijímají data z datového skladu. Závislé datové tržiště jsou vyvíjeny pro oddělení nebo specifické funkční oblasti, účely a mohou být buď normalizované nebo denormalizované, nebo ve formě jakékoli agregované datové struktury. Většina uživatelů spouští dotazy na závislých datových tržištích.

Centralizovaný datový sklad (žádné závislé datové tržiště) Tato architektura je podobná hvězdicové architektuře kromě toho, že zde nejsou žádné závislé datové tržiště. Datový sklad obsahuje podrobná data, některá agregovaná data a logické pohledy. Dotazy a aplikace běží jak na relačních datech, tak na vícerozměrných pohledech.

Federovaná architektura Tato architektura využívá existující struktury pro podporu rozhodování (operační systémy, marts a datové sklady). Data jsou extrahována z uvedených systémů na základě obchodních požadavků. Data jsou logicky nebo fyzicky integrována pomocí metadat, distribuovaných dotazů a dalších technik. Tato architektura je praktické řešení pro společnosti, které již analytické nástroje používají a nechtějí se jich vzdát.