Co jsou velká data: shromáždili jsme všechny nejdůležitější věci o velkých datech. Technologie velkých dat (analýza velkých dat)

Velká data– nejde jen o data samotná, ale také o technologie pro jejich zpracování a využití, metody pro vyhledávání potřebných informací ve velkých polích. Problém velkých dat zůstává stále otevřený a zásadní pro všechny systémy, které po desetiletí shromažďují širokou škálu informací.

Tento termín je spojen s výrazem "Objem, rychlost, rozmanitost"– principy, na kterých je založena práce s velkými daty. Je to přímo množství informací, rychlost jeho zpracování A různé informace, uložený v poli. Nedávno se ke třem základním zásadám přidal ještě jeden princip – Hodnota, což znamená hodnotu informací. To znamená, že musí být užitečný a nezbytný z teoretického nebo praktického hlediska, což by ospravedlnilo náklady na jeho skladování a zpracování.

Příkladem typického zdroje velkých dat jsou sociální sítě – každý profil nebo veřejná stránka představuje jednu malou kapku v nestrukturovaném oceánu informací. Navíc bez ohledu na množství informací uložených v konkrétním profilu by interakce s každým uživatelem měla být co nejrychlejší.

Velká data se neustále hromadí téměř ve všech oblastech lidského života. To zahrnuje jakékoli odvětví, které zahrnuje buď lidskou interakci nebo výpočetní techniku. Patří mezi ně sociální média, lékařství, bankovnictví a také systémy zařízení, které získávají četné výsledky z každodenních výpočtů. Například astronomická pozorování, meteorologické informace a informace ze zemských snímacích zařízení.

Informace ze všech druhů sledovacích systémů v reálném čase také putují na servery konkrétní společnosti. Televizní a rozhlasové vysílání, databáze hovorů mobilních operátorů - interakce každého jednotlivého člověka s nimi je minimální, ale v souhrnu se všechny tyto informace stávají velkými daty.

Technologie velkých dat se staly nedílnou součástí výzkumu, vývoje a obchodu. Navíc začínají přebírat sféru veřejné správy – a všude je potřeba zavádět stále efektivnější systémy pro ukládání a manipulaci s informacemi.

Termín „big data“ se poprvé objevil v tisku v roce 2008, kdy editor Nature Clifford Lynch publikoval článek o vývoji budoucnosti vědy využívající technologie pro práci s velkým množstvím dat. Do roku 2009 byl tento termín považován pouze z hlediska vědecké analýzy, ale po publikaci několika dalších článků začal tisk široce používat pojem Big Data - a používá jej dodnes.

V roce 2010 se začaly objevovat první pokusy řešit narůstající problém velkých dat. Byly vydány softwarové produkty, jejichž činnost byla zaměřena na minimalizaci rizik při použití obrovského množství informací.

Do roku 2011 se o velká data začaly zajímat velké společnosti jako Microsoft, Oracle, EMC a IBM – staly se prvními, kteří ve svých rozvojových strategiích využili vývoj velkých dat, a to docela úspěšně.

Vysoké školy začaly studovat velká data jako samostatný předmět již v roce 2013 – problémy v této oblasti nyní řeší nejen datová věda, ale také inženýrství spojené s výpočetními předměty.

Mezi hlavní metody analýzy a zpracování dat patří:

  1. Třídní metody nebo hloubková analýza (Data Mining).

Těchto metod je poměrně mnoho, ale jedno mají společné: používané matematické nástroje v kombinaci s úspěchy z oblasti informačních technologií.

  1. Crowdsourcing.

Tato technika vám umožňuje získávat data současně z několika zdrojů, přičemž počet těchto zdrojů je prakticky neomezený.

  1. A/B testování.

Z celého objemu dat je vybrána kontrolní sada prvků, která je střídavě porovnávána s jinými podobnými sadami, kde došlo ke změně některého z prvků. Provádění takových testů pomáhá určit, které výkyvy parametrů mají největší dopad na kontrolní populaci. Díky objemu Big Data je možné provádět obrovské množství iterací, přičemž každá z nich se přibližuje nejspolehlivějšímu výsledku.

  1. Prediktivní analytika.

Specialisté v této oblasti se snaží předem předvídat a plánovat, jak se bude ovládaný objekt chovat, aby v této situaci učinili co nejziskovější rozhodnutí.

  1. Strojové učení (umělá inteligence).

Je založen na empirické analýze informací a následné konstrukci samoučících se algoritmů pro systémy.

  1. Síťová analýza.

Nejběžnější metodou pro studium sociálních sítí je, že po získání statistických dat jsou analyzovány uzly vytvořené v gridu, tedy interakce mezi jednotlivými uživateli a jejich komunitami.

V roce 2017, kdy velká data přestala být něčím novým a neznámým, jejich význam nejen neklesl, ale ještě vzrostl. Nyní odborníci sázejí na to, že analýza velkých dat bude dostupná nejen pro obří organizace, ale také pro malé a střední podniky. Tento přístup se plánuje implementovat pomocí následujících komponent:

  • Cloudové úložiště.

Ukládání a zpracování dat je stále rychlejší a ekonomičtější – v porovnání s náklady na údržbu vlastního datového centra a případné rozšíření personálu se pronájem cloudu jeví jako mnohem levnější alternativa.

  • Použití tmavých dat.

Takzvaná „tmavá data“ jsou veškeré nedigitalizované informace o společnosti, které nehrají klíčovou roli při jejich přímém použití, ale mohou sloužit jako důvod pro přechod na nový formát pro ukládání informací.

  • Umělá inteligence a hluboké učení.

Technologie strojového učení, která napodobuje strukturu a činnost lidského mozku, se ideálně hodí pro zpracování velkého množství neustále se měnících informací. V tomto případě stroj udělá vše, co by udělal člověk, ale pravděpodobnost chyby je výrazně snížena.

  • Blockchain.

Tato technologie umožňuje zrychlit a zjednodušit četné online transakce, včetně mezinárodních. Další výhodou Blockchainu je, že snižuje transakční náklady.

  • Samoobsluha a snížené ceny.

V roce 2017 se plánuje zavedení „samoobslužných platforem“ - jedná se o bezplatné platformy, kde mohou zástupci malých a středních podniků samostatně vyhodnocovat ukládaná data a systematizovat je.

Všechny marketingové strategie jsou tak či onak založeny na manipulaci s informacemi a analýze existujících dat. Využití velkých dat proto může předvídat a umožnit korigovat další vývoj společnosti.

Například aukce RTB vytvořená na základě velkých dat umožňuje efektivnější využití reklamy – určitý produkt se zobrazí pouze té skupině uživatelů, která má zájem o jeho koupi.

Jaké jsou výhody používání technologií velkých dat v marketingu a podnikání?

  1. S jejich pomocí můžete mnohem rychleji vytvářet nové projekty, které se pravděpodobně stanou poptávkou mezi kupujícími.
  2. Pomohou korelovat požadavky klienta se stávající nebo navrženou službou a upravit je.
  3. Metody velkých dat umožňují posoudit míru aktuální spokojenosti všech uživatelů a každého jednotlivého uživatele.
  4. Zvýšené loajality zákazníků je dosaženo pomocí metod zpracování velkých dat.
  5. Přilákání vaší cílové skupiny online se stává snazší díky možnosti ovládat obrovské množství dat.

Například jednou z nejoblíbenějších služeb pro předpovídání pravděpodobné popularity produktu je Google.trends. Je široce používán obchodníky a analytiky, kterým umožňuje získat statistiky o minulém používání daného produktu a předpověď na další sezónu. To umožňuje manažerům společností efektivněji rozdělovat reklamní rozpočet a určit, do které oblasti je nejlepší investovat peníze.

Příklady použití Big Data

Aktivní zavádění Big Data technologií na trh a do moderního života začalo těsně poté, co je začaly používat světoznámé společnosti s klienty téměř ve všech částech zeměkoule.

Jde o sociální giganty jako Facebook a Google, IBM, ale i finanční instituce jako Master Card, VISA a Bank of America.

IBM například aplikuje techniky velkých dat na probíhající peněžní transakce. S jejich pomocí bylo identifikováno o 15 % více podvodných transakcí, což umožnilo navýšit objem chráněných prostředků o 60 %. Vyřešily se i problémy s falešnými poplachy systému - jejich počet se snížil o více než polovinu.

Společnost VISA podobně využívala Big Data, kdy sledovala podvodné pokusy o provedení konkrétní operace. Díky tomu ušetří ročně více než 2 miliardy dolarů z úniku.

Německému ministerstvu práce se podařilo snížit náklady o 10 miliard eur zavedením systému velkých dat do své práce na vydávání dávek v nezaměstnanosti. Zároveň vyšlo najevo, že pětina občanů pobírá tyto dávky bezdůvodně.

Big Data neušetřila ani herní průmysl. Vývojáři World of Tanks tedy provedli studii informací o všech hráčích a porovnali dostupné ukazatele jejich aktivity. To pomohlo předpovědět možný budoucí odliv hráčů – na základě provedených předpokladů byli zástupci organizace schopni efektivněji komunikovat s uživateli.

Mezi významné organizace využívající velká data patří také HSBC, Nasdaq, Coca-Cola, Starbucks a AT&T.

Největším problémem velkých dat jsou náklady na jejich zpracování. To může zahrnovat jak drahé vybavení, tak mzdové náklady na kvalifikované specialisty schopné obsluhovat obrovské množství informací. Je zřejmé, že zařízení bude muset být pravidelně aktualizováno, aby s rostoucím objemem dat neztratilo minimální funkčnost.

Druhý problém opět souvisí s velkým množstvím informací, které je potřeba zpracovat. Pokud například studie přináší ne 2-3, ale četné množství výsledků, je velmi obtížné zůstat objektivní a vybrat z obecného toku dat pouze ty, které budou mít reálný dopad na stav jakéhokoli jevu.

Problém ochrany soukromí velkých dat. Vzhledem k tomu, že většina služeb zákaznických služeb přechází na online využití dat, je velmi snadné stát se dalším cílem kyberzločinců. I pouhé ukládání osobních údajů bez provádění jakýchkoli online transakcí může mít pro klienty cloudového úložiště nežádoucí důsledky.

Problém ztráty informací. Preventivní opatření vyžadují neomezit se na jednoduché jednorázové zálohování dat, ale vytvořit alespoň 2-3 záložní kopie úložiště. S rostoucím objemem však přibývají potíže s redundancí – a IT specialisté se snaží najít optimální řešení tohoto problému.

Velký trh s datovými technologiemi v Rusku a ve světě

Od roku 2014 tvoří 40 % objemu trhu s velkými daty služby. Příjmy z používání Big Data v počítačovém vybavení jsou o něco nižší (38 %) než tento ukazatel. Zbývajících 22 % pochází ze softwaru.

Nejužitečnějšími produkty v globálním segmentu pro řešení problémů s Big Data jsou podle statistik analytické platformy In-memory a NoSQL. 15 a 12 procent trhu zabírá analytický software Log-file a platformy Columnar. Hadoop/MapReduce se ale v praxi vypořádává s problémy s velkými daty nepříliš efektivně.

Výsledky implementace technologií velkých dat:

  • zvýšení kvality služeb zákazníkům;
  • optimalizace integrace dodavatelského řetězce;
  • optimalizace plánování organizace;
  • zrychlení interakce s klienty;
  • zvýšení efektivity zpracování požadavků zákazníků;
  • snížení nákladů na služby;
  • optimalizace zpracování požadavků klientů.

Nejlepší knihy o velkých datech



Vhodné pro počáteční studium technologií zpracování velkých dat - seznámí vás snadno a srozumitelně. Objasňuje, jak hojnost informací ovlivnila každodenní život a všechny jeho sféry: vědu, obchod, medicínu atd. Obsahuje četné ilustrace, takže je vnímáno bez větší námahy.

„Úvod do dolování dat“ od Pang-Ning Tan, Michaela Steinbacha a Vipina Kumara

Také užitečná kniha pro začátečníky o velkých datech, která vysvětluje práci s velkými daty podle principu „od jednoduchých ke složitým“. Pokrývá mnoho důležitých bodů v počáteční fázi: příprava na zpracování, vizualizace, OLAP, stejně jako některé metody analýzy a klasifikace dat.

Praktický průvodce používáním a prací s velkými daty pomocí programovacího jazyka Python. Vhodné jak pro studenty strojírenství, tak pro profesionály, kteří si chtějí prohloubit své znalosti.

"Hadoop pro figuríny", Dirk Derus, Paul S. Zikopoulos, Roman B. Mělník

Hadoop je projekt vytvořený speciálně pro práci s distribuovanými programy, které organizují provádění akcí na tisících uzlech současně. Jeho seznámení vám pomůže podrobněji porozumět praktickému použití velkých dat.

Moscow_Exchange 6. května 2015 ve 20:38

Analytický přehled trhu s velkými daty

  • Blog společnosti Moscow Exchange,
  • Velká data

"Velká data" je téma, které je aktivně diskutováno technologickými společnostmi. Někteří z nich ztratili iluze z velkých dat, jiní je naopak využívají pro byznys na maximum... Čerstvý analytický přehled domácího a globálního trhu s velkými daty, který připravila Moskevská burza společně s analytiky IPOboard , ukazuje, které trendy jsou nyní na trhu nejrelevantnější. Doufáme, že informace budou zajímavé a užitečné.

CO JE TO VELKÁ DATA?

Klíčové vlastnosti
Big Data jsou v současnosti jedním z klíčových motorů rozvoje informačních technologií. Tento směr, relativně nový pro ruský byznys, se rozšířil v západních zemích. Je to dáno tím, že v éře informačních technologií, zejména po rozmachu sociálních sítí, se pro každého uživatele internetu začalo hromadit značné množství informací, což v konečném důsledku dalo podnět k rozvoji Big Data.

Pojem „velká data“ vyvolává mnoho kontroverzí, mnozí se domnívají, že se jedná pouze o množství nashromážděných informací, ale neměli bychom zapomínat ani na technickou stránku, která zahrnuje úložné technologie, výpočetní techniku ​​a služby.

Nutno podotknout, že tato oblast zahrnuje zpracování velkého množství informací, které je obtížné zpracovat tradičními metodami*.

Níže je uvedena srovnávací tabulka mezi tradičními a Big Data databázemi.

Oblast Big Data se vyznačuje následujícími vlastnostmi:
Objem – objem, nashromážděná databáze představuje velké množství informací, jejichž zpracování a ukládání tradičními způsoby je náročné, vyžadují nový přístup a vylepšené nástroje;
Rychlost – rychlost, tento atribut indikuje jak zvyšující se rychlost akumulace dat (90 % informací bylo shromážděno za poslední 2 roky), tak rychlost zpracování dat v reálném čase jsou v poslední době stále více žádané.
Odrůda – rozmanitost, tzn. schopnost současně zpracovávat strukturované i nestrukturované informace různých formátů. Hlavní rozdíl mezi strukturovanými informacemi je v tom, že je lze klasifikovat. Příkladem takových informací mohou být informace o zákaznických transakcích.
Nestrukturované informace zahrnují video, zvukové soubory, volný text, informace pocházející ze sociálních sítí. Dnes je 80 % informací nestrukturovaných. Tyto informace vyžadují komplexní analýzu, aby byly užitečné pro další zpracování.
Pravdivost – spolehlivost dat, uživatelé začali spolehlivosti dostupných dat přikládat stále větší význam. Internetové společnosti tak mají problém oddělit akce prováděné robotem a osobou na webových stránkách společnosti, což v konečném důsledku vede k potížím při analýze dat.
Hodnota – hodnota nashromážděných informací. Big Data musí být pro firmu užitečná a přinášet jí nějakou hodnotu. Například pomoc při zlepšování obchodních procesů, reportingu nebo optimalizaci nákladů.

Pokud je splněno výše uvedených 5 podmínek, lze akumulované objemy dat klasifikovat jako velké.

Oblasti použití Big Data

Rozsah využití Big Data technologií je široký. S pomocí Big Data se tak můžete dozvědět o zákaznických preferencích, efektivitě marketingových kampaní nebo provádět analýzu rizik. Níže jsou uvedeny výsledky průzkumu IBM Institute o oblastech využití Big Data ve firmách.

Jak je patrné z diagramu, většina společností využívá Big Data v oblasti služeb zákazníkům, druhou nejoblíbenější oblastí je provozní efektivita v oblasti řízení rizik, Big Data jsou v současnosti méně obvyklá.

Je třeba také poznamenat, že Big Data jsou jednou z nejrychleji rostoucích oblastí informačních technologií podle statistik se celkové množství přijatých a uložených dat zdvojnásobí každých 1,2 roku.
Mezi lety 2012 a 2014 vzrostl objem přenesených dat měsíčně mobilními sítěmi o 81 %. Podle odhadů společnosti Cisco byl v roce 2014 objem mobilního provozu 2,5 exabajtu (jednotka měření množství informací rovna 10^18 standardních bajtů) za měsíc a v roce 2019 to bude 24,3 exabajtů.
Big Data jsou tedy i přes svůj relativně mladý věk již zavedenou oblastí technologií, která se rozšířila v mnoha oblastech podnikání a hraje důležitou roli v rozvoji firem.

Big Data Technologies
Technologie používané pro sběr a zpracování velkých dat lze rozdělit do 3 skupin:
  • Software;
  • Zařízení;
  • Služby.

Mezi nejběžnější přístupy zpracování dat (DP) patří:
SQL – strukturovaný dotazovací jazyk, který umožňuje práci s databázemi. Pomocí SQL můžete vytvářet a upravovat data a správu datového pole zajišťuje odpovídající systém správy databází.
NoSQL – pojem znamená nejen SQL (nejen SQL). Zahrnuje řadu přístupů zaměřených na implementaci databáze, které se liší od modelů používaných v tradičních relačních DBMS. Jsou vhodné pro použití, když se struktura dat neustále mění. Například ke shromažďování a ukládání informací na sociálních sítích.
MapReduce – výpočetní distribuční model. Používá se pro paralelní výpočty na velmi velkých souborech dat (petabajty* nebo více). V rozhraní programu nejsou data přenášena do programu ke zpracování, ale program do dat. Požadavek je tedy samostatný program. Principem činnosti je sekvenční zpracování dat pomocí dvou metod: Map a Reduce. Mapa vybere předběžná data, Reduce je agreguje.
hadoop – používá se k implementaci vyhledávacích a kontextových mechanismů pro stránky s vysokou zátěží – Facebook, eBay, Amazon atd. Charakteristickým rysem je, že systém je chráněn před selháním kteréhokoli z uzlů clusteru, protože každý blok má alespoň jednu kopii data na jiném uzlu.
SAP HANA – vysoce výkonná platforma NewSQL pro ukládání a zpracování dat. Poskytuje vysokou rychlost zpracování požadavků. Dalším charakteristickým rysem je, že SAP HANA zjednodušuje systémové prostředí a snižuje náklady na podporu analytických systémů.

Technologické vybavení zahrnuje:

  • servery;
  • infrastrukturní zařízení.
Servery obsahují úložiště dat.
Infrastrukturní vybavení zahrnuje nástroje pro akceleraci platformy, nepřerušitelné zdroje napájení, sady serverových konzolí atd.

Služby.
Služby zahrnují služby budování architektury databázového systému, uspořádání a optimalizace infrastruktury a zajištění bezpečnosti datových úložišť.

Software, hardware a služby společně tvoří komplexní platformy pro ukládání a analýzu dat. Společnosti jako Microsoft, HP, EMC nabízejí služby pro vývoj, nasazení a správu řešení Big Data.

Aplikace v průmyslu
Big Data se rozšířila v mnoha obchodních sektorech. Používají se ve zdravotnictví, telekomunikacích, obchodu, logistice, finančních společnostech, ale i ve státní správě.
Níže jsou uvedeny některé příklady aplikací Big Data v některých odvětvích.

Maloobchodní
Databáze maloobchodních prodejen mohou shromažďovat mnoho informací o zákaznících, systémech řízení zásob a dodávkách komerčních produktů. Tyto informace mohou být užitečné ve všech oblastech činnosti obchodu.

S pomocí nashromážděných informací tak můžete řídit zásobování zbožím, jeho skladování a prodej. Na základě nashromážděných informací je možné předvídat poptávku a nabídku zboží. Systém zpracování a analýzy dat může také vyřešit další problémy obchodníka, například optimalizaci nákladů nebo přípravu reportů.

Finanční služby
Big Data umožňují analyzovat úvěruschopnost dlužníka a jsou také užitečná pro kreditní skóring* a upisování**. Zavedení technologií Big Data zkrátí dobu pro posuzování žádostí o úvěr. Pomocí Big Data je možné analyzovat transakce konkrétního klienta a nabízet bankovní služby, které jsou pro něj vhodné.

Telecom
V telekomunikačním průmyslu se mezi mobilními operátory rozšířila Big Data.
Mobilní operátoři spolu s finančními institucemi mají některé z nejobjemnějších databází, které jim umožňují provádět nejhloubkovou analýzu nashromážděných informací.
Hlavním účelem analýzy dat je udržet stávající zákazníky a přilákat nové. Za tímto účelem společnosti segmentují zákazníky, analyzují jejich provoz a určují sociální příslušnost předplatitele.

Kromě využití Big Data pro marketingové účely se používají technologie, které brání podvodným finančním transakcím.

Těžební a naftový průmysl
Big Data se využívají jak při těžbě nerostů, tak při jejich zpracování a marketingu. Na základě obdržených informací mohou podniky vyvozovat závěry o efektivitě rozvoje v terénu, sledovat harmonogram velkých oprav a stav zařízení a předpovídat poptávku po produktech a cenách.

Podle průzkumu společnosti Tech Pro Research jsou Big Data nejrozšířenější v telekomunikačním průmyslu a také ve strojírenství, IT, finančních a vládních podnicích. Podle výsledků tohoto průzkumu jsou Big Data méně populární ve školství a zdravotnictví. Výsledky průzkumu jsou uvedeny níže:

Příklady využití Big Data ve firmách
Big Data jsou dnes aktivně implementována v zahraničních společnostech. Společnosti jako Nasdaq, Facebook, Google, IBM, VISA, Master Card, Bank of America, HSBC, AT&T, Coca Cola, Starbucks a Netflix již využívají zdroje Big Data.

Aplikace zpracovávaných informací jsou různé a liší se v závislosti na odvětví a úkolech, které je třeba provést.
Dále budou uvedeny příklady aplikace Big Data technologií v praxi.

HSBC využívá technologie Big Data k boji proti podvodným transakcím s plastovými kartami. S pomocí Big Data společnost zvýšila efektivitu bezpečnostní služby 3x a rozpoznání podvodných incidentů 10x. Ekonomický efekt ze zavedení těchto technologií přesáhl 10 milionů dolarů.

boj proti podvodům* VÍZUM umožňuje automaticky identifikovat podvodné transakce, systém v současnosti pomáhá předcházet podvodným platbám ve výši 2 miliard USD ročně.

Superpočítač Watson IBM analyzuje v reálném čase tok dat o peněžních transakcích. Podle IBM Watson zvýšil počet odhalených podvodných transakcí o 15 %, snížil počet falešných poplachů o 50 % a zvýšil množství peněz chráněných před transakcemi tohoto charakteru o 60 %.

Procter & Gamble Pomocí Big Data navrhují nové produkty a vytvářejí globální marketingové kampaně. Společnost P&G vytvořila specializované kanceláře Business Spheres, kde lze informace prohlížet v reálném čase.
Vedení společnosti tak mělo příležitost okamžitě testovat hypotézy a provádět experimenty. P&G věří, že Big Data pomáhají při předpovídání výkonnosti společnosti.

Prodejce kancelářských potřeb OfficeMax Pomocí technologií Big Data analyzují chování zákazníků. Analýza Big Data umožnila zvýšit tržby B2B o 13 % a snížit náklady o 400 000 USD ročně.

Podle Housenka , jeho distributoři každoročně přicházejí o zisky 9 až 18 miliard dolarů jen proto, že neimplementují technologie zpracování velkých dat. Big Data by zákazníkům umožnila efektivněji spravovat jejich vozový park pomocí analýzy informací pocházejících ze senzorů nainstalovaných na strojích.

Dnes je již možné analyzovat stav klíčových součástí, jejich stupeň opotřebení a řídit náklady na palivo a údržbu.

Skupina Luxottica je výrobcem sportovních brýlí značek jako Ray-Ban, Persol a Oakley. Společnost využívá technologie Big Data pro analýzu chování potenciálních zákazníků a „chytrý“ SMS marketing. V důsledku Big Data identifikovala skupina Luxottica více než 100 milionů svých nejcennějších zákazníků a zvýšila efektivitu své marketingové kampaně o 10 %.

S pomocí Yandex Data Factory, vývojářů her World of Tanks analyzovat chování hráčů. Technologie Big Data umožnily analyzovat chování 100 tisíc hráčů World of Tanks pomocí více než 100 parametrů (informace o nákupech, hrách, zkušenostech atd.). Na základě analýzy byla získána předpověď odlivu uživatelů. Tyto informace umožňují omezit odchod uživatelů a cíleně pracovat s účastníky hry. Vyvinutý model se ukázal být o 20–30 % efektivnější než standardní analytické nástroje herního průmyslu.

německé ministerstvo práce využívá Big Data v práci související s analýzou došlých žádostí o podporu v nezaměstnanosti. Po analýze informací tedy vyšlo najevo, že 20 % dávek bylo vyplaceno nezaslouženě. Ministerstvo práce s pomocí Big Data snížilo náklady o 10 miliard eur.

Torontská dětská nemocnice realizovala projekt Project Artemis. Jedná se o informační systém, který shromažďuje a analyzuje data o miminkách v reálném čase. Systém každou sekundu sleduje 1260 indikátorů stavu každého dítěte. Projekt Artemis umožňuje předvídat nestabilní stav dítěte a zahájit prevenci nemocí u dětí.

PŘEHLED SVĚTOVÉHO VELKÉHO DATOVÉHO TRHU

Současný stav světového trhu
V roce 2014 se Big Data podle Data Collective stala jednou z prioritních investičních oblastí v rizikovém průmyslu. Podle informačního portálu Computerra je to dáno tím, že vývoj v této oblasti začal jejich uživatelům přinášet výrazné výsledky. Za poslední rok vzrostl počet společností s realizovanými projekty v oblasti správy velkých dat o 125 % a objem trhu vzrostl oproti roku 2013 o 45 %.

Většinu příjmů z trhu Big Data podle Wikibonu v roce 2014 tvořily služby, jejich podíl se rovnal 40 % celkových příjmů (viz graf níže):

Pokud vezmeme v úvahu velká data za rok 2014 podle podtypu, bude trh vypadat takto:

Podle Wikibonu tvořily aplikace a analytika 36 % příjmů z Big Data v roce 2014 z aplikací a analytiky Big Data, 17 % z výpočetního vybavení a 15 % z technologií pro ukládání dat. Nejméně tržeb generovaly technologie NoSQL, vybavení infrastruktury a poskytování sítí pro firmy (firemní sítě).

Nejoblíbenějšími Big Data technologiemi jsou in-memory platformy SAP, HANA, Oracle atd. Výsledky průzkumu T-Systems ukázaly, že je zvolilo 30 % dotázaných společností. Druhé nejoblíbenější byly platformy NoSQL (18 % uživatelů), firmy využívaly i analytické platformy od Splunk a Dell, které si vybralo 15 % firem. Podle výsledků průzkumu se produkty Hadoop/MapReduce ukázaly jako nejméně užitečné pro řešení problémů s Big Data.

Podle průzkumu společnosti Accenture se ve více než 50 % společností využívajících technologie Big Data pohybují náklady na Big Data od 21 % do 30 %.
Podle následující analýzy Accenture se 76 % společností domnívá, že tyto náklady v roce 2015 vzrostou, a 24 % společností nezmění svůj rozpočet na technologie Big Data. To naznačuje, že v těchto společnostech se Big Data stala zavedenou oblastí IT, která se stala nedílnou součástí rozvoje společnosti.

Výsledky průzkumu Economist Intelligence Unit potvrzují pozitivní efekt implementace Big Data. 46 % společností uvádí, že pomocí technologií Big Data zlepšili zákaznický servis o více než 10 %, 33 % společností optimalizovalo zásoby a zlepšilo produktivitu dlouhodobého majetku a 32 % společností zlepšilo procesy plánování.

Velká data v různých zemích světa
Big Data technologie jsou dnes nejčastěji implementovány v amerických firmách, ale zájem už začaly projevovat i další země po celém světě. V roce 2014 podle IDC tvořily země v Evropě, na Středním východě, v Asii (kromě Japonska) a Africe 45 % trhu se softwarem, službami a vybavením v oblasti Big Data.

Podle průzkumu CIO také společnosti z asijsko-pacifického regionu rychle přijímají nová řešení v oblasti analýzy velkých dat, bezpečných úložišť a cloudových technologií. Latinská Amerika je v počtu investic do rozvoje Big Data technologií na druhém místě před evropskými zeměmi a USA.
Dále bude uveden popis a prognózy vývoje trhu s velkými daty v několika zemích.

Čína
Objem informací v Číně je 909 exabajtů, což se rovná 10 % z celkového objemu informací ve světě, do roku 2020 objem informací dosáhne 8060 exabajtů, zvýší se i podíl informací v globální statistice, v 5 let to bude 18 %. Potenciální růst čínských Big Data má jednu z nejrychleji rostoucí dynamiky.

Brazílie
Na konci roku 2014 Brazílie nashromáždila informace v hodnotě 212 exabajtů, což jsou 3 % celosvětového objemu. Do roku 2020 naroste objem informací na 1600 exabajtů, což bude tvořit 4 % světových informací.

Indie
Podle EMC je objem nashromážděných dat v Indii na konci roku 2014 326 exabajtů, což je 5 % z celkového objemu informací. Do roku 2020 se objem informací rozroste na 2800 exabajtů, což bude tvořit 6 % světových informací.

Japonsko
Objem nashromážděných dat v Japonsku na konci roku 2014 je 495 exabajtů, což je 8 % z celkového objemu informací. Do roku 2020 objem informací vzroste na 2 200 exabajtů, ale podíl Japonska na trhu se sníží a bude činit 5 % z celkového objemu informací na celém světě.
Velikost japonského trhu se tak sníží o více než 30 %.

Německo
Podle EMC je objem nashromážděných dat v Německu na konci roku 2014 230 exabajtů, což jsou 4 % z celkového objemu informací ve světě. Do roku 2020 vzroste objem informací na 1100 exabajtů a bude činit 2 %.
Na německém trhu bude velký podíl tržeb podle prognóz Experton Group generovat segment služeb, jehož podíl v roce 2015 bude činit 54 % a v roce 2019 vzroste na 59 % podíly softwaru a hardware naopak ubude.

Celkově vzroste velikost trhu z 1,345 miliardy eur v roce 2015 na 3,198 miliardy eur v roce 2019, průměrná míra růstu je 24 %.
Na základě analýzy CIO a EMC tedy můžeme usuzovat, že rozvojové země světa se v příštích letech stanou trhy pro aktivní rozvoj technologií Big Data.

Hlavní trendy na trhu
Podle IDG Enterprise budou v roce 2015 útraty společností na velká data v průměru 7,4 milionu USD na společnost, velké společnosti hodlají utratit přibližně 13,8 milionu USD, malé a střední společnosti - 1,6 milionu USD.
Většina investic bude směřovat do oblastí, jako je analýza dat, vizualizace a sběr dat.
Na základě současných trendů a poptávky trhu budou investice v roce 2015 použity na zlepšení kvality dat, zlepšení plánování a prognóz a zvýšení rychlosti zpracování dat.
Společnosti ve finančním sektoru budou podle analýzy Bain Company’s Insights Analysis významně investovat, takže v roce 2015 plánují utratit 6,4 miliardy dolarů za technologie Big Data, průměrná míra růstu investic bude do roku 2020 činit 22 %. Internetové společnosti plánují utratit 2,8 miliardy dolarů s průměrným tempem růstu 26 % u výdajů za velká data.
Při provádění průzkumu Economist Intelligence Unit byly identifikovány prioritní oblasti pro rozvoj Big Data v roce 2014 a v následujících 3 letech, rozložení odpovědí je následující:

Podle prognóz IDC jsou trendy vývoje trhu následující:

  • V příštích 5 letech porostou náklady na cloudová řešení v oblasti Big Data technologií 3x rychleji než náklady na lokální řešení. Hybridní platformy pro ukládání dat budou žádané.
  • Růst aplikací využívajících sofistikované a prediktivní analýzy, včetně strojového učení, se v roce 2015 zrychlí, přičemž trh s těmito aplikacemi poroste o 65 % rychleji než aplikace, které nepoužívají prediktivní analýzu.
  • Mediální analytika se v roce 2015 ztrojnásobí a stane se klíčovým motorem růstu na trhu technologií Big Data.
  • Zrychlí se trend zavádění řešení pro analýzu neustálého toku informací použitelných pro internet věcí.
  • Do roku 2018 bude 50 % uživatelů komunikovat se službami založenými na kognitivních počítačích.
Ovladače a omezovače trhu
Odborníci IDC identifikovali v roce 2015 3 hybatele trhu s velkými daty:

Podle průzkumu společnosti Accenture jsou nyní problémy zabezpečení dat hlavní překážkou pro implementaci technologií Big Data, přičemž více než 51 % respondentů potvrdilo, že mají obavy o zajištění ochrany dat a důvěrnosti. 47 % firem uvedlo nemožnost implementace Big Data z důvodu omezených rozpočtů, 41 % firem označilo jako problém nedostatek kvalifikovaného personálu.

Wikibon předpovídá, že trh s velkými daty v roce 2015 vzroste na 38,4 miliardy dolarů, meziročně o 36 % více. V následujících letech dojde k poklesu tempa růstu na 10 % v roce 2017. S přihlédnutím k těmto prognózám bude velikost trhu v roce 2020 68,7 miliard USD.

Rozdělení globálního trhu s velkými daty podle obchodních kategorií bude vypadat takto:

Jak je patrné z diagramu, většinu trhu zaberou technologie v oblasti zlepšování služeb zákazníkům. Cílený marketing bude pro společnosti do roku 2019 druhou prioritou, v roce 2020 podle Heavy Reading ustoupí řešením pro zlepšení provozní efektivity.
Segment „zlepšování zákaznických služeb“ bude mít také nejvyšší tempo růstu s nárůstem o 49 % ročně.
Tržní prognóza pro podtypy velkých dat bude vypadat takto:

Dominantní podíl na trhu, jak je patrné z grafu, zaujímají profesionální služby, nejvyšší tempo růstu budou mít aplikace s analytikou, jejich podíl se v roce 2020 zvýší ze současných 12 % na 18 % a objem tohoto segmentu bude činit 12,3 miliardy amerických dolarů, podíl výpočetní techniky naopak klesne z 20 % na 14 % a v roce 2020 bude činit zhruba 9,3 miliardy amerických dolarů, trh s cloudovými technologiemi bude postupně narůstat a v roce 2020 bude. dosáhnout 6,3 miliardy amerických dolarů, tržní podíl řešení pro ukládání dat naopak klesne z 15 % v roce 2014 na 13 % v roce 2020 a v peněžním vyjádření se bude rovnat 8,9 miliardám amerických dolarů.
Podle prognózy Bain & Company’s Insights Analysis bude rozdělení trhu s velkými daty podle odvětví v roce 2020 následující:

  • Finanční průmysl utratí za velká data 6,4 miliardy dolarů s průměrným tempem růstu 22 % ročně;
  • Internetové společnosti utratí 2,8 miliardy USD a průměrná míra růstu nákladů bude v příštích 5 letech činit 26 %;
  • Náklady veřejného sektoru budou úměrné nákladům internetových společností, ale tempo růstu bude nižší – 22 %;
  • Telekomunikační sektor poroste s CAGR o 40 % a v roce 2020 dosáhne 1,2 miliardy USD;

Energetické společnosti budou do těchto technologií investovat relativně malou částku – 800 milionů dolarů, ale tempo růstu bude jedno z nejvyšších – 54 % ročně.
Největší podíl na trhu Big Data tak v roce 2020 zaberou společnosti z finančního průmyslu a nejrychleji rostoucím sektorem bude energetika.
Podle předpovědí analytiků se celková velikost trhu v následujících letech zvýší. Růstu trhu bude dosaženo implementací technologií Big Data v rozvojových zemích světa, jak je patrné z níže uvedeného grafu.

Předpokládaná velikost trhu bude záviset na tom, jak rozvojové země vnímají technologie Big Data a zda budou stejně populární jako ve vyspělých zemích. V roce 2014 tvořily rozvojové země světa 40 % objemu nashromážděných informací. Současná struktura trhu s převahou vyspělých zemí se podle prognózy EMC v roce 2017 změní. Podle analytiků EMC bude v roce 2020 podíl rozvojových zemí více než 60 %.
Podle společností Cisco a EMC budou rozvojové země po celém světě s Big Data poměrně aktivně pracovat, a to především díky dostupnosti technologií a nahromadění dostatečného množství informací až na úroveň Big Data. Mapa světa uvedená na další stránce bude ukazovat prognózu nárůstu objemu a tempa růstu velkých dat podle regionů.

ANALÝZA RUSKÉHO TRHU

Současný stav ruského trhu

Podle výsledků studie CNews Analytics a Oracle se úroveň vyspělosti ruského trhu Big Data za poslední rok zvýšila. Respondenti, zastupující 108 velkých podniků z různých odvětví, prokázali vyšší míru povědomí o těchto technologiích a také zavedené porozumění potenciálu takových řešení pro jejich podnikání.
K roku 2014 podle IDC Rusko nashromáždilo 155 exabajtů informací, což je pouze 1,8 % světových dat. Objem informací do roku 2020 dosáhne 980 exabajtů a zabere 2,2 %. Průměrná míra růstu objemu informací tak bude činit 36 ​​% ročně.
IDC odhaduje ruský trh na 340 milionů dolarů, z toho 100 milionů dolarů tvoří řešení SAP, přibližně 240 milionů dolarů jsou podobná řešení od Oracle, IBM, SAS, Microsoft atd.
Tempo růstu ruského trhu Big Data není menší než 50 % ročně.
Předpokládá se, že pozitivní dynamika bude v tomto sektoru ruského IT trhu pokračovat i v podmínkách všeobecné ekonomické stagnace. Důvodem je skutečnost, že podniky nadále požadují řešení, která zlepšují provozní efektivitu, optimalizují náklady, zlepšují přesnost prognóz a minimalizují možná rizika společnosti.
Hlavními poskytovateli služeb v oblasti Big Data na ruském trhu jsou:
  • Věštec
  • Microsoft
  • Cloudera
  • Hortonworks
  • Teradata.
Přehled trhu podle odvětví a zkušenosti s používáním Big Data ve firmách
Podle CNews v Rusku pouze 10 % společností začalo využívat technologie Big Data, zatímco ve světě je podíl takových společností asi 30 %. Připravenost na projekty velkých dat roste v mnoha sektorech ruské ekonomiky, podle zprávy CNews Analytics a Oracle. Více než třetina dotázaných společností (37 %) začala pracovat s technologiemi Big Data, z nichž 20 % již taková řešení využívá a 17 % s nimi začíná experimentovat. Tuto možnost aktuálně zvažuje druhá třetina dotázaných.

V Rusku jsou technologie Big Data nejoblíbenější v bankovním a telekomunikačním sektoru, ale poptávka je také v těžebním průmyslu, energetice, maloobchodu, logistických společnostech a veřejném sektoru.
Dále budou zváženy příklady použití velkých dat v ruských realitách.

Telecom
Telekomunikační operátoři mají některé z nejobjemnějších databází, které jim umožňují provádět nejhloubkovou analýzu nashromážděných informací.
Jednou z oblastí použití technologie Big Data je správa loajality předplatitelů.
Hlavním účelem analýzy dat je udržet stávající zákazníky a přilákat nové. Za tímto účelem společnosti segmentují zákazníky, analyzují jejich provoz a určují sociální příslušnost předplatitele. Kromě využívání informací pro marketingové účely se telekomunikační technologie používají k prevenci podvodných finančních transakcí.
Jedním z nápadných příkladů tohoto odvětví je VimpelCom. Společnost využívá Big Data ke zlepšení kvality služeb na úrovni každého předplatitele, sestavování zpráv, analýze dat pro rozvoj sítě, boji proti spamu a personalizaci služeb.

Banky
Významnou část uživatelů Big Data tvoří specialisté z finančního odvětví. Jeden z úspěšných experimentů byl proveden v Uralské bance pro obnovu a rozvoj, kde se informační základna začala využívat k analýze klientů, banka začala nabízet specializované úvěrové nabídky, vklady a další služby. Během jednoho roku používání těchto technologií vzrostlo portfolio retailových úvěrů společnosti o 55 %.
Alfa-Bank analyzuje informace ze sociálních sítí, zpracovává žádosti o úvěr a analyzuje chování uživatelů webových stránek společnosti.
Sberbank také začala zpracovávat obrovské množství dat pro segmentaci klientů, prevenci podvodných aktivit, křížový prodej a řízení rizik. Do budoucna se plánuje zkvalitnění služeb a analýza akcí zákazníků v reálném čase.
Všeruská banka pro regionální rozvoj analyzuje chování držitelů plastových karet. To umožňuje identifikovat transakce, které jsou pro konkrétního klienta atypické, a zvyšuje se tak pravděpodobnost odhalení krádeže finančních prostředků z plastových karet.

Maloobchodní
V Rusku byly technologie Big Data implementovány online i offline obchodními společnostmi. Podle CNews Analytics dnes Big Data používá 20 % maloobchodníků. 75 % maloobchodních profesionálů považuje Big Data za nezbytná pro rozvoj konkurenceschopné firemní propagační strategie. Podle statistik Hadoop se po implementaci technologie Big Data zvyšují zisky v obchodních organizacích o 7–10 %.
Specialisté M.Video hovoří o vylepšeném plánování logistiky po implementaci SAP HANA také se v důsledku jeho implementace zkrátila příprava výročních zpráv z 10 dnů na 3, rychlost denního načítání dat se snížila ze 3 hodin na 3; 30 minut.
Wikimart používá tyto technologie ke generování doporučení pro návštěvníky webu.
Jedním z prvních offline obchodů, které zavedly analýzu velkých dat v Rusku, byla Lenta. S pomocí Big Data začal retail studovat informace o zákaznících z pokladních dokladů. Maloobchodník shromažďuje informace, aby vytvořil modely chování, což umožňuje přijímat informovanější rozhodnutí na provozní a komerční úrovni.

Ropný a plynárenský průmysl
V tomto odvětví je rozsah Big Data poměrně široký. Technologie Big Data lze využít při těžbě nerostů z podloží. S jejich pomocí můžete analyzovat samotný proces těžby a nejefektivnější způsoby jeho těžby, sledovat proces vrtání, analyzovat kvalitu surovin, ale i zpracování a marketing finálního produktu. V Rusku již tyto technologie začaly používat společnosti Transněfť a Rosněfť.

Vládní orgány
V zemích jako Německo, Austrálie, Španělsko, Japonsko, Brazílie a Pákistán se k řešení národních problémů používají technologie Big Data. Tyto technologie pomáhají státním orgánům efektivněji poskytovat služby obyvatelstvu a poskytovat cílenou sociální podporu.
V Rusku tyto technologie začaly ovládat takové vládní orgány, jako je Penzijní fond, Federální daňová služba a Fond povinného zdravotního pojištění. Potenciál pro realizaci projektů využívajících Big Data je velký, tyto technologie by mohly pomoci zlepšit kvalitu služeb, a tím i životní úroveň obyvatel.

Logistika a doprava
Big Data mohou využívat i dopravní společnosti. Pomocí technologií Big Data můžete sledovat svůj vozový park, zohledňovat náklady na palivo a sledovat požadavky zákazníků.
Ruské dráhy implementovaly technologie Big Data společně se SAP. Tyto technologie pomohly zkrátit dobu přípravy výkazů 43,5krát (ze 14,5 hodiny na 20 minut) a 40krát zvýšit přesnost rozdělení nákladů. Big Data byla také zavedena do procesů plánování a regulace tarifů. Celkem společnosti využívají více než 300 systémů založených na řešení SAP, zapojena jsou 4 datová centra a počet uživatelů je 220 000.

Hlavní hybatelé a omezovače trhu
Hnací silou rozvoje technologií Big Data na ruském trhu jsou:
  • Zvýšený zájem ze strany uživatelů o možnosti Big Data jako způsob, jak zvýšit konkurenceschopnost společnosti;
  • Vývoj metod pro zpracování mediálních souborů na globální úrovni;
  • Přenos serverů zpracovávajících osobní údaje na území Ruska v souladu s přijatým zákonem o ukládání a zpracování osobních údajů;
  • Implementace průmyslového plánu pro import substituce softwaru. Tento plán zahrnuje vládní podporu pro domácí výrobce softwaru a také poskytování preferencí pro domácí IT produkty při nákupu na veřejné náklady.
  • V nové ekonomické situaci, kdy se kurz dolaru téměř zdvojnásobil, bude trend ke stále většímu využívání služeb ruských poskytovatelů cloudových služeb spíše než zahraničních.
  • Vytváření technologických parků, které přispívají k rozvoji trhu informačních technologií, včetně trhu Big Data;
  • Státní program pro implementaci gridových systémů založených na technologiích Big Data.

Hlavní překážky rozvoje Big Data na ruském trhu jsou:

  • Zajištění bezpečnosti a důvěrnosti dat;
  • Nedostatek kvalifikovaného personálu;
  • Nedostatečné akumulované informační zdroje na úroveň Big Data ve většině ruských společností;
  • Obtíže při zavádění nových technologií do zavedených informačních systémů firem;
  • Vysoké náklady na technologie Big Data, které vedou k omezenému počtu podniků, které mají možnost tyto technologie implementovat;
  • Politická a ekonomická nejistota, která vedla k odlivu kapitálu a zmrazení investičních projektů v Rusku;
  • Rostoucí ceny dovážených produktů a prudký nárůst inflace podle IDC zpomalují rozvoj celého IT trhu.
Předpověď ruského trhu
Ruský trh Big Data dnes není tak populární jako ve vyspělých zemích. Většina ruských firem o to projevuje zájem, ale netroufají si využít jejich příležitostí.
Příklady velkých společností, které již těžily z využívání technologií Big Data, zvyšují povědomí o možnostech těchto technologií.
Analytici mají také poměrně optimistické předpovědi ohledně ruského trhu. IDC věří, že ruský podíl na trhu se během příštích 5 let na rozdíl od německého a japonského trhu zvýší.
Do roku 2020 vzroste objem Big Data v Rusku ze současných 1,8 % na 2,2 % celosvětového objemu dat. Množství informací vzroste podle EMC v roce 2020 ze současných 155 exabajtů na 980 exabajtů.
V současné době Rusko pokračuje v akumulaci objemu informací na úroveň Big Data.
Podle průzkumu CNews Analytics 44 % dotázaných společností pracuje s daty nepřesahujícími 100 terabajtů* a pouze 13 % pracuje s objemy nad 500 terabajtů.

Ruský trh se však bude podle globálních trendů zvyšovat. Od roku 2014 odhaduje IDC velikost trhu na 340 milionů $.
Tempo růstu trhu v předchozích letech bylo 50 % ročně, pokud zůstane na stejné úrovni, pak v roce 2018 objem trhu dosáhne 1,7 miliardy amerických dolarů. Podíl ruského trhu na světovém trhu bude asi 3 %, přičemž se zvýší ze současných 1,2 %.

Mezi nejvíce vnímavá odvětví k používání velkých dat v Rusku patří:

  • Retail a banky jsou pro ně důležité především analýza zákaznické základny a hodnocení efektu marketingových kampaní;
  • Telecom – segmentace zákaznické báze a monetizace provozu;
  • Veřejný sektor – reporting, analýza žádostí veřejnosti atd.;
  • Ropné společnosti – sledování práce a plánování výroby a prodeje;
  • Energetické společnosti – tvorba inteligentních elektrizačních soustav, provozní monitoring a prognóza.
Ve vyspělých zemích se Big Data rozšířila v oblastech zdravotnictví, pojišťovnictví, hutnictví, internetových firem a výrobních podniků s největší pravděpodobností v blízké budoucnosti efekt zavedení Big Data ocení i ruské firmy z těchto oblastí a přizpůsobí se tyto technologie ve svých odvětvích.
V Rusku, stejně jako ve světě, bude v blízké budoucnosti trend k vizualizaci dat, analýze mediálních souborů a rozvoji internetu věcí.
I přes obecnou stagnaci ekonomiky analytici v příštích letech předpovídají další růst trhu s velkými daty, a to především díky tomu, že využívání technologií velkých dat dává jeho uživatelům konkurenční výhodu ve smyslu zvýšení provozní efektivity podnikání, přilákání dalšího toku zákazníků, minimalizace rizik a implementace technologií pro předpovídání dat.
Můžeme tedy konstatovat, že segment Big Data v Rusku je ve fázi formování, ale poptávka po těchto technologiích se každým rokem zvyšuje.

Hlavní výsledky analýzy trhu

Světový trh
Trh s velkými daty je na konci roku 2014 charakterizován následujícími parametry:
  • objem trhu dosáhl 28,5 miliardy amerických dolarů, což představuje nárůst o 45 % ve srovnání s předchozím rokem;
  • většina příjmů z trhu Big Data pocházela ze služeb, jejich podíl se rovnal 40 % celkových příjmů;
  • 36 % příjmů pocházelo z aplikací a analytiky pro velká data, 17 % z výpočetního vybavení a 15 % z technologií pro ukládání dat;
  • Nejoblíbenější pro řešení problémů s Big Data jsou in-memory platformy od společností jako SAP, HANA a Oracle.
  • počet společností s realizovanými projekty v oblasti Big Data managementu vzrostl o 125 %;
Prognóza trhu na další roky je následující:
  • v roce 2015 objem trhu dosáhne 38,4 miliard USD, v roce 2020 – 68,7 miliard USD;
  • průměrná míra růstu bude 16 % ročně;
  • průměrné firemní náklady na technologie Big Data budou 13,8 milionu USD pro velké společnosti a 1,6 milionu USD pro malé a střední podniky;
  • technologie budou nejvíce rozšířeny v oblastech zákaznických služeb a cíleného marketingu;
  • V roce 2017 se struktura globálního trhu změní směrem k převaze uživatelských společností z rozvojových zemí.
ruský trh
Ruský trh Big Data je ve fázi formování, výsledky roku 2014 jsou následující:
  • objem trhu dosáhl 340 milionů USD;
  • průměrná míra růstu trhu v předchozích letech byla 50 % ročně;
  • celkový objem nashromážděných informací byl 155 exabajtů;
  • 10 % ruských společností začalo využívat technologie Big Data;
  • Technologie Big Data byly populárnější v bankovním sektoru, telekomunikacích, internetových společnostech a maloobchodu.
Prognóza ruského trhu pro příští roky je následující:
  • objem ruského trhu v roce 2015 dosáhne 500 milionů USD a v roce 2018 – 1,7 miliardy USD;
  • podíl ruského trhu na globálním trhu bude v roce 2018 činit asi 3 %;
  • množství nashromážděných dat v roce 2020 bude 980 exabajtů;
  • objem dat vzroste v roce 2020 na 2,2 % celosvětového objemu dat;
  • Nejpopulárnějšími se stanou technologie vizualizace dat, analýza mediálních souborů a internet věcí.
Na základě výsledků analýzy můžeme konstatovat, že Big Data trh je stále v rané fázi vývoje a v blízké budoucnosti se dočkáme jeho růstu a rozšiřování schopností těchto technologií.

Děkujeme, že jste si našli čas na přečtení tohoto rozsáhlého díla, přihlaste se k odběru našeho blogu - slibujeme mnoho nových zajímavých publikací!

Znáte tento slavný vtip, že? Big Data jsou jako sex před 18:

  • každý o tom přemýšlí;
  • všichni o tom mluví;
  • každý si myslí, že to dělají jejich přátelé;
  • téměř nikdo to nedělá;
  • kdo to dělá, dělá to špatně;
  • všichni si myslí, že to příště dopadne lépe;
  • nikdo nepřijímá bezpečnostní opatření;
  • kdokoli se stydí přiznat, že něco neví;
  • když se někomu něco podaří, je kolem toho vždycky velký rámus.

Ale buďme upřímní, s každým humbukem bude vždy obvyklá zvědavost: co je to za povyk a je tam něco opravdu důležitého? Zkrátka ano, existuje. Podrobnosti jsou uvedeny níže. Vybrali jsme pro vás ty nejúžasnější a nejzajímavější aplikace technologií Big Data. Tato malá studie trhu nás na jasných příkladech konfrontuje s jednoduchým faktem: budoucnost nepřichází, není třeba „čekat dalších n let a kouzlo se stane skutečností“. Ne, už dorazil, ale je ještě oku neviditelný, a proto spalování singularity ještě tolik nespálilo určitý bod trhu práce. Jdeme.

1 Jak se technologie Big Data používají tam, kde vznikly

Velké IT společnosti jsou tam, kde datová věda vznikla, takže jejich interní znalosti v této oblasti jsou nejzajímavější. Kampaň Google, kolébka paradigmatu Map Reduce, jehož jediným účelem je vyškolit jeho programátory v technologiích strojového učení. A v tom spočívá jejich konkurenční výhoda: zaměstnanci po nabytí nových znalostí zavedou nové metody do těch projektů Google, kde neustále pracují. Představte si, jak obrovský je seznam oblastí, ve kterých může kampaň způsobit revoluci. Jeden příklad: používají se neuronové sítě.

Společnost implementuje strojové učení do všech svých produktů. Jeho výhodou je přítomnost velkého ekosystému, který zahrnuje všechna digitální zařízení používaná v každodenním životě. To Applu umožňuje dosáhnout nemožné úrovně: kampaň má více uživatelských dat než kterákoli jiná. Zásady ochrany osobních údajů jsou přitom velmi přísné: korporace se vždy chlubila tím, že nepoužívá zákaznická data pro reklamní účely. V souladu s tím jsou informace o uživateli zašifrovány, takže právníci společnosti Apple nebo dokonce FBI se zatykačem je nemohou přečíst. Zde najdete velký přehled vývoje Applu v oblasti AI.

2 Velká data na 4 kolech

Moderní auto je úložiště informací: shromažďuje všechna data o řidiči, životním prostředí, připojených zařízeních a sobě samém. Brzy bude jediné vozidlo připojené k síti, jako je tato, generovat až 25 GB dat za hodinu.

Automobilovou telematiku využívají automobilky již mnoho let, ale nyní se lobbuje za sofistikovanější metodu sběru dat, která plně využívá Big Data. To znamená, že technologie nyní může řidiče upozornit na špatný stav vozovky automatickou aktivací protiblokovacího brzdového systému a systémů kontroly trakce.

Jiné společnosti, včetně BMW, používají technologii Big Data v kombinaci s informacemi shromážděnými z testovaných prototypů, systémů paměti chyb ve vozidle a stížností zákazníků k identifikaci slabých stránek modelu v rané fázi výroby. Nyní se místo ručního vyhodnocování dat, které trvá měsíce, používá moderní algoritmus. Chyby a náklady na odstraňování problémů jsou sníženy, což urychluje pracovní toky analýzy informací v BMW.

Podle odhadů odborníků dosáhne do roku 2019 tržní obrat propojených vozů 130 miliard dolarů To není překvapivé vzhledem k tempu integrace technologií, které jsou nedílnou součástí vozidla, ze strany automobilek.

Používání velkých dat pomáhá učinit vůz bezpečnějším a funkčnějším. To znamená, že Toyota integrací informačních komunikačních modulů (DCM). Tento nástroj pro velká data zpracovává a analyzuje data shromážděná službou DCM, aby z nich dále extrahovala hodnotu.

3 Aplikace velkých dat v medicíně


Implementace technologií Big Data v lékařské oblasti umožňuje lékařům důkladněji studovat onemocnění a zvolit účinný způsob léčby pro konkrétní případ. Díky analýze informací je pro zdravotníky snazší předvídat relapsy a přijímat preventivní opatření. Výsledkem je přesnější diagnostika a zlepšené léčebné metody.

Nová technika nám umožnila podívat se na problémy pacientů z jiné perspektivy, což vedlo k odhalení dříve neznámých zdrojů problému. Některé rasy jsou například geneticky náchylnější k srdečním chorobám než jiné etnické skupiny. Nyní, když si pacient stěžuje na určitou nemoc, lékaři berou v úvahu údaje o příslušnících jeho rasy, kteří si stěžovali na stejný problém. Sběr a analýza dat nám umožňuje dozvědět se o pacientech mnohem více: od potravinových preferencí a životního stylu až po genetickou strukturu DNA a metabolitů buněk, tkání a orgánů. Centrum pro dětskou genomickou medicínu v Kansas City tedy využívá pacienty a analyzuje mutace v genetickém kódu, které způsobují rakovinu. Individuální přístup ke každému pacientovi s přihlédnutím k jeho DNA pozvedne efektivitu léčby na kvalitativně jinou úroveň.

Pochopení toho, jak se používají velká data, je první a velmi důležitou změnou v lékařské oblasti. Když pacient podstoupí léčbu, nemocnice nebo jiné zdravotnické zařízení může získat mnoho relevantních informací o dané osobě. Shromážděné informace se používají k předpovídání recidiv onemocnění s určitou mírou přesnosti. Pokud například pacient utrpěl mrtvici, lékaři studují informace o době cévní mozkové příhody, analyzují přechodné období mezi předchozími precedenty (pokud existují), přičemž zvláštní pozornost věnují stresovým situacím a těžké fyzické aktivitě v životě pacienta. Na základě těchto údajů poskytují nemocnice pacientovi jasný akční plán, jak v budoucnu předejít možnosti mrtvice.

Svou roli hrají i nositelná zařízení, která pomáhají identifikovat zdravotní problémy i v případě, že člověk nemá zjevné příznaky konkrétního onemocnění. Namísto hodnocení stavu pacienta pomocí dlouhého průběhu vyšetření může lékař vyvodit závěry na základě informací shromážděných fitness trackerem nebo chytrými hodinkami.

Jedním z nejnovějších příkladů je . Když byl muž vyšetřován na nový záchvat způsobený vynechaným lékem, lékaři zjistili, že muž má mnohem vážnější zdravotní problém. Tento problém se ukázal jako fibrilace síní. Diagnóza byla stanovena díky tomu, že pracovníci oddělení získali přístup k telefonu pacienta, konkrétně k aplikaci spojené s jeho fitness trackerem. Data z aplikace se ukázala jako klíčová pro stanovení diagnózy, protože v době vyšetření nebyly u muže zjištěny žádné srdeční abnormality.

To je jen jeden z mála případů, který to ukazuje proč používat velká data hraje v dnešní medicíně tak významnou roli.

4 Analýza dat se již stala jádrem maloobchodu

Pochopení uživatelských dotazů a cílení je jednou z největších a nejvíce propagovaných oblastí použití nástrojů Big Data. Big Data pomáhají analyzovat zvyky zákazníků s cílem lépe porozumět potřebám spotřebitelů v budoucnu. Společnosti se snaží rozšířit tradiční soubor dat o informace ze sociálních sítí a historii vyhledávání v prohlížeči, aby si vytvořily co nejúplnější představu o zákazníkovi. Někdy se velké organizace rozhodnou vytvořit svůj vlastní prediktivní model jako globální cíl.

Například obchodní řetězec Target pomocí hloubkové analýzy dat a vlastního prognostického systému zvládá určit s vysokou přesností - . Každému klientovi je přiděleno ID, které je následně spojeno s kreditní kartou, jménem nebo e-mailem. Identifikátor slouží jako jakýsi nákupní košík, kam se ukládají informace o všem, co kdy člověk nakoupil. Síťoví specialisté zjistili, že těhotné ženy před druhým trimestrem těhotenství aktivně nakupují neparfémované produkty a během prvních 20 týdnů se spoléhají na doplňky vápníku, zinku a hořčíku. Na základě obdržených dat Target zasílá zákazníkům kupony na dětské produkty. Samotné slevy na zboží pro děti jsou „ředěné“ kupony na další produkty, aby nabídky na nákup postýlky či plen nepůsobily příliš vlezle.

Dokonce i vládní ministerstva našla způsob, jak využít technologie Big Data k optimalizaci volebních kampaní. Někteří se domnívají, že vítězství Baracka Obamy v prezidentských volbách v USA v roce 2012 bylo způsobeno vynikající prací jeho týmu analytiků, kteří zpracovali obrovské množství dat správným způsobem.

5 Big Data chrání zákon a pořádek


Během několika posledních let byly orgány činné v trestním řízení schopny zjistit, jak a kdy používat velká data. Je známou skutečností, že Národní bezpečnostní agentura používá technologie Big Data k prevenci teroristických útoků. Ostatní resorty používají pokročilou metodiku k prevenci menších trestných činů.

Los Angeles Police Department používá . Dělá to, čemu se běžně říká proaktivní policie. Pomocí zpráv o trestné činnosti za určité časové období algoritmus identifikuje oblasti, kde je nejpravděpodobnější výskyt trestné činnosti. Systém takové oblasti označí na mapě města malými červenými čtverečky a tato data jsou okamžitě předávána hlídkovým vozům.

Chicagští policajti využívat technologie Big Data trochu jiným způsobem. Strážci zákona ve Windy City dělají totéž, ale jejich cílem je nastínit „rizikový kruh“ sestávající z lidí, kteří by se mohli stát obětí nebo účastníky ozbrojeného útoku. Podle The New York Times tento algoritmus přiděluje osobě hodnocení zranitelnosti na základě její kriminální minulosti (zatčení a účast na přestřelkách, členství ve zločineckých skupinách). Vývojář systému říká, že systém sice zkoumá kriminální minulost člověka, ale nebere v úvahu druhotné faktory, jako je rasa, pohlaví, etnická příslušnost a umístění osoby.

6 Jak technologie Big Data pomáhají městům rozvíjet se


CEO společnosti Veniam Joao Barros ukazuje mapu sledovacích Wi-Fi routerů v autobusech Porto

Analýza dat se také používá ke zlepšení řady aspektů života měst a zemí. Například přesně vědět, jak a kdy používat technologie Big Data, může optimalizovat toky provozu. K tomu se bere v úvahu pohyb aut online, analyzují se sociální média a meteorologická data. Dnes se řada měst zavázala využívat datovou analýzu ke spojení dopravní infrastruktury s jinými typy veřejných služeb do jednoho celku. To je koncept „chytrého“ města, ve kterém autobusy čekají na pozdní vlaky a semafory jsou schopny předvídat dopravní zácpy, aby se minimalizovaly dopravní zácpy.

Na základě technologií Big Data provozuje město Long Beach chytré vodoměry, které se používají k zastavení nelegálního zavlažování. Dříve byly používány ke snížení spotřeby vody soukromými domácnostmi (maximálním výsledkem bylo snížení o 80 %). Úspora pitné vody je vždy naléhavým problémem. Zvlášť, když stát zažívá nejhorší sucho, jaké kdy bylo zaznamenáno.

Zástupci losangeleského ministerstva dopravy se připojili k seznamu těch, kteří využívají Big Data. Na základě dat získaných ze senzorů dopravních kamer úřady monitorují provoz semaforů, což zase umožňuje regulaci dopravy. Počítačový systém řídí asi 4 500 tisíc semaforů po celém městě. Podle oficiálních údajů pomohl nový algoritmus snížit přetížení o 16 %.

7 Motor pokroku v marketingu a prodeji


V marketingu umožňují nástroje Big Data identifikovat, které nápady jsou nejúčinnější při propagaci v konkrétní fázi prodejního cyklu. Analýza dat určuje, jak mohou investice zlepšit řízení vztahů se zákazníky, jaká strategie by měla být přijata pro zlepšení míry konverze a jak optimalizovat životní cyklus zákazníka. V cloudových podnicích se algoritmy Big Data používají ke zjištění, jak minimalizovat náklady na získávání zákazníků a prodloužit životní cyklus zákazníka.

Diferenciace cenových strategií v závislosti na vnitrosystémové úrovni klienta je snad tím hlavním, k čemu se Big Data v oblasti marketingu využívají. Společnost McKinsey zjistila, že přibližně 75 % příjmů průměrné firmy pochází z klíčových produktů, z nichž 30 % má nesprávnou cenu. Nárůst ceny o 1 % má za následek nárůst provozního zisku o 8,7 %.

Výzkumný tým společnosti Forrester zjistil, že analýza dat umožňuje obchodníkům zaměřit se na to, jak učinit vztahy se zákazníky úspěšnějšími. Zkoumáním směru vývoje zákazníků mohou specialisté posoudit úroveň jejich loajality a také prodloužit životní cyklus v kontextu konkrétní společnosti.

Optimalizace prodejních strategií a fáze vstupu na nové trhy pomocí geoanalýzy se odrážejí v biofarmaceutickém průmyslu. Podle McKinsey společnosti vyrábějící léky utrácejí v průměru 20 až 30 % zisku na administrativu a prodej. Pokud budou podniky aktivnější používat velká data k identifikaci nejziskovějších a nejrychleji rostoucích trhů se náklady okamžitě sníží.

Analytika dat je pro společnosti prostředkem k získání úplného obrazu o klíčových aspektech jejich podnikání. Zvyšování příjmů, snižování nákladů a snižování pracovního kapitálu jsou tři výzvy, které se moderní podniky snaží vyřešit pomocí analytických nástrojů.

Konečně 58 % marketingových ředitelů tvrdí, že implementaci Big Data technologií lze vidět v optimalizaci pro vyhledávače (SEO), e-mailu a mobilním marketingu, kde analýza dat hraje nejvýznamnější roli při tvorbě marketingových programů. A jen o 4 % méně respondentů je přesvědčeno, že Big Data budou hrát významnou roli ve všech marketingových strategiích po mnoho dalších let.

8 Globální analýza dat

Neméně kuriózní je... Je možné, že strojové učení bude nakonec jedinou silou schopnou udržet křehkou rovnováhu. Téma lidského vlivu na globální oteplování stále vyvolává mnoho kontroverzí, takže přesnou odpověď mohou poskytnout pouze spolehlivé prediktivní modely založené na analýze velkého množství dat. Snížení emisí nakonec pomůže nám všem: utratíme méně za energii.

Big Data nyní nejsou abstraktním pojmem, který by mohl najít své uplatnění za pár let. Jedná se o zcela fungující soubor technologií, které mohou být užitečné téměř ve všech oblastech lidské činnosti: od medicíny a veřejných zakázek až po marketing a prodej. Etapa aktivní integrace Big Data do našeho každodenního života právě začala a kdo ví, jaká bude role Big Data za pár let?

Co se stalo Velká data(doslova - velká data)? Podívejme se nejprve na Oxfordský slovník:

Data- veličiny, znaky nebo symboly, které počítač provozuje a které lze ukládat a přenášet ve formě elektrických signálů, zaznamenaných na magnetických, optických nebo mechanických médiích.

Období Velká data používá se k popisu velkého souboru dat, který v čase exponenciálně roste. Ke zpracování takového množství dat se neobejdete.

Výhody, které Big Data poskytují:

  1. Sběr dat z různých zdrojů.
  2. Zlepšení obchodních procesů prostřednictvím analýzy v reálném čase.
  3. Ukládání obrovského množství dat.
  4. Postřehy. Velká data lépe pronikají do skrytých informací prostřednictvím strukturovaných a polostrukturovaných dat.
  5. Velká data vám pomáhají snižovat rizika a činit chytrá rozhodnutí pomocí správné analýzy rizik

Příklady velkých dat

New York Stock Exchange generuje denně 1 terabajt obchodní data za minulou seanci.

sociální média: Statistiky ukazují, že databáze Facebooku se nahrávají každý den. 500 terabajtů nová data se generují hlavně díky nahrávání fotografií a videí na servery sociálních sítí, zasílání zpráv, komentářů pod příspěvky a tak dále.

Tryskový motor generuje 10 terabajtů data každých 30 minut během letu. Vzhledem k tomu, že se denně uskuteční tisíce letů, objem dat dosahuje petabajtů.

Klasifikace velkých dat

Velké datové formuláře:

  • Strukturovaný
  • Nestrukturované
  • Polostrukturované

Strukturovaná forma

Data, která lze ukládat, přistupovat a zpracovávat ve formě s pevným formátem, se nazývají strukturovaná. Informatika postupem času udělala velké pokroky ve zdokonalování technik práce s tímto typem dat (kde je formát znám předem) a naučila se, jak z toho těžit. Dnes však již existují problémy spojené s růstem objemů do velikostí měřených v rozmezí několika zettabytů.

1 zettabajt se rovná miliardě terabajtů

Při pohledu na tato čísla je snadné vidět pravdivost termínu Big Data a potíže spojené se zpracováním a ukládáním takových dat.

Data uložená v relační databázi jsou strukturovaná a vypadají například jako tabulky zaměstnanců firmy

Nestrukturovaná forma

Data neznámé struktury jsou klasifikována jako nestrukturovaná. Kromě velkých rozměrů se tento tvar vyznačuje řadou obtíží při zpracování a extrakci užitečných informací. Typickým příkladem nestrukturovaných dat je heterogenní zdroj obsahující kombinaci jednoduchých textových souborů, obrázků a videí. Dnes mají organizace přístup k velkému množství nezpracovaných nebo nestrukturovaných dat, ale nevědí, jak z nich získat hodnotu.

Polostrukturovaná forma

Tato kategorie obsahuje obě výše popsané, takže polostrukturovaná data mají určitou formu, ale ve skutečnosti nejsou definována tabulkami v relačních databázích. Příkladem této kategorie jsou osobní údaje prezentované v souboru XML.

Prashant RaoSamec35 Seema R.Žena41 Satish ManeSamec29 Subrato RoySamec26 Jeremiáš J.Samec35

Charakteristika velkých dat

Růst velkých dat v průběhu času:

Modrá barva představuje strukturovaná data (Enterprise data), která jsou uložena v relačních databázích. Další barvy označují nestrukturovaná data z různých zdrojů (IP telefonie, zařízení a senzory, sociální sítě a webové aplikace).

Podle společnosti Gartner se velká data liší v objemu, rychlosti generování, rozmanitosti a variabilitě. Pojďme se na tyto vlastnosti podívat blíže.

  1. Objem. Samotný pojem Big Data je spojen s velkou velikostí. Velikost dat je kritickou metrikou při určování potenciální hodnoty, která má být extrahována. Každý den používá digitální média 6 milionů lidí, kteří generují odhadem 2,5 bilionu bajtů dat. Proto je objem první charakteristikou, kterou je třeba zvážit.
  2. Rozmanitost- další aspekt. Odkazuje na heterogenní zdroje a povahu dat, která mohou být strukturovaná nebo nestrukturovaná. Dříve byly ve většině aplikací jedinými zdroji informací zvažované tabulky a databáze. V analytických aplikacích se dnes uvažují také data ve formě e-mailů, fotografií, videí, souborů PDF a zvuku. Tato rozmanitost nestrukturovaných dat vede k problémům při ukládání, těžbě a analýze: 27 % společností si není jistých, že pracují se správnými daty.
  3. Rychlost generace. Potenciál určuje, jak rychle se data shromažďují a zpracovávají, aby splnila požadavky. Rychlost určuje rychlost toku informací ze zdrojů – obchodních procesů, aplikačních protokolů, sociálních sítí a médií, senzorů, mobilních zařízení. Tok dat je obrovský a nepřetržitý v průběhu času.
  4. Variabilita popisuje proměnlivost dat v určitých okamžicích, což komplikuje zpracování a správu. Většina dat má například nestrukturovanou povahu.

Analýza velkých dat: jaké jsou výhody velkých dat

Propagace zboží a služeb: Přístup k datům z vyhledávačů a webů, jako je Facebook a Twitter, umožňuje podnikům přesněji rozvíjet marketingové strategie.

Zlepšení služeb pro zákazníky: Tradiční systémy zpětné vazby od zákazníků jsou nahrazovány novými, které ke čtení a vyhodnocování zpětné vazby od zákazníků využívají Big Data a zpracování přirozeného jazyka.

Výpočet rizika spojené s uvedením nového produktu nebo služby.

Provozní efektivita: velká data jsou strukturována tak, aby bylo možné rychle extrahovat potřebné informace a rychle vytvářet přesné výsledky. Tato kombinace technologií Big Data a úložiště pomáhá organizacím optimalizovat jejich práci s málo používanými informacemi.

Sloupek učitelů HSE o mýtech a případech práce s velkými daty

Záložky

Učitelé na School of New Media na National Research University Higher School of Economics Konstantin Romanov a Alexander Pyatigorsky, který je také ředitelem digitální transformace ve společnosti Beeline, napsali pro web sloupek o hlavních mylných představách o velkých datech – příklady použití technologie a nástroje. Autoři předpokládají, že publikace pomůže manažerům firem porozumět tomuto pojmu.

Mýty a mylné představy o velkých datech

Big Data nejsou marketing

Výraz Big Data se stal velmi módním – používá se v milionech situací a se stovkami různých interpretací, často nesouvisejících s tím, co to je. V hlavách lidí se často nahrazují pojmy a velká data jsou zaměňována s marketingovým produktem. Navíc v některých společnostech jsou Big Data součástí marketingového oddělení. Výsledek analýzy velkých dat může být skutečně zdrojem pro marketingové aktivity, ale nic víc. Pojďme se podívat, jak to funguje.

Pokud jsme před dvěma měsíci identifikovali seznam těch, kteří si v našem obchodě koupili zboží za více než tři tisíce rublů, a pak těmto uživatelům zaslali nějakou nabídku, pak jde o typický marketing. Ze strukturálních dat odvozujeme jasný vzor a používáme ho ke zvýšení prodeje.

Pokud však zkombinujeme data CRM s informacemi ze streamingu například z Instagramu a analyzujeme je, najdeme vzorec: člověk, který ve středu večer omezil aktivitu a na jehož poslední fotografii jsou koťata, by měl učinit určitou nabídku. To již budou velká data. Našli jsme spoušť, předali ji obchodníkům a ti ji použili pro své účely.

Z toho plyne, že technologie většinou pracuje s nestrukturovanými daty, a i když jsou data strukturovaná, systém v nich stále hledá skryté vzorce, což marketing nedělá.

Big Data nejsou IT

Druhý extrém tohoto příběhu: Big Data jsou často zaměňována s IT. Důvodem je skutečnost, že v ruských společnostech jsou IT specialisté zpravidla hybateli všech technologií, včetně velkých dat. Pokud se tedy vše odehrává v tomto oddělení, společnost jako celek nabývá dojmu, že jde o nějakou IT činnost.

Ve skutečnosti je zde zásadní rozdíl: Big Data je činnost zaměřená na získání konkrétního produktu, která s IT vůbec nesouvisí, ačkoli technologie bez něj nemůže existovat.

Velká data nejsou vždy sběrem a analýzou informací

Existuje další mylná představa o velkých datech. Každý chápe, že tato technologie zahrnuje velké množství dat, ale není vždy jasné, o jaký druh dat se jedná. Kdokoli může sbírat a používat informace, to je nyní možné nejen ve filmech o, ale také v jakékoli, i velmi malé společnosti. Jedinou otázkou je, co přesně sbírat a jak to využít ve svůj prospěch.

Je však třeba si uvědomit, že technologie Big Data nebude shromažďovat a analyzovat absolutně žádné informace. Pokud například sbíráte data o konkrétní osobě na sociálních sítích, nepůjde o Big Data.

Co jsou to vlastně velká data?

Velká data se skládají ze tří prvků:

  • data;
  • analytika;
  • technologií.

Big Data nejsou jen jednou z těchto složek, ale kombinací všech tří prvků. Lidé často nahrazují pojmy: někteří věří, že velká data jsou jen data, jiní si myslí, že jde o technologii. Ale ve skutečnosti, bez ohledu na to, kolik dat shromáždíte, s nimi nebudete moci nic dělat bez správné technologie a analýzy. Pokud existuje dobrá analytika, ale žádná data, je to ještě horší.

Pokud mluvíme o datech, nejsou to jen texty, ale také všechny fotografie zveřejněné na Instagramu a obecně vše, co lze analyzovat a použít pro různé účely a úkoly. Jinými slovy, Data označují obrovské objemy interních a externích dat různých struktur.

Analytika je také potřeba, protože úkolem Big Data je vytvořit nějaké vzory. To znamená, že analytika je identifikace skrytých závislostí a hledání nových otázek a odpovědí na základě analýzy celého objemu heterogenních dat. Navíc Big Data kladou otázky, které z těchto dat nelze přímo odvodit.

Pokud jde o obrázky, to, že zveřejníte svou fotku v modrém tričku, nic neznamená. Pokud ale používáte fotografii pro Big Data modelování, může se ukázat, že právě teď byste měli nabídnout půjčku, protože ve vaší sociální skupině takové chování naznačuje určitý jev v akci. Proto „holá“ data bez analýzy, bez identifikace skrytých a nezřejmých závislostí nejsou Big Data.

Máme tedy velká data. Jejich pole je obrovské. Máme také analytika. Jak ale můžeme zajistit, že z těchto nezpracovaných dat dojdeme ke konkrétnímu řešení? K tomu potřebujeme technologie, které nám je umožní nejen ukládat (a to dříve nebylo možné), ale také je analyzovat.

Jednoduše řečeno, pokud máte hodně dat, budete potřebovat technologie, například Hadoop, které umožňují uložit všechny informace v původní podobě pro pozdější analýzu. Tento druh technologie vznikl u internetových gigantů, protože jako první čelili problému ukládání velkého množství dat a jejich analýze pro následné zpeněžení.

Kromě nástrojů pro optimalizované a levné ukládání dat potřebujete analytické nástroje a také doplňky k používané platformě. Například kolem Hadoopu se již vytvořil celý ekosystém souvisejících projektů a technologií. Zde jsou některé z nich:

  • Pig je deklarativní jazyk pro analýzu dat.
  • Hive - analýza dat pomocí jazyka podobného SQL.
  • Oozie - pracovní postup Hadoop.
  • Hbase je databáze (nerelační), podobná Google Big Table.
  • Mahout – strojové učení.
  • Sqoop - přenos dat z RSDB do Hadoop a naopak.
  • Flume - přenos protokolů do HDFS.
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS a tak dále.

Všechny tyto nástroje jsou k dispozici všem zdarma, ale existuje i řada placených doplňků.

Kromě toho jsou zapotřebí specialisté: vývojář a analytik (tzv. Data Scientist). Je také potřeba manažera, který dokáže pochopit, jak tuto analytiku použít k řešení konkrétního problému, protože sama o sobě je zcela bezvýznamná, pokud není integrována do podnikových procesů.

Všichni tři zaměstnanci musí pracovat jako tým. Manažer, který dá specialistovi na Data Science za úkol najít určitý vzorec, musí pochopit, že ne vždy najde přesně to, co potřebuje. V tomto případě by měl manažer pozorně naslouchat tomu, co Data Scientist zjistil, protože jeho zjištění se často ukáží jako zajímavější a užitečnější pro podnik. Vaším úkolem je aplikovat to na podnikání a vytvořit z toho produkt.

Navzdory skutečnosti, že nyní existuje mnoho různých druhů strojů a technologií, konečné rozhodnutí vždy zůstává na člověku. K tomu je potřeba informace nějak vizualizovat. Existuje na to poměrně hodně nástrojů.

Nejvýmluvnějším příkladem jsou geoanalytické zprávy. Společnost Beeline hodně spolupracuje s vládami různých měst a regionů. Tyto organizace si velmi často objednávají zprávy jako „Dopravní zácpa v určité lokalitě“.

Je jasné, že taková zpráva by se měla dostat k vládním úřadům v jednoduché a srozumitelné formě. Pokud jim poskytneme obrovskou a zcela nesrozumitelnou tabulku (tedy informace v podobě, v jaké je dostáváme), je nepravděpodobné, že by si takovou zprávu koupili - bude to zcela zbytečné, nezískají z ní vědomí, že chtěli obdržet.

Proto bez ohledu na to, jak dobří jsou datoví vědci a bez ohledu na to, jaké vzory najdou, nebudete moci s těmito daty pracovat bez dobrých vizualizačních nástrojů.

Zdroje dat

Pole získaných dat je velmi rozsáhlé, lze je tedy rozdělit do několika skupin.

Interní firemní údaje

Přestože 80 % shromážděných dat patří do této skupiny, tento zdroj není vždy využíván. Často se jedná o data, která zdánlivě nikdo nepotřebuje, například protokoly. Když se na ně ale podíváte z jiného úhlu, můžete v nich občas najít nečekané vzory.

Sharewarové zdroje

Patří sem data ze sociálních sítí, internetu a všeho, co je dostupné zdarma. Proč je shareware zdarma? Na jednu stranu jsou tato data dostupná všem, ale pokud jste velká firma, tak získat je ve velikosti předplatitelské základny desítek tisíc, stovek či milionů zákazníků už není snadný úkol. Na trhu proto existují placené služby, které tyto údaje poskytují.

Placené zdroje

Patří sem společnosti, které prodávají data za peníze. Mohou to být telekomunikace, DMP, internetové společnosti, úvěrové kanceláře a agregátory. V Rusku telekomunikace data neprodávají. Za prvé je to ekonomicky nerentabilní a za druhé je to zákonem zakázáno. Proto prodávají výsledky svého zpracování, například geoanalytické zprávy.

Otevřená data

Stát vychází podnikům vstříc a dává jim možnost využívat shromážděná data. To je rozvinuto ve větší míře na Západě, ale Rusko v tomto ohledu také drží krok s dobou. Existuje například portál otevřených dat moskevské vlády, kde jsou zveřejňovány informace o různých zařízeních městské infrastruktury.

Pro obyvatele a hosty Moskvy jsou data prezentována v tabulkové a kartografické podobě a pro vývojáře - ve speciálních strojově čitelných formátech. Zatímco projekt pracuje v omezeném režimu, vyvíjí se, což znamená, že je také zdrojem dat, která můžete využít pro své obchodní úkoly.

Výzkum

Jak již bylo uvedeno, úkolem Big Data je najít vzorec. Často se výzkum prováděný po celém světě může stát opěrným bodem pro nalezení konkrétního vzoru - můžete získat konkrétní výsledek a pokusit se použít podobnou logiku pro své vlastní účely.

Velká data jsou oblastí, ve které neplatí všechny matematické zákony. Například „1“ + „1“ není „2“, ale mnohem více, protože smícháním zdrojů dat lze efekt výrazně zvýšit.

Příklady produktů

Mnoho lidí zná službu výběru hudby Spotify. Je to skvělé, protože se neptá uživatelů, jakou mají dnes náladu, ale spíše ji vypočítává na základě zdrojů, které má k dispozici. Vždy ví, co teď potřebujete – jazz nebo hard rock. To je klíčový rozdíl, který mu poskytuje fanoušky a odlišuje jej od ostatních služeb.

Takové produkty se obvykle nazývají sense produkty – ty, které cítí svého klienta.

Technologie Big Data se využívá i v automobilovém průmyslu. Dělá to například Tesla – jejich nejnovější model má autopilota. Společnost se snaží vytvořit vůz, který sám doveze cestujícího tam, kam potřebuje. Bez Big Data je to nemožné, protože pokud budeme používat pouze data, která dostáváme přímo, jako to dělá člověk, pak se auto nebude moci zlepšit.

Když sami řídíme auto, používáme naše neurony k rozhodování na základě mnoha faktorů, kterých si ani nevšimneme. Možná si neuvědomujeme, proč jsme se rozhodli hned nezrychlit na zelenou, ale pak se ukáže, že rozhodnutí bylo správné – kolem vás projelo závratnou rychlostí auto a vy jste se vyhnuli nehodě.

Můžete také uvést příklad využití Big Data ve sportu. V roce 2002 se generální manažer baseballového týmu Oakland Athletics Billy Beane rozhodl prolomit paradigma, jak nabírat sportovce – vybíral a trénoval hráče „do počtu“.

Manažeři se obvykle dívají na úspěch hráčů, ale v tomto případě bylo všechno jinak - aby dosáhl výsledků, manažer studoval, jaké kombinace sportovců potřeboval, přičemž věnoval pozornost individuálním charakteristikám. Navíc si vybral sportovce, kteří sami neměli velký potenciál, ale tým jako celek se ukázal být natolik úspěšný, že vyhrál dvacet zápasů v řadě.

Režisér Bennett Miller následně natočil film věnovaný tomuto příběhu – „Muž, který změnil všechno“ s Bradem Pittem v hlavní roli.

Technologie Big Data je užitečná i ve finančním sektoru. Ani jeden člověk na světě nedokáže samostatně a přesně určit, zda se vyplatí někomu půjčit. Aby bylo možné rozhodnout, provádí se bodování, to znamená, že je sestaven pravděpodobnostní model, ze kterého lze pochopit, zda tato osoba vrátí peníze nebo ne. Pak se bodování aplikuje ve všech fázích: můžete si například spočítat, že v určitém okamžiku člověk přestane platit.

Velká data umožňují nejen vydělávat peníze, ale také je šetřit. Zejména tato technologie pomohla německému ministerstvu práce snížit náklady na dávky v nezaměstnanosti o 10 miliard eur, protože po analýze informací vyšlo najevo, že 20 % dávek bylo vyplaceno nezaslouženě.

Technologie se využívají i v medicíně (to je typické zejména pro Izrael). S pomocí Big Data můžete provést mnohem přesnější analýzu, než dokáže udělat lékař s třicetiletou praxí.

Každý lékař se při stanovení diagnózy spoléhá pouze na své vlastní zkušenosti. Když to stroj dělá, vychází to ze zkušeností tisíců takových lékařů a všech existujících kazuistik. Bere v úvahu, z jakého materiálu je dům pacienta vyroben, v jaké oblasti oběť žije, jaký je tam kouř a tak dále. To znamená, že bere v úvahu spoustu faktorů, které lékaři neberou v úvahu.

Příkladem využití Big Data ve zdravotnictví je projekt Project Artemis, který realizovala Torontská dětská nemocnice. Jedná se o informační systém, který shromažďuje a analyzuje data o miminkách v reálném čase. Stroj umožňuje každou sekundu analyzovat 1260 zdravotních ukazatelů každého dítěte. Tento projekt je zaměřen na predikci nestabilního stavu dítěte a prevenci nemocí u dětí.

Big data se začínají používat i v Rusku: například Yandex má divizi big data. Společnost společně s AstraZeneca a Ruskou společností klinické onkologie RUSSCO spustila platformu RAY, určenou genetikům a molekulárním biologům. Projekt nám umožňuje zlepšit metody diagnostiky rakoviny a identifikace predispozice k rakovině. Platforma bude spuštěna v prosinci 2016.




Nahoru