Domov › Nastavení › Velká data. Co jsou velká data: shromáždili jsme všechny nejdůležitější věci o velkých datech

Velká data. Co jsou velká data: shromáždili jsme všechny nejdůležitější věci o velkých datech

Velká data– nejde jen o data samotná, ale také o technologie pro jejich zpracování a využití, metody pro vyhledávání potřebných informací ve velkých polích. Problém velkých dat zůstává stále otevřený a zásadní pro všechny systémy, které po desetiletí shromažďují širokou škálu informací.

Tento termín je spojen s výrazem "Objem, rychlost, rozmanitost"– principy, na kterých je založena práce s velkými daty. Je to přímo objem informací, rychlost jeho zpracování A různé informace, uložený v poli. Nedávno se ke třem základním zásadám přidal ještě jeden princip – Hodnota, což znamená hodnotu informací. To znamená, že musí být užitečný a nezbytný z teoretického nebo praktického hlediska, což by ospravedlnilo náklady na jeho skladování a zpracování.

Příkladem typického zdroje velkých dat jsou sociální sítě – každý profil nebo veřejná stránka představuje jednu malou kapku v nestrukturovaném oceánu informací. Navíc bez ohledu na množství informací uložených v konkrétním profilu by interakce s každým uživatelem měla být co nejrychlejší.

Velká data se neustále hromadí téměř ve všech oblastech lidského života. To zahrnuje jakékoli odvětví, které zahrnuje buď lidskou interakci nebo výpočetní techniku. Patří mezi ně sociální média, lékařství, bankovnictví a také systémy zařízení, které získávají četné výsledky z každodenních výpočtů. Například astronomická pozorování, meteorologické informace a informace ze zemských snímacích zařízení.

Informace ze všech druhů sledovacích systémů v reálném čase také putují na servery konkrétní společnosti. Televizní a rozhlasové vysílání, databáze hovorů mobilních operátorů - interakce každého jednotlivého člověka s nimi je minimální, ale v souhrnu se všechny tyto informace stávají velkými daty.

Technologie velkých dat se staly nedílnou součástí výzkumu, vývoje a obchodu. Navíc začínají přebírat sféru veřejné správy – a všude je potřeba zavádět stále efektivnější systémy pro ukládání a manipulaci s informacemi.

Termín „big data“ se poprvé objevil v tisku v roce 2008, kdy editor Nature Clifford Lynch publikoval článek o vývoji budoucnosti vědy využívající technologie pro práci s velkým množstvím dat. Do roku 2009 byl tento termín považován pouze z hlediska vědecké analýzy, ale po publikaci několika dalších článků začal tisk široce používat pojem Big Data - a používá jej dodnes.

V roce 2010 se začaly objevovat první pokusy řešit narůstající problém velkých dat. Byly vydány softwarové produkty, jejichž činnost byla zaměřena na minimalizaci rizik při použití obrovského množství informací.

Do roku 2011 se o velká data začaly zajímat velké společnosti jako Microsoft, Oracle, EMC a IBM – staly se prvními, kteří ve svých rozvojových strategiích využili vývoj velkých dat, a to docela úspěšně.

Vysoké školy začaly studovat velká data jako samostatný předmět již v roce 2013 – problémy v této oblasti nyní řeší nejen datová věda, ale také inženýrství spojené s výpočetními předměty.

Mezi hlavní metody analýzy a zpracování dat patří:

Třídní metody nebo hloubková analýza (Data Mining).

Těchto metod je poměrně mnoho, ale jedno mají společné: používané matematické nástroje v kombinaci s úspěchy z oblasti informačních technologií.

Crowdsourcing.

Tato technika vám umožňuje získávat data současně z několika zdrojů, přičemž počet těchto zdrojů je prakticky neomezený.

A/B testování.

Z celého objemu dat je vybrána kontrolní sada prvků, která je střídavě porovnávána s jinými podobnými sadami, kde došlo ke změně některého z prvků. Provádění takových testů pomáhá určit, které výkyvy parametrů mají největší dopad na kontrolní populaci. Díky objemu Big Data je možné provádět obrovské množství iterací, přičemž každá z nich se přibližuje nejspolehlivějšímu výsledku.

Prediktivní analytika.

Specialisté v této oblasti se snaží předem předvídat a plánovat, jak se bude ovládaný objekt chovat, aby v této situaci učinili co nejziskovější rozhodnutí.

Strojové učení (umělá inteligence).

Je založen na empirické analýze informací a následné konstrukci samoučících se algoritmů pro systémy.

Síťová analýza.

Nejběžnější metodou pro studium sociálních sítí je, že po získání statistických dat jsou analyzovány uzly vytvořené v gridu, tedy interakce mezi jednotlivými uživateli a jejich komunitami.

V roce 2017, kdy velká data přestala být něčím novým a neznámým, jejich význam nejen neklesl, ale ještě vzrostl. Nyní odborníci sázejí na to, že analýza velkých dat bude dostupná nejen pro obří organizace, ale také pro malé a střední podniky. Tento přístup se plánuje implementovat pomocí následujících komponent:

Cloudové úložiště.

Ukládání a zpracování dat je stále rychlejší a ekonomičtější – v porovnání s náklady na údržbu vlastního datového centra a případné rozšíření personálu se pronájem cloudu jeví jako mnohem levnější alternativa.

Použití tmavých dat.

Takzvaná „tmavá data“ jsou veškeré nedigitalizované informace o společnosti, které nehrají klíčovou roli při jejich přímém použití, ale mohou sloužit jako důvod pro přechod na nový formát pro ukládání informací.

Umělá inteligence a hluboké učení.

Technologie strojového učení, která napodobuje strukturu a činnost lidského mozku, se ideálně hodí pro zpracování velkého množství neustále se měnících informací. V tomto případě stroj udělá vše, co by udělal člověk, ale pravděpodobnost chyby je výrazně snížena.

Blockchain.

Tato technologie umožňuje zrychlit a zjednodušit četné online transakce, včetně mezinárodních. Další výhodou Blockchainu je, že snižuje transakční náklady.

Samoobsluha a snížené ceny.

V roce 2017 se plánuje zavedení „samoobslužných platforem“ - jedná se o bezplatné platformy, kde mohou zástupci malých a středních podniků samostatně vyhodnocovat ukládaná data a systematizovat je.

Všechny marketingové strategie jsou tak či onak založeny na manipulaci s informacemi a analýze existujících dat. Využití velkých dat proto může předvídat a umožnit korigovat další vývoj společnosti.

Například aukce RTB vytvořená na základě velkých dat umožňuje efektivnější využití reklamy – určitý produkt se zobrazí pouze té skupině uživatelů, která má zájem o jeho koupi.

Jaké jsou výhody používání technologií velkých dat v marketingu a podnikání?

S jejich pomocí můžete mnohem rychleji vytvářet nové projekty, které se pravděpodobně stanou poptávkou mezi kupujícími.
Pomohou korelovat požadavky klienta se stávající nebo navrženou službou a upravit je.
Metody velkých dat umožňují posoudit míru aktuální spokojenosti všech uživatelů a každého jednotlivého uživatele.
Zvýšené loajality zákazníků je dosaženo pomocí metod zpracování velkých dat.
Přilákání vaší cílové skupiny online se stává snazší díky možnosti ovládat obrovské množství dat.

Například jednou z nejoblíbenějších služeb pro předpovídání pravděpodobné popularity produktu je Google.trends. Je široce používán obchodníky a analytiky, kterým umožňuje získat statistiky o minulém používání daného produktu a předpověď na další sezónu. To umožňuje manažerům společností efektivněji rozdělovat reklamní rozpočet a určit, do které oblasti je nejlepší investovat peníze.

Příklady použití Big Data

Aktivní zavádění Big Data technologií na trh a do moderního života začalo těsně poté, co je začaly používat světoznámé společnosti s klienty téměř ve všech částech zeměkoule.

Jde o sociální giganty jako Facebook a Google, IBM, ale i finanční instituce jako Master Card, VISA a Bank of America.

IBM například aplikuje techniky velkých dat na probíhající peněžní transakce. S jejich pomocí bylo identifikováno o 15 % více podvodných transakcí, což umožnilo navýšit objem chráněných prostředků o 60 %. Vyřešily se i problémy s falešnými poplachy systému - jejich počet se snížil o více než polovinu.

Společnost VISA podobně využívala Big Data, kdy sledovala podvodné pokusy o provedení konkrétní operace. Díky tomu ušetří ročně více než 2 miliardy dolarů z úniku.

Německému ministerstvu práce se podařilo snížit náklady o 10 miliard eur zavedením systému velkých dat do své práce na vydávání dávek v nezaměstnanosti. Zároveň vyšlo najevo, že pětina občanů pobírá tyto dávky bezdůvodně.

Big Data neušetřila ani herní průmysl. Vývojáři World of Tanks tedy provedli studii informací o všech hráčích a porovnali dostupné ukazatele jejich aktivity. To pomohlo předpovědět možný budoucí odliv hráčů – na základě provedených předpokladů byli zástupci organizace schopni efektivněji komunikovat s uživateli.

Mezi významné organizace využívající velká data patří také HSBC, Nasdaq, Coca-Cola, Starbucks a AT&T.

Největším problémem velkých dat jsou náklady na jejich zpracování. To může zahrnovat jak drahé vybavení, tak mzdové náklady na kvalifikované specialisty schopné obsluhovat obrovské množství informací. Je zřejmé, že zařízení bude muset být pravidelně aktualizováno, aby s rostoucím objemem dat neztratilo minimální funkčnost.

Druhý problém opět souvisí s velkým množstvím informací, které je potřeba zpracovat. Pokud například studie přináší ne 2-3, ale četné množství výsledků, je velmi obtížné zůstat objektivní a vybrat z obecného toku dat pouze ty, které budou mít reálný dopad na stav jakéhokoli jevu.

Problém ochrany soukromí velkých dat. Vzhledem k tomu, že většina služeb zákaznických služeb přechází na online využití dat, je velmi snadné stát se dalším cílem kyberzločinců. I pouhé ukládání osobních údajů bez provádění jakýchkoli online transakcí může mít pro klienty cloudového úložiště nežádoucí důsledky.

Problém ztráty informací. Preventivní opatření vyžadují neomezit se na jednoduché jednorázové zálohování dat, ale vytvořit alespoň 2-3 záložní kopie úložiště. S rostoucím objemem však přibývají potíže s redundancí – a IT specialisté se snaží najít optimální řešení tohoto problému.

Velký trh s datovými technologiemi v Rusku a ve světě

Od roku 2014 tvoří 40 % objemu trhu s velkými daty služby. Příjmy z používání Big Data v počítačovém vybavení jsou o něco nižší (38 %) než tento ukazatel. Zbývajících 22 % pochází ze softwaru.

Nejužitečnějšími produkty v globálním segmentu pro řešení problémů s Big Data jsou podle statistik analytické platformy In-memory a NoSQL. 15 a 12 procent trhu zabírá analytický software Log-file a platformy Columnar. Hadoop/MapReduce se ale v praxi vypořádává s problémy s velkými daty nepříliš efektivně.

Výsledky implementace technologií velkých dat:

zvýšení kvality služeb zákazníkům;
optimalizace integrace dodavatelského řetězce;
optimalizace plánování organizace;
zrychlení interakce s klienty;
zvýšení efektivity zpracování požadavků zákazníků;
snížení nákladů na služby;
optimalizace zpracování požadavků klientů.

Nejlepší knihy o velkých datech

Vhodné pro počáteční studium technologií zpracování velkých dat - seznámí vás snadno a srozumitelně. Objasňuje, jak hojnost informací ovlivnila každodenní život a všechny jeho sféry: vědu, obchod, medicínu atd. Obsahuje četné ilustrace, takže je vnímáno bez větší námahy.

„Úvod do dolování dat“ od Pang-Ning Tan, Michaela Steinbacha a Vipina Kumara

Také užitečná kniha pro začátečníky o velkých datech, která vysvětluje práci s velkými daty podle principu „od jednoduchých ke složitým“. Pokrývá mnoho důležitých bodů v počáteční fázi: příprava na zpracování, vizualizace, OLAP, stejně jako některé metody analýzy a klasifikace dat.

Praktický průvodce používáním a prací s velkými daty pomocí programovacího jazyka Python. Vhodné jak pro studenty strojírenství, tak pro profesionály, kteří si chtějí prohloubit své znalosti.

"Hadoop pro figuríny", Dirk Derus, Paul S. Zikopoulos, Roman B. Mělník

Hadoop je projekt vytvořený speciálně pro práci s distribuovanými programy, které organizují provádění akcí na tisících uzlech současně. Jeho seznámení vám pomůže podrobněji porozumět praktickému použití velkých dat.

Sloupek učitelů HSE o mýtech a případech práce s velkými daty

Záložky

Učitelé na School of New Media na National Research University Higher School of Economics Konstantin Romanov a Alexander Pyatigorsky, který je také ředitelem digitální transformace ve společnosti Beeline, napsali pro web sloupek o hlavních mylných představách o velkých datech – příklady použití technologie a nástroje. Autoři předpokládají, že publikace pomůže manažerům firem porozumět tomuto pojmu.

Mýty a mylné představy o velkých datech

Big Data nejsou marketing

Výraz Big Data se stal velmi módním – používá se v milionech situací a se stovkami různých interpretací, často nesouvisejících s tím, co to je. V hlavách lidí se často nahrazují pojmy a velká data jsou zaměňována s marketingovým produktem. Navíc v některých společnostech jsou Big Data součástí marketingového oddělení. Výsledek analýzy velkých dat může být skutečně zdrojem pro marketingové aktivity, ale nic víc. Pojďme se podívat, jak to funguje.

Pokud jsme před dvěma měsíci identifikovali seznam těch, kteří si v našem obchodě koupili zboží za více než tři tisíce rublů, a pak těmto uživatelům zaslali nějakou nabídku, pak jde o typický marketing. Ze strukturálních dat odvozujeme jasný vzor a používáme ho ke zvýšení prodeje.

Pokud však zkombinujeme data CRM s informacemi ze streamingu například z Instagramu a analyzujeme je, najdeme vzorec: člověk, který ve středu večer omezil aktivitu a na jehož poslední fotografii jsou koťata, by měl učinit určitou nabídku. To již budou velká data. Našli jsme spoušť, předali ji obchodníkům a ti ji použili pro své účely.

Z toho plyne, že technologie většinou pracuje s nestrukturovanými daty, a i když jsou data strukturovaná, systém v nich stále hledá skryté vzorce, což marketing nedělá.

Big Data nejsou IT

Druhý extrém tohoto příběhu: Big Data jsou často zaměňována s IT. Důvodem je skutečnost, že v ruských společnostech jsou IT specialisté zpravidla hybateli všech technologií, včetně velkých dat. Pokud se tedy vše odehrává v tomto oddělení, společnost jako celek nabývá dojmu, že jde o nějakou IT činnost.

Ve skutečnosti je zde zásadní rozdíl: Big Data je činnost zaměřená na získání konkrétního produktu, která s IT vůbec nesouvisí, ačkoli technologie bez něj nemůže existovat.

Velká data nejsou vždy sběrem a analýzou informací

Existuje další mylná představa o velkých datech. Každý chápe, že tato technologie zahrnuje velké množství dat, ale není vždy jasné, o jaký druh dat se jedná. Kdokoli může sbírat a používat informace, nyní je to možné nejen ve filmech o, ale také v jakékoli, i velmi malé společnosti. Jedinou otázkou je, co přesně sbírat a jak to využít ve svůj prospěch.

Je však třeba si uvědomit, že technologie Big Data nebude shromažďovat a analyzovat absolutně žádné informace. Pokud například sbíráte data o konkrétní osobě na sociálních sítích, nepůjde o Big Data.

Co jsou to vlastně velká data?

Velká data se skládají ze tří prvků:

data;
analytika;
technologií.

Big Data nejsou jen jednou z těchto složek, ale kombinací všech tří prvků. Lidé často nahrazují pojmy: někteří věří, že velká data jsou jen data, jiní si myslí, že jde o technologii. Ale ve skutečnosti, bez ohledu na to, kolik dat shromáždíte, s nimi nebudete moci nic dělat bez správné technologie a analýzy. Pokud existuje dobrá analytika, ale žádná data, je to ještě horší.

Pokud mluvíme o datech, nejsou to jen texty, ale také všechny fotografie zveřejněné na Instagramu a obecně vše, co lze analyzovat a použít pro různé účely a úkoly. Jinými slovy, Data označují obrovské objemy interních a externích dat různých struktur.

Analytika je také potřeba, protože úkolem Big Data je vytvořit nějaké vzory. To znamená, že analytika je identifikace skrytých závislostí a hledání nových otázek a odpovědí na základě analýzy celého objemu heterogenních dat. Navíc Big Data kladou otázky, které z těchto dat nelze přímo odvodit.

Pokud jde o obrázky, to, že zveřejníte svou fotku v modrém tričku, nic neznamená. Pokud ale používáte fotografii pro Big Data modelování, může se ukázat, že právě teď byste měli nabídnout půjčku, protože ve vaší sociální skupině takové chování naznačuje určitý jev v akci. Proto „holá“ data bez analýzy, bez identifikace skrytých a nezřejmých závislostí nejsou Big Data.

Máme tedy velká data. Jejich pole je obrovské. Máme také analytika. Jak ale můžeme zajistit, že z těchto nezpracovaných dat dojdeme ke konkrétnímu řešení? K tomu potřebujeme technologie, které nám je umožní nejen ukládat (a to dříve nebylo možné), ale také je analyzovat.

Jednoduše řečeno, pokud máte hodně dat, budete potřebovat technologie, například Hadoop, které umožňují uložit všechny informace v původní podobě pro pozdější analýzu. Tento druh technologie vznikl u internetových gigantů, protože jako první čelili problému ukládání velkého množství dat a jejich analýze pro následné zpeněžení.

Kromě nástrojů pro optimalizované a levné ukládání dat potřebujete analytické nástroje a také doplňky k používané platformě. Například kolem Hadoopu se již vytvořil celý ekosystém souvisejících projektů a technologií. Zde jsou některé z nich:

Pig je deklarativní jazyk pro analýzu dat.
Hive - analýza dat pomocí jazyka podobného SQL.
Oozie - pracovní postup Hadoop.
Hbase je databáze (nerelační), podobná Google Big Table.
Mahout – strojové učení.
Sqoop - přenos dat z RSDB do Hadoop a naopak.
Flume - přenos protokolů do HDFS.
Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS a tak dále.

Všechny tyto nástroje jsou k dispozici všem zdarma, ale existuje i řada placených doplňků.

Kromě toho jsou zapotřebí specialisté: vývojář a analytik (tzv. Data Scientist). Je také potřeba manažera, který dokáže pochopit, jak tuto analytiku použít k řešení konkrétního problému, protože sama o sobě je zcela bezvýznamná, pokud není integrována do podnikových procesů.

Všichni tři zaměstnanci musí pracovat jako tým. Manažer, který dá specialistovi na Data Science za úkol najít určitý vzorec, musí pochopit, že ne vždy najde přesně to, co potřebuje. V tomto případě by měl manažer pozorně naslouchat tomu, co Data Scientist zjistil, protože jeho zjištění se často ukáží jako zajímavější a užitečnější pro podnik. Vaším úkolem je aplikovat to na podnikání a vytvořit z toho produkt.

Navzdory skutečnosti, že nyní existuje mnoho různých druhů strojů a technologií, konečné rozhodnutí vždy zůstává na člověku. K tomu je potřeba informace nějak vizualizovat. Existuje na to poměrně hodně nástrojů.

Nejvýmluvnějším příkladem jsou geoanalytické zprávy. Společnost Beeline hodně spolupracuje s vládami různých měst a regionů. Tyto organizace si velmi často objednávají zprávy jako „Dopravní zácpa v určité lokalitě“.

Je jasné, že taková zpráva by se měla dostat k vládním úřadům v jednoduché a srozumitelné formě. Pokud jim poskytneme obrovskou a zcela nesrozumitelnou tabulku (tedy informace v podobě, v jaké je dostáváme), je nepravděpodobné, že by si takovou zprávu koupili - bude to zcela zbytečné, nezískají z ní vědomí, že chtěli obdržet.

Proto bez ohledu na to, jak dobří jsou datoví vědci a bez ohledu na to, jaké vzory najdou, nebudete moci s těmito daty pracovat bez dobrých vizualizačních nástrojů.

Zdroje dat

Pole získaných dat je velmi rozsáhlé, lze je tedy rozdělit do několika skupin.

Interní firemní údaje

Přestože 80 % shromážděných dat patří do této skupiny, tento zdroj není vždy využíván. Často se jedná o data, která zdánlivě nikdo nepotřebuje, například protokoly. Když se na ně ale podíváte z jiného úhlu, můžete v nich občas najít nečekané vzory.

Sharewarové zdroje

Patří sem data ze sociálních sítí, internetu a všeho, co je dostupné zdarma. Proč je shareware zdarma? Na jednu stranu jsou tato data dostupná všem, ale pokud jste velká firma, tak získat je ve velikosti předplatitelské základny desítek tisíc, stovek či milionů zákazníků už není snadný úkol. Na trhu proto existují placené služby, které tyto údaje poskytují.

Placené zdroje

Patří sem společnosti, které prodávají data za peníze. Mohou to být telekomunikace, DMP, internetové společnosti, úvěrové kanceláře a agregátory. V Rusku telekomunikace data neprodávají. Za prvé je to ekonomicky nerentabilní a za druhé je to zákonem zakázáno. Proto prodávají výsledky svého zpracování, například geoanalytické zprávy.

Otevřená data

Stát vychází podnikům vstříc a dává jim možnost využívat shromážděná data. To je rozvinuto ve větší míře na Západě, ale Rusko v tomto ohledu také drží krok s dobou. Existuje například portál otevřených dat moskevské vlády, kde jsou zveřejňovány informace o různých zařízeních městské infrastruktury.

Pro obyvatele a hosty Moskvy jsou data prezentována v tabulkové a kartografické podobě a pro vývojáře - ve speciálních strojově čitelných formátech. Zatímco projekt pracuje v omezeném režimu, vyvíjí se, což znamená, že je také zdrojem dat, která můžete využít pro své obchodní úkoly.

Výzkum

Jak již bylo uvedeno, úkolem Big Data je najít vzorec. Často se výzkum prováděný po celém světě může stát opěrným bodem pro nalezení konkrétního vzoru - můžete získat konkrétní výsledek a pokusit se použít podobnou logiku pro své vlastní účely.

Velká data jsou oblastí, ve které neplatí všechny matematické zákony. Například „1“ + „1“ není „2“, ale mnohem více, protože smícháním zdrojů dat lze efekt výrazně zvýšit.

Příklady produktů

Mnoho lidí zná službu výběru hudby Spotify. Je to skvělé, protože se neptá uživatelů, jakou mají dnes náladu, ale spíše ji vypočítává na základě zdrojů, které má k dispozici. Vždy ví, co teď potřebujete – jazz nebo hard rock. To je klíčový rozdíl, který mu poskytuje fanoušky a odlišuje jej od ostatních služeb.

Takové produkty se obvykle nazývají sense produkty – ty, které cítí své zákazníky.

Technologie Big Data se využívá i v automobilovém průmyslu. Dělá to například Tesla – jejich nejnovější model má autopilota. Společnost se snaží vytvořit vůz, který sám doveze cestujícího tam, kam potřebuje. Bez Big Data je to nemožné, protože pokud budeme používat pouze data, která dostáváme přímo, jako to dělá člověk, pak se auto nebude moci zlepšit.

Když sami řídíme auto, používáme naše neurony k rozhodování na základě mnoha faktorů, kterých si ani nevšimneme. Možná si neuvědomujeme, proč jsme se rozhodli hned nezrychlit na zelenou, ale pak se ukáže, že rozhodnutí bylo správné – kolem vás projelo závratnou rychlostí auto a vy jste se vyhnuli nehodě.

Můžete také uvést příklad využití Big Data ve sportu. V roce 2002 se generální manažer baseballového týmu Oakland Athletics Billy Beane rozhodl prolomit paradigma, jak nabírat sportovce – vybíral a trénoval hráče „do počtu“.

Manažeři se obvykle dívají na úspěch hráčů, ale v tomto případě bylo všechno jinak - aby dosáhl výsledků, manažer studoval, jaké kombinace sportovců potřeboval, přičemž věnoval pozornost individuálním charakteristikám. Navíc si vybral sportovce, kteří sami neměli velký potenciál, ale tým jako celek se ukázal být natolik úspěšný, že vyhrál dvacet zápasů v řadě.

Režisér Bennett Miller následně natočil film věnovaný tomuto příběhu – „Muž, který změnil všechno“ s Bradem Pittem v hlavní roli.

Technologie Big Data je užitečná i ve finančním sektoru. Ani jeden člověk na světě nedokáže samostatně a přesně určit, zda se vyplatí někomu půjčit. Aby bylo možné rozhodnout, provádí se bodování, to znamená, že je sestaven pravděpodobnostní model, ze kterého lze pochopit, zda tato osoba vrátí peníze nebo ne. Pak se bodování aplikuje ve všech fázích: můžete si například spočítat, že v určitém okamžiku člověk přestane platit.

Velká data umožňují nejen vydělávat peníze, ale také je šetřit. Zejména tato technologie pomohla německému ministerstvu práce snížit náklady na dávky v nezaměstnanosti o 10 miliard eur, protože po analýze informací vyšlo najevo, že 20 % dávek bylo vyplaceno nezaslouženě.

Technologie se využívají i v medicíně (to je typické zejména pro Izrael). S pomocí Big Data můžete provést mnohem přesnější analýzu, než dokáže udělat lékař s třicetiletou praxí.

Každý lékař se při stanovení diagnózy spoléhá pouze na své vlastní zkušenosti. Když to stroj dělá, vychází to ze zkušeností tisíců takových lékařů a všech existujících kazuistik. Bere v úvahu, z jakého materiálu je dům pacienta vyroben, v jaké oblasti oběť žije, jaký je tam kouř a tak dále. To znamená, že bere v úvahu spoustu faktorů, které lékaři neberou v úvahu.

Příkladem využití Big Data ve zdravotnictví je projekt Project Artemis, který realizovala Torontská dětská nemocnice. Jedná se o informační systém, který shromažďuje a analyzuje data o miminkách v reálném čase. Stroj umožňuje každou sekundu analyzovat 1260 zdravotních ukazatelů každého dítěte. Tento projekt je zaměřen na predikci nestabilního stavu dítěte a prevenci nemocí u dětí.

Big data se začínají používat i v Rusku: například Yandex má divizi big data. Společnost společně s AstraZeneca a Ruskou společností klinické onkologie RUSSCO spustila platformu RAY, určenou genetikům a molekulárním biologům. Projekt nám umožňuje zlepšit metody diagnostiky rakoviny a identifikace predispozice k rakovině. Platforma bude spuštěna v prosinci 2016.

Kdysi jsem od Germana Grefa (šéfa Sberbank) slyšel termín „Big Data“. Říkají, že nyní aktivně pracují na implementaci, protože jim to pomůže zkrátit čas práce s každým klientem.

Podruhé jsem se s tímto konceptem setkal v internetovém obchodě klienta, na kterém jsme pracovali a rozšiřovali sortiment z několika tisíc na několik desítek tisíc produktových položek.

Potřetí jsem viděl, že Yandex vyžaduje analytika velkých dat. Pak jsem se rozhodl proniknout do tohoto tématu hlouběji a zároveň napsat článek, který napoví, co je to za pojem, který vzrušuje mysl TOP manažerů a internetového prostoru.

VVV nebo VVVVV

Každý ze svých článků obvykle začínám vysvětlením, o jaký pojem se jedná. Tento článek nebude výjimkou.

To však není způsobeno především touhou ukázat, jak jsem chytrý, ale tím, že téma je skutečně složité a vyžaduje pečlivé vysvětlení.

Můžete si například přečíst, co jsou velká data na Wikipedii, ničemu nerozumíte, a pak se vrátit k tomuto článku, abyste stále rozuměli definici a použitelnosti pro podnikání. Začněme tedy popisem a poté příklady pro podnikání.

Velká data jsou velká data. Úžasné, že? Ve skutečnosti se to z angličtiny překládá jako „velká data“. Ale tato definice, dalo by se říci, je pro figuríny.

Důležité. Technologie velkých dat je přístup/způsob zpracování většího množství dat za účelem získání nových informací, které je obtížné zpracovat konvenčními metodami.

Data mohou být buď zpracovaná (strukturovaná), nebo rozptýlená (tj. nestrukturovaná).

Samotný termín se objevil relativně nedávno. V roce 2008 jeden vědecký časopis předpověděl tento přístup jako nezbytný pro řešení velkého množství informací, které exponenciálně narůstají.

Například každý rok na internetu narůstají informace, které je potřeba uchovávat a samozřejmě zpracovávat, o 40 %. Znovu. +40 % Každý rok se na internetu objevují nové informace.

Pokud jsou tištěné dokumenty jasné a způsoby jejich zpracování jsou také jasné (převod do elektronické podoby, sešití do jedné složky, číslo), tak co dělat s informacemi, které jsou prezentovány na zcela jiných „médiích“ a jiných svazcích:

Internetové dokumenty;
blogy a sociální sítě;
audio/video zdroje;
měřicí zařízení;

Existují vlastnosti, které umožňují klasifikovat informace a data jako velká data.

To znamená, že ne všechna data mohou být vhodná pro analýzu. Tyto charakteristiky přesně obsahují klíčový koncept velkých dat. Všechny se vešly do tří vs.

Volume (z anglického volume). Data se měří ve smyslu fyzického objemu „dokumentu“, který má být analyzován;
Rychlost (z anglického velocity). Data ve svém vývoji nestojí, ale neustále rostou, proto je pro získání výsledků nutné jejich rychlé zpracování;
Variety (z anglického variety). Data nemusí mít stejný formát. To znamená, že mohou být rozptýlené, strukturované nebo částečně strukturované.

Čas od času se však k VVV přidává čtvrté V (pravdivost) a dokonce i páté V (v některých případech jde o životaschopnost, v jiných o hodnotu).

Někde jsem dokonce viděl 7V, které charakterizují data související s velkými daty. Ale podle mého názoru je to ze série (kde se pravidelně přidávají P, i když pro pochopení stačí počáteční 4).

Kdo to potřebuje?

Nabízí se logická otázka: jak můžete informace využít (pokud vůbec, velká data jsou stovky a tisíce terabajtů)? Ani to ne.

Zde jsou informace. Proč tedy bylo velké rande vynalezeno? Jaké je využití velkých dat v marketingu a podnikání?

Konvenční databáze nedokážou uchovávat a zpracovávat (teď ani nemluvím o analytice, ale jednoduše ukládat a zpracovávat) obrovské množství informací.
Big data řeší tento hlavní problém. Úspěšně ukládá a spravuje velké objemy informací;
Strukturuje informace pocházející z různých zdrojů (video, obrázky, zvukové a textové dokumenty) do jediné, srozumitelné a stravitelné formy;
Generování analýz a vytváření přesných předpovědí na základě strukturovaných a zpracovaných informací.

Je to složité. Zjednodušeně řečeno, každý marketér, který chápe, že pokud si nastudujete velké množství informací (o vás, vaší společnosti, vašich konkurentech, vašem odvětví), můžete dosáhnout velmi slušných výsledků:

Plné pochopení vaší společnosti a vašeho podnikání ze strany čísel;
Studujte své konkurenty. A to zase umožní dostat se dopředu tím, že je budete ovládat;
Zjistěte nové informace o svých klientech.

A právě proto, že technologie velkých dat poskytuje následující výsledky, všichni s ní spěchají.

Snaží se tento byznys začlenit do své firmy s cílem zvýšit tržby a snížit náklady. A pokud konkrétně, tak:

Zvýšení křížového prodeje a dodatečného prodeje díky lepší znalosti preferencí zákazníků;
Vyhledávejte oblíbené produkty a důvody, proč je lidé kupují (a naopak);
Zlepšení produktu nebo služby;
Zlepšení úrovně služeb;
Zvýšení loajality a zaměření na zákazníka;
Prevence podvodů (relevantnější pro bankovní sektor);
Snížení zbytečných nákladů.

Nejčastějším příkladem, který je uváděn ve všech zdrojích, je samozřejmě společnost Apple, která sbírá data o svých uživatelích (telefon, hodinky, počítač).

Je to kvůli přítomnosti ekosystému, že společnost ví tolik o svých uživatelích a následně toho využívá k vytváření zisku.

Tyto a další příklady použití si můžete přečíst v jakémkoli jiném článku kromě tohoto.

Pojďme do budoucnosti

Řeknu vám o dalším projektu. Nebo spíše o člověku, který buduje budoucnost pomocí řešení velkých dat.

To je Elon Musk a jeho společnost Tesla. Jeho hlavním snem je udělat auta autonomní, to znamená, že sednete za volant, zapnete autopilota z Moskvy do Vladivostoku a... usnete, protože to auto vůbec nepotřebujete řídit, protože to půjde všechno samo.

Zdálo by se to fantastické? Ale ne! Jde jen o to, že Elon jednal mnohem moudřeji než Google, který řídí auta pomocí desítek satelitů. A šel jinou cestou:

Každé prodané auto je vybaveno počítačem, který shromažďuje všechny informace.
All - to znamená všechno. O řidiči, jeho stylu jízdy, silnicích kolem něj, pohybu ostatních aut. Objem takových dat dosahuje 20-30 GB za hodinu;
Dále jsou tyto informace přenášeny prostřednictvím satelitní komunikace do centrálního počítače, který tato data zpracovává;
Na základě velkých dat zpracovaných tímto počítačem je sestaven model bezpilotního prostředku.

Mimochodem, pokud si Google vede dost špatně a jejich auta se neustále dostávají k nehodám, tak Musk díky tomu, že pracuje s velkými daty, je na tom mnohem lépe, protože testovací modely vykazují velmi dobré výsledky.

https://youtu.be/lc2ZVUZ6kno

Ale... Všechno je to o ekonomice. Co nám všem jde o zisk, ale o zisk? Mnohé, co může rozhodnout velké rande, zcela nesouvisí s výdělky a penězi.

Statistiky Google založené na velkých datech ukazují zajímavou věc.

Než lékaři oznámí začátek epidemie onemocnění v určitém regionu, výrazně se zvyšuje počet vyhledávacích dotazů na léčbu tohoto onemocnění v daném regionu.

Správné studium dat a jejich analýza tak může tvořit prognózy a předpovídat nástup epidemie (a tedy i její prevenci) mnohem rychleji než závěry oficiálních orgánů a jejich akce.

Aplikace v Rusku

Rusko však jako vždy trochu „zpomaluje“. Takže samotná definice velkých dat v Rusku se objevila ne více než před 5 lety (nyní mluvím o běžných společnostech).

A to přesto, že se jedná o jeden z nejrychleji rostoucích trhů na světě (drogy a zbraně nervózně kouří na vedlejší koleji), protože trh se softwarem pro sběr a analýzu velkých dat každoročně roste o 32 %.

Abych charakterizoval trh s velkými daty v Rusku, vzpomínám si na jeden starý vtip. Velké rande je jako mít sex, než vám bude 18.

Všichni o tom mluví, je kolem toho velký humbuk a málo skutečné akce a každý se stydí přiznat, že to sám nedělá. Ve skutečnosti je kolem toho spousta humbuku, ale málo skutečné akce.

I když známá výzkumná společnost Gartner již v roce 2015 oznámila, že velká data již nejsou rostoucím trendem (mimochodem jako umělá inteligence), ale zcela nezávislými nástroji pro analýzu a vývoj pokročilých technologií.

Nejaktivnější niky, kde se v Rusku používají velká data, jsou banky/pojišťovny (ne nadarmo jsem článek začal s šéfem Sberbank), telekomunikační sektor, maloobchod, nemovitosti a... veřejný sektor.

Jako příklad vám řeknu podrobněji o několika ekonomických sektorech, které používají algoritmy velkých dat.

Banky

Začněme bankami a informacemi, které o nás a našem jednání shromažďují. Jako příklad jsem vzal TOP 5 ruských bank, které aktivně investují do velkých dat:

Sberbank;
Gazprombank;
VTB 24;
banka Alfa;
Banka Tinkoff.

Je obzvláště příjemné vidět Alfa Bank mezi ruskými lídry. Minimálně je příjemné vědět, že banka, jejímž jste oficiálním partnerem, chápe potřebu zavádět do své společnosti nové marketingové nástroje.

Chci ale ukázat příklady využití a úspěšné implementace velkých dat na bance, která se mi líbí pro netradiční pohled a jednání jejího zakladatele.

Mluvím o Tinkoff Bank. Jejich hlavním úkolem bylo vyvinout systém pro analýzu velkých dat v reálném čase kvůli jejich rostoucí zákaznické základně.

Výsledky: čas vnitřních procesů se zkrátil nejméně 10krát a u některých více než 100krát.

No, trochu rozptýlení. Víte, proč jsem začal mluvit o neobvyklých dovádění a činech Olega Tiňkova?

Podle mého názoru to byli právě oni, kdo mu pomohl přeměnit se z průměrného obchodníka, jakých jsou v Rusku tisíce, na jednoho z nejslavnějších a nejuznávanějších podnikatelů. Chcete-li to potvrdit, podívejte se na toto neobvyklé a zajímavé video:

https://youtu.be/XHMaD5HAvfk

Nemovitost

V realitách je vše mnohem složitější. A to je přesně ten příklad, který vám chci dát k pochopení velkých rande v rámci běžného podnikání. Počáteční údaje:

Velký objem textové dokumentace;
Otevřené zdroje (soukromé družice přenášející data o změnách Země);
Obrovské množství nekontrolovaných informací na internetu;
Neustálé změny zdrojů a dat.

A na základě toho je nutné připravit a zhodnotit hodnotu pozemku, například poblíž uralské vesnice. Profesionálovi to zabere týden.

Ruská společnost odhadců & ROSECO, která skutečně implementovala analýzu velkých dat pomocí softwaru, nezabere více než 30 minut klidné práce. Porovnejte, týden a 30 minut. Obrovský rozdíl.

No přece na svačinu

Obrovské množství informací samozřejmě nelze ukládat a zpracovávat na jednoduché pevné disky.

A software, který strukturuje a analyzuje data, je obecně duševním vlastnictvím a pokaždé vývojem autora. Existují však nástroje, na jejichž základě veškerá tato krása vzniká:

Hadoop & MapReduce;
NoSQL databáze;
Nástroje třídy zjišťování dat.

Abych byl upřímný, nebudu vám schopen jasně vysvětlit, jak se od sebe liší, protože poznávání a práce s těmito věcmi se vyučuje na fyzikálních a matematických ústavech.

Proč jsem o tom mluvil, když jsem to nedokázal vysvětlit? Pamatujete si, že ve všech filmech lupiči jdou do jakékoli banky a vidí obrovské množství nejrůznějších kusů hardwaru připojeného k drátům?

Je to stejné jako ve velkém rande. Zde je například model, který je v současnosti jedním z lídrů na trhu.

Nástroj pro velké datum

Náklady na maximální konfiguraci dosahují 27 milionů rublů na stojan. Toto je samozřejmě luxusní verze. Chci, abyste si předem vyzkoušeli vytváření velkých dat ve vašem podnikání.

Krátce o tom hlavním

Možná se ptáte, proč vy, jako malá a střední firma, potřebujete pracovat s velkými daty?

Na to vám odpovím citátem jednoho člověka: „V blízké budoucnosti budou klienti poptáváni po společnostech, které lépe rozumí jejich chování a zvykům a nejlépe jim vyhovují.“

Ale přiznejme si to. Chcete-li implementovat velká data v malé firmě, musíte mít nejen velké rozpočty na vývoj a implementaci softwaru, ale také na údržbu specialistů, alespoň jako je analytik velkých dat a správce systému.

A teď už mlčím o tom, že takové údaje pro zpracování musíte mít.

OK. Pro malé firmy je téma téměř nepoužitelné. To ale neznamená, že musíte zapomenout na vše, co jste si přečetli výše.

Jen nestudujte svá data, ale výsledky datové analýzy od známých zahraničních i ruských společností.

Například maloobchodní řetězec Target pomocí analýzy velkých dat zjistil, že těhotné ženy před druhým trimestrem těhotenství (od 1. do 12. týdne těhotenství) aktivně nakupují produkty bez vůně.

Pomocí těchto údajů jim posílají kupony s časově omezenými slevami na neparfémované produkty.

Co když jste například jen velmi malá kavárna? Ano, velmi jednoduché. Použijte věrnostní aplikaci.

A po nějaké době a díky nashromážděným informacím budete schopni zákazníkům nejen nabízet pokrmy, které odpovídají jejich potřebám, ale také vidět nejprodávanější pokrmy a pokrmy s nejvyšší marží na pár kliknutí myší.

Proto ten závěr. Je nepravděpodobné, že by malé podniky měly implementovat velká data, ale je nezbytné využít výsledky a vývoj jiných společností.

Jen líní nemluví o velkých datech, ale stěží chápou, co to je a jak to funguje. Začněme tím nejjednodušším – terminologií. Když mluvíme rusky, Big data jsou různé nástroje, přístupy a metody pro zpracování strukturovaných i nestrukturovaných dat za účelem jejich použití pro konkrétní úkoly a účely.

Nestrukturovaná data jsou informace, které nemají předem stanovenou strukturu nebo nejsou uspořádány v určitém pořadí.

Termín „velká data“ zavedl editor časopisu Nature Clifford Lynch již v roce 2008 ve speciálním vydání věnovaném explozivnímu růstu světového objemu informací. I když samotná velká data samozřejmě existovala dříve. Kategorie Big data podle odborníků zahrnuje většinu datových toků nad 100 GB za den.

Přečtěte si také:

Dnes se pod tímto jednoduchým pojmem skrývají pouze dvě slova – ukládání a zpracování dat.

Velká data – jednoduše řečeno

V moderním světě jsou velká data socioekonomickým fenoménem, který souvisí se skutečností, že se objevily nové technologické možnosti pro analýzu velkého množství dat.

Přečtěte si také:

Pro snazší pochopení si představte supermarket, ve kterém není všechno zboží v pořadí, na jaké jste zvyklí. Chléb vedle ovoce, rajčatový protlak vedle mražené pizzy, zapalovač tekutin před stojanem na tampony, který obsahuje mimo jiné avokádo, tofu nebo houby shiitake. Big data dají vše na své místo a pomohou vám najít ořechové mléko, zjistit cenu a datum spotřeby a také to, kdo kromě vás toto mléko kupuje a proč je lepší než mléko kravské.

Kenneth Cukier: Velká data jsou lepší data

Technologie velkých dat

Obrovské objemy dat jsou zpracovávány tak, aby člověk mohl získat konkrétní a potřebné výsledky pro jejich další efektivní využití.

Přečtěte si také:

Ve skutečnosti jsou Big data řešením problémů a alternativou k tradičním systémům pro správu dat.

Techniky a metody analýzy použitelné pro Big data podle McKinsey:

Crowdsourcing;

Míchání a integrace dat;

Strojové učení;

Umělé neuronové sítě;

Rozpoznávání vzorů;

Prediktivní analytika;

Simulační modelování;

Prostorová analýza;

Statistická analýza;
Vizualizace analytických dat.

Horizontální škálovatelnost umožňující zpracování dat je základním principem zpracování velkých dat. Data jsou distribuována mezi výpočetní uzly a zpracování probíhá bez snížení výkonu. McKinsey do kontextu použitelnosti zahrnul také systémy relačního řízení a Business Intelligence.

Technologie:

NoSQL;
MapReduce;
hadoop;
Hardwarová řešení.

Přečtěte si také:

Pro velká data existují tradiční definiční charakteristiky vyvinuté Meta Group již v roce 2001, které se nazývají „ Tři V»:

Objem- množství fyzického objemu.
Rychlost- rychlost růstu a potřeba rychlého zpracování dat pro získání výsledků.
Odrůda- schopnost současně zpracovávat různé typy dat.

Velká data: aplikace a příležitosti

Je nemožné zpracovat objemy heterogenních a rychle přicházejících digitálních informací tradičními nástroji. Samotná analýza dat vám umožňuje vidět určité a nepostřehnutelné vzorce, které lidé nevidí. To nám umožňuje optimalizovat všechny oblasti našeho života – od veřejné správy až po výrobu a telekomunikace.

Některé společnosti například před pár lety chránily své klienty před podvody a starat se o peníze klienta znamená starat se o své vlastní peníze.

Susan Etliger: A co velká data?

Řešení založená na Big datech: Sberbank, Beeline a další společnosti

Beeline má obrovské množství dat o předplatitelích, které využívají nejen k práci s nimi, ale také k vytváření analytických produktů, jako je externí poradenství nebo IPTV analytika. Beeline segmentoval databázi a chránil klienty před finančními podvody a viry pomocí HDFS a Apache Spark pro ukládání a Rapidminer a Python pro zpracování dat.

Přečtěte si také:

Nebo si vzpomeňme na Sberbank s jejich starým případem AS SAFI. Jedná se o systém, který analyzuje fotografie, aby identifikoval zákazníky banky a zabránil podvodům. Systém byl představen již v roce 2014, systém je založen na porovnávání fotografií z databáze, které se tam dostávají z webových kamer na stojanech díky počítačovému vidění. Základem systému je biometrická platforma. Díky tomu se případy podvodů snížily 10krát.

Velká data na světě

Do roku 2020 podle předpovědí lidstvo vygeneruje 40-44 zettabytů informací. A do roku 2025 poroste 10krát, podle zprávy The Data Age 2025, kterou připravili analytici z IDC. Zpráva uvádí, že většinu dat budou generovat samotné podniky, nikoli běžní spotřebitelé.

Výzkumní analytici se domnívají, že data se stanou životně důležitým aktivem a bezpečnost kritickým základem života. Autoři práce jsou také přesvědčeni, že technologie změní ekonomické prostředí a průměrný uživatel bude komunikovat s připojenými zařízeními asi 4800krát denně.

Velký datový trh v Rusku

Velká data obvykle pocházejí ze tří zdrojů:

Internet (sociální sítě, fóra, blogy, média a další stránky);
Archivy firemních dokumentů;
Odečet ze senzorů, přístrojů a dalších zařízení.

Velká data v bankách

Kromě výše popsaného systému zahrnuje strategie Sberbank pro roky 2014–2018: hovoří o důležitosti analýzy super dat pro kvalitní zákaznický servis, řízení rizik a optimalizaci nákladů. Nyní banka používá Big data pro řízení rizik, boj proti podvodům, segmentaci a hodnocení bonity zákazníků, personální management, předpovídá fronty na pobočkách, počítá bonusy pro zaměstnance a další úkoly.

VTB24 používá velká data k segmentaci a správě odlivu zákazníků, generování finančních výkazů a analýze recenzí na sociálních sítích a fórech. K tomu využívá řešení od Teradata, SAS Visual Analytics a SAS Marketing Optimizer.

Předpovídalo se, že celkový globální objem dat vytvořených a replikovaných v roce 2011 by mohl být asi 1,8 zettabajtů (1,8 bilionu gigabajtů) – asi 9krát více, než kolik bylo vytvořeno v roce 2006.

Složitější definice

Nicméně` velká data` zahrnuje více než jen analýzu obrovského množství informací. Problém není v tom, že organizace vytvářejí obrovské množství dat, ale v tom, že většina z nich je ve formátu, který se příliš nehodí k tradičnímu formátu strukturované databáze – webové protokoly, videa, textové dokumenty, strojový kód nebo například geoprostorová data. . To vše je uloženo v mnoha různých úložištích, někdy i mimo organizaci. V důsledku toho mohou mít korporace přístup k obrovskému množství svých dat a postrádat potřebné nástroje k navázání vztahů mezi těmito daty a vyvozování smysluplných závěrů z nich. Přidejte k tomu skutečnost, že data jsou nyní aktualizována stále častěji, a dostanete se do situace, kdy tradiční metody analýzy informací nemohou držet krok s obrovskými objemy neustále aktualizovaných dat, což v konečném důsledku otevírá cestu technologiím. velká data.

Nejlepší definice

V podstatě koncept velká data zahrnuje práci s informacemi obrovského objemu a různorodého složení, velmi často aktualizovanými a umístěnými v různých zdrojích za účelem zvýšení provozní efektivity, vytváření nových produktů a zvýšení konkurenceschopnosti. Poradenská společnost Forrester uvádí stručnou formulaci: ` Velká data spojuje techniky a technologie, které extrahují význam z dat na extrémních hranicích praktičnosti.

Jak velký je rozdíl mezi obchodní analýzou a velkými daty?

Craig Bathy, výkonný ředitel marketingu a technologický ředitel společnosti Fujitsu Australia, poukázal na to, že obchodní analýza je popisný proces analýzy výsledků dosažených podnikem za určité časové období, přičemž rychlost zpracování velká data vám umožní provést analýzu prediktivní, schopnou nabídnout obchodní doporučení do budoucna. Technologie velkých dat vám také umožňují analyzovat více typů dat než nástroje business intelligence, což umožňuje zaměřit se na více než jen strukturovaná úložiště.

Matt Slocum z O'Reilly Radar věří, že ačkoli velká data a obchodní analytika mají stejný cíl (hledání odpovědí na otázku), liší se od sebe ve třech aspektech.

Velká data jsou navržena tak, aby zpracovávala větší objemy informací než obchodní analytika, a to jistě odpovídá tradiční definici velkých dat.
Velká data jsou navržena tak, aby zpracovávala rychlejší a rychleji se měnící informace, což znamená hluboký průzkum a interaktivitu. V některých případech se výsledky generují rychleji, než se načte webová stránka.
Velká data jsou navržena tak, aby zpracovávala nestrukturovaná data, která teprve začínáme zkoumat, jak je používat, jakmile jsme je dokázali shromáždit a uložit, a potřebujeme algoritmy a konverzační schopnosti, které nám usnadní hledání trendů obsažených v těchto souborech dat.

Podle bílé knihy „Oracle Information Architecture: An Architect's Guide to Big Data“, kterou vydala společnost Oracle, při práci s velkými daty přistupujeme k informacím jinak než při provádění obchodních analýz.

Práce s velkými daty není jako běžný proces business intelligence, kde pouhé sečtení známých hodnot vede k výsledku: například sečtení zaplacených faktur vede k ročním tržbám. Při práci s velkými daty se výsledek získá v procesu jejich čištění pomocí sekvenčního modelování: nejprve se předloží hypotéza, sestaví se statistický, vizuální nebo sémantický model, na jehož základě se zkontroluje správnost předložené hypotézy a poté je předložen další. Tento proces vyžaduje, aby výzkumník buď interpretoval vizuální významy, nebo konstruoval interaktivní dotazy založené na znalostech, nebo vyvinul adaptivní algoritmy „strojového učení“, které mohou přinést požadovaný výsledek. Kromě toho může být životnost takového algoritmu poměrně krátká.

Techniky analýzy velkých dat

Existuje mnoho různých metod pro analýzu souborů dat, které jsou založeny na nástrojích vypůjčených ze statistiky a informatiky (například strojové učení). Seznam se netváří jako úplný, ale odráží nejoblíbenější přístupy v různých odvětvích. Mělo by být zřejmé, že výzkumníci pokračují v práci na vytváření nových technik a zlepšování stávajících. Některé z uvedených technik se navíc nemusí nutně vztahovat výhradně na velká data a lze je úspěšně použít pro menší pole (například A/B testování, regresní analýza). Samozřejmě, čím objemnější a diverzifikovanější pole je analyzováno, tím přesnější a relevantnější data lze získat.

A/B testování. Technika, při které je kontrolní vzorek střídavě porovnáván s ostatními. Je tak možné identifikovat optimální kombinaci ukazatelů pro dosažení například nejlepší odezvy spotřebitelů na marketingovou nabídku. Velká data umožňují provést obrovské množství iterací a získat tak statisticky spolehlivý výsledek.

Učení asociačních pravidel. Soubor technik pro identifikaci vztahů, tzn. asociační pravidla mezi proměnnými ve velkých souborech dat. Používá se v data mining.

Klasifikace. Soubor technik, které umožňují předvídat chování spotřebitelů v určitém segmentu trhu (rozhodování o nákupu, churn, objem spotřeby atd.). Používá se v data mining.

Shluková analýza. Statistická metoda pro klasifikaci objektů do skupin pomocí identifikace společných znaků, které nejsou předem známy. Používá se v data mining.

Crowdsourcing. Metodika sběru dat z velkého množství zdrojů.

Fúze a integrace dat. Sada technik, která umožňuje analyzovat komentáře uživatelů sociálních sítí a porovnávat je s výsledky prodeje v reálném čase.

Dolování dat. Sada technik, které umožňují určit kategorie spotřebitelů nejvíce náchylné k propagovanému produktu nebo službě, identifikovat charakteristiky nejúspěšnějších zaměstnanců a předpovědět model chování spotřebitelů.

Souborové učení. Tato metoda využívá mnoho prediktivních modelů, čímž zlepšuje kvalitu prováděných předpovědí.

Genetické algoritmy. V této technice jsou možná řešení reprezentována jako „chromozomy“, které se mohou kombinovat a mutovat. Stejně jako v procesu přirozené evoluce přežije nejschopnější jedinec.

Strojové učení. Směr v informatice (historicky dostal název „umělá inteligence“), který sleduje cíl vytvářet samoučící se algoritmy založené na analýze empirických dat.

Zpracování přirozeného jazyka (NLP). Soubor technik pro rozpoznávání přirozeného lidského jazyka převzatý z informatiky a lingvistiky.

Síťová analýza. Soubor technik pro analýzu spojení mezi uzly v sítích. Ve vztahu k sociálním sítím umožňuje analyzovat vztahy mezi jednotlivými uživateli, firmami, komunitami atp.

Optimalizace. Sada numerických metod pro přepracování složitých systémů a procesů za účelem zlepšení jedné nebo více metrik. Pomáhá při strategických rozhodnutích, například složení produktové řady, která má být uvedena na trh, provádění investiční analýzy atd.

Rozpoznávání vzorů. Soubor technik s prvky samoučení pro predikci modelu chování spotřebitelů.

Prediktivní modelování. Sada technik, které umožňují vytvořit matematický model předem stanoveného pravděpodobného scénáře vývoje událostí. Například analýza databáze CRM systému pro možné podmínky, které vyzve účastníky ke změně poskytovatele.

Regrese. Soubor statistických metod pro identifikaci vzoru mezi změnami v závislé proměnné a jedné nebo více nezávislých proměnných. Často se používá pro prognózy a předpovědi. Používá se při dolování dat.

Analýza sentimentu. Techniky pro hodnocení spotřebitelského sentimentu jsou založeny na technologiích rozpoznávání přirozeného jazyka. Umožňují izolovat zprávy související s předmětem zájmu (například spotřebitelský produkt) z toku obecných informací. Dále zhodnoťte polaritu úsudku (pozitivní nebo negativní), míru emocionality atd.

Zpracování signálu. Soubor technik vypůjčených z radiotechniky, jejichž cílem je rozpoznat signál na pozadí šumu a jeho další analýza.

Prostorová analýza. Soubor metod pro analýzu prostorových dat, částečně převzatých ze statistiky - topologie terénu, zeměpisné souřadnice, geometrie objektů. Zdroj velká dataČasto se v tomto případě využívají geografické informační systémy (GIS).

Statistika. Věda o shromažďování, organizování a interpretaci dat, včetně vytváření dotazníků a provádění experimentů. Statistické metody se často používají k hodnotovým úsudkům o vztazích mezi určitými událostmi.

Učení pod dohledem. Sada technik založených na technologiích strojového učení, které umožňují identifikovat funkční vztahy v analyzovaných souborech dat.

Simulace. Modelování chování komplexních systémů se často používá k předpovídání, předpovídání a práci s různými scénáři při plánování.

Analýza časových řad. Soubor technik odvozených ze statistiky a digitálního zpracování signálu pro analýzu sekvencí dat, které se v čase opakují. Některé zřejmé aplikace sledují akciový trh nebo nemoci pacientů.

Učení bez dozoru. Sada technik založených na technologiích strojového učení, které umožňují identifikovat skryté funkční vztahy v analyzovaných souborech dat. Má společné rysy s Shluková analýza.

Vizualizace. Metody pro grafickou prezentaci výsledků analýzy velkých dat ve formě grafů nebo animovaných obrázků pro zjednodušení interpretace a snazší pochopení výsledků.

Vizuální znázornění výsledků analýzy velkých dat má zásadní význam pro jejich interpretaci. Není žádným tajemstvím, že lidské vnímání je omezené a vědci pokračují ve výzkumu zlepšování moderních metod prezentace dat ve formě obrázků, diagramů nebo animací.

Analytické nástroje

Od roku 2011 některé přístupy uvedené v předchozí podkapitole nebo jejich určitá kombinace umožňují implementovat analytické motory pro práci s velkými daty v praxi. Mezi bezplatné nebo relativně levné otevřené systémy analýzy velkých dat můžeme doporučit:

Revolution Analytics (založené na jazyku R pro matematické statistiky).

Na tomto seznamu je obzvláště zajímavý Apache Hadoop, software s otevřeným zdrojovým kódem, který se za posledních pět let osvědčil jako analyzátor dat u většiny sledovačů akcií. Jakmile Yahoo otevřelo kód Hadoop komunitě s otevřeným zdrojovým kódem, okamžitě se v IT průmyslu objevilo celé hnutí vytváření produktů založených na Hadoopu. Téměř všechny moderní analytické nástroje velká data poskytovat integrační nástroje Hadoop. Jejich vývojáři jsou jak startupy, tak známé světové společnosti.

Trhy pro řešení správy velkých dat

Big Data Platforms (BDP, Big Data Platform) jako prostředek boje proti digitálnímu hordingu

Schopnost analyzovat velká data, familiérně nazývaná Big Data, je vnímána jako přínos, a to jednoznačně. Ale je tomu skutečně tak? K čemu by mohlo vést nekontrolovatelné hromadění dat? S největší pravděpodobností tomu, co domácí psychologové ve vztahu k lidem nazývají patologické hromadění, sylogomanie nebo obrazně „Pljuškinův syndrom“. V angličtině se zlomyslná vášeň sbírat všechno nazývá hording (z anglického hoard - „stock“). Podle klasifikace duševních chorob je hording klasifikován jako duševní porucha. V digitální éře se digitální hromadění přidává k tradičnímu hromadění materiálů, které může ovlivnit jak jednotlivce, tak celé podniky a organizace ().

Světový a ruský trh

Big data Landscape - Hlavní dodavatelé

Zájem o sběr, zpracování, správu a analytické nástroje velká data Ukázaly to téměř všechny přední IT společnosti, což je zcela přirozené. Za prvé se s tímto fenoménem přímo setkávají ve svém vlastním podnikání a za druhé velká data otevírají vynikající příležitosti pro rozvoj nových mezer na trhu a přilákání nových zákazníků.

Na trhu se objevilo mnoho startupů, které dělají byznys tím, že zpracovávají obrovské množství dat. Některé z nich využívají hotovou cloudovou infrastrukturu poskytovanou velkými hráči, jako je Amazon.

Teorie a praxe velkých dat v průmyslových odvětvích

Historie vývoje

2017

Prognóza TmaxSoft: další „vlna“ Big Data bude vyžadovat modernizaci DBMS

Firmy vědí, že obrovské množství dat, které shromažďují, obsahuje důležité informace o jejich podnikání a zákaznících. Pokud firma dokáže tyto informace úspěšně aplikovat, bude mít značnou výhodu nad svými konkurenty a bude moci nabízet lepší produkty a služby, než jsou ty jejich. Mnoho organizací však stále nedokáže efektivně využívat velká data vzhledem k tomu, že jejich starší IT infrastruktura není schopna poskytnout potřebnou kapacitu úložiště, procesy výměny dat, utility a aplikace potřebné ke zpracování a analýze velkého množství nestrukturovaných dat, aby z nich extrahovaly cenné informace, uvedl TmaxSoft.

Navíc zvýšený výpočetní výkon potřebný k analýze stále rostoucích objemů dat může vyžadovat značné investice do starší IT infrastruktury organizace a také dodatečné zdroje údržby, které by bylo možné použít k vývoji nových aplikací a služeb.

Dne 5. února 2015 vydal Bílý dům zprávu, která pojednávala o tom, jak společnosti využívají „ velká data» účtovat různé ceny různým zákazníkům, což je praxe známá jako „cenová diskriminace“ nebo „personalizované stanovování cen“. Zpráva popisuje výhody velkých dat pro prodejce i kupující a její autoři docházejí k závěru, že mnoho problémů, které nastolují velká data a rozdílné ceny, lze řešit prostřednictvím stávajících antidiskriminačních zákonů a předpisů na ochranu práv spotřebitelů.

Zpráva uvádí, že v současné době existují pouze neoficiální důkazy o tom, jak společnosti využívají velká data v kontextu personalizovaného marketingu a diferencovaných cen. Tyto informace ukazují, že prodejci používají metody stanovení cen, které lze rozdělit do tří kategorií:

studium křivky poptávky;
Řízení a diferencované ceny na základě demografických údajů; A
cílený behaviorální marketing (behaviorální cílení) a individualizované ceny.

Studium křivky poptávky: K určení poptávky a ke studiu spotřebitelského chování marketéři často provádějí experimenty v této oblasti, ve kterých jsou zákazníci náhodně přiřazeni do jedné ze dvou možných cenových kategorií. „Technicky jsou tyto experimenty formou rozdílného stanovení cen, protože vedou k různým cenám pro zákazníky, i když jsou „nediskriminační“ v tom smyslu, že všichni zákazníci mají stejnou pravděpodobnost, že budou „posláni“ k vyšší ceně.“

Řízení: Jedná se o praxi představování produktů spotřebitelům na základě jejich příslušnosti ke konkrétní demografické skupině. Webové stránky počítačové společnosti mohou například nabízet stejný notebook různým typům zákazníků za různé ceny na základě informací, které sami nahlásili (například v závislosti na tom, zda je uživatel vládním, akademickým nebo komerčním uživatelem nebo jednotlivcem). nebo na jejich geografické poloze (určené například IP adresou počítače).

Cílený behaviorální marketing a přizpůsobené ceny: V těchto případech se osobní údaje zákazníků používají k cílení reklamy a přizpůsobení cen určitých produktů. Například online inzerenti používají údaje shromážděné reklamními sítěmi a prostřednictvím souborů cookie třetích stran o aktivitě uživatelů online k cílení svých reklam. Tento přístup na jedné straně umožňuje spotřebitelům přijímat reklamy na zboží a služby, které je zajímají, může však vyvolat obavy u těch spotřebitelů, kteří si nepřejí určité typy svých osobních údajů (jako jsou informace o návštěvách webových stránek). související s lékařskými a finančními záležitostmi) byly shromažďovány bez jejich souhlasu.

Přestože je cílený behaviorální marketing rozšířený, existuje poměrně málo důkazů o personalizovaném stanovování cen v online prostředí. Zpráva spekuluje, že to může být proto, že metody se stále vyvíjejí, nebo proto, že společnosti váhají s použitím vlastních cen (nebo o tom raději mlčí) – možná se obávají reakce spotřebitelů.

Autoři zprávy naznačují, že „pro jednotlivého spotřebitele použití velkých dat jasně představuje potenciální přínosy i rizika“. I když zpráva uznává, že velká data vyvolávají problémy s transparentností a diskriminací, tvrdí, že stávající antidiskriminační zákony a zákony na ochranu spotřebitele jsou dostatečné k jejich řešení. Zpráva však také zdůrazňuje potřebu „průběžného dohledu“, když společnosti používají citlivé informace způsoby, které nejsou transparentní nebo způsoby, na které se nevztahují stávající regulační rámce.

Zpráva pokračuje ve snaze Bílého domu prověřit používání velkých dat a diskriminační ceny na internetu a z toho vyplývající důsledky pro americké spotřebitele. Již dříve bylo oznámeno, že Pracovní skupina pro velká data Bílého domu zveřejnila svou zprávu o tomto problému v květnu 2014. Federální obchodní komise (FTC) se těmito problémy také zabývala během svého workshopu v září 2014 o diskriminaci velkých dat.

2014

Gartner boří mýty o velkých datech

Výzkumná zpráva společnosti Gartner z podzimu 2014 uvádí řadu běžných mýtů o velkých datech mezi IT lídry a poskytuje jim vyvrácení.

Každý implementuje systémy zpracování velkých dat rychleji než my

Zájem o technologie Big Data je na historickém maximu: 73 % organizací, které letos v průzkumu provedli analytici společnosti Gartner, do nich již investuje nebo to plánují. Většina těchto iniciativ je však stále ve velmi raných fázích a pouze 13 % respondentů již taková řešení implementovalo. Nejtěžší je určit, jak získat příjem z Big Data, rozhodnout se, kde začít. Mnoho organizací uvízne v pilotní fázi, protože nemohou spojit novou technologii s konkrétními obchodními procesy.

Dat máme tolik, že se v nich není třeba obávat drobných chyb

Někteří IT manažeři se domnívají, že malé datové chyby nemají vliv na celkové výsledky analýzy velkých objemů. Když existuje mnoho dat, každá jednotlivá chyba má ve skutečnosti menší dopad na výsledek, poznamenávají analytici, ale samotné chyby jsou četnější. Navíc většina analyzovaných dat je externích, neznámé struktury nebo původu, takže pravděpodobnost chyb se zvyšuje. Takže ve světě Big Data je kvalita ve skutečnosti mnohem důležitější.

Big Data technologie eliminují potřebu datové integrace

Big Data slibují schopnost zpracovávat data v jejich původním formátu s automatickým generováním schémat při jejich čtení. Předpokládá se, že to umožní analyzovat informace ze stejných zdrojů pomocí více datových modelů. Mnozí věří, že to také umožní koncovým uživatelům interpretovat jakýkoli soubor dat tak, jak uznají za vhodné. Ve skutečnosti většina uživatelů často chce tradiční způsob s hotovým schématem, kde jsou data vhodně formátována a existují dohody o úrovni integrity informací a o tom, jak by měly souviset s případem použití.

Nemá smysl používat datové sklady pro komplexní analýzy

Mnoho správců systémů správy informací se domnívá, že nemá smysl ztrácet čas vytvářením datového skladu, protože složité analytické systémy spoléhají na nové typy dat. Ve skutečnosti mnoho složitých analytických systémů využívá informace z datového skladu. V jiných případech je třeba dodatečně připravit nové typy dat pro analýzu v systémech zpracování velkých dat; je třeba rozhodnout o vhodnosti dat, zásadách agregace a požadované úrovni kvality - taková příprava může probíhat mimo sklad.

Datové sklady budou nahrazeny datovými jezery

Ve skutečnosti prodejci klamou zákazníky tím, že umisťují datová jezera jako náhradu za úložiště nebo jako kritické prvky analytické infrastruktury. Základní technologie datových jezer postrádají vyspělost a šíři funkcí, které lze nalézt ve skladech. Manažeři zodpovědní za správu dat by proto podle Gartneru měli počkat, až jezera dosáhnou stejné úrovně rozvoje.

Accenture: 92 % těch, kteří implementovali systémy velkých dat, je s výsledky spokojeno

Mezi hlavní výhody velkých dat respondenti jmenovali:

„hledání nových zdrojů příjmu“ (56 %),
„zlepšení zákaznické zkušenosti“ (51 %),
„nové produkty a služby“ (50 %) a
„příliv nových zákazníků a udržení loajality starých“ (47 %).

Při zavádění nových technologií se mnoho společností potýká s tradičními problémy. Pro 51 % byla kamenem úrazu bezpečnost, pro 47 % rozpočet, pro 41 % nedostatek potřebného personálu a pro 35 % potíže s integrací se stávajícím systémem. Téměř všechny dotázané společnosti (asi 91 %) plánují brzy vyřešit problém s nedostatkem zaměstnanců a najmout specialisty na velká data.

Společnosti jsou ohledně budoucnosti technologií velkých dat optimistické. 89 % věří, že změní podnikání stejně jako internet. 79 % respondentů uvedlo, že společnosti, které se nezabývají velkými daty, ztratí svou konkurenční výhodu.

Respondenti se však neshodli v tom, co přesně by mělo být považováno za velká data. 65 % respondentů se domnívá, že se jedná o „velké datové soubory“, 60 % se domnívá, že se jedná o „pokročilou analýzu a analýzu“ a 50 % se domnívá, že se jedná o „nástroje pro vizualizaci dat“.

Madrid utrácí 14,7 milionů eur na správu velkých dat

V červenci 2014 bylo známo, že Madrid bude využívat technologie velkých dat pro správu městské infrastruktury. Náklady na projekt jsou 14,7 milionů eur, základem implementovaných řešení budou technologie pro analýzu a správu velkých dat. S jejich pomocí bude vedení města řídit práci s každým poskytovatelem služeb a platit podle úrovně služeb.

Řeč je o dodavatelích správy, kteří sledují stav ulic, osvětlení, závlahy, zeleň, uklízí území a odvážejí i recyklují odpad. V průběhu projektu bylo vyvinuto 300 klíčových ukazatelů výkonnosti městských služeb pro speciálně určené inspektory, na jejichž základě bude denně prováděno 1,5 tisíce různých kontrol a měření. Město navíc začne využívat inovativní technologickou platformu s názvem Madrid iNTeligente (MiNT) – Smarter Madrid.

2013

Experti: Big Data jsou v módě

Všichni dodavatelé na trhu správy dat v současnosti bez výjimky vyvíjejí technologie pro správu velkých dat. Tento nový technologický trend je také aktivně diskutován odbornou veřejností, vývojáři a průmyslovými analytiky a potenciálními spotřebiteli takových řešení.

Jak Datashift zjistil, v lednu 2013 se strhla vlna diskusí kolem „ velká data"přesáhl všechny myslitelné rozměry. Po analýze počtu zmínek o Big Data na sociálních sítích Datashift vypočítal, že v roce 2012 byl tento termín použit asi 2 miliardykrát v příspěvcích vytvořených asi 1 milionem různých autorů po celém světě. To odpovídá 260 příspěvkům za hodinu, s maximem 3 070 zmínek za hodinu.

Gartner: Každý druhý ředitel IT je připraven utrácet peníze za velká data

Po několika letech experimentování s technologiemi Big data a prvních implementacích v roce 2013 se adaptace takových řešení výrazně zvýší, předpovídá Gartner. Výzkumníci provedli průzkum mezi IT lídry po celém světě a zjistili, že 42 % respondentů již investovalo do technologií Big Data nebo plánuje takové investice provést během příštího roku (údaje k březnu 2013).

Firmy jsou nuceny utrácet peníze za zpracovatelské technologie velká data, protože informační krajina se rychle mění a vyžaduje nové přístupy ke zpracování informací. Mnoho společností si již uvědomilo, že velká množství dat jsou kritická a práce s nimi jim umožňuje dosáhnout výhod, které nejsou dostupné při použití tradičních zdrojů informací a metod jejich zpracování. Neustálá diskuse na téma „big data“ v médiích navíc podněcuje zájem o relevantní technologie.

Frank Buytendijk, viceprezident společnosti Gartner, dokonce vyzval společnosti, aby zmírnily své úsilí, protože se někteří obávají, že zaostávají za konkurencí při přijímání velkých dat.

„Není třeba se obávat, možnosti implementace nápadů založených na technologiích velkých dat jsou prakticky neomezené,“ řekl.

Gartner předpovídá, že do roku 2015 se bude 20 % z 1000 globálních společností strategicky zaměřovat na „informační infrastrukturu“.

V očekávání nových příležitostí, které přinesou technologie zpracování velkých dat, již mnoho organizací organizuje proces shromažďování a ukládání různých typů informací.

Pro vzdělávání, státní správu a průmyslové organizace spočívá největší potenciál pro transformaci podnikání v kombinaci nashromážděných dat s tzv. temnými daty (doslova „tmavými daty“), mezi které patří e-mailové zprávy, multimédia a další podobný obsah. Podle Gartneru v datovém klání vyhrají ti, kteří se naučí zacházet s nejrůznějšími zdroji informací.

Průzkum Cisco: Big Data pomohou zvýšit rozpočty na IT

Zpráva Cisco Connected World Technology Report z jara 2013, kterou v 18 zemích provedla nezávislá výzkumná firma InsightExpress, se dotazovala 1800 vysokoškolských studentů a stejného počtu mladých profesionálů ve věku od 18 do 30 let. Průzkum byl proveden za účelem zjištění úrovně připravenosti IT oddělení na realizaci projektů Velká data a získat vhled do výzev, technologických nedostatků a strategické hodnoty takových projektů.

Většina společností shromažďuje, zaznamenává a analyzuje data. Zpráva však uvádí, že mnoho společností čelí s velkými daty řadě složitých obchodních a informačních technologií. Například 60 procent respondentů připouští, že řešení Big Data mohou zlepšit rozhodovací procesy a zvýšit konkurenceschopnost, ale pouze 28 procent uvedlo, že z nashromážděných informací již získávají skutečné strategické výhody.

Více než polovina dotázaných IT manažerů se domnívá, že projekty Big Data pomohou zvýšit rozpočty na IT v jejich organizacích, protože budou kladeny zvýšené nároky na technologie, personál a odborné dovednosti. Více než polovina respondentů přitom očekává, že takové projekty již v roce 2012 zvýší IT rozpočty v jejich firmách. 57 procent je přesvědčeno, že Big Data během příštích tří let zvýší své rozpočty.

81 procent respondentů uvedlo, že všechny (nebo alespoň některé) Big Data projekty budou vyžadovat využití cloud computingu. Šíření cloudových technologií tedy může ovlivnit rychlost přijetí řešení Big Data a obchodní hodnotu těchto řešení.

Společnosti shromažďují a používají mnoho různých typů dat, strukturovaných i nestrukturovaných. Zde jsou zdroje, ze kterých účastníci průzkumu získávají svá data (Cisco Connected World Technology Report):

Téměř polovina (48 procent) IT lídrů předpovídá, že zatížení jejich sítí se během příštích dvou let zdvojnásobí. (To platí zejména v Číně, kde tento názor sdílí 68 procent respondentů, a v Německu – 60 procent). 23 procent respondentů očekává, že se zatížení sítě během příštích dvou let ztrojnásobí. Zároveň pouze 40 procent respondentů deklarovalo svou připravenost na prudký růst objemu síťového provozu.

27 procent respondentů přiznalo, že potřebují lepší zásady IT a opatření pro zabezpečení informací.

21 procent potřebuje větší šířku pásma.

Big Data otevírají IT oddělením nové příležitosti k přidávání hodnoty a vytváření silných vztahů s obchodními jednotkami, což jim umožňuje zvýšit příjmy a posílit finanční pozici společnosti. Big Data projekty dělají z IT oddělení strategického partnera obchodních oddělení.

IT oddělení se podle 73 procent respondentů stane hlavním tahounem implementace strategie Big Data. Respondenti se zároveň domnívají, že se na realizaci této strategie budou podílet i další resorty. Především jde o oddělení financí (jmenovalo 24 procent respondentů), výzkumu a vývoje (20 procent), provozu (20 procent), inženýrství (19 procent), ale i marketingu (15 procent) a prodeje ( 14 procent).

Gartner: Ke správě velkých dat jsou potřeba miliony nových pracovních míst

Globální výdaje na IT dosáhnou do roku 2013 3,7 miliardy USD, což je o 3,8 % více než výdaje na informační technologie v roce 2012 (předpověď na konci roku je 3,6 miliardy USD). Segment velká data(velká data) se budou vyvíjet mnohem rychlejším tempem, uvádí zpráva společnosti Gartner.

Do roku 2015 bude vytvořeno 4,4 milionu pracovních míst v informačních technologiích pro obsluhu velkých dat, z toho 1,9 milionu pracovních míst bude v . Navíc každé takové pracovní místo bude znamenat vytvoření tří dalších pracovních míst mimo IT sektor, takže jen ve Spojených státech bude v příštích čtyřech letech pracovat na podpoře informační ekonomiky 6 milionů lidí.

Podle odborníků z Gartneru je hlavním problémem to, že na to není v oboru dostatek talentů: soukromé i veřejné vzdělávací systémy, například ve Spojených státech, nejsou schopny dodat průmyslu dostatečný počet kvalifikovaných pracovníků. . Takže ze zmíněných nových IT pracovních míst bude obsazena pouze jedna ze tří.

Analytici se domnívají, že úlohu výchovy kvalifikovaných IT pracovníků by měly převzít přímo společnosti, které je naléhavě potřebují, protože tito zaměstnanci budou jejich vstupenkou do nové informační ekonomiky budoucnosti.

2012

První skepticismus ohledně „Big Data“

Analytici z Ovum a Gartner to navrhují jako módní téma roku 2012 velká data Možná přijde čas osvobodit se od iluzí.

Termín „velká data“ v současné době obvykle označuje stále rostoucí množství informací proudících online ze sociálních médií, senzorových sítí a dalších zdrojů, stejně jako rostoucí škálu nástrojů používaných ke zpracování dat a identifikaci relevantních dat pro podnikání. z toho - trendy.

„Kvůli (nebo navzdory) humbuku kolem myšlenky velkých dat se výrobci v roce 2012 dívali na tento trend s velkou nadějí,“ řekl Tony Bayer, analytik společnosti Ovum.

Bayer uvedl, že DataSift provedl retrospektivní analýzu zmínek o velkých datech v

Oblíbené v kategorii: