Jak funguje datový sklad aneb data v Keboole

„Prosím tě, kde se můžu podívat na ta data v té Keboole?“ Občas tuhle otázku slýchávám, a přestože se sám v rámci své práce na „data v Keboole“ dívám, na následujících řádcích nastíním, co takové podívání se znamená.

Začněme od datového skladu (anglicky „Data Warehouse“). Datový sklad je termín zvolený naprosto brilantně. Představte si běžný sklad. Je to místo, kde se hromadí věci ve více či méně pečlivě zabalených krabicích. Pochází z různých míst a jsou určené pro různé lidi. Sklad má své dodavatele, odběratele, vedoucího provozu, provozní plán a své úložné prostory. Málokdy se ale stane, že by konečný spotřebitel přišel na sklad a zeptal se: „Kde se tady můžu podívat na to zboží?“ A následně byl odkázán na několik označených krabic v koutě obrovské místnosti, které si páčidlem otevře, a v přítmí skladu si prohlédne produkty, které chce koupit. Místo toho půjde do obchodu, kde je zboží připraveno k prohlédnutí.

Za datový sklad běžně označujeme právě úložné prostory s daty. Typickými cloudovými reprezentanty jsou například Snowflake, Amazon Web Services (AWS) nebo Google BigQuery.

Jak to vlastně ve skladu chodí?

Keboola je ETL nástroj. Zkratka značí slova Extract, Transform a Load. Keboola není datový sklad, ale slouží k jeho obhospodařování.

Nejdříve někdo přiveze do skladu zboží (data). V Keboole využíváme takzvané extraktory, což jsou uživatelsky přívětivé zabezpečené komponenty Kebooly sloužící k vytažení dat z mnoha jiných nástrojů. To je fáze Extract.

Dále se data podle potřeby rozdělují, přejmenují, překlasifikují, propojují, čistí a provádí se na nich analýzy. Zkrátka se transformují dle potřeby odběratele (často vizualizačního nástroje). V případě Kebooly lze pro tyto účely využít například jazyků SQL, R nebo Python. A ano, v tomto okamžiku, kdy už máte zboží na skladě, se můžete podívat, jak vypadá a hrubě zkontrolovat, jestli je v pořádku. To je fáze Transform.

Poslední fáze může znít jednoduše, ale implementačně závisí hlavně na schopnostech odběratele zpracovávat data. Představte si ji tak, že dodávka doveze balíky zboží k odběrateli, ale ten je převezme pouze v případě, že zboží je přesně v takovém formátu, jaký požaduje. K „doručování“ v Keboole slouží takzvané writery. Data lze s jejich pomocí zapisovat především do vizualizačních nástrojů jako jsou Power BI, GoodData nebo Tableau. Mezi další možnosti patří jiné datové sklady (Snowflake, Redshift, …), zápis do mailingových (Silverpop, Mailchimp), účetních (Fakturoid) či jiných aplikací, zápis na webové úložiště (Dropbox, Google Disk) nebo klidně třeba zápis do Google Sheets. To je fáze Load.

Výše zmíněný vedoucí provozu je komponenta s příznačným názvem Orchestrator. Ten v určitý čas spouští orchestrace (což jsou sady úkolů) a v případě problému informuje předem určené lidi. Mezi úkoly neboli joby patří například zmiňované spuštění extraktoru, transformace, writeru, ale také všelijakých aplikací.

Aplikace jsou v podstatě komponenty chovající se podobně jako transformace, které řeší specifické (často analytické) problémy. V Keboole se jedná například o výpočet atribučních modelů, aplikaci pro zpracování přirozené řeči (NLP), napojení Google Translatoru, geolokační aplikace, nebo například modely pro zákaznickou analytiku jako RFM a další.

Najděte tu správnou krabici

Abyste se na zboží mohli v běžném skladu podívat, musíte najít správnou krabici, otevřít ji, zboží rozbalit a potom se na něj můžete za špatného osvětlení v koutě skladu podívat. V datovém skladu musíte zformulovat dotaz (query). To je kód, kterým si vyberete konkrétní tabulky získáte na nich požadované view. Tím ale spotřebujete nějakou výpočetní sílu, za což v případě cloudových řešení zpravidla zaplatíte. A když vás náhodou napadne za pár dní podobný dotaz, pravděpodobně ho budete muset zformulovat a zaplatit znovu.

Takto ale téměř vždy dostanete pouze tabulku, a ne nějaký hezký graf. Že to zní jako spousta práce? To se přesně snažím říct. Pokud nejste kontrolor, nechodíte se dívat na zboží do skladu, ale do kamenné prodejny, online e-shopu nebo jednoduše do výlohy. To je v případě dat vizualizační nástroj.

Vizualizační nástroj je to místo, kam se běžně chodíme podívat na naše data. Ať už se jedná o Power BI od Microsoftu, Data Studio od Googlu, GoodDatu, Tableau nebo některý z mnoha dalších, umožňují nám tyto nástroje pohled na data jako celek.

Hlavním rozdílem proti datovému skladu je, že vizualizační nástroj nabízí, jak již název napovídá, vizuály. Dynamicky filtrované grafy, tabulky, časové řady, mapy, diagramy a další vizuály vypráví zápletku datového příběhu koncovému uživateli mnohem obratněji a srozumitelněji. Dashboardy umožňují pohled na data z ptačí perspektivy, ale zároveň i možnost přiblížení až na detail. Lze vytvářet hierarchie detailu a hledat s jejich pomocí odpovědi na otázky všech úrovní byznysu. Pro každou z těchto úrovní je možné sledovat klíčové indikátory výkonu (KPI) a snadno tak odhalit neefektivitu procesů skrytou hluboko uvnitř dat.

Report v profesionálním nástroji je jako vaše datová výloha. Jakmile ho vytvoříte, není třeba ho nijak často měnit a vaše data rozkryje bez toho, abyste museli psát jakýkoliv kód. Stačí několikrát kliknout nebo v chytré nápovědě zformulovat vaši otázku. Jako byste se zeptali asistenta v obchodě nebo zafiltrovali a prolistovali zboží v e-shopu.

Proto si příště, až se budete chtít podívat na data do datového skladu, vzpomeňte na toto blízké přirovnání. Jestliže už máte svou výlohu, požádali byste prodavače, aby vás vzal do skladu a ukázal vám zboží přímo z krabice? Pro dobro vašich analytiků pevně doufám, že nyní už ne.

Jak funguje datový sklad aneb Proč se nedívat na data v Keboole

Jak to vlastně ve skladu chodí?

Najděte tu správnou krabici

Související články

Jak to vlastně ve skladu chodí?

Najděte tu správnou krabici

Fenomén Snowflake. Proč byste ho měli znát?

Technická stránka Business Intelligence II.

Technická stránka Business Intelligence I. – Slovník