Data mesh to nowe, ewolucyjne podejście do danych, w ramach którego eliminując silosy technologiczne, wprowadzamy silosy biznesowe, dzięki którym organizacjom łatwiej zapanować nad ogromnymi zbiorami danych. Dane stają się łatwiej dostępne dla wszystkich użytkowników, są zarazem bardziej bezpieczne i łatwiej je wykorzystywać do rozwoju biznesu - rozmowa z Tomaszem Mazurkiem, Sales Director for Eastern Europe w Snowflake.
Co to jest data mesh?
Tomasz Mazurek: To nowa nowe podejście do danych, kolejny krok na drodze trwającej od lat ewolucji. Żeby dobrze ją zrozumieć, cofnijmy się do czasu, w którym popularne były hurtownie danych. Stanowiły one odpowiedź na wyzwania związane z obsługa danych nieustrukturyzowanych. Oczywiście miały swoje ograniczenia. Jednym z nich była konieczność podziału danych na obszary, która pojawiała się kiedy firma rosła, a wraz z nią eksplodowały dane. Tak powstawały silosy, które nazywano data martami. Problemem była przede wszystkim niespójność w skali całej organizacji. Spotykali się menedżerowe, dyskutowali o marży i okazywało się, że dane na których opiera się jeden z nich, są różne od tych, na których opiera się drugi.
Dzięki chmurze obliczeniowej problem można było jakoś rozwiązać. Powstały bardziej skalowalne rozwiązanie, które mogły nie tylko udźwignąć większe ilości danych, ale także łączyć różne rodzaje danych – ustrukturyzowane i nieustrukturyzowane. Powstała koncepcja data lakehouse, będącego w pewnym sensie jednym, wielkim workiem na dane. To likwidowało wprawdzie niespójność, w skali całej organizacji można było pracować na tych samych danych. Problemem stało się jednak zapanowanie nad danymi przez człowieka. System był w stanie obsłużyć wszystkie dane, ale nikt w organizacji nie był w stanie ogarnąć całości.
I w tym momencie pojawiło się data mesh, koncepcja, w której stawiamy na domeny danych a same dane stają się produktem.
Na czym to dokładnie polega? Czy to nie jest powrót do silosów?
Tomasz Mazurek: Mówimy o domenach, silosach biznesowych, to nie to samo, co silosy technologiczne. W data mesh wszystkie dane są spójne, połączone w technicznym sensie, ale podzielone – w sensie biznesowym. Tworzymy domeny, żeby jeden człowiek, grupa ludzi czy zespół byli w stanie nimi zarządzać, zarówno od strony technicznej, jak i biznesowej. Zatem ktoś musi z jednej strony zadbać o ETL, a ktoś inny dba o to, żeby dane zostały odpowiednio wykorzystane. W organizacji powstaje klarowny podział obowiązków, który pozwala zapanować nad ogromnym środowiskiem.
W tym miejscu warto zauważyć, że data mesh, to koncepcja, która adresuje wyzwania, z jakim zmagają się duże organizacje, niezależnie od branży, jednak w większości dotyczy to banków i ubezpieczycieli, firm farmaceutycznych, korporacji handlowych czy operatorów telekomunikacyjnych. W przypadku mniejszych firm, albo raczej firm, które mają węższy strumień danych, data mesh może stanowić przerost formy nad treścią.
Dlaczego koncepcja data mesh jest interesująca dla CDO?
Tomasz Mazurek: Przede wszystkim ze względu na domenocentryczność i dystrybucję odpowiedzialności za dane dostarczane do organizacji z różnych źródeł a zarazem jakość tych danych – każda domena to jeden spójny biznesowe obszar danych do zarządzania. Dane stają się produktem, który wykorzystujemy. Wybierając data mesh, CDO może mieć pewność, że każdy obszar danych w organizacji jest dobrze zaadresowany.
Jaką rolę odgrywa w tym wszystkim technologia?
Tomasz Mazurek: Technologia jest kluczowa. Pod spodem musi działać infrastruktura, która będzie w stanie wspierać nowe podejście. Przy tym nie uda się zbudować architektury data mesh przy użyciu kilkunastu różnych rozwiązań. Potrzebna jest spójność na poziomie governance. Technologia i governance to kluczowe parametry wejściowe. Bez tego nie będzie holistycznego zarządzania, a bez holistycznego zarządzania nie ma data mesh.
Co zatem trzeba zrobić, żeby zacząć myśleć o data mesh w organizacji?
Tomasz Mazurek: Kiedy mamy technologię i warstwę governance, pozostaje już tylko zarzadzanie ludźmi w ramach domenocentryczności i budowanie świadomości, że dane są produktem.
Czy w Polsce są organizacje, które zbudowały architekturę data mesh?
Tomasz Mazurek: Mamy za to sporo przedsiębiorstw, które wykorzystują fragmenty tej koncepcji. Istnieje także pewna grupa firm, która korzysta z data mesh zupełnie nieświadomie. Nie powinno to nikogo zaskoczyć, jeśli weźmiemy pod uwagę, że po pierwsze, to stosunkowo nowa koncepcja, a po drugie, nie mamy aż tak wielu naprawdę dużych organizacji.
Nie znam organizacji w Polsce, które od początku do końca zbudowałyby architekturę data mesh. Niemniej prawda jest taka, że duże organizacje na całym świecie nie realizują projektów typu greenfield, zatem nie mogą sobie pozwolić na coś takiego.
Data mesh wprowadzają organizacje, które chcą odejść od silosów technologicznych, albo są już w chmurze, ale nie radzą sobie za zarządzaniem całością i próbują rozczłonkować dane na domeny tematyczne.
Znam jednak pewien ciekawy przykład, w którym koncepcja data mesh budowana jest od zera. To firma z branży farmaceutycznej, która powstała w wyniku reorganizacji globalnej korporacji. Po podziale miała rok czasu na zbudowanie wszystkiego od nowa. Wykorzystuje ona elementy, które odziedziczyła po starej organizacji, jednak buduje wszystko na „zielonym polu” i wybrała właśnie koncepcję data mesh. To oczywiście nie jest częsty scenariusz, niemniej jeśli ktoś miałby taki komfort, że może zaczynać od zera, to warto zainteresować się data mesh. Dla większości pozostaje jednak ewolucja.
Co Snowflake oferuje, żeby ułatwić wdrożenie data mesh?
Tomasz Mazurek: Technologia Snowflake doskonale wpisuje się w koncepcję data mesh. Dostarczamy rozwiązanie, które umożliwia holistyczne podejście do danych w organizacji.
Po pierwsze znacznie ułatwia współdzielenia danych. Jednym z wyzwań data mesh jest właśnie to, w jaki sposób dane, które są tworzone jako produkty przez odrębne zespoły, mogą być dystrybuowane w wielu domenach - w sposób terminowy i przy utrzymaniu racjonalnych kosztów. Snowflake oferuje unikalną metodę współdzielenia danych, dzięki multi-klastrowej architekturze danych - to Snowflake Data Marketplace, na którym nasi partnerzy udostępniają kompletne data sety, które pozwalają dodatkowo wzbogacać dane. Przykładowo, kiedy firma handlowa ma dane o klientach, może wzbogacić je danymi pogodowymi czy geolokalizacyjnymi, dzięki czemu będzie w stanie wywnioskować o wiele więcej.
Po drugie Snowflake upraszcza i przyspiesza dostarczanie nowych rozwiązań. Udostępnianie danych odbywa się zazwyczaj za pośrednictwem API, FTP czy repozytoriów w chmurze - to zwykle złożony i kosztowny proces. Dzięki Snowflake można znacznie obniżyć koszty i skrócić tzw. time to market.
Kolejną ważną cechą Snowflake, która jest bardzo istotna dla architektury data mesh jest to, że Snowflake Cloud Data Platform jest agnostyczna względem dostawców chmury. Warto także zwrócić uwagę na jedną z warstw naszego rozwiązania - Snowgrid, które pozwala zachować ciągłość biznesową w skali globalnej, współdzielić dane bez ETL czy silosowości oraz zapewnia mechanizmy z zakresu governance.
Snowflake to zarazem w autonomiczna i samoobsługowa infrastruktura w postaci platformy. Dzięki temu możemy zapewnić realnie niski koszt posiadania i dużą a zarazem prostą skalowalność.
Nasze rozwiązanie oferujemy w chmurze, a co za tym idzie w modelu rozliczeniowym pay as you go. W Snowflake klient płaci tylko za dane. Nie trzeba, tak jak w przypadku rozwiązań tradycyjnych, inwestować milionów, żeby w ogóle zacząć działać.
Jedna platforma, która umożliwia nieograniczone wykorzystanie danych w obszarze bezpieczeństwa, IT, DevOps, ale także w biznesie. Korzystają z niej 92 firmy z listy Fortune 100. Dzięki niej dane w prosty, ekonomiczny sposób stają się fundamentem dla odpowiedzi na dowolne pytanie, podstawą każdej istotnej decyzji i każdego działania. O Splunk rozmawiamy z Adamem Nowakiem, Country Lead w Splunk Polska.
Czym właściwie jest Splunk?
Adam Nowak: W największym skrócie Splunk to platforma Big Data, która pozwala gromadzić, monitorować i analizować dowolne dane cyfrowe. Dzięki temu zapewnia wgląd w kluczowe procesy biznesowe i pozwala podejmować z większą precyzją, lepsze, bardziej trafne strategiczne decyzje – zarówno w obszarze IT i biznesu.
Warto jeszcze raz podkreślić, że mówimy o dowolnych danych cyfrowych, co ma niebagatelne znaczenie w świecie, w którym mamy taką mnogość źródeł i rodzajów danych, i w którym to wszystko może zmieniać się z dnia na dzień.
Dlaczego ta platforma powinna znaleźć się w centrum zainteresowania CDO?
Adam Nowak: Przede wszystkim dlatego, że Splunk szybko i w prosty sposób całkowicie demokratyzuje dane. Dzięki tej platformie można raz na zawsze zapomnieć o silosach, które ograniczają dostęp do firmowych danych. Każdy dział, jednostka w organizacji ma swoje, wyspecjalizowane systemy informatyczne – tego nie zmienimy, to naturalne. Jednak dzięki Splunk, wszystkie dane w tych systemach będą mogły być dostępne dla wszystkich pozostałych jednostek biznesowych. Ludzie w skali całej organizacji będą mieli do nich dostęp. Będą mogli z nich korzystać nie tylko specjaliści z działów technologicznych, ale również ze wszystkich działów biznesowych. Platforma Splunk pozwala dzielić się danymi i demokratyzować dostęp do nich w skali całej organizacji, nie tylko w obrębie wertykalnych silosów.
Ponadto Splunk jest tak interesujący dla CDO, ponieważ adresuje wiele wektorów innowacji - sztuczną inteligencję, uczenie maszynowe, chmurę. Przykładowo, przy pomocy Splunk możemy monitorować różne usługi – od warstwy sprzętowej po middleware - a dzięki algorytmom sztucznej inteligencji możemy przewidywać to, co się wydarzy w przyszłości. System uczy się typowej pracy usługi, dzięki czemu może odpowiednio wcześniej informować o niepożądanych zdarzeniach. Przykładowo: jeśli dana usługa będzie działać tak, jak pracuje obecnie, to z prawdopodobieństwem 90% będzie niedostępna za 30 minut, bo mamy bufor na macierzy a macierz się zapełnia w określonym tempie.
Czy to podstawowy scenariusz zastosowania Splunk?
Adam Nowak: Nie, oczywiście, że nie. Splunk jest w swojej istocie przeglądarką logów. Taka jest w każdym razie jego geneza. Administratorzy odpowiedzialni za cyberbezpieczeństwo czy infrastrukturę mogli przeglądać logi w poszukiwaniu interesujących informacji. Dzisiaj możliwości Splunk są jednak praktycznie nieograniczone. Mamy język programowania, dzięki któremu można budować dowolne rozwiązania bazujące na danych. Mamy także dedykowane zestawy narzędzi, które ułatwiają realizację pewnych scenariuszy. Przykładowo, mamy toolkit, który pozwala na budowanie własnych modeli sztucznej inteligencji. A dodatkowo oferujemy gotowe rozwiązania, z pudełka, które znacznie przyspieszają wdrażanie rozwiązań. To idealna opcja, jeśli ktoś potrzebuje wyłącznie typowych funkcjonalności.
Jakie są największe zalety Splunk?
Adam Nowak: Splunk można porównać do inteligentnego worka, do którego wrzucamy dowolne dane cyfrowe. Platforma automatycznie łączy je, parsuje i pozwala przeszukiwać. Automatyzacja, w kontekście pracy z danymi jest dzisiaj nieocenioną korzyścią.
Dotychczas praca z danymi oznaczała parsowanie manualne, co jest czasochłonne i monotonne. Splunk w zupełności wyręcza w tym człowieka. Wystarczy wrzucić do niego dane, a przygotuje nam gotowe ekrany informacyjne, panele menedżerskie czy zaprezentuje występujące zależności.
Czy może Pan podać realny scenariusz, najlepiej prawdziwy, zastosowania Splunk?
Adam Nowak: Nie mogę podać nazwy, ale powiem, że zgłosił się do nas duży bank. Na marginesie, dodam, że to zarazem doskonały przykład jak uniwersalna jest to platforma i jak demokratyzuje dane w skali całej organizacji. Bank chciał monitorować mobilną aplikację bankową. Dzięki zaindeksowaniu wszystkich danych z tej aplikacji, dział IT zyskał możliwość monitorowania dostępności. Wiadomo było np. czy klienci nie mają odrzuconych logowań.
Nie minęło pół roku, jak do bankowego działu IT zgłosił się dział bezpieczeństwa z pytaniem o możliwość współdzielenia tych danych: dane są już przygotowane a my nie będziemy musieli dodatkowo płacić za licencje. I tak bezpieczeństwo ma dostęp do tych samych danych, ale wyciąga z nich inne informacje. Pomaga im to przede wszystkim w wykrywaniu nadużyć.
Wkrótce potem dział ecommerce stwierdził, że pewna część logów działu IT byłaby bardzo pomocna w określeniu tego, co klienci oglądają, co ich interesuje czy porównywaniu konwersji w aplikacji mobilnej względem modelu tradycyjnego.
O dostęp do danych w końcu poprosił także dział marketingu, który dowiedział się, że Splunk ma specjalne wtyczki do social mediów. Dane z aplikacji mobilnej w połączeniu z danymi pochodzącymi z mediów społecznościowych pozwalają prześledzić co klienci mówią o promocjach, produktach czy określać sentyment.
I na tym właśnie polega demokratyzacja a zarazem zwiększanie efektywności ekonomicznej. Ten sam log może służyć wielu działom w organizacji, co pozwala obniżać – z każdym kolejnym scenariuszem biznesowym realizowanym przez klienta – TCO. Przy tym na platformie Splunk można skonsolidować rozwiązania monitoringowe różnych dostawców np. OpenView czy System Center. Wtedy jedna platforma może połączyć wyspowe rozwiązania a my będziemy mieli jedną technologię z jednym punktem kontaktu.