Data-driven – sama ambicja nie wystarczy

Published by Redakcja CIONET Polska
April 12, 2024 @ 5:40 PM

Najnowsze technologie IT, ze sztuczną inteligencją na czele, mogą wydatnie pomóc w osiągnięciu celu, jakim dla wielu organizacji jest bycie data-driven. Jednak przykłady działających w Polsce organizacji dowodzą, że optymalne wdrożenie analityki danych nie istnieje – wszystko zależy od biznesowego kontekstu i potrzeb firmy. 

Za nami pierwsza w 2024 r. sesja strategiczna programu CIONET Data Excellence, będąca zarazem już ósmą w niemal dwuletniej historii projektu. Tym razem uczestnicy spotkania, które zorganizowane zostało w Centrum Kkonferencyjnym PZU, mogli zapoznać się z doświadczeniami w obszarze projektowania procesów analitycznych czterech firm o różnym profilu. 

Z prelekcjami wystąpili Marek Wilczewski, dyrektor zarządzający ds. Zarządzania Informacją, Danymi i Analityką w PZU SA/PZU Życie; Marek Karpiński, Business Intelligence Team Lead i Ewa Rabiega, kierownik ds. Analityki danych i AI, oboje z Gemini Polska; Michał Włodkowski, menedżer ds. Modelowania i Inżynierii Danych w grupie Eurocash; oraz Ariadna Żańczak, dyrektor Departamentu Zarządzania Danymi w Medicover. 

53583287284_dd0a901b1e_k

Wszyscy chcą pracować na danych 

Jak wyjaśniał Marek Wilczewski, którego wystąpienie otwierało oficjalną, merytoryczną część sesji, branża ubezpieczeniowa wyróżnia się tym, że przechowuje dane w sposób trwały i ciągły, mając na celu m. in. właściwą ocenę ryzyka i wykorzystanie danych do przewidywania przyszłości na podstawie historycznych elementów z przeszłości. Z perspektywy osób zajmujących się danymi i analityką współpraca z obszarami IT oraz innowacji jest niezwykle istotna, ponieważ te dziedziny coraz bardziej się przenikają. Dane są kapitałem organizacji, a zagadnienia związane z ich pozyskiwaniem i wykorzystywaniem obejmują obszary od sprawozdawczości statutowej/zarządczej, raportowania i analityki, po wsparcie procesów operacyjnych, opartych na rozwoju systemów IT. 

W organizacji w pewnym momencie doszliśmy do sytuacji, że każdy w biznesie chciał mieć swoich analityków i osoby od raportowania, tak aby informacja była jak najszybciej dostępna. Dlatego umożliwiliśmy w znacznym stopniu model self-service wspominał Marek Wilczewski.

W PZU nad tym wszystkim czuwa wydzielona jednostka (Biuro Zarządzania Informacją) odpowiedzialna m.in. za obszar Data & Analytics Governance, obejmujący zasady, regulacje, odpowiedzialności i cały model organizacyjny. Jej zadaniem jest również dostarczanie właściwej informacji biznesowej (poprzez rozwój korporacyjnej Hurtowni Danych) do niemal wszystkich obszarów biznesowych spółek. 

 53583184333_7e84b35d15_k

Próbą uporządkowania powstającej stopniowo niespójności z uwagi na decentralizację procesów raportowych  było powołanie w organizacji w 2023 r. Centrów Analiz i Raportowania. Centra Analityczne reprezentują konsumentów w kluczowych obszarach biznesowych, takich jak sprzedaż detaliczna, korporacyjna, produkt i taryfikacja, klient, finanse czy obsługa szkód i świadczeń. Ich celem jest współpraca z producentami danych w celu maksymalnego dostosowania obszarów informacyjnych pod kątem spójności, wiarygodności, jednej wersji prawdy, punktów referencyjnych oraz odpowiedzialności w sferze zarządzania danymi i monitorowania ich jakości. 

Centra Analityczne pełnią również rolę pośrednika w komunikacji między konsumentami informacji a Biurem Zarządzania Informacją, starając się wypracować spójną architekturę informacyjną i podejścia dotyczące interpretacji źródeł danych oraz ich przetwarzania i udostępniania oraz mają decydujący głos w priorytetyzacji tematów do realizacji czy definiowania parametrów umów SLA na dostarczanie kompletnych, terminowych i o odpowiedniej jakości informacji. 

W ramach organizacji zdefiniowany został też model organizacyjny oraz polityki Data Governance, które kładą nacisk na tzw. „data stewardship” – budowanie kultury i społeczności związanych z danymi. Jakość i bezpieczeństwo danych stanowią fundament właściwego modelu. 

Co ważne, w ramach struktury Data Governance działa zdefiniowana struktura odpowiedzialności za dane i ocenę ich jakości, z wysoko umocowanym Komitetem Data Governance nadzorującym kluczowych właścicieli danych. – Nasza rola koordynacyjna polega na dostarczaniu raportów i KPI’s do zarządzających z obszarów związanych z jakością danych. W komitecie oprócz członków zarządu nadzorujących kluczowych właścicieli danych udział biorą również przedstawiciele CDO/CAO w zakresie danych i analityki oraz CIO, wspólnie budując elementy współpracy z jednostkami biznesowymi – tłumaczył Marek Wilczewski. 

Przedstawiciel PZU wskazał tez elementy, nad którymi warto zapanować od strony IT w kontekście przetwarzania danych. Po pierwsze, chodzi o unikanie rozwiązań punktowych i wyspowych w zakresie Business Intelligence poprzez ograniczenie liczby platform do 1-2, co pozwala optymalnie działać operacyjnie. Drugi czynnik to zapewnienie zarządzalności raportowania w self-service, co przyczynia się do utrzymania spójności informacyjnej. Wreszcie, należy zadbać o zapewnienie odpowiednich platform MLOps dla zaawansowanej analityki i AI, które spełniają wymagania regulacyjne i wewnętrzne. Kluczowa jest również właściwa architektura oraz poprawność interfejsów z systemów źródłowych 

Ekspansja katalizatorem transformacji  

W Gemini Polska, jak mówił podczas swojej prelekcji Marek Karpiński, w obliczu szybkiego rozwoju organizacji, wysokich wzrostów sprzedaży i związanej z tym konieczności dużych nakładów inwestycyjnych, na agendzie pojawił się temat transformacji cyfrowej.  

– W 2019 roku zaczęliśmy się zastanawiać: może to jest dobry moment, żeby iść do chmury? Wiedzieliśmy, że jeśli mamy pozostać w Data Center, trzeba będzie dokupić więcej sprzętu i licencji. Zidentyfikowaliśmy, że architektura tego rozwiązania nie będzie się efektywnie mogła skalować bez istotnych zmian. Dodatkową motywacją był cel strategiczny by być organizacją data-driven – mówił. 

W ramach projektu nawiązano współpracę z zewnętrznym partnerem, mającym doświadczenie w realizacji projektów w chmurze publicznej oraz specjalizującym się w dziedzinie analityki danych. Pierwszym jego zadaniem było przeprowadzenie audytu obecnego rozwiązania, a następnie przygotowanie kilku scenariuszy rozwoju platformy analitycznej. 

53583184083_aff00826f3_k

Kluczowym kryterium podczas podejmowania decyzji była minimalizacja przerwy w dostarczaniu nowych funkcjonalności w trakcie projektu migracji oraz uzyskanie nowych możliwości w zakresie self-service dla zaawansowanych użytkowników wraz z dostępem do danych operacyjnych. 

Kompromis polegał na wybraniu niereferencyjnej architektury, która umożliwiała przeprowadzenie projektu w ciągu roku. Zrozumieliśmy, że nie możemy od razu przeprowadzić pełnej migracji na inną technologię, ale jednocześnie dostrzegaliśmy potencjał, jaki niesie ze sobą chmura. Skuteczna okazała się strategia hybrydowa – dane przetwarzane były za pomocą SQLServera w usłudze zarządzanej, dzięki temu nie musieliśmy przepisywać rozwiązania na nową technologię  wyjaśniał Marek Karpiński. 

Niestety, pomimo korzyści związanych z rozbudową możliwości, koszty znacząco wzrosły. Usługi wybrane w ramach architektury niereferencyjnej nie umożliwiały efektywnego zarządzania ich kosztem przy takiej charakterystyce przetwarzania danych. 

Pełne wykorzystanie możliwości platformy wymagało przepisania modelów analitycznych na nową technologię. Zespół, który dotychczas pracował głównie z technologią SQL Server, musiał przestawić się na nowy sposób pracy oraz poszerzyć zakres kompetencji. Zorganizowano szkolenia oraz zaproszono do zespołu dostawców z odpowiednimi kompetencjami, którzy pełnili rolę mentorów.  

– Kompetencje po stronie zespołu technicznego były budowane sukcesywnie. Jednak po stronie biznesu by wykorzystać nowe funkcjonalności oraz akceptować koszty nowych rozwiązań potrzebna była doświadczona Product Owner  – powiedział Marek Karpiński. 

W tej roli dołączyła Ewa Rabiega w 2022 r., która tak wspominała ówczesną sytuację: – Ponieważ byliśmy już po migracji, oczekiwania w zakresie dostarczania danych biznesu rosły.  Jednak know-how było w dużej mierze w IT lub u dostawcy zewnętrznego. Liczba aktywnych użytkowników platformy Databricks była znikoma, czyli tak naprawdę w tamtym momencie potencjał zakończonego projektu nie był w pełni wykorzystywany.  

Pozyskani w związku z tym analitycy BI wspomogli organizację w zbieraniu wymagań od biznesu i przekazywaniu ich do inżynierów danych. Dzięki temu odciążono zespół inżynierów danych, zwłaszcza w warstwie analitycznej. Dodatkowo, analitycy BI zdobyli know-how dotyczące struktur danych, co umożliwiło im samodzielne tworzenie raportów oraz szkolenie personelu biznesowego w zakresie korzystania z danych i praktyk self-service. 

Zespół analityczny został też rozszerzony o analityków danych, czyli data scientists, którzy mogli adresować bardziej zaawansowane potrzeby oparte na modelach statystycznych i predykcyjnych. 

Prelegenci zaprezentowali tempo dostarczenie modeli analitycznych wraz z liczbą aktywnych użytkowników korzystających z platformy na przestrzeni od punktu wyjściowego przez koniec projektu migracji po obecną sytuacje. – Ten szybki wzrost dostarczania wartości biznesowej był możliwy dzięki dwóm głównym czynnikom: wykorzystaniu projektów biznesowych umożliwiających migrację ze starych rozwiązań na nową technologię oraz zmianie procesu wytwórczego. Nasza organizacja coraz bardziej przekształca się w organizację data-driven. To osiągnięcie nie byłoby możliwe bez kompromisu, który musieliśmy osiągnąć wspólnie z biznesem – podsumowała Ewa Rabiega. 

Wyższa wydajność niższym kosztem 

Wzrost wydajności oraz obniżenie kosztów są kluczowymi elementami optymalizacji działalności przedsiębiorstwa. Michał Włodkowski, menedżer ds. Modelowania i Inżynierii Danych w grupie Eurocash, zaprezentował case study z przebiegu modernizacji architektury przetwarzania danych w firmie.

 53583183758_380a6a1eb7_k

Prelegent od razu na wstępie wyjaśnił, na czym zwykle polega problem z podobnymi projektami. – Niemożliwe jest a priori zaprojektowanie i wdrożenie idealnej architektury na dłuższą metę, ze względu na dynamicznie zmieniające się wymagania biznesowe. W związku z tym istotne jest uchwycenie odpowiedniego momentu na dostosowanie modelu działania do nowych potrzeb i oczekiwań biznesu – podkreślił Michał Włodkowski. 

W przypadku Eurocash problematyczne było też samo podejście do generowania raportów analitycznych – tworzenie raportów na bazie jednego modelu danych, poprzez proste dodawanie i usuwanie parametrów wejściowych (filtrów). Prowadziło to do powstawania wielu dublujących się zestawień i wydłużania czasu ich generowania. 

W projekcie wyznaczone zostały dwa główne cele: podniesienie wydajności przy jednoczesnym obniżeniu kosztów oraz uniezależnienie biznesu od inżynierów.  

Wzrost wydajności dotyczył przede wszystkim skrócenia czasu potrzebnego na dostarczenie wartościowych informacji lub produktów końcowemu użytkownikowi. Objęło to zarówno szybkość generowania raportów, jak i efektywność organizacyjną, czyli minimalizowanie czasu spędzonego na rutynowych czynnościach w porównaniu z czasem przeznaczonym na tworzenie wartości. Obniżenie kosztów, z kolei, odnosi się do redukcji wydatków operacyjnych, takich jak opłaty za korzystanie z infrastruktury chmurowej czy koszty związane z przetwarzaniem danych.  

W kontekście pierwszego celu doszliśmy do wniosku, że pojedynczy model nie jest w stanie obsłużyć wszystkich rodzajów zapytań. Zdecydowaliśmy się więc na stworzenie infrastruktury oraz modeli danych dostosowanych do konkretnych przypadków, co umożliwi skoncentrowanie się na odpowiedziach na konkretne pytania – mówił przedstawiciel Eurocash.

Ponadto zdecydowano się przenieść jak najwięcej obliczeń na platformę DataBricks, aby móc przeliczać dane z wyprzedzeniem, a następnie korzystać z Power BI do wizualizacji danych, prezentując jedynie prostą dynamikę, bez zbędnych obliczeń i porównań. 

Drugim celem było uniezależnienie biznesu od analityków. Często zdarzało się, że biznes, nie mając dostępu do wszystkich potrzebnych informacji, musiał prosić inżyniera o dane historyczne, które nie były dostępne w modelu z powodu ograniczeń związanych z przetwarzaniem. To prowadziło do sytuacji, w której inżynierzy zajmowali się głównie dostarczaniem danych na żądanie, zamiast pracować nad optymalizacją architektury. 

 – W odpowiedzi na te wyzwania zdecydowaliśmy się skupić na raportach kluczowych. Zidentyfikowaliśmy te, które są istotne dla działalności firmy i pokazują przepływy danych. Zamiast trzymać wszystko w jednym modelu, postanowiliśmy stworzyć zbiory agregowanych tabel dostępnych dla biznesu, co zapewniło szybszy dostęp do potrzebnych informacji. Odradziliśmy również używanie Power BI do pozyskiwania danych, sugerując jego wykorzystanie jedynie do wizualizacji i analizy dynamiki – opisywał Michał Włodkowski 

W rezultacie poprzez dedykowane raporty udało się podnieść wydajność organizacyjną, umożliwiając analitykom skupienie się na analizie danych zamiast na ich pozyskiwaniu. 

Gdy już ustalimy nasz punkt startowy, z którego chcemy ruszać, musimy także wiedzieć, dokąd zmierzamy oraz jak zrobić, żeby podróż się powiodła: jak zaangażować biznes w te zmiany, żeby nam pomagał i żeby nam powiedział, co jest dla niego najważniejsze – podsumował. 

Architektura na medal 

Ostatnią prelekcję poprowadziła Ariadna Żańczak z Medicover, która opowiedziała o tym, jak w jej organizacji został organizowany ekosystem danych. 

Medicover to nie tylko przychodnie, ale także gabinety stomatologiczne, salony optyczne, sieć aptek, siłownie czy obszar e-commerce (sklep Medistore) – ogółem, szeroko rozumiane healthcare i wellbeing. Rozwój kolejnych obszarów działalności stawia przed organizacją wyzwania nie tylko w obszarze integracji i zarządzania danymi, ale także w obszarze zastosowań danych dla wsparcia rozwoju biznesu (poprawa efektywności operacyjnej, modele predykcyjne). 

 53583285984_2632358fec_k

Stojąc w obliczu wyzwań dla obszaru DATA stało się oczywiste, że budowany do tej pory silosowy model hurtowni danych przestał się sprawdzać, a nawet zaczął stawać się hamulcem dla rozwoju zaawansowanej analityki i modeli wykorzystujących uczenie maszynowe.

Wiedzieliśmy, że rozwiązaniem problemu jest budowa centralnego Data-Hub, natomiast wyzwaniem była odpowiedź na pytanie o architekturę (hub&spoke, data-mesh?) takiego rozwiązania. Szybko stało się jasne, że nie możemy mówić o migracji hurtowni czy raportów, ale tak naprawdę musimy myśleć o migracji całego ekosystemu danych – powiedziała Ariadna Żańczak. 

Mając zatem na uwadze specyfikę i uwarunkowania ekosystemu danych Medicover, z pomocą zewnętrznego partnera, została wypracowana „szyta na miarę” architektura Data Lakehouse. 

System Corporate Data Platform został zbudowany w tzw. strukturze medalowej, zawierającej warstwy Bronze (dane surowe), Silver (dane wzbogacone np. o dane referencyjne) oraz Gold (dane umożliwiające tworzenie raportów). Warstwy Silver i Gold spiął Unity Catalog, zarządzający kontrolą dostępu. Przewidziano również środowisko dla sztucznej inteligencji. Centralnym elementem stosu pozostają zasoby (Data Assets). 

Kluczowym czynnikiem przesądzającym o wyborze architektury Data Lakehouse była skalowalność i “ekologia danych” rozumiana jako optymalizacja przepływów danych (eliminacja zbędnego kopiowania danych) oraz optymalizacja kosztów. 

– Rozwiązanie szyte na miarę lepiej odpowiada na nasze potrzeby biznesowe, ponieważ musimy dostosować się do tego, jak biznes pracuje z danymi oraz jakie mamy kompetencje w zespołach IT. Decyzja o migracji zasobów DATA do chmurowej platformy była podyktowana także potrzebą “spłaty długu technologicznego”, który od kilku lat zaczął już narastać– oceniła Ariadna Żańczak. 

Na koniec swojego wystąpienia przedstawicielka Medicover podzieliła się jeszcze radą dotyczącą projektów migracji. – Należy być gotowym na testowanie i ciągłe doskonalenie (learning by doing), warto wspierać się szkoleniami i doświadczonymi partnerami.  Migracja powinna odbywać się w tempie biznesu (ewolucja a nie rewolucja), zaczynać się od identyfikacji potrzeb biznesu na dane oraz być realizowana we współpracy z biznesem – wskazywała Ariadna Żańczak. 

53583286759_675d776f3d_k

O programie 

Data Excellence to program wymiany wiedzy i doświadczeń w zakresie wykorzystania danych. Zainicjowany w 2022 r., obejmuje sesje strategiczne oraz warsztaty online. Najbliższa sesja odbędzie się 22 maja br. rejestracja na spotkanie już trwa!  

Więcej informacji i rejestracja do społeczności: 

Partnerami programu są: Ab Initio Software, Amazon Web Services, Goldenore, Hewlett Packard Enterprise, IBM i Murdio. 

 

No Comments Yet

Let us know what you think

You May Also Like

These Stories on CIONET Poland

Subscribe by Email