Wszechstronnie o danych

W programie CIONET Data Excellence, poświęconym wymianie wiedzy i doświadczeń w zakresie wykorzystania danych, bierze udział już ponad 280 osób, reprezentujących 170+ organizacji. Ostatnią jak dotąd okazją do spotkania uczestników programu była #6 sesja strategiczna, zorganizowana pod koniec września br. Gospodarzem spotkania była firma Aplikacje Krytyczne.

Wrześniowa sesja strategiczna Data Excellence programu była jednocześnie pierwszą zrealizowaną w nieco zmodyfikowanej formule. Jak wyjaśniał prof. dr hab. Bogumił Kamiński, dyrektor programowy Data Excellence, w odróżnieniu od poprzednich spotkań, organizatorzy postanowili rozszerzyć zakres merytoryczny zagadnień poruszanych w prelekcjach, zamiast koncentrować się na jednym, wybranym temacie.

W trakcie sesji z prelekcjami wystąpili Mariusz Gromada, Dyrektor Departamentu Customer Intelligence w banku Millennium; Monika Książek, Head of Data Science i Katarzyna Kaczmarczyk, kierownik Zespołu IT Data Warehouse w firmie P4 (PLAY); Ihor Muzyka, Head of Analytics w firmie Żabka oraz Tomasz Murgrabia, Starszy Programista Big Data i Marcin Skryśkiewicz, Architekt IT, obaj z firmy Aplikacje Krytyczne.

Wystąpienia prelegentów poprzedziło omówienie ankiety, przeprowadzonej wśród uczestników programu Data Excellence. W kwestionariuszu pytano o doświadczenia ich organizacji z wdrażaniem rozwiązań bazujących na generatywnej sztucznej inteligencji (ang. GenAI, generative AI) na fali trendu po udostępnieniu narzędzia ChatGPT.

Jak podkreślił prof. Kamiński, z odpowiedzi udzielanych przez ankietowanych wynika, że większość firm sprawdza już możliwości oferowane przez tę technologię – jeżeli nie w formie wdrożeń produkcyjnych, to przynajmniej w ramach ograniczonych testów. Wydaje się więc, że organizacje nie chcą czekać na ostatnią chwilę, aż technologia wejdzie na wyższy poziom dojrzałości, ale chcą się już do tego przygotowywać w strategicznej, długoterminowej perspektywie.

Generatywna sztuczna inteligencja jako nasz bliski współpracownik

Pierwszy z prelegentów, Mariusz Gromada, mówił o praktycznych zastosowaniach generatywnej sztucznej inteligencji w codziennej pracy. – Sztuczną inteligencją wspieram się niemal w każdej swojej codziennej działalności. Dlatego uważam, że era co-pilotów nadchodzi wielkimi krokami – podkreślał. Przypomnijmy, że copilot jest koncepcją bazującą na generatywnej SI. To cyfrowy i inteligentny asystent/współpracownik, który ma za zadanie wspierać użytkownika w realizacji niemal wszystkich zadań i czynności (nie tylko tych rutynowych). Kluczowa jest tu bogata wiedza generatywnej SI i głębokie rozumienie kontekstu.

W banku Millenium testowanych jest kilka tego typu wirtualnych pomocników. Jednym z nich jest „Copilot Specjalisty ds. Prostego Języka”. Jego zadaniem jest taka pomoc w upraszczaniu złożonego formalnego języka, by był bardziej przyjazny dla klientów.

Liczba i przeznaczenie asystentów bazujących na GenAI zależy od potrzeb i naszej kreatywności. Mariusz Gromada ponadto omówił konkretne przykłady na różnych poziomach organizacji: Copilot Specjalisty ds. Reklamacji, Copilot Analityka Danych, Copilot Specjalisty CRM ds. Personalizacji, Copilot Product Managera, a nawet Copilot CEO.

Przedstawiciel Banku Millenium zwrócił uwagę, że generatywna sztuczna inteligencja – przy wszystkich swoich zaletach i ogromnych możliwościach, niesie też ryzyka. Szczególnej uwagi wymagają takie obszary, jak zgodność z regulacjami, prywatność danych, bezpieczeństwo czy prawdziwość informacji. Pojawia się ryzyko wyników dyskryminujących lub tendencyjnych, tj. zniekształconych poprzez niechciane tezy nieświadomie wbudowane w sieci neuronowe dużych modeli językowych. Dlatego wykorzystywanie GenAI wymaga sprawdzania faktów i weryfikacji uzyskanych rezultatów. Ponadto powszechna dostępność wykrywaczy treści stworzonych przez GenAI sprawia, że organizacje, które zbyt mocno (masowo) opierają się na GenAI mogą być narażone na ryzyko związane z wizerunkiem straty wizerunkowe.

Moim nie należy się bać, że AI zastąpi człowieka. Natomiast musimy być świadomi, że to ludzie, którzy z AI korzystają, z łatwością zastąpią tych, którzy z AI nie korzystają. Uczmy się tych nowych kompetencji i kierujmy zmianą – podsumował Mariusz.

Open source – satysfakcjonujące, choć trudne

Monika Książek i Katarzyna Kaczmarczyk przybliżyły słuchaczom architekturę rozwiązań open source, stosowaną w ich organizacji. Punktem wyjścia do prezentacji przedstawicielek P4 była konstatacja, że w zakresie gromadzenia i przetwarzania danych operator telekomunikacyjny dysponował dość złożonym zestawem źródeł, obejmującym m.in. systemy CRM-owe, billingowe, ERP i masę danych w plikach urządzeń sieciowych. Wszystkie te dane trafiały do centralnego magazynu danych Oracle, z którego były propagowane. Dodatkowo funkcjonowało też środowisko Hadoop oraz rozległa baza danych Greenplum. Firma jest też mocno związana technologicznie z SAS, który dostarcza narzędzia do tworzenia hurtowni danych, używane do tej pory.

Kilka lat temu zapadła jednak decyzja, by położyć większy nacisk na stosowanie rozwiązań na open source. W transformacji architektury danych pomógł Playowi zespół GetInData – począwszy od konsultacji i wskazówek, przez fazę Proof-of-Concept z zastosowaniem platformy Kubernetes, po pomyślne wdrożenie.

Obecnie działające w ramach wspomnianej architektury Kubernetes narzędzia do zarządzania i przetwarzania danych mają w dużej mierze open source’owy rodowód. – Nasze procesy wewnętrznego naszego developmentu piszemy w Sparku i Scali. Są one wykonywane za pomocą Airflow (narzędzie do tworzenia, planowania i monitorowania przepływów pracy), a jako systemu plików używamy HDFS  (Hadoop Distributed File System) – mówiła Katarzyna Kaczmarczyk. A gdy już te wszystkie dane zostaną przetworzone, są wystawiane analitykom. Ci zaś głównie korzystają z danych, które są zgromadzone w bazie Greenplum i, w mniejszym stopniu, w bazach Oracle i Hadoop.

Narzędzia open source pod względem technologicznym spełniają wiązane z nimi oczekiwania. Korzystanie z technologii otwartych źródeł, jak zaznaczyła Monika Książek, nie oznacza jednak zupełnej swobody.

To, że zaczniemy działać z open source, nie uwalnia nas od dostawców – no chyba, że stać nas na to, żeby utworzyć gigantyczny departament IT z licznym zespołem informatyków. Ale gdy nas na takie IT nie stać, albo właściciele nie lubią zwiększać zatrudnienia, to musimy się po prostu zaprzyjaźnić z paroma dostawcami, którzy nam pewne rzeczy „ogarną” – mówiła.

W tym kontekście szczególnego znaczenia nabiera współpraca z zaufanym, sprawdzonym partnerem. Za dużymi dostawcami rozwiązań licencjonowanych na ogół stoi ich reputacja i ugruntowana pozycja; w przypadku open source jest się nieco „skazanym” na mniejszych graczy.

Trzy filary skutecznej analityki

Ihor Muzyka w swojej prezentacji omawiał strategie wykorzystywania analityki danych do optymalizacji procesów decyzyjnych. Opowiadał o tym, na czym skupia się zespół analityków Żabki, by móc lepiej odpowiadać na pytania biznesowe.

Optymalizacja procesów decyzyjnych opiera się w Żabce na trzech filarach, które można scharakteryzować hasłami „szerszy kontekst”, „nastawienie na rozwój” i „bliżej biznesu”.

Jakkolwiek wydaje się to truizmem, to w podejściu do analizy danych bazującym na szerszym kontekście chodzi o wyeliminowanie błędów poznawczych: zamiast wyciągać wnioski w oparciu o przypadki jednostkowe, skrajne czy niereprezentatywne, należy próbować uzyskać możliwie szeroki obraz analizowanego środowiska. W przypadku Żabki oznacza to na przykład, że analitycy nie skupiają się na wynikach uzyskiwanych przez wybrane jednostki (sklepy), ale zajmują się siecią franczyzową firmy jako całością. Zgodnie z tym założeniem działają tak, by – budując raporty – zawsze mieć świadomość celu („gdzie chcemy się znaleźć, jako firma?”).

Dużą wagę przykłada się też do wizyt w terenie: zasoby zgromadzone w hurtowni danych to nie wszystko, co konieczne do przeprowadzenia rzetelnej analizy – często warto po prostu znaleźć się na miejscu, w danej placówce, porozmawiać z lokalnym menedżerem. – To dodaje bardzo dużo kontekstu i zmienia całą perspektywę patrzenia na to, co jest w danych. Pomaga nam też zrozumieć, że coś liczyliśmy na przykład nie w taki sposób, jak należało – opisywał Ihor Muzyka.

Przedstawiciel Żabki wspomniał też o konieczności nabycia świadomości otoczenia – dzielenia się wiedzą w obrębie zespołów i departamentów. – Zapraszamy też ekspertów zewnętrznych z danej dziedziny, aby dowiadywać się, co się dzieje w branży i w jaki sposób otoczenie może na nas wpłynąć – dodał.

„Nastawienie na rozwój” to przede wszystkim poszukiwanie ulepszeń operacyjno-procesowych, które może przybierać różne formy. Jedną z nich są warsztaty – przestrzeń wspierania innowacyjności, umożliwiająca personelowi kreowanie nowych pomysłów. Co ważne, w ramach takich warsztatów, np. realizowanych w formie hackathonów, firma stara się szukać rozwiązań na pytania czy problemy biznesowe z udziałem przedstawicieli działów biznesowych. Równoległa ścieżka – edukacyjna – obejmuje stały rozwój kompetencji zespołów analitycznych w drodze szkoleń. Rozwój obejmuje też rozbudowę architektury – kryje się pod tym zarówno doskonalenie kompetencji w już stosowanych narzędziach, jak i eksploracja nowych rozwiązań w analityce.

Staramy się dodawać nowe rozwiązania. Jeżeli pozwalają nam rozszerzyć kontekst, wprowadzamy je w życie; jeżeli nie, przynajmniej szukamy, czy możemy się czegoś nowego z nich nauczyć – mówił Ihor Muzyka.

Pod pojęciem „bliżej biznesu” kryje się silna relacja z partnerami biznesowymi. Analitycy Żabki nie działają reaktywnie, ograniczając się do generowania raportów na żądanie klientów wewnętrznych, tylko wspólnie z nimi omawiają zagadnienie czy sposób realizacji założonych celów biznesowych. - Jeżeli ktoś mówi, że trudno mu podjąć jakąś decyzję, pytamy, co możemy zrobić, żeby lepiej rozumiał dane. Chodzi o wychodzenie z takich silosów, w których działamy jako inny zespół, o wejście w rolę partnera strategicznego i współpracę z klientami biznesowymi – podkreślił prelegent.

Inne spojrzenie na Data Lake

Ostatnia prelekcja, poprowadzona przez Tomasza Murgrabię i Marcina Skryśkiewicza z Aplikacji Krytycznych, poświęcona była narzędziu Delta Lake i nowoczesnemu podejściu do gromadzenia i przetwarzania danych.

Zadaniem Aplikacji Krytycznych jest dostarczanie narzędzi informatycznych dla administracji skarbowej. Firma używała relacyjnej hurtowni danych, zasilanej silnikiem SSIS i zawierającej kilka warstw o różnym przeznaczeniu (np. data martów czy warstwa metadanych) i wyposażoną we front-end dla biznesu, oparty na Power BI. W sytuacji, gdy zbudowany przez firmę system musiał radzić sobie z rosnącą ilością zadań i zmian, wynikających z potrzeb klienta (którym jest Ministerstwo Finansów) pojawiła się konieczność dostosowania architektury IT do tych wymagań.

Konieczność ta wynikała z czterech głównych bolączek – wysokiego kosztu przechowywania danych, ograniczeń wydajnościowych, wysokiego poziomu zagregowania danych oraz trudności w skalowaniu horyzontalnym. – W tej sytuacji chcieliśmy zaproponować rozszerzenie naszego klastra, naszego modułu relacyjnego o moduł nierelacyjny, poprzez wykorzystanie data lake’a – klastra Hadoop, na którym mamy cztery warstwy składowania danych, które rozszerzają dotychczasowy moduł relacyjny o możliwość przetwarzania na nim – wyjaśnił Marcin Skryśkiewicz.

Przebudowa systemu przyniosła firmie szereg korzyści. Przede wszystkim, jak przekonywali przedstawiciele Aplikacji Krytycznych, przechowywanie danych na systemie nierelacyjnym względem przechowywania ich na systemie relacyjnym zmniejszyło trzykrotnie koszty przestrzeni dyskowej.

Po drugie, uzyskujemy zwiększoną wydajność ze względu na to, że Spark jest po prostu narzędziem bardzo wydajnym, pozwalającym na wykonywanie wielokrotnych, skomplikowanych obliczeń, wielokrotnych złączeń, dużych predefiniowanych raportów na dużych zbiorach danych – dodał Marcin.

Inne zalety to zwiększona funkcjonalność całego systemu i rozszerzona ziarnistość danych – firma jest w stanie lepiej dostosować się do potrzeb klienta i przedstawiać mu na różnych poziomach szczegółowości.

Siódma sesja strategiczna programu Data Excellence jest zaplanowana na 15 listopada 2023 r.

Rejestracja na spotkanie już trwa.
Więcej informacji na stronie programu: cionet.com/dataexcellence.

Partnerami programu są Amazon Web Services, HP Enterprise, IBM i Goldenore.

CIONET

Wszechstronnie o danych

No Comments Yet

You May Also Like

Listopad w TRIBES: jakie wnioski przyniosły spotkania w tym miesiącu?

Październik w TRIBES: sprawdźcie, co robiliśmy jesienią

Back to school: wrzesień w TRIBES

Subscribe by Email