CIONET News

Nigdy niczego nie kasujcie

Written by Ludwik Krakowiak | May 12, 2021 @ 8:43 AM

Sztuczna inteligencja, Edge Computing, internet rzeczy – wszystkie te technologie mają przyszłościowy potencjał. Ale ich wspólnym mianownikiem są dane, bez nich nie jesteśmy w stanie nic zrobić – mówi w rozmowie z CIONET Polska Wojciech Janusz, CTO Ambassador w Dell Technologies.

Dlaczego projekty data-driven są trudne?

Do niedawna wszystkie problemy technologiczne dawało się rozwiązać za pomocą sprzętu. Panowało przekonanie, że odpowiedzią na problemy z bazą danych jest kupno mocniejszego serwera, a problem z przetwarzaniem danych można będzie rozwiązać mocniejszą macierzą. Większość problemów IT udawało się rozwiązać przy użyciu gotowego produktu.

W projektach data-driven sytuacja jest o tyle odmienna, że problemów nie da się rozwiązać sprzętowo. 20 proc. czasu projektu to obliczenia i operacje wykonywane w warstwie sprzętowej, a 80 proc. to praca człowieka. I tu zaczynają się schody – ciężko ją zautomatyzować i jest bardzo wysoko specjalizowana. Nie jesteśmy w stanie zaadresować jej gotowym produktem.

Projekty data-driven są trudne, bo wymagają zupełnie nowego podejścia. Skupiamy się na pracy człowieka, analizie danych. Największym problemem nie jest samo zebranie informacji, bo i tak je gromadzimy, ale przygotowanie ich, oczyszczenie, połączenie z innymi źródłami danych, a często również przesyłanie między lokalizacjami.

Jaka w tym rola Data Managementu?

Do niedawna Data Management kojarzył się głównie z zapisaniem danych na dysku i ewentualnie zrobieniem backupu. Teraz odchodzimy od takiego pasywnego podejścia do trybu: „Wydobądźmy te informacje’. Bo wiemy, że one tam są, tylko często mamy problem z dotarciem do nich.

Z badania, które zleciliśmy w ub. roku, „The Data Management Imperative: The Critical Differentiator in the Data Era”, wynika, że 50 proc. wszystkich danych, które nazywamy korporacyjnymi, będzie wytwarzane poza centrami danych i chmurą. Będzie to user-generated content albo dane powstające w czujnikach, urządzeniach i innych maszynach.

Stwarza to potężny problem z przetwarzaniem informacji, które niosą wartość, ale nie jesteśmy na razie w stanie do nich dotrzeć.

Data Management dotyka właśnie kwestii przetwarzania danych – procesu pozyskiwania, przesyłania, zabezpieczania, oczyszczania, korelowania i wydobywania wartości.

Łatwo powiedzieć, trudniej zrobić?

Kilka lat temu Gartner oszacował, że ok. 85 proc. projektów Big Data nie udaje się lub nie dowozi wartości. Ludzie słyszą: Big Data, SI, Data Management, po czym rzucają się na te projekty, bo to jest modne. Każdy CIO chce usłyszeć ten magiczny zwrot „sztuczna inteligencja”.

W ten sposób zaczynamy projekty od niewłaściwej strony. Nie wiemy co chcemy osiągnąć i jakie mamy dane, ale chcemy realizować projekt, bo SI jest w modzie lub chcemy wykazać się innowacyjnością przed akcjonariuszami lub potencjalnymi nabywcami.

Prawdziwe projekty powinny zaczynać się od zdefiniowania problemu – widzimy problem, spróbujmy rozwiązać go przy użyciu danych, które posiadamy lub które jesteśmy w stanie zgromadzić. Weźmy na przykład predictive maintenance, czyli przewidywanie awarii sprzętu na podstawie posiadanych informacji. Aby odpowiednio podejść do takiego projektu musimy najpierw ustalić, ile kosztują nas awarie, czy jesteśmy w stanie ich uniknąć i ile kosztuje przestój. Potem na podstawie posiadanych informacji budujemy model, który to przewidzi.

Podobnie jest dziś ze sztuczną inteligencją – SI jest dziś na samym końcu „łańcucha pokarmowego” przetwarzania danych. To świetna technologia, mamy do niej sprzęt i wiedzę ale największy problem to dostarczenie danych do nauki SI.

Dlatego Data Management leży „poniżej” SI – nie da się zrobić dobrych projektów sztucznej inteligencji bez dobrego zarządzania danych. Każdą rozmowę o SI musimy zacząć od kwestii przetwarzania informacji.

Informacji czy danych?

Rozróżniamy informacje, dane i wiedzę. Informacją może być odczyt z czujnika temperatury, np. „30”, cokolwiek ta liczba znaczy. Daną jest połączenie tej liczby z inną informacją – gdzie jest ten czujnik, w jakich jednostkach odczytuje – wzbogacenie informacji o metadane…

…czyli kontekst?

Dokładnie. Jeszcze nie biznesowy, ale kontekst. Z tymi danymi chcemy przejść krok dalej i uzyskać wartość biznesową – zamienić w wiedzę. Jeżeli wiemy, że np. w Sali konferencyjnej nr 5 panuje temperatura 30 stopni, to z tą wiedzą możemy podjąć decyzję: np. obniżyć temperaturę. Sama informacja jest bezwartościowa. Wzbogacając ją o kontekst i wykorzystując własną wiedzę ekspercką można uzyskać wartość.

Zresztą, Data Management zajmuje się właśnie przekształcaniem prostej informacji – w optymalnym wariancie – w decyzje biznesowe. Nazywamy to data pipeline.

Jak powinien wyglądać taki ciąg?

Od momentu powstania po biznesowe wykorzystanie – na informacjach wykonywany jest szereg operacji. Zbieramy informacje na krawędzi infrastruktury ale nie jesteśmy w stanie, przynajmniej technologicznie, przesłać całego strumienia np. z kamer CCTV do naszego data center, gdzie je przetworzymy. Chcemy zbudować data pipeline, który w obrębie pojedynczej lokalizacji wstępnie przetworzy te informacje, wyciągnie z nich kluczowe rzeczy, skonwertuje i prześle najważniejsze najbardziej wartościowe konkrety do centrum danych albo do chmury.

Jeżeli nie jesteśmy w stanie przesłać wszystkich zebranych informacji, stosujemy przetwarzanie brzegowe – na etapie wstępnego przetwarzania trzeba wybrać, które informacje zachować, a których się pozbyć.

Jak podjąć decyzję, co usunąć, a co pozostawić?

To zadanie dla człowieka: stworzyć algorytm do selekcji informacji lub przynoszące wartość agregaty. Problem w tym, że często nie wiemy, co przyniesie wartość w przyszłości. Dopiero po czasie okazuje się, że posiadając dane historyczne moglibyśmy osiągnąć ciekawe rezultaty.

Ja powtarzam naszym klientom – nigdy niczego nie kasujcie.

To proste, jeżeli mamy swoje centrum danych, gdzie jesteśmy w stanie przechowywać wszystko. Pojemność dysków twardych dochodzi już do kilkunastu terabajtów, a powstaną jeszcze większe. Problem leży poza centrum danych…

… bo coraz więcej firm pozbywa się swoich DC i przenosi do chmury?

Bardzo ciężko przesłać do chmury setki TB. O ile nie ma problemu by przenieść workload do chmury czyli szybko uruchomić w niej maszyny wirtualne, to zasilenie takiego systemu setkami terabajtów danych do przetworzenia może być bardzo czasochłonne i drogie.

Jeżeli mówimy o projektach data-driven, gdzie przetwarzamy dużą ilość informacji, ten środek ciężkości bardzo często zostaje w naszym DC albo przetwarzany jest na krawędzi a do chmury wysyłane są agregaty. Zresztą zaczyna się już dyskusja o chmurze typowo storage’owej, czyli miejscu gdzie składujemy dane, do którego mają dostęp inne usługi cloud.

A czym to się różni od szeroko pojętych środowisk hybrydowych?

W tej koncepcji chmura storage’owa to swoisty dysk w chmurze, ale o uniwersalnym przeznaczeniu, łączący różne ośrodki. Dziś to już standard, że klienci używają więcej niż jednej chmury – a te rozwiązania „nie lubią” przesyłania danych miedzy sobą. To sprzeczne z polityką dostawców chmury, którzy nie chcą wypuszczać informacji na zewnątrz, a przy okazji bardzo drogie.

Do chmury storage’owej, działającej pomiędzy chmurami AWS, GCP czy Azure, mógłby sięgać każdy z tych operatorów. To nowa koncepcja, która może mieć uzasadnienie, zwłaszcza, że większość informacji będzie generowana poza centrum danych.

Komunikacja tych ośrodków poprawi się pewnie wraz z upowszechnieniem nowych technologii łączności, takich jak 5G?

5G kojarzy się z szybkim transferem, ale to nie tylko transfer. Istotą sieci piątej generacji jest dostarczanie usług enterprise, znanych z lokalnych środowisk IT, do miejsca powstawania danych, np. na brzeg sieci. Chodzi o zapewnienie wydajności, bezpieczeństwa, zarządzania w miejscu powstawania danych – to może być np. miniaturowa serwerownia umieszczona tuż przy nadajniku 5G, przetwarzająca informacje z obrębu np. galerii handlowej.

Pozwoli to już na poziomie nadajnika przetwarzać dane z jakością znaną z firmowego centrum danych: profesjonalnie, bezpiecznie, z dedykowanym pasmem, wydajnością i minimalnym czasem odpowiedzi.

Jakich specjalistów będziemy potrzebować, by to wszystko obsłużyli?

Sami data scientists nie wystarczą – to „tylko” naukowcy. Będziemy potrzebowali data inżynierów, czyli ludzi, którzy będą potrafili przenieść te modele do realiów; ludzi znających się na optymalizacji wydajności, procesów.

Mówimy już o podejściu DataOps, w którym obszar Data Management jest adresowany już na poziomie tworzenia oprogramowania. Operacje związane z przetwarzaniem informacji i zarządzaniem nimi będą wbudowane w proces produkcyjny. Od samego początku pisania aplikacji będziemy myśleć o tym, jakie dane gromadzimy, jak je przetwarzamy i zabezpieczamy, które są wartościowe i w jakiej formie wypuścić je na zewnątrz.

--

Wojciech Janusz – Technical Evangelist, CTO Ambassador i Senior System Engineer w Dell Technologies. Zajmuje się technologiczną ewangelizacją w zakresie tzw. „emerging technologies”, czyli sztucznej inteligencji, data managament, przetwarzania na krawędzi, IoT i szeroko pojętego bezpieczeństwa. W. Janusz weźmie udział w najbliższym spotkaniu online społeczności CIONET Polska – Being Data Driven. W ramach sesji roundtable „Deployment" opowie o tym, jak projektować procesy zbierania, przetwarzania i wykorzystania danych oraz jak zarządzać dostarczaniem informacji do organizacji.