Tworzenie procesów ETL nie musi oznaczać godzin spędzonych nad kodem czy znajomości języków skryptowych.
Zobacz, jak w intuicyjny, graficzny sposób zbudować cały proces przygotowania danych – od źródła po publikację.
Podczas webinaru pokażemy, jak w kilku prostych krokach budować, przekształcać i udostępniać dane – bez potrzeby pisania ani jednej linijki skryptu. Wszystko w przejrzystej, wizualnej formie opartej na podejściu Data Flow!
Ten webinar to świetna okazja, by zobaczyć, jak Qlik upraszcza i automatyzuje proces ETL – zarówno dla deweloperów, jak i użytkowników biznesowych. Poznasz też możliwości, jakie dają nowoczesne narzędzia ETL, oparte na koncepcji Data Flow.
Zarejestruj się i przetestuj nowe podejście do integracji i transformacji danych – bez pisania skryptów!
Skorzystaj z okresu próbnego i przekonaj się, jak łatwo możesz tworzyć wizualne przepływy danych, integrować źródła i budować analitykę bez pisania kodu.
To idealna okazja, aby sprawdzić, jak Qlik Sense może usprawnić Twoje procesy ETL i analizy danych. Rozpocznij bezpłatny okres próbny już dziś.
[Przemysław Żukowski]: Cześć dzięki, że wpadłeś na tego webinara. Postaram się pokazać Ci dzisiaj w kilku prostych krokach co się zmieniło w Qliku jeśli chodzi o proces przygotowywania danych. Jak wiesz od zawsze historycznie był tutaj dostępny skrypt. Kilka lat temu pojawił się manager danych dla użytkowników bardziej biznesowych.
Natomiast to, co się pojawiło teraz, to takie połączenie jednego z drugim Ciekawszych możliwościach jeśli chodzi o menedżera danych a jednocześnie tworzącego skrypt, który tak wielu deweloperów klikowych uwielbia po prostu. O czym mowa? Mowa właśnie o przepływie danych więc już od razu wskakujmy sobie tutaj do środka tak żeby pokazać Ci, w jaki sposób to działa.
Nazywamy go sobie Klikamy na utwórz No i momencie kiedy Dataflow nam się otworzy to przede wszystkim na początek dostajecie takie po prostu podsumowanie. Kto go stworzył kiedy była ostatnia modyfikacja i niewiele jeszcze widać tutaj dookoła Trzeba po prostu go stworzyć już tak w sensie technicznym.
Czyli możemy to zrobić za pomocą edytora w tym miejscu lub w tym. Ja skorzystam z tego miejsca. To co nam się tutaj pokazało To jest właśnie kanwa, na której będziemy sobie układali graficznie nasz cały proces ekstrakcji i transformacji danych. Do tego będą nam służyły takie trzy miejsca w tym naszym data flow, czyli po pierwsze źródła czyli pliki, źródła danych z których będziemy startowali nasz proces.
Procesory, a mianowicie to, co z tymi danymi później będziemy w trakcie procesu robili. No i ostatnia rzecz czyli miejsca docelowe, czyli jak już przetworzymy te wszystkie źródła danych no to gdzieś chcielibyśmy je wrzucić, opublikować i do tego właśnie te miejsca docelowe nam będą służyły. Ale na początek zacznijmy właśnie od danych które będziemy chcieli tutaj do naszego dataflow dorzucić.
Wybiorę sobie dwa pliki excelowe. Jeden dotyczy transakcji sprzedaży, ogólnie powiedzmy z całego świata, a drugi to są właśnie taki słownik dotyczący Stanów w Stanach Zjednoczonych. No i te dwa pliki w jakimś stopniu będziemy chcieli ze sobą za chwilkę połączyć, a do tego będą właśnie nam służyły procesory.
No i teraz te procesory możemy wykorzystywać w naszych projektach na dwa sposoby. Możemy je po prostu sobie przeciągnąć na naszą kanwę I łączyć z poszczególnymi elementami wcześniejszymi albo z poziomu danego procesora, tudzież właśnie źródła danych tak jak tutaj w naszym przypadku, możemy sobie taki kolejny procesor po prostu dokładać.
I w naszym przypadku będę chciał z tej całej listy którą mamy tutaj w tym pierwotnym pliku, wybrać tylko te wartości te transakcje, które dotyczą właśnie Stanów Zjednoczonych Czyli polem, które będzie mnie interesowało będzie pole country, I wartością która będzie mnie tutaj interesowała będzie po wartości USA.
Klikamy na zastosuj. Oczywiście ten filtr Valtor to jeszcze nazwa czyli filtrujemy USA. Zapisz i jak widzicie Z poziomu wizualnego od razu widzimy, że założyliśmy jakieś źródło danych w kolejnym kroku filtrujemy tylko te dane, które pochodzą z USA i oczywiście na każdym z tych etapów możemy sobie też te dane podejrzeć.
W przypadku procesora typu filtr zobaczycie listę dopasowanych rekordów i listę niedopasowanych rekordów więc na każdym etapie możecie to sobie bardzo fajnie weryfikować. To dane mamy przefiltrowane, to w kolejnym kroku chcielibyśmy właśnie połączyć te dwa źródła ze sobą. Więc ja przełożę sobie te moje drugie źródło danych tutaj, żebym widział, że jakby na początku startuję to, coś z tego filtruję i dopiero na kolejnym kroku już te wyfiltrowane dane będę chciał połączyć z tymi danymi dotyczącymi właśnie stanów.
Więc to, co będę chciał sobie tutaj wybrać to będę chciał zrobić sobie join na. On znowu mi się fajnie przyklei do tego Poprzedniego procesora no ale jak widzicie teraz chcę podłączyć tego Joina też właśnie do tego źródła. Jak widać mogę to zrobić wizualnie. Jeżeli nie pasowałoby mi to połączenie coś zrobiłem przypadkiem to po prostu mogę też wizualnie sobie je tutaj cofnąć.
W momencie kiedy wejdziemy do właściwości tego Joina, no to będę chciał tutaj zrobić opcję taką, żeby z jednej strony Połączyło mi się tutaj po state, a z drugiej właśnie po abbreviation. Możemy też zdefiniować jaki typ połączenia chcielibyśmy wybrać w tymże joinie, no i klikamy na zastosuj. Właśnie już połączone źródła dwa te źródła ze sobą wstępnie też wyfiltrowaliśmy, połączyliśmy.
No i teraz w kolejnym kroku chcielibyśmy zrobić troszeczkę porządku w środku Dlaczego? No dlatego, że właśnie pojawiły nam się pola tutaj state, pisane Duże litery, tutaj state pisane już tak i one mogą na dalszych etapach wprowadzać użytkownika trochę w błąd, więc chcemy zrobić z tym porządek. Jak to zrobić?
No to w kolejnym kroku dodajemy sobie kolejnego procesora i tutaj będziemy chcieli sobie wybrać konkretne W tym przypadku wybiorę sobie wszystkie, ale właśnie nad tymi dwoma kolumnami będę chciał troszeczkę popracować, czyli tą wartość będę chciał sobie zmienić na state code i zapisujemy, a tą wartość tutaj będę chciał zmienić na state State name, zastosuj.
No i mamy kolejny procesor w naszym data flow. W kolejnym kroku chciałbym na przykład zrobić operację dotyczącą ciągów znakowych, czyli wybierzemy sobie procesor typu… Typu Strings. I w tym procesorze chciałbym skorzystać z jednej z funkcji która jest tam wbudowana. Akurat ja będę chciał skorzystać z tej funkcji zamień na wielkie litery no ale do dyspozycji tych funkcji mamy tutaj trochę.
Czyli na przykład usuwamy jakąś część tekstu, wyszukujemy i zamieniamy. No, jakby kilka opcji macie do dyspozycji, aby sobie tutaj z tym podziałać. W moim przypadku będę chciał zrobić tak, że Nazwisko mojego klienta będę chciał po prostu zamienić na duże litery, tak żeby ono mi się fajnie odróżniało od imion.
Klikam na zastosuj, no i mam już naszego data flow tak bardzo wstępnie przygotowanego. Tak jak wspomniałem, na każdym etapie możemy sobie Podejrzeć co się w danym etapie dzieje i co ważne, jeżeli coś nam się właśnie przypomni że chcielibyśmy jeszcze zrobić w międzyczasie no to chociażby właśnie ta wizualna graficzna praca z tym narzędziem może wyglądać tak, że np.
ok, myślimy sobie, Chciałbym udostępnić dane moim użytkownikom biznesowym, końcowym, ale nie chciałbym, żeby niektóre dane były tak wprost widoczne. Więc na przykład chcę zastosować funkcję hash i ją gdzieś tutaj sobie wklejam w ten nasz proces i na przykład mówię, że chciałbym, żeby pole phone było zahaszowane.
Także jak widzicie na każdym etapie też możemy sobie… Tak, chce odrzucić, chce to usunąć, więc bardzo fajnie wizualnie ten proces możemy sobie ułożyć, patrząc na niego właśnie tak trochę z góry od razu może nam się coś przypomnieć coś jeszcze powinniśmy tutaj zrobić. No dobrze, to mamy nasz DataFlow z grubsza przygotowany, przeszliśmy sobie przez źródła przeszliśmy sobie przez procesory, no to teraz fajnie by było wrzucić te dane gdzieś.
No i teraz jak to możemy zrobić? Ponownie jak wcześniej, na danym procesorze możemy dodać sobie albo właśnie kolejnego procesora, albo właśnie już zdecydować, że tu będzie ten nasz koniec i to będzie to miejsce, w którym będziemy chcieli te dane publikować. I teraz pokażę Wam dwie opcje. Pierwsza to jest połączenie, możemy te dane wrzucać na przykład gdzieś na bagety amazonowe, na FTPa, na Dropboxa, na Google Drive’a, tam gdzie potrzebujecie.
Lub możemy też skorzystać z opcji publikacji tychże wyników tego data flow bezpośrednio na platformie Click. Możemy to zrobić w dowolnej przestrzeni która nas tutaj będzie interesowała. Ja sobie nazwę ten plik jako US Sales.
Standardowo on będzie zapisany w formacie QVD, natomiast mamy jeszcze kilka opcji. Dwie z nich są takie dosyć oczywiste, czyli TXT i CSV, ale czwarta czyli format Parquet, jest bardzo interesująca i to jest coś, co warto zapamiętać ponieważ Parquet staje się pewnym standardem. Więc mamy możliwość też właśnie zapisywania do tego.
Co nam to daje? No chociażby to, że możemy wykorzystać klika i cały ten mechanizm właśnie data flow do generowania zestawów danych na przykład też dla innych platform. Niekoniecznie samego klika ale też innych narzędzi które w organizacji są Wykorzystujecie, a które na przykład lubią Parkhead jako format pliku, który chciałabym mieć na wejściu.
Jak sobie klikniemy na Zastosuj i jeszcze raz sobie dopasujemy cały nasz flow, to widzimy że generalnie wszędzie jest tutaj OK, ale finalnie warto by to było przetestować czyli chcemy ten przepływ uruchomić. Jeżeli nie popełniłem nigdzie błędu to powinno wszystko nam tutaj elegancko zadziałać i flow powinien nam się Udać.
No więc cofamy się do naszego przeglądu i w tym przeglądzie będziemy już mogli zobaczyć troszeczkę więcej, czyli kiedy on był ostatnio uruchomiony ile trwał, co jest na wyjściu czyli widzimy, że tutaj ten jeden konkretny plik parke, ale także dostajemy informację, co było na wejściu, czyli te dwa konkretne pliki, które mieliśmy wcześniej.
Czyli one miały tam, no powiedzmy 2900 rekordów tak bardzo z grubsza Finalnie po tym naszym właśnie filtrowaniu Do tego docelowego pliku ląduje już troszeczkę ponad tysiąc wierszy. Z tego poziomu możecie też ustawiać sobie powiadomienia, czyli jeżeli coś w naszym Dataflow by na przykład nie poszło po waszej myśli to możecie ustawić sobie powiadomienie, żeby na przykład na urządzeniu mobilnym Pokazała się informacja że coś poszło nie tak, możemy też śledzić historię uruchomień i z tego miejsca oczywiście też możemy takiego dataflow uruchomić po prostu na żądanie lub też, co bardziej jest pożądane, ustawić po prostu harmonogram przeładowywania tychże plików, czyli na przykład chcę codziennie o godzinie 9 rano Żeby taki data flow się wykonał, zapisuję, zapominam.
No i teraz w momencie kiedy taki flow się wykona To finalnie jak widzicie, już w mojej przestrzeni prywatnej ten plik Parquet został opublikowany. Mogę go otworzyć, mogę przejść do profilu sprofilować właśnie jeszcze ten zestaw danych, także zobaczyć mniej więcej co w nim się kryje. Z tego poziomu też możemy obejrzeć cały data lineage, czyli widzimy że ten plik Powstał w wyniku działania właśnie Dataflow, a Dataflow z kolei wziął sobie dane z tych dwóch źródeł, czyli z tych dwóch plików XLS, Dataflow przetworzył je do tego pliku Parquet i teraz gdyby ten plik był używany jeszcze w jakiejś aplikacji, no to też moglibyśmy przeanalizować tą kwestię związaną z wpływem, czyli widzieć, gdzie potencjalnie możemy mieć problem w aplikacji gdybyśmy ten plik usunęli.
Oczywiście z tego poziomu Też możemy bardzo szybko przejść do tworzenia aplikacji analitycznej i to jest to fajne miejsce, gdzie faktycznie możemy Podzielić proces pracy nad aplikacją na takie dwa etapy czyli pierwsze to jest właśnie przygotowanie danych w miły fajny wizualny sposób, opublikowanie tego dla użytkowników końcowych, z kolei użytkownicy końcowi mają tutaj pełen zestaw informacji czyli wiedzą Skąd te dane przeszły, co się z nimi wydarzyło, jaki jest ich profil no i z tego też poziomu mogą sobie stworzyć bardzo szybko aplikację analityczną.
Więc podsumowując, pierwsza rzecz to właśnie ten fajny podział między użytkowników którzy Tworzą np. ETL-e i tych, którzy już tworzą końcowe aplikacje. Druga rzecz, data lineage, który jest tutaj wbudowany. I trzecia rzecz, właśnie taki fajny graficzny sposób na budowanie ETL-i w Qliku gdzie miejscem docelowym niekoniecznie musi być sam Qlik, ale także inne właśnie platformy obsługujące pliki.
Więc to jest takie szybkie podsumowanie tego co nowego w Qliku właśnie w tym obszarze. Zachęcam Was do skorzystania z tego. Macie tą możliwość na swoich środowiskach cloudowych. W momencie kiedy wejdziecie do sekcji utwórz tutaj w tym miejscu znajdziecie sobie przepływ danych Także zapraszam do testowania, do bawienia się i do śledzenia wszystkich nowości, które w kliku się pojawiają.
Dzięki i do zobaczenia następnym razem.