Jak pobierać dane ze stron internetowych?

Webinar dostępny na żądanie

Coraz częściej oprócz danych wewnętrznych (baz danych, plików xls czy csv) w różnych analizach konieczne jest sięgnięcie do danych zewnętrznych.

Zdarza się tak, że dane te są umieszczone na publicznych stronach internetowych (połowa sukcesu), ale umieszczone są w sposób nieprzystępny do dalszej analizy (przynajmniej na pierwszy rzut oka).

Nie zdając sobie sprawy z istnienia pewnych tricków można stracić wiele czasu na obsługę takiego procesu.

Jak pobierać dane ze stron internetowych

Wypełnij formularz i uzyskaj nagranie

    Chcesz ten czas zaoszczędzić? Dołącz do naszego webinarium, aby dowiedzieć się:

    • jakie tricki można wykorzystać do obsługi procesu automatycznego pozyskiwania danych ze stron www,
    • jak monitorować ceny produktów konkurencji umieszczone na stronie internetowej.
    Data Wizards

    Przemysław Żukowski

    Qlik Department Director
    Qlik Partner Ambassador
    sales specialist
    Qlik Partner Cloud Analytics Solution Specialist
    Qlik Partner - Cloud Analytics - Implementation Specialist
    Qlik Partner Application Automation Implementation Specialist
    Qlik Partner Application Automation Solution Specialist
    Qlik Partner AutoML Sales Specialist
    Qlik AI Specialist

    Pierwszy w Polsce Qlik Partner Ambassador. Entuzjasta Qlik Sense i analizy danych. Propagator wykorzystania nowoczesnych narzędzi analitycznych nie tylko w biznesie. Z branżą IT związany od 19 lat, a od ponad 13 lat odpowiada za projektowanie efektywnych rozwiązań analitycznych dla klientów z różnorodnych branż. Pomaga firmom dostrzec historię ukrytą w ich danych.

    Przemysław Żukowski

    Transkrypcja materiału wideo

    [Przemysław Żukowski]: Jestem Przemek Żukowski i zapraszam Was na kolejny nasz webinar. Dzisiejszy temat, który podejmiemy, to temat związany z tym, jak pobierać dane z różnych stron internetowych. Przećwiczymy sobie kilka różnych przypadków, poczynając od powiedzmy takich najprostszych idąc po bardziej skomplikowane, po to, żeby finalnie w tym ostatnim przykładzie, gdzie będziemy się podłączać do jednego ze sklepów internetowych aby właśnie spróbować przeanalizować ich ceny, żeby połączyć właśnie wszystkie te podejścia czy też tips and tricks, których nauczycie się w międzyczasie podczas tych właśnie pierwszych kroków.

    Słowem wprowadzenia, jeżeli będziecie mieli jakieś pytania dotyczące webinara lub być może jakieś kłopoty techniczne z głosem czy wideo zadawajcie proszę pytania w polu questions, tam nasza koleżanka Monika czeka na Was i bardzo chętnie Wam pomoże. No i też oczywiście wszelkie pytania wrzucajcie właśnie tam i postaram się na koniec webinara też na nie wszystkie odpowiedzieć.

    No dobra, więc czego dzisiaj się dowiemy, czego się dzisiaj nauczymy? Przede wszystkim zaczniemy sobie od bardzo prostego mechanizmu czyli po prostu pobrania danych z takiej dosyć zwykłej strony, która jest oparta o HTML. Pokażę Wam, jak taką poszczególną tabelkę sobie z tego wyciągnąć. To jest taki bardzo prosty use case na to, żeby wprowadzić Was w temat.

    Po drugie spróbujemy sobie pobrać różnego typu pliki umieszczone na stronach RUW i pokażę też Wam, jak tutaj można też właśnie pokombinować, żeby zrobić to maksymalnie automatycznie. Po trzecie, tam gdzie będziemy mieli możliwość skorzystania z bardziej przygotowanych źródeł danych do tego właśnie, żeby popierać dane, czyli mam tutaj na myśli API-e, pokażę Wam też jak to właśnie można zrobić po to, żeby robić to już jakby w sposób taki bardziej programistyczny i przygotowany do tego, żeby powiedzmy powielać jakieś większe wolumeny i robić to zgodnie z wszystkimi regułami sztuki.

    No i finalnie te wszystkie trzy dotychczasowe, Przykłady spróbujemy sobie połączyć w jeden konkretny przykład, gdzie spróbujemy się podłączyć do strony internetowej, która wcale nie jest taka prosta, bo nie jest ani do końca HTML-owa, czyli nie jesteśmy w stanie skorzystać z punktu jeden. Nie są tam umieszczone pliki, więc punkt dwa też nam troszeczkę odpada, no i API-e też nie są dostępne, ale wiedzę z każdego z tych trzech elementów spróbujemy właśnie wykorzystać do tego, aby też ten czwarty przykład sobie zrealizować.

    Postarałem sobie wybrać dzisiaj kilka przykładów które nam do tego posłużą. Najpierwsza rzecz, spróbujmy się podłączyć do NBP. To będzie nasz pierwszy przykład To nasze pierwsze źródło danych. Później spróbujemy się dowiedzieć czegoś np. o pracy naszego sejmu. To różek bardzo ciekawych wniosków można na pewno dochodzić.

    No i ten czwarty przykład, który będziemy chcieli zrealizować, nie jest to żaden product placement, broń Boże, po prostu zafascynowała mnie nazwa tego sklepu internetowego, więc skupimy się właśnie na analizie danych właśnie z tegoż sklepu Więc to są te nasze use cases i konkretne przykłady firmy instytucji, do których będziemy się próbowali podłączyć.

    Oczywiście traktujcie to jako przykład, wszelkie Wasze inne pomysły są też oczywiście do zastosowania, wybierając którąś z tych metod, które Wam pokażę. Jakich narzędzi będziemy używali? Przede wszystkim do tego wszystkiego co będziemy się chcieli podłączyć w każdym ze scenariuszy, gdy korzystamy z Qlik Sense.

    On zostanie, to jest narzędzie klasy Business Intelligence dla tych z Was, którzy są już stałymi bywalcami naszych webinariów Wiecie dokładnie o co chodzi natomiast dla wszystkich, Z Was, którzy są z nami pierwszy raz, jeżeli chcielibyście zobaczyć co to jest, jak zrobić właśnie pierwsze kroki, to za chwilkę o tym powiem.

    Dzisiaj na webinarze już nie będę się skupiał na tych pierwszych krokach, tylko od razu właśnie wejdziemy troszeczkę głębiej, więc jeżeli ktoś będzie z Was chciał nadrobić tę wiedzę, to pokażę też, gdzie. Drugie narzędzie, które sobie wykorzystamy, to jest Pulse Hub, to jest takie zaawansowane narzędzie do web scraping właśnie po to, żeby dostać się do różnych powiedzmy źródeł, które niekoniecznie są proste w pozyskaniu.

    No i tak jak wspomniałem, jeżeli ktoś z Was chce uzupełnić sobie wiedzę na temat Qlik Sense, zrozumieć jak się w nim poruszać, jakie są jego możliwości, zapraszam na naszą stronę w głównym menu od razu pierwsza pozycja od lewej strony, to jest tak zwana Akademia Danych. Qlik Sense. Dosłownie 5 prostych 45-minutowych lekcji, które pokażą Wam, jak zacząć jakie są możliwości, co dalej z tym zrobić.

    Także mam nadzieję, że ci z Was, którzy są też pierwszy raz z czasem sobie tą wiedzę też nadrobią i będziecie mogli sobie wchodzić w kolejne obszary. To tyle tytułem wstępu Od razu przejdziemy sobie do live demo i zaczniemy realizować poszczególne przykłady. Odpalę sobie Qlik Sense’a w ujęciu Qlik Sense’a do Scope’a.

    Jak widzicie w tej chwili nie mam żadnych aplikacji, więc ten pierwszy scenariusz który będziemy chcieli zrealizować, to jest po prostu strona NBP, czyli mamy www.nbp.pl. Mamy tutaj różne informacje mamy jakieś stopy procentowe, mamy kursy średnie, mamy jakieś linki, które tutaj są umieszczone. Natomiast nas interesuje ta tabelka.

    Chcielibyśmy po prostu żywcem z HTML-a pobierać te informacje. Jak to zrobić? Powiem tak, w ogóle do tego webinaru zainspirowała mnie historia jednego z moich znajomych, który właśnie musiał pobrać wiele informacji ze strony internetowej właściwie z różnych podstron, tych podstron było chyba, dobra, kilkadziesiąt jak nie kilkaset, no i chciał to robić po prostu ręcznie, na zasadzie zaznaczania, wklejania, przechodzenia na kolejną stronę.

    Ja zawsze podchodzę do tego tak, że wszystko da się zrobić prościej sprytniej, w sposób zautomatyzowany, więc jak usłyszałem jaki mam problem, stwierdziłem, że to po prostu zrobimy w Qliku i zrobiliśmy to w 10 minut, a nie kilkadziesiąt godzin pewnie Klikania. No dobra, czyli tak, chcemy się do tego podłączyć, więc naszym źródłem po prostu będzie mdp.pl, tą stronę sobie kopiujemy do głosowania, przechodzimy do Qlik Sense, tworzymy nową aplikację.

    Nazwiemy ją sobie mdp.pl jeden, utwórz otwórz aplikację. No i w kolejnym kroku musimy zdecydować do czego się podłączamy, więc wybieramy sobie podpięcie do źródła danych i w naszym przypadku będziemy się chcieli po prostu podłączać do pliku sieci web. Wybieramy go, wklejamy nasze nbp.pl, nazywamy to źródło jako nbp1 przykładowo i Klikamy na utwórz.

    No i teraz Qlik podłączył się do tej naszej strony internetowej i coś tam z niej zaczyna wyciągać Jak zaczniemy sobie Klikać w te elementy tutaj, to zobaczymy że pewne tabelki, pewne informacje z tej strony Qlik Sense Jest w stanie wyciągnąć Jakbyśmy się tak przeklikali do tabelki numer 30, to zobaczymy ten ładny nasz układ, czyli poszczególne waluty I ich kursy więc tą tabelkę będziemy chcieli sobie wciągnąć, będziemy chcieli nadać im tutaj nazwę, czyli to będzie nasza waluta a to będzie nasz kurs.

    Klikamy na OK, Klikamy na tutaj dane. I w tej chwili Qlik Sense Robi nic więcej, jak otwiera sobie stronę www.mbp.pl, idzie dokładnie do tego miejsca i te informacje pobiera. One już w tej chwili są pobrane, więc jeżeli przejdziemy sobie do edycji i zaczniemy te informacje wyświetlać no to powiedzmy korzystając z najprostszej tabelki weźmiemy sobie tutaj walutę i dorzucimy sobie do tego kurs.

    Czyli mamy, W tej chwili 4,43 za euro. No i to jest taka dosyć prosta rzecz. Tak, pobraliśmy sobie te dane, jeszcze nic więcej z tym nie zrobiliśmy. No to spróbujmy może zrobić jakiś bardzo prościutki kalkulator, który będzie mi pokazywał, jak według obecnego kursu wyglądałaby na przykład wymiana złotych polskich właśnie na którąś z tych walut.

    Jak to można zrobić? Na wiele jak zwykle sposobów natomiast ja zrobię coś takiego, żeby użytkownik miał możliwość takiego powiedzmy szybkiego sobie symulowania, ile uzyska waluty wymieniając właśnie 100 zł. Żeby to zrobić stworzę sobie na szybko zmienną, nazwiemy ją w ile wymieniam.

    Otworzymy ją, zamykamy, no i teraz w kolejnym kroku chciałbym tutaj dodać właśnie ten nasz taki slider do tego, abyśmy mogli sobie bardzo płynnie te informacje podmieniać. W sliderze będę chciał użyć właśnie tej naszej zmiennej, którą przed chwilą ustaliłem, w ile wymieniam, chciałbym, żeby to był slider, chciałbym, żeby wartości się uaktualniony w momencie kiedy to przesuwam, no i chciałbym, żeby miał możliwość wymiany od zera do tysiąca PLN.

    Krok to jeden, czyli zmieniamy ile ta wartość może się zmieniać no i chcielibyśmy, żeby ta wartość na sliderze się wyświetlała. No teraz co zrobić, żeby to nam się na bieżąco kalkulowało, to do tej tabelki po prostu musimy dorzucić kolejną Kolejną kolumnę, w której po prostu użyjemy sobie takiego polecenia i ile wymieniam przez kurs Zastosuj, w tej chwili ona nic nie będzie nam wyświetlała, bo ta zmienna jeszcze nie przyjęła żadnej wartości, ale jeżeli zaczniemy ją sobie tutaj swobodnie zmieniać, czyli na przykład dojedziemy do jakichś mniej więcej 100 zł, to będziemy wiedzieli ile, powiedzmy, euro w zamian za te 100 zł otrzymamy stosując ten istniejący dzisiejszy kurs.

    Przykład bardzo prosty pokazując że właściwie jeżeli mamy dobrze przygotowaną stronę w formacie HTML i tam są po prostu zawarte tabelki, to wprost do tych tabel możemy się odwoływać. Co można zrobić z tym dalej? Oczywiście w momencie, kiedy przeładować byśmy sobie taką aplikację jutro po godzinie 12, bo chyba wtedy te kursy są dokładnie opublikowane, nasza aplikacja zawierałaby już nowy Kurs euro, ale stosując znowuż różne triki w Qliku możemy dzisiaj pobraną wartość odłożyć sobie na później, niejako zapamiętać ją w Qliku po to, aby na przykład z czasem budować sobie pewien trend kursu waluty, który nas interesuje.

    Żeby to zrobić, są prostsze metody i tutaj właśnie sięgniemy troszeczkę do innego sposobu czyli tą aplikację sobie zamkniemy mamy już ją zrealizowaną. Wracam sobie do NBP-u i widzimy że tutaj przy tych kursach średnich możemy sobie Kliknąć na więcej i zobaczyć że mamy coś takiego jak archiwalne kursy walut I one są też dostępne w plikach xlsx lub csv.

    No i teraz, jeżeli sobie najedziemy na któryś z tych plików to widzimy, że on ma swój konkretny adres. Tutaj w lewym dolnym rogu mi się wyświetla, że to są nbp.pl, kursy archiwum archiwum tab, 2020, csv. No i teraz ten link możemy sobie równie dobrze skopiować, wrócić do plika tworzyć nową aplikację, nazywamy ją nbp2, utwórz aplikację,

    ponownie podłączamy się do źródła

    wybieramy sobie plik sieci web, wrzucamy nasz adres, nazywamy to jako nbp2, utwórz I już widzimy, że ten konkretny pliczek excelowy został czy tam CSV-ka dokładnie została nam tutaj ze sceną. Klikamy na oglądaj dane i

    już możemy coś z tym zrobić. Tak jak mówiłem wcześniej, moglibyśmy sobie codziennie odpytywać tą tabelkę HTML-ową po to, żeby w Qliku odkładać sobie historię, no ale akurat w przypadku NBP-u jest tak, że te informacje są też składowane właśnie w postaci plików CSV czy, czy XLS, no dobra, to co w tym możemy w takim razie zrobić?

    To spróbujmy sobie zobaczyć ten, ten trend, czyli wybierzmy sobie jakąś wizualizację z Qlika w tym przypadku najlepiej zagra nam tutaj wykres liniowy, no i do tego wykresu liniowego, jak widzicie zawsze musimy coś dodać, no na przykład jakiś wymiar, w naszym przypadku będzie to będzie to data, I musimy dodać jakąś miarę, więc szukamy sobie euro, robimy tutaj sobie na szybko sumę, tylko po to, żeby ją za chwilkę też usunąć, żeby to się nam tutaj poprawnie wyświetlać i na przykład nazywamy to jako kurs euro.

    Równie dobrze, możemy sobie dodać jeszcze na przykład USD, analogicznie suma od tego USD, to sumę sobie kasujemy, opisujemy ładnie etykietkę jako USD i mamy, możemy jeszcze tutaj powiedzmy poprawić troszeczkę wygląd żeby ten nasz Kurs się bardzo ładnie wyświetlał, no i w tej chwili tak jak widzicie przeczytaliśmy sobie z tego pliku wszystkie dane na temat kursu wielu walut akurat dodałem tylko do wizualizacji USD i euro, natomiast jeśli chodzi, jeżeli byśmy zrobili sobie tutaj panel filtrowania, no to widzimy że tych walut możemy mieć tutaj sporo.

    To jest napewno bardziej efektywny sposób na to, żeby uzyskać więcej informacji z NBK-u niż ta standardowa tabelka HTML-owa, ale tak jak mówię, nie wszędzie będzie to możliwe, więc musimy jakby znać różne mechanizmy po to, żeby je sobie najlepiej zastosować. No i tak jak widać co się działo z tym naszym kursem jeżeli spojrzymy sobie,

    W 11 marca to był dzień, w którym zostały wprowadzone pierwsze dosyć poważne ograniczenia czyli informacje o zamknięciu szkół przedszkoli. Widać jak od tego czasu mało Kurs gdzieś tam nam poszybował, natomiast w momencie uspokajania się całego zagrożenia kurs zaczyna nam wracać powiedzmy do w miarę normalnych poziomów.

    Także to jest jeden ze sposobów na to, żeby właśnie podłączyć się do Exceli. Co tutaj możecie zrobić? Oczywiście można by było zrobić pewne triki, które by pozwalały na to, żeby ściągnąć tych plików więcej. No i tutaj jeżeli wrócimy sobie do Qlik Sense’a, to jak pamiętacie, to sztywno zdefiniowałem jako 2020, takie źródło możemy sobie bardzo szybko prze modyfikować i na przykład powiedzieć, że chcemy mieć dane z 2019.

    Jeżeli tylko to szybko przeładujemy. I zamkniemy i wrócimy do naszych wizualizacji, to już widzimy że mamy cały ładny rok 2019 w naszych wizualizacjach zaczytany właśnie z tego Excela. Czyli jeżeli jakiś plik Excelowy czy TXC, czy CSV leży wprost na serwerze i jesteśmy w stanie się do niego bezpośrednio odwołać, to to jest kolejny z mechanizmów na to, żeby się do niego dostać.

    Bardzo eleganckim sposobem na podłączanie się do danych jest skorzystanie z tak zwanego API. No i w przypadku NBP-u. Takie coś jest dostępne. Jak z tego skorzystać? Odpalamy sobie konkretną stronę. Widzimy że NBP udostępnia właśnie takie API, za pomocą którego jesteśmy w stanie odpytywać serwisy po ich stronie i robić to w sposób sprytny.

    Kolejnym przykładem takiego powiedzmy providera danych który udostępnia dane też w ten sposób jest na przykład Główny Urząd Statystyczny, który jeszcze dosyć niedawno dane udostępniał w postaci PDF-a, więc raczej ciężkie do wczytania, ciężkie do analizy, ale to się na szczęście zmienia ta otwartość danych publicznych rośnie i to mnie bardzo cieszy.

    No i przeważnie jeżeli dana firma, dana instytucja czy dane systemy dane systemy, Który oferuje dostęp do API, to znajdziecie w nim opis dotyczący tego, jak te API jesteśmy w stanie sobie zastosować. Ten opis czasem będzie bardziej skomplikowany, czasem mniej skomplikowany. W przypadku NBP-u widzimy, że na przykład możemy odpytać aktualnie obowiązującą tabelę kursów albo możemy na przykład odpytać serię ostatnich kursów tabel i te elementy jak table czy top count to jest coś co możemy sobie dowolnie definiować, czyli ten adres w tej chwili bym sobie skopiował.

    Wracamy do naszego Qlik Sense’a, tworzymy nową aplikację, nazywamy ją NBP3, utwórz aplikację i

    w tym przypadku skorzystamy już z troszeczkę innego konektora i tym konektorem będzie tak zwany REST. Tworzymy sobie nasze połączenie, wklejamy naszego URL-a i teraz bardzo istotne jest to, abyśmy pamiętali aby te parametry, o których mówiłem po prostu uzupełnić i też się dobrze tutaj wkleić nie pomijając różnego typu ukośników, bo to wszystko ma znaczenie.

    Czyli w tym przypadku będę chciał się odwoływać do tabeli A i chciałbym mieć na przykład 10 ostatnich notowań że tak powiem tej tabeli. No i Klikamy sobie na utwórz. I w przypadku resta, to co za chwilkę zobaczycie, prawdopodobnie zwróci nam się tutaj taka struktura drzewiasta, czyli mamy powiedzmy taki poziom nadrzędny, tak zwany root i w nim będziemy mieli informację o typie tabeli jej numerze dacie obowiązywania i w takiej właśnie zagnieżdżonej strukturze drzewiastej będziemy już widzieli poszczególne waluty ich kod, ich kurs i odwołanie do konkretnej właśnie tabeli którą mamy tutaj w tym naszym roocie.

    Więc ja chciałbym zaznaczyć tutaj wszystko, żeby te obie informacje mi się zassały. Klikamy na dodaj dane. Tutaj pojawi się taki jeden z mechanizmów w Qlik Sensie, bo de facto mamy tutaj dwie tabelki, które będziemy chcieli ze sobą łączyć, więc jeszcze Qlikowi musimy pokazać że chcemy je dokładnie ze sobą połączyć.

    Te połączenie właśnie możemy wykonać w ten sposób. Klikamy na zapisz na wszelki wypadek i Klikamy na ładuj dane.

    Przechodzimy do edycji naszego arkusza. No i tutaj już możemy zacząć też pierwsze wizualizacje czyli przejdziemy sobie do prostej tabelki i w tej tabelce będziemy chcieli pokazać na przykład numer, to jest najprawdopodobniej numer tabeli walutę I jej kurs, czyli przykładowo jeżeli teraz sobie wyjdziemy z trybu edycji i zaznaczymy sobie tylko euro, to dostaniemy kurs euro z tych 10 ostatnich przebiegów z dokładną informacją, w jakiej tabeli on był, no i oczywiście wysokość, czy wartość tego kursu.

    No dobra to teraz spróbujmy sobie zrobić też jakąś wizualizację, ponieważ mamy 10 tych ostatnich przebiegów no to znowu spróbujmy zrobić z tego szybki wykres liniowy. Tutaj dodajemy sobie effective date i jaką miarę,

    Stawiamy sobie mida czyli nasz kurs, no i jeszcze dodatkowym wymiarem tutaj będzie nasza waluta. No i teraz jeszcze tutaj drobna modyfikacja, że tego nie sumujemy, nazywamy to jako kurs. No i teraz tak, z racji tego, że nie zawęziłem tego naszego wyszukiwania, to teraz wszystkie waluty, które mam dostępne są na tym wykresie w tej chwili wyświetlane, żeby może to troszeczkę tutaj jeszcze ułożyć lepiej, wyłączę niektóre wartości i dodamy sobie jeszcze prosty filtr z walutami.

    No i teraz po wyjściu z trybu edycji na przykład chciałbym zobaczyć euro, chciałbym zobaczyć dolara amerykańskiego no i te dwie waluty będą już wyszukiwane No zaczynamy Ładnie rysować. Oczywiście mamy w tej chwili przebieg ten dziesięciodniowy, czy z dziesięciu ostatnich powiedzmy, notowań i tak jak wcześniej to widzieliście możemy sobie wrócić do edytora ładowania danych po to, żeby ten skrypt sobie szybko zmodyfikować i zapytać po prostu o większą liczbę danych.

    Niech nam tylko załadują się tutaj nasze źródła, Klikamy w tą edycję i tak jak widzieliście ten ostatni parametr czyli te dziesięć ostatnich edycji chciałbym zmodyfikować na przykład na 100. Testujemy sobie takie połączenie i powinniśmy dostać jak dobrze pamiętam, błąd. Z czego ten błąd wynika? Tak jak widzicie, czasami te systemy API-owe dosyć przyjemnie informują nas o tym, że troszeczkę nad użyliśmy ich połączenia Gościnności, o tak bym powiedział, i za jednym razem możemy się odwołać tylko do 67 wyników więc chcemy być OK tutaj zgodnie z naszymi regułami 67, Test Connection, jest OK, save’ujemy,

    ładujemy nasze dane jeszcze raz, no i jeżeli teraz odwołamy się z powrotem do naszej wizualizacji, no to już widzimy że Te 67 ostatnich odwołań pozwoliło nam sięgnąć też aż do gdzieś tam prawie początku marca. Także w ten sposób też za pomocą API-ów jesteście się w stanie do tych danych dobierać. No dobra, to teraz spójrzmy sobie na jeszcze jedną instytucję i w tym przypadku będzie to CEIN.

    Teraz to jest troszeczkę inny przykład, w którym też można stosować różne triki i w którym też trzeba na kilka elementów zwrócić uwagę. Ja swego czasu Chciałem bardzo sprawdzić jak każdy z naszych posłów jest aktywny w Sejmie i chciałem to też, jak dobrze pamiętam, zrobić na przestrzeni różnych kadencji, więc te moje zapytania były takie dosyć mocno obciążające serwer Sejmu, więc po którymś takim przebiegu już dostałem informację z Qlik Sense, że są jakieś błędy, że nie jest w stanie pobrać danych.

    Zacząłem się zastanawiać, czy zrobiłem błąd ale okazało się, że jeżeli chciałem po prostu wejść z przeglądarki na stronę Sejmu, to mówiąc wprost zostałem zbanowany przez jakiś czas. Mój adres IP został wykluczony. Także z takim odpytywaniem stron też trzeba brać pod uwagę to, że nie może to być zbyt nachalne.

    I znowu jest na to kilka fajnych trików. Co my tutaj mamy? Mamy w tej chwili pierwsze posiedzenie Sejmu to jest 1997. Rok, 20 października mieliśmy wtedy 8 głosowań. No dobra, to teraz spójrzmy sobie na nasz adres. Jest on skonstruowany w ten sposób, że mamy adres głównej domeny i tutaj za pomocą tych różnych naszych, powiedzmy, parametrów możemy sobie, zmieniając te parametry, uzyskiwać zupełnie inne wyniki.

    Czyli na przykład, jeżeli bym się odwołał teraz do IDD-a 2, to dostanę listę głosowań z kolejnego posiedzenia. Jak bym się odwołał do 1700, bodajże 90, nie wiem, czy nie przesadziłem. Tak, to mamy głosowania takie w miarę najnowsze czyli gdzieś tam z 27 maja 2020. No dobra, wróćmy sobie do tego pierwszego czyli widzimy że tym parametrem jesteśmy w stanie sobie sterować.

    No i odwołując się do historii którą opowiadałem Wam wcześniej. Gdyby ktoś nie znał tych MEC-ów, to pewnie robiłby tak, że odwoływały się do każdej z tych stron. Ctrl-C, Ctrl-V, droga przez MEC-y. Więc my zrobimy to prościej. Kopiujemy sobie ten adres, wracamy do pliku, tworzymy nową aplikację, nazwiemy ją sobie same, utwórz i otwórz aplikację.

    Odpalamy sobie nasze konektory i teraz w tym kroku będziemy chcieli się właśnie podłączyć. Czyli znowu wybieramy sobie plik sieci web, wklejamy nasz adres, nazywamy to jako same, utwórz.

    No i jak widzicie dostajemy bardzo ładną tabelkę, no może nie do końca ładną, jeszcze powiedzmy zmienimy sobie tutaj kodowanie żeby polskie znaki nam też bardzo ładnie tutaj weszły i tak jak widzicie możemy sobie na przykład zrezygnować z niektórych kolumn, które będziemy chcieli pobierać i w naszym przypadku zrezygnuję z kolumny numer, ponieważ ten numer przy każdym nowym posiedzeniu Sejmu jest znowu ten sam, więc żeby mieć jak gdyby tutaj unikalność po prostu to w ładowaniu i pominę.

    No i Klikamy na dodaj dane. Mam nadzieję, że po moich wczorajszych testach Sejm już mnie nie zbanował i uda nam się wszystko przeprowadzić. Dobra mamy nasze wykresy więc po prostu zróbmy sobie najprostszą tabelkę. Do tej tabelki wrzucimy sobie godzinę głosowania i temat głosowania. Czyli jak widzimy wybór marszałka Sejmu na początek projekt uchwał, później wicemarszałkowie Sejmu.

    Najważniejsze rzeczy na początek były grane. No dobra, ale chcielibyśmy zobaczyć może coś więcej, czyli na przykład czy nasi posłowie się jakoś tam mocno przepracowują po późnych godzinach czy też nie. Więc zobaczmy sobie na przykład jakiś wykres uchwał. Dodajmy sobie tutaj wymiar tym naszym wymiarem będzie godzina, ale z tej godziny jeszcze bym chciał coś wyliczyć, czyli użyjemy sobie funkcji hour od godzina Wtedy uzyskamy po prostu konkretną godzinę i jako miarę zrobimy sobie tutaj temat i po prostu będziemy sobie te tematy zaliczali.

    Czyli widzimy, że najwięcej głosowań odbyło się o godzinie 18. No ale to jest tylko jedno posiedzenie Sejmu, a chcielibyśmy się dowiedzieć czegoś więcej. Jak to zrobić? Przechodzimy znowu sprytnie do naszego edytora ładowania danych i tutaj zastosujemy trzy takie triki, o tak chyba można powiedzieć. Po pierwsze widzimy tutaj, że musimy sobie odblokować ten nasz skrypt, żebyśmy mogli go tutaj troszeczkę zmodyfikować.

    I ta nasza modyfikacja będzie dotyczyła tej właśnie sekcji. Jak widzicie tutaj podłączamy się do naszego zdefiniowanego źródła i to źródło było dosyć precyzyjne Zdefiniowano właśnie tutaj jako konkretny Konkretny link. Natomiast my chcielibyśmy aby ten nasz link był uniwersalny, tak żebyśmy mogli właśnie odwoływać się do różnych innych też głosowań.

    No więc jak to możemy zrobić? Trzy triki zastosujemy. Po pierwsze, Chcielibyśmy, żeby ta sekcja tutaj wykonywała nam się w pętli i to my zdecydujemy, ile tych pętli powinno być, czyli dla jakiejś zmiennej, weźmy sobie na przykład i równego 1 do, na przykład, no może nie przesadzajmy, do 10, chcielibyśmy żeby to się wykonało i jeżeli się wykona, to żeby wykonało się raz kolejny.

    Tak, czyli mamy taką dosyć prostą pętlę, która będzie nam tutaj działała. No i teraz drugą rzecz, którą chcielibyśmy zrobić, to jeszcze spowodować że ten URL będzie tutaj właśnie dynamicznie podmieniony, więc zmieniamy sobie tutaj opis, mam nadzieję tylko, że składnie dobrze pamiętam, wklejamy ten nasz adres który mieliśmy wcześniej podany i podajemy Ten parametr tą jedynkę, chcielibyśmy zamienić właśnie na to dynamiczna i, czyli podstawiamy tutaj zmienną i w ten sposób zamykamy nasz nawias, przecinek, kasujemy tutaj, podajemy że to jest HTML i powinno nam to zadziałać.

    Za chwilkę to przetestujemy, jeszcze sprawdzam wygląda na to, że jest okej. Trzeci trik który możemy tutaj zastosować, to trik polegający na tym właśnie, żeby nie zamęczać powiedzmy tego serwera który odtykamy, czyli chcielibyśmy, aby wykonanie kolejnej pętli odbyło się po jakimś czasie. Żeby to zrobić, stosujemy sobie funkcję sleep, czyli na przykład 500, bodajże to jest chyba w milisekundach liczone, głowy sobie teraz nie dam uciąć za to, ale to będzie taka powiedzmy pauza, między tym że wykona się kolejna pętla.

    Ja ją na razie wyłączę, bo powiedzmy dla pięciu pobrań, które sobie tutaj zrobimy, to powinno pójść szybko i nie powinienem zostać zbanowany przez serwis. Wyciągamy Widzimy że tych wierszy już nam troszeczkę więcej poleciało, zamykamy, wracamy do naszej wizualizacji, możemy ją sobie tutaj jeszcze.

    Powiedzmy do modyfikować że troszeczkę rozszerzymy, no i już widzimy że tych głosowań mamy troszeczkę troszeczkę więcej nam się pobrało, widzimy, że w tej chwili godzina 16.00 jest najbardziej oblegana, no ale możemy zrobić to na przykład dla, powiedzmy w miarę ostatnich głosowań. Czasami może być tak, że danej podstrony nie będzie, jeżeli lecimy sobie powiedzmy w takim układzie plus jeden, to w przypadku Sejmu to bardzo często występuje.

    Jeżeli tak się nam zdarzy w tym przypadku, to zaraz też pokażę Wam jak to sobie obejść.

    Ok, czyli widzimy że właśnie jedna ze stron nie wystąpiła, wracamy sobie tutaj, set rwar. Mód w masie 1 bodajże, mam nadzieję, że dobrze składnię pamiętam, tu

    gdzieś 0,

    czyli tak, przeładowanie nam Nam poszło. No i w tej chwili widzimy te, powiedzmy w miarę najświeższe głosowania, czyli gdzieś mamy tutaj sprawozdanie Komisji o Uchwale Senatu w sprawie ustawy covidowej i tak dalej, i tak dalej. Tutaj mamy z dnia 29-35, dnia 5-6-7 maja, więc widzimy że to są te, powiedzmy, w miarę najświeższe głosowania.

    No i tutaj widzimy że też już jakieś tematy się na przykład zaczynają o godzinie na przykład 23, więc jeżeli tą 23 sobie wybierzemy, to możemy zobaczyć sobie nad jakimi tematami tutaj nasi parlamentarzyści o tej godzinie pracowali. Także jak widzicie w ten sposób możemy sobie odpytać Właśnie stosując taką pętelkę i parametr w naszym adresie możemy sobie odpytać tą stronę internetową wielokrotnie i po prostu zapisać ją do pliku.

    I też często będzie się mogło zdarzyć tak, że w takim adresie takich parametrów możemy mieć nawet kilka. I jak dobrze pamiętam kiedy chciałem zapytać wszystko, całą historię działania Sejmu, to właśnie w takim linku tych parametrów musiałem podać Jest to możliwe jest to do wykonania na pewno trzeba dobrze pamiętać o tych naszych różnych zmiennych, o tej opcji sleep, żeby nie zamęczyć serwera ale dosłownie kilkoma linijkami jesteśmy w stanie sobie załatwić to, że przejdziemy pętelką po różnych tabelach i je bardzo fajnie pobierzemy.

    Przeszliśmy sobie przez kilka przykładów od najprostszego do powiedzmy troszeczkę bardziej zaawansowanego, czyli zwykły HTML, podłączenie się do pliku, który jawnie leży nam na serwerze, przechodząc poprzez API i dochodząc do takiego miejsca, gdzie konkretny link podmieniamy sobie parametrem w skrypcie.

    No dobra to teraz spróbujmy połączyć te wszystkie informacje których się dowiedzieliśmy i wykorzystać je łącznie też z wykorzystaniem kolejnego systemu. Mogą zdarzyć się sytuacje takie, Jak na przykład we wspomnianym naszym sklepie, że my, jak HTML-owo się tutaj nie podłączymy, API też nie za bardzo, parametrami można by było próbować, ale można to zrobić w sposób bardziej sprytny.

    Tutaj chyba najczęściej tematem granem, który będzie, to będą właśnie sklepy internetowe, No i tutaj na pewno warto zwrócić na kilka rzeczy uwagę. Po pierwsze jesteśmy w tej chwili na jakiejś przykładowej pierwszej z listy kategorii. Widzimy, że tych produktów tutaj troszeczkę jest. Widzimy też, że ta jedna strona nie wyczerpuje nam tematu, bo mamy jeszcze stronę dwa i trzy.

    No i teraz to wszystko by trzeba było w jakiś sposób sobie rozplanować, zaprogramować, być uodpornionym na to, że tych stron może się tutaj pojawiać więcej. Więc pokażę Wam na takim bardzo prostym przykładzie, jak można sobie to Zrobić, wykorzystamy właśnie do tego dodatkowy system i jeden z trików, które poznaliśmy już wcześniej, czyli kopiuję sobie ten nasz adres, który będzie nas interesował i przechodzę sobie do Parashama.

    To jest narzędzie darmowe w pełnym zakresie, jeżeli chcielibyśmy powiedzmy ustawiać tutaj harmonogramy to zaczyna być to rozwiązanie już płatne. Podobnych tego typu narzędzi na pewno znajdziecie na rynku mnóstwo Ja akurat kiedyś z tego korzystałem i byłem bardzo zadowolony. Więc w moim przypadku Klikam sobie na nowy projekt.

    Ustawiamy tutaj, że ten URL będzie naszym właśnie takim powiedzmy punktem startowym. No i jak widzicie w ramach tego małego systemu pokazuje się nam ta strona internetowa, którą przed chwilą widzieliśmy. Jak widzicie jak najeżdżam na któryś z elementów, to tutaj Para Shop już zaczyna całkiem fajnie nam łapać co to może być, że to jest pewnie jakiś tam blok na tej stronie i być może jesteśmy w stanie ten blok w jakiś sposób tutaj wykorzystać.

    Jeżeli zaczniemy to robić, to tutaj w tej dolnej części zacznie nam się pojawiać podgląd naszych czynników. No dobra, więc w takim razie zacznijmy wybierać informacje, które chcielibyśmy pozyskać. Klikamy sobie tutaj na menu Select i chcemy na początku pobrać wszystkie nazwy naszych produktów, czyli Klikamy na ten pierwszy, czyściwo, przemysłowe, Catherine białe.

    Jak widzicie, pozostałe tutaj te czyściwo podświetliły się nam takim żółtym żółtą linijką żółtą ramką powiedzmy i to sugeruje nam, że według tego systemu to są elementy bardzo podobne i mogłyby być właśnie wciągnięte jakby w całości, więc pozwolimy mu na to i on w tej chwili sobie już to zrozumiał i już te wszystkie elementy sobie dołożył.

    Jak zjedziemy troszeczkę niżej, to on jak widzicie nie jest jeszcze pewien, czy kolejne wystąpienie będzie dokładnie takie same, więc na wszelki wypadek mu to też pokazujemy i już zacznie naprawdę bardzo fajnie rozumieć, że praktycznie do końca strony, chyba już nam się to udało, wszystkie te elementy już są jakby wykryte jako właściwy element, który chcemy sobie wyciągać.

    No i tutaj nazywamy to jako produkt. No i teraz tak, dla każdego z tych produktów chciałbym

    Informacji. Ile ich wyciągniemy zależy od nas, to może być jego zdjęcie, to może być informacja o producencie, to może być informacja na przykład o cenie i to będzie coś, co te dwa elementy będą nas najbardziej interesowały, więc chcielibyśmy żeby w taki sprytny sposób do każdej z tych informacji dopięty został producent i cenę.

    Tutaj na dole już widzicie, że udało nam się wyciągnąć pewne informacje, czyli mamy konkretny produkt nawet URL tegoż produktu Więc kolejnym elementem który sobie tutaj zrobimy, to będzie tak zwany Relative Select, czyli wskazujemy ten element nadrzędny w naszym przypadku produkt i zaznaczamy sobie, co do tego produktu chcemy wyciągnąć.

    W naszym przypadku będzie to Producent. No i tutaj to też sobie oczywiście dobrze nazywamy, żeby było już ładnie przygotowane. No i w kolejnym kroku robimy sobie kolejnego Relative Selecta, wybieramy sobie nazwę i wskazujemy cenę.

    Dla weryfikacji zawsze warto zjechać sobie gdzieś tam dalej, czy wszystkie te elementy zostały poprawnie w

    etapie ja poprzestanę, natomiast możecie też taki system uwrażliwić na to, że może, W trakcie wykonywania tej swojej pracy przechodzić na kolejne podstrony, jest w stanie na przykład wypełnić kapcze, jest w stanie zamknąć jakieś wyskakujące okienka, które by psuły ten układ, więc naprawdę bardzo sprytnie można do tego podejść.

    Oczywiście House Hub to jest jedna opcja, można też pójść w rozwiązania bardziej zaawansowane, jak na przykład XPath, jest tego na rynku naprawdę sporo. No dobra czyli widzimy na dole, że to nasze źródło jest takie w miarę już przygotowane, czyli mamy produkt, jego URL, wiemy kto go wyprodukował, mamy nawet URL, no i mamy cenę produktu.

    Co nam pozostaje? Warto ten projekt zawsze zapisać No i pozostaje nam pobieranie danych. No teraz, jeżeli bawicie się z tym pierwszy raz, zawsze warto zrobić sobie test rana, tak żeby zobaczyć, czy jest wszystko OK. Natomiast w moim przypadku ja już od razu skorzystam sobie z rana. No i w tej chwili PartsHub sobie otwiera tą naszą stronkę, zaczyna pobierać poszczególne informacje i za chwilkę do tych danych będziemy się mogli dostać na kilka różnych sposobów.

    Jak widzicie poszło dosyć szybko. No i teraz tak, co mamy do dyspozycji? Do dyspozycji mamy możliwość na przykład ściągnięcia tych danych do CSV-ki czy do Excela. Można ale nam chodzi bardziej o zautomatyzowanie tego całego procesu. Czyli w naszym przypadku bardziej będzie nas interesowało dostawanie się do tych danych poprzez API.

    No dobra, to spróbujmy zobaczymy czy nam się uda. Klikamy na API i tak jak pokazywałem Wam w NBP, jeżeli dany system czy dana instytucja oferuje tego typu możliwość pobierania danych, to zawsze ta API będzie dosyć dobrze opisana. Czyli co w nim można zrobić, jakie procedury się stosuje, jakie są możliwości itd.

    I w naszym przypadku będziemy chcieli po prostu pobrać sobie dane za ostatni przebieg Czyli to jest dokładnie taki,

    Taki URL, do którego będziemy się musieli odwołać. I jak widzicie, on też jest tutaj parametryzowany, czyli musimy podać token naszego projektu. Więc wracam sobie do PIXENSA.

    Naprawdę zafascynowała mnie nazwa tego sklepu. Otwieramy naszą aplikację, Klikamy na dodaj dane

    i tak jak to wcześniej pokazywałem wybieramy sobie resta. Do tego resta wrzucamy nasz URL. No i teraz tak, musimy ten parametr skądś wziąć. Skąd? Wracamy do Pars Hub’a no mamy tutaj project token. Klikamy na niego, kopiujemy, wrzucamy tutaj. Też uważamy na wszelkiego typu ukośniki, nawiasy tak żeby było wszystko ok.

    API to jest dosyć rozległy temat i niektóre z nich są powiedzmy bardziej przyjazne inne mniej. Tutaj w przypadku tym trzeba jeszcze się jakby z autentykować w ramach tego systemu, powiedzieć, że na pewno ja, który odczytuje właśnie ten konkretny projekt i jego przebieg to faktycznie jestem ja. Jak to się robi?

    Korzysta się z tak zwanego API Key i to jest coś, co jest zawsze unikalne i te API Key w zależności od powiedzmy tego, w jaki sposób działa dana API, może być różnie przekazywane. W naszym przypadku to będzie po prostu taki query parametr, który będzie doklejany do naszego zapytania. No i teraz, jeżeli wszystko poszło dobrze, Klikniemy na utwórz To powinniśmy dostać bardzo fajny wynik naszego przebiegu.

    Czyli podglądamy sobie na produkty. No i mamy. Mamy ich nazwę, mamy ich ceny mamy URL-a, mamy producenta. Więc nic innego nam nie pozostaje, jak zaznaczenie produktu, Kliknięcie na dodaj dane i

    klasycznie tak jak to było wcześniej, dane sobie załadowaliśmy wchodzimy do edycji i zaczynamy z nimi robić już dowolne rzeczy, które nam przychodzą do głowy. Czyli ustawiamy sobie na przykład prostą tabelkę, chcemy mieć nazwę tego produktu, chcemy mieć jego producenta chcemy mieć jego ceny.

    Co dalej? Może chcielibyśmy zwizualizować pewne elementy czyli na przykład chcielibyśmy zobaczyć ilu mamy producentów z danym produktem kogo jest najwięcej Od razu na przykład widzimy że w ramach tego sklepu który nam tutaj funkcjonuje mamy coś oznaczone jako chemia. Być może jest taki producent, a być może danych nie do końca jest to przy tych źródłowych sklepie jest to dobrze opisane.

    No ale widzimy ile tych powiedzmy produktów ma każdy z nich. Możemy też na przykład zrobić sobie bardzo szybki ranking poprzez wykres rozkładu. Dodamy sobie tutaj nazwę, dodamy sobie tutaj cenę Tę cenę też tutaj oczywiście sobie szybko wyrzucimy i dodamy tutaj jeszcze. Tak tak, tak. I będziemy mieli taki ranking producentów i cen, które oni oferują.

    No i teraz mając już to przygotowane, czy tego zjadł, czy jest wszystko ok. Dobra, to na przykład wyszukamy sobie jakiś konkretny produkt. Niech to będzie ten produkt, który w marcu był produktem wysokiej że tak powiem potrzeby. No w tej chwili za pomocą wyszukiwarki Qlik Sensownej zobaczyliśmy sobie jaka jest oferta tego sklepu w ramach tego produktu Widzimy że Velvet tutaj rządzi, jeśli chodzi o liczbę dostępnego asortymentu no ale też na przykład rządzi, jeśli chodzi o ocenę.

    I tutaj możemy dodać jeszcze jedną prostą rzecz, zapomniałem o tym zrobic, URL. Dodajemy sobie tego URL-a i na przykład chcielibyśmy, żeby to było URL i nazywamy to sobie jako linka. No i w tej chwili interesuje nas ten właśnie konkretny produkt, no i chcielibyśmy zobaczyć jak on wygląda na stronie. Z racji tego, że ten link udało nam się też pozyskać, nic prostszego jak tylko Kliknięcie i przejście do tego konkretnego produktu w tym konkretnym sklepie i zweryfikowanie, czy na przykład to, co pobraliśmy, 4701, zgadza się z tym, co mamy w Qliku.

    Zgadza się w 100%, więc widzimy że jesteśmy w stanie to pobrać. Ten przykład, który pokazałem jest bardzo prosty On też troszeczkę wymaga jeszcze ręcznej pracy, bo za każdym razem musielibyśmy wiedzieć, jak wygląda ten nasz RAN token, bo on się po prostu będzie zmieniał. Niemniej jednak we wszystkich właśnie tych systemach które opierają się o API-e, Jesteśmy w stanie te API bardzo mocno wykorzystywać, czyli zanim w ogóle zapytamy sklep na przykład o ten nasz ostatni run, to za pomocą API jesteśmy w stanie sobie pobrać identyfikator tego ostatniego przebiegu, wstawić go dynamicznie do zapytania i odpytać to już według najnowszych danych.

    No i znowu idąc krok dalej, stosując mechanizmy plikowe, każdy taki przebieg jesteśmy w stanie sobie później zapisać do, Do pliku QVD i odłożyć go na przeszłość, czyli wchodząc sobie tutaj do źródła, jeżeli mamy naszą tabelkę która się nazywa produkt, to taki przebieg jesteśmy w stanie później zrzucić sobie do pliku po to, żeby bazując na tych takich właśnie przebiegach historycznych móc na przykład też rysować pewne trendy, jak cena tego produktu się zmieniała.

    Przyznam się szczerze i osobiście, że jeszcze przed wybuchem całej pandemii i tak dalej, w ten sposób byłem podpięty do Ze strony biura podróży Itaka, który bardzo lubię i często korzystam z tych usług, więc było dla mnie istotne to, żeby na przykład zobaczyć jak ceny poszczególnych eventów czy wycieczek się zmieniają.

    Można to oczywiście śledzić na bieżąco wchodzić na te strony, ale lepszym sposobem jest właśnie podpięcie się do tych danych i analizowanie ich na bieżąco. Wtedy jesteście w stanie sobie po jakimś tam czasie wyłapać że na przykład te ceny powiedzmy tych poszczególnych eventów wycieczek zaczynają spadać na x dni, średnio na x dni przed wyjazdem.

    Warto taką wiedzę mieć, warto wykorzystać jak widać analizy danych do tego, aby wstrzelić się w idealny moment cenowy, żeby na przykład zapolować na jakiś fajny wyjazd. Także Mam nadzieję, że udało mi się dzisiaj pokazać Wam kilka fajnych trików, od tych prostych do tych bardziej skomplikowanych.

    Oczywiście metod na to, jak możemy pobrać dane ze strony internetowej znajdzie się jeszcze mnóstwo, można by było zrobić jeszcze pewnie z trzy webinary na ten temat, ale mam nadzieję, że udało mi się pokazać takie najbardziej podstawowe i takie, które pozwolą Wam połączyć właśnie z jednego drugiego czy trzeciego podejścia w czymś bardziej skomplikowanym Pamiętajcie, że jedyne właściwie co potrzebujecie to jest Qlik Sense plus ewentualnie jakiś web scraper, jeżeli dana strona internetowa jest mało przygotowana do tego, aby dane w ten sposób pokazywać.

    To tyle, jeśli chodzi o demo. Jeżeli w międzyczasie macie jakieś jeszcze pytania, no to śmiało je podrzucajcie, za chwilkę do nich dojdę. Ja standardowo zapraszam was na kolejne nasze wydarzenia Staramy się aby te webinary Znaczy informacje publikowane na blogu były dosyć często, tak abyście mieli stały dostęp i dopływ do świeżej wiedzy, więc dla tych wszystkich z Was, którzy już mocno korzystają z Qlika lub na przykład po tym naszym webinarze zastanawiałem się, czy w moim konkretnym przypadku dałoby się Qlika zastosować do pewnych rzeczy, czy to właśnie analizy danych ze stron internetowych monitoringu cen konkurencji, czy być może do analizy po prostu finansowej, sprzedaży czy czegokolwiek to zachęcam Was do tego abyście uczestniczyli też w naszym Q&A z ekspertami, mam nadzieję, że daty nie pomyliłem i ono się odbędzie 9 czerwca, czyli w najbliższy wtorek godzina standardowa czyli godzina 13.00.

    Warto się zarejestrować warto wysłać do nas wcześniej pytania które chcielibyście aby zostały odpowiedziane na to webinarium, a nasi eksperci temat wezmą w obroty i live odpowiedzą Wam, jak można do tego tematu podejść. Także do wszystkich naszych webinarów Was gorąco zachęcam, wszystkie znajdziecie na tej stronie podanej poniżej i są one dostępne w formie też on demand, czyli Gdziekolwiek jakikolwiek temat Was zainteresuje, to w każdej chwili jesteście w stanie się do niego dostać.

    Kontakt do nas i kontakt do mnie, jeżeli mielibyście jakiekolwiek jeszcze pytania, podaję bezpośrednio też maila do mnie, więc spokojnie korzystajcie. No i zachęcam Was też bardzo gorąco do tego, aby odwiedzić nasze profile na mediach społecznościowych, czyli przede wszystkim LinkedIn i Facebook oraz YouTube.

    Zachęcam do śledzenia naszej strony na LinkedIn i na YouTube, bo po prostu wtedy żadne ciekawe informacje na temat Qlika, analizy danych Was nie ominą, więc gorąco do tego zachęcam, wystarczy wejść, Kliknąć śledź i wtedy będziecie dostawali wszystkie najważniejsze informacje. No dobra, to ja zobaczę teraz tylko, czy mamy jakieś pytania.

    Dobra troszeczkę pytań jest, więc dajcie mi chwilkę, żebym tutaj się w nie zagłębić.

    Pojawiło się pytanie o te narzędzie właśnie do web scraping To, którego ja używałem to jest ParseHub, natomiast tak jak wspominałem, tego typu rozwiązań pewnie na rynku znajdziecie mnóstwo. Ja akurat trafiłem na to, ale wiem że jest jeszcze jakiś web scrapper.io bodajże taki jest adres, więc to zależy od waszych predyspozycji co wam bardziej będzie.

    Przydatne. Dobra.

    Pojawiło się pytanie o pobieranie XML-a z CEIDG. Czy każdy XML średnio waży 300-300 megabajtów mniej więcej, że Qlik to dosyć długo męczy i bez rezultatu. Powiem tak, tematu nie testowałem jeszcze na własnej skórze, więc Pani Marcinie, ja postaram się to przetestować, zobaczę jak się tam można, że tak powiem dostać.

    I postaram się wrócić do Pana już też bezpośrednio z odpowiedzią na to pytanie. Pojawiło się pytanie też odnośnie tego, jak nauczyć się obsługiwać API, skąd wziąć takie przykładowe API. Tutaj jakby na jednolitego nazwijmy to, podręcznika pewnie się nie znajdzie. Natomiast tak jak wspomniałem, każdy z systemów czy każda z instytucji która udostępnia swoje dane poprzez API, zawsze udostępnia też taki tutorial, jak się do tego API dostać, czyli jak się tam autentyków autoryzować, jak pobierać dane, jak ewentualnie wrzucać dane poprzez API.

    Także poprzez, Właściwie case by case każdy producent czy każdy provider będzie miał to troszeczkę inaczej opisane, niemniej jednak ogólne zasady są bardzo podobne, czyli mamy zazwyczaj jakieś procedury GET, gdzie jesteśmy w stanie sobie pobrać pewne informacje tak jak my to zrobiliśmy lub procedury POST, gdzie my jesteśmy w stanie pewne informacje na przykład do takiego systemu wrzucać, więc na pewno to trzeba rozgryźć być może też zrobimy jakiś dedykowany webinar pod to, niemniej jednak nawet dla mnie osoby nietechnicznej można dosyć szybko się w tym odnaleźć.

    Pojawiło się też pytanie, czy będzie dostępny link do nagrania, tak jak wspominałem, każdy z nich jest dostępny w trybie on-demand, więc wchodzicie sobie na naszą stronę zakładkę webinary, no i znajdziecie tam przegląd chyba już z ładnych kilkudziesięciu webinarów jeżeli jakiś temat Was zainteresuje, to po prostu zapraszam do korzystania.

    No dobra, widzę, że chyba kolejne pytania nie wpływają, jeżeli by się jeszcze jakieś pojawiło, to, To na szybko odpowiem także za dzisiaj bardzo serdecznie Wam dziękuję, zapraszam na kolejne webinary, zapraszam właśnie do śledzenia tych naszych socjalnych mediów, tutaj zawsze będę monotonny bo na pewno warto, no i cóż udanego końca tygodnia udanego weekendu i do usłyszenia do zobaczenia niebawem.

    Pozdrawiam, cześć.