Wstęp do analizy danych w Pythonie
Python

Python podstawy analizy danych

W artykule znajdziesz informacje, jakich narzędzi oraz umiejętności potrzebujesz, aby analizować dane w Pythonie i tworzyć modele predykcyjne.

Jest to pierwsza część naszego przewodnika po obszarze programowania i analizy z wykorzystaniem języka Python. W następnych częściach będziemy prezentować kolejne tematy dotyczące analizowania danych oraz uczenia maszynowego i sieci neuronowych.

Śledząc nasze wpisy dowiesz się na czym polega eksploracja danych oraz ich przetwarzanie i analiza. Zobaczysz jak krok po kroku przebiega analiza danych w Pythonie oraz jakie miejsce zajmuje Python w obszarze data science.

Etapy analizy danych

Analiza danych przy użyciu Pythona lub innego języka programowania obejmuje kilka etapów. Do najważniejszych z nich należą:

  • Określenie celu biznesowego – ustalenie, co chcemy osiągnąć w procesie analizy oraz jakich narzędzi będziemy używać np. chcemy stworzyć model do analizowania, w jaki sposób i w jakiej kolejności należy prezentować produkty w sklepie
  • Zebranie danych – zgromadzenie danych, które chcemy analizować. Dane możemy pozyskać z baz danych, ze skoroszytów Excela, z plików tekstowych lub z innych źródeł np. ze stron internetowych.
  • Eksploracja danych – aby otrzymać wartościowe wyniki, powinniśmy posiadać dobrej jakości dane. Analizę powinniśmy więc zacząć od zbadania zbioru danych i sprawdzenia np.:
    • jakiego rodzaju dane posiadamy (numeryczne czy kategoryczne)
    • czy nie ma braków w danych np. czy płeć i wiek dla wszystkich klientów są uzupełnione
    • czy w danych są elementy (obserwacje) odstające (nietypowe) np. nietypową obserwacją może być dziecko posiadające wzrost 190 cm w grupie dzieci ze średnią wartością wzrostu poniżej 130 cm.
  • Wyznaczenie podstawowych statystyk – sprawdzenie jaka jest np. najniższa i najwyższa kwota kredytu udzielanego klientom w danym okresie, jaki jest rozkład płci w zbiorze danych (ile jest kobiet a ilu mężczyzn). Przy wyznaczaniu statystyk bardzo pomocna jest wizualizacja danych za pomocą np. wykresów.
  • Wyznaczenie korelacji zmiennych – sprawdzenie, czy pomiędzy poszczególnymi zmiennymi występują zależności np. czy wysokość wynagrodzenia zależy od stażu pracy, czy opóźnienia w spłacie pożyczek zależą od wysokości wynagrodzenia.
  • Przygotowanie danych do budowania modeli – uzupełnienie braków danych, ujednolicenie miar np. jeśli w zbiorze danych znajdują się kilogramy i funty zamieniamy kilogramy na funty lub odwrotnie
  • Dobór odpowiednich modeli – przygotowanie listy modeli, które możemy wykorzystać do rozwiązania naszego problemu. Zbudowanie modeli i ich przetestowanie.

W dalszej części artykułu wyjaśniam pojęcia, które się tutaj pojawiły np. na czym polega wyznaczanie korelacji zmiennych.

Rodzaje danych używanych w analizie

Jako analityk danych będziesz pozyskiwał i przetwarzał informacje z różnych źródeł. Nie zawsze będą to uporządkowane dane, które od razu można wykorzystać do przeprowadzenia analiz.

Najczęściej w analizie spotykamy się z następującymi rodzajami danych:

  • dane uporządkowane np. dane z baz danych, hurtowni, pliki .csv, pliki Excel
  • dane częściowo uporządkowane np. maile, z których możemy odczytać temat wiadomości, datę i treść
  • dane nieuporządkowane np. teksty ze stron internetowych, audio lub wideo

Obecnie firmy mają do dyspozycji duże zbiory danych, które możemy przetworzyć w użyteczne do analizy informacje. Dlatego eksploracja danych, umiejętności ich zweryfikowania i uzupełnienia są bardzo ważnym elementem kompetencji analityka danych.

Narzędzia i biblioteki do analizy danych

Niezbędnym narzędziem pracy z danymi, którym powinien umieć posługiwać się analityk jest biblioteka Anaconda.

Platforma Anaconda

Anaconda to specjalny, bezpłatny instalator języka Python przygotowany dla systemów operacyjnych Windows, LinuxMacOS, który zawiera interpreter Pythona. Posiada on również:

  • narzędzia programistyczne np. Spyder, Jupyter Notebook
  • pulę popularnych, powszechnie używanych bibliotek np. Pandas, NumPy, Matplotlib, scikit-learn, SciPy

Narzędzia te instalowane są podczas instalacji Anacondy.

W dalszej części artykułu przedstawię zbiór danych, który zweryfikujemy i przeanalizujemy. Aby móc razem ze mną przeprowadzać analizy, pobierz pakiet Anaconda Instalator pakietu Anaconda i zainstaluj go.

Python - instalator pakietu Anaconda

Pełną instrukcję instalacji Anacondy znajdziesz w artykule Instrukcja instalacji pakietu Anaconda

Spyder

Spyder to środowisko do uruchamiania i testowania programów napisanych w języku Python. Środowisko to instaluje się w ramach pakietu Anaconda.

Aby uruchomić program kliknij menu Start, wpisz Spyder i wybierz aplikację Spyder z listy:

Python - program Spyder

Spyder jest edytorem tekstu zintegrowanym z konsolą Pythona. Umożliwia on wyświetlanie kodu programu oraz generowanych za pomocą kodu grafik i wykresów.

Python - okno edytora Spyder

Skróty klawiszowe w Spyder:

  • Ctrl + Enter – uruchamia kod w komórce
  • Shift + Enter – uruchamia kod w komórce i przechodzi do następnej komórki
  • Ctrl + I – ładuje pomoc dla bieżącej funkcji, na której stoi kursor
  • F9 – uruchamia bieżącą linię lub bieżący zaznaczony tekst

W edytorze Spyder zmianę wielkości czcionki można uzyskać przez kliknięcie klawisza Ctrl i pokręcenie rollerem myszki.

Uwaga: w programie Spyder bezpośrednio po instalacji, nie daje się wpisać litery „ś” używając skrótu klawiaturowego Alt+S. Aby uzyskać literę „ś” można:

  • użyć kombinacji klawiszy klawiszy: ~ + s
  • wpisać kod litery ś na klawiaturze numerycznej: L-alt + 0156

Można również skorygować skróty klawiszowe w Tools | Preferences na inną kombinację niż Ctrl+Alt+S (ta kombinacja koliduje z Alt+S):

Python Spyder - zmiana ustawień skrótów klawiaturowych

Jupyter Notebook

Jupyter Notebook to aplikacja webowa, która pozwala edytować pliki *.ipynb zawierające komórki z dokumentacją (język Markdown) oraz kod języka Python (Code).

Notatnik Jupyter umożliwia tworzenie i udostępnianie w czasie rzeczywistym dokumentów zawierających kod, równania, wizualizacje i tekst narracyjny.

Jupyter Notebook przykład

W artykule przedstawiam, w jaki sposób przetwarzać i analizować dane przy użyciu programu Spyder. Możesz jednak przeprowadzać analizy w notatniku Jupyter.

Jupyter jest bardzo przydatny, jeśli oprócz kodu, chcesz robić notatki. Możesz w nim umieszczać kod programu Python, wynik działania programu i opis.

Biblioteki Pythona do analizy danych

Poniżej przestawię krótko biblioteki, które będą Ci potrzebne, jeśli zdecydujesz się analizować dane z wykorzystaniem języka Python.

Biblioteka Pandas

Pandas to pakiet, którego najczęściej używamy do zadań związanych z analizą danych i obszarem data science. Jest on zbudowany na bazie pakietu NumPy, który zapewnia obsługę tablic wielowymiarowych.

Biblioteka Pandas operuje na danych w postaci tabeli zwanej ramką danych (ang. DataFrame) . Umożliwia ona wczytanie danych tabelarycznych z różnych źródeł np. z pliku *.csv, z tabeli bazy danych SQL, z arkusza kalkulacyjnego Excel.

Całość danych Pandas przechowuje w pamięci RAM. Jeśli zbiór nie mieści się w pamięci, musi być podzielony na mniejsze fragmenty.

Biblioteka NumPy

NumPy to, podobnie jak Pandas, jeden z elementów pakietu Anaconda. Pakiet ten jest wykorzystywany do wykonywania obliczeń naukowych w Pythonie. Dostarcza obiekty typu tablice, których można używać do wykonywania operacji matematycznych.

Tablica to zbiór wartości, który może mieć jeden lub więcej wymiarów.

Biblioteka Matplotlib

Matplotlib służy do wykonywania rysunków graficznych i wizualizacji danych. Celem tego pakietu jest umożliwienie tworzenia rysunków o wysokiej jakości, których można używać w publikacjach naukowych.

Zawiera wykresy, za pomocą których możemy graficznie zaprezentować np. rozkład zmiennych w analizowanym zbiorze danych.

Biblioteka scikit-learn

Jest to biblioteka uczenia maszynowego dla języka Python. Zawiera ona algorytmy, takie jak maszyna wektorów pomocniczych, lasy losowe, algorytm k-najbliższych sąsiadów używane do budowania modeli predykcyjnych.

Scikit-learn obsługuje pakiety numeryczne i naukowe Pythona, takie jak NumPy i SciPy.

Biblioteka SciPy

SciPy to naukowa biblioteka obliczeniowa języka Python zbudowana na pakiecie NumPy. Wykorzystywana jest głównie do rozwiązywania problemów matematycznych, naukowych, inżynieryjnych i technicznych. Pozwala użytkownikom manipulować danymi i wizualizować je za pomocą poleceń Pythona.

Uczenie maszynowe i modele predykcyjne

Analiza danych w Pythonie nie ogranicza się do badania zgromadzonych informacji historycznych. Możesz zrobić znacznie więcej. Znając język Python masz możliwość poszerzenia analiz o obszar uczenia maszynowego i budowania modeli predykcyjnych. Za ich pomocą, na podstawie danych historycznych, możesz spróbować przewidzieć przyszłe trendy np.:

  • określić, jakie produkty prezentować na stronie internetowej klientom w zależności od ich wieku, płci i zainteresowań
  • sprawdzić, jakie jest ryzyko dla poszczególnych klientów, że nie spłacą zaciągniętego kredytu

Algorytmy uczenia maszynowego pozwalają wyszukiwać wzorce i zależności w dużych zestawach danych i na ich podstawie próbować przewidzieć zachowania w przyszłości.

Jednym z pierwszych projektów, w którym wykorzystane zostało uczenie maszynowe było stworzenie filtrów spamu. Projekt przebiegał następująco:

  • oznaczanie maili, które są spamem np. według słów kluczowych, tematu maila, autorów maila
  • zbudowanie modelu klasyfikacji i nauka modelu – do modelu wprowadzone zostały maile zarówno te, które mają etykietę spam jak i te, które nie są spamem. Na podstawie oznaczeń model uczył się, które maile klasyfikować do spamu.
  • test modelu – do modelu wprowadzone zostały nowe maile, których model jeszcze nie widział. Model przypisał do każdego maila prawdopodobieństwo, czy jest on spamem. Jeśli prawdopodobieństwo było wysokie, mail trafiał do spamu.

Algorytmy do tworzenia modeli predykcyjnych

Analiza danych jest potrzebna w firmach m.in. do zrozumienia działania klientów, podejmowania decyzji biznesowych, planowania budżetów. Data science pomaga firmom np. w dobieraniu i oferowaniu klientom właściwych produktów.

Wśród najpopularniejszych algorytmów używanych przez analityków do tworzenia modeli predykcyjnych są następujące algorytmy:

  • regresja liniowa
  • regresja logistyczna
  • drzewa decyzyjne i lasy losowe
  • klasyfikacji binarna
  • klasyfikacja wieloklasowa

W kolejnych artykułach przyjrzymy się poszczególnym algorytmom i zaprezentujemy sposób ich działania. Teraz przeprowadzimy prostą analizę eksploracyjną, w której wczytamy zbiór danych biblioteką Pandas i zweryfikujemy zawarte w nim informacje.

Analiza eksploracyjna danych

Pobieranie zbioru danych

Pobierz zestaw danych Pima Indian Diabetes Database z Kaggle Zestaw danych diabetes. Plik do pobrania nazywa się diabetes.csv.

Aby pobrać plik musisz założyć konto w portalu Kaggle i zalogować się do niego. Założenie konta jest bezpłatne. Rodzaj licencji przy zbiorach danych należy sprawdzać.

Zbiór danych pochodzi z National Institute of Diabetes and Digestive and Kidney Diseases. Zawiera on tylko kobiety w wieku co najmniej 21 lat pochodzące z plemienia Indian Pima.

Celem analizy jest przewidywanie, czy pacjent ma cukrzycę, czy nie, w oparciu o pomiary diagnostyczne zawarte w zbiorze.

Zapisz pobrany plik na dysku w katalogu Pobrane (u mnie jest to lokalizacja C:\Users\Mambo12\Downloads) lub w dowolnym innym miejscu.

Import modułu Pandas

Aby wczytać zbiór danych można użyć pakietu Pandas języka Python. Został on zainstalowany w momencie instalacji środowiska Anaconda.

Otwórz program Spyder i wpisz poniższy kod, aby sprawdzić, czy masz zainstalowany moduł Pandas.

import pandas as pd
print(pd.__version__)

Po wklejeniu kodu do edytora Spyder, uruchom go przyciskiem F5 lub przyciskiem z zielonym trójkątem Run file. Program wykona się w konsoli Pythona po prawej stronie.

Spyder uruchamianie kodu

Jeśli pojawi się numer wersji np. 1.2.4, masz zainstalowaną bibliotekę Pandas.

Wczytanie danych

Wczytaj pobrany plik diabetes.csv. Aby to zrobić wpisz w Spyder poniższy kod:

#%%
import pandas as pd
df = pd.read_csv('diabetes.csv')

Aby otworzyć nową komórkę kodu wpisz znak #%%. Jeśli chcesz uruchomić tylko kod z bieżącej komórki kliknij kombinację klawiszy Ctrl + Enter.

Jeśli pojawi się poniższy błąd, podaj pełną ścieżkę do pliku lub zmień katalog roboczy, w którym zapisany został plik.

FileNotFoundError: [Errno 2]
No such file or directory: 'diabetes.csv'

Ja podam pełną ścieżkę

import pandas as pd

path = (r'c:\Users\Mambo12\Documents\Avendi'
        r'\63_blog\Data_csv\diabetes.csv')
df = pd.read_csv(path)

Nazwa katalogu roboczego jest wyświetlana w Spyderze polu tekstowym w prawym górnym rogu.

Program Spyder wyświetlanie nazwy katalogu

Dane wczytujemy do obiektu, który w bibliotece Pandas nazywa się ramką danych (ang. DataFrame).

Sprawdzenie ramki danych

Po wczytaniu danych do ramki Pandas, sprawdzamy początkowe rekordy z ramki:

Aby uruchomić pojedynczą linijkę w Spyderze, ustaw kursor myszy na tej linii i naciśnij klawisz funkcyjny F9. Wynik wyświetli się w konsoli.

df.head()

Spyder - Python ramka danych biblioteki Pandas

Ramka DataFrame zawiera zbyt dużą liczbę kolumn aby pokazać je w konsoli.

Całą ramkę danych można podejrzeć graficznie z poziomu Spydera. Aby to zrobić zakładce Variable explorer kliknij podwójnie w zmienną df.

Spyder - Python wyświetlanie danych z ramki Pandas

Analiza zmiennych

Po wczytaniu zbioru danych do ramki będziemy mieć w ramce 9 różnych zmiennych mających związek ze zdrowiem pacjentów.

  • Pregnancies: liczba przebytych przez pacjentkę w przeszłości ciąż
  • Glucose: poziom glukozy
  • Blood Pressure: ciśnienie krwi
  • Skin Thickness: grubość skóry pacjenta w mm
  • Insulin: poziom insuliny u pacjenta
  • BMI: BMI pacjenta
  • DiabetesPedigreeFunction: historia cukrzycy u krewnych
  • Age: wiek
  • Outcome: czy pacjent ma cukrzycę (0=nie, 1=tak)

W zbiorze posiadamy zmienne numeryczne i kategoryczne.

Zmienne numeryczne są miarą wielkości, wartość liczby ma numeryczne znaczenie. W naszym zestawie wszystkie zmienne oprócz Outcome są numeryczne.

Zmienne kategoryczne (zmienne nominalne) mają dwie lub kilka kategorii, do których można przypisać zmienną. W zestawie tylko zmienna Outcome jest kategoryczna. Posiada ona 2 kategorie: „tak” (1) i „nie” (0).

W kolejnym kroku możesz zrobić przegląd szczegółowych typów zmiennych:

df.info()

Poniżej wynik sprawdzenia zbioru:

RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB

Z analizy wynikają następując informacje:

  • ramka danych zajmuje 54KB pamięci RAM
  • jest w niej 9 zmiennych
  • każda zmienna jest typu int64 lub float64
  • w zbiorze mamy 768 obserwacji
  • nie mamy wartości brakujących NULL, czyli wszystkie zmienne są dostępne dla każdej obserwacji

Int64 to integer czyli liczba całkowita np. 25. Float64 natomiast to liczba zmiennoprzecinkowa np. 25,45.

Obserwacja to pojedynczy obiekt w analizowanym zbiorze danych. W moim przykładzie obserwacją jest pojedyncza osoba.

Wizualizacja zmiennych

Python oferuje kilka bibliotek, za pomocą których masz możliwość zaprezentowania danych w formie graficznej. Do najpopularniejszych należą MatplotlibSeaborn.

Graficzna wizualizacja danych na wykresach ułatwia ich sprawdzenie i zrozumienie.

Sprawdzamy rozkład wartości dla zmiennej Pregnancies:

df['Pregnancies'].plot.hist()

Spyder Python wizualizacja zmiennej Pregnancies

Na wykresie widać, że najmniejsza wartość wynosi 0 a największa 17.

Aby po uruchomieniu kodu zobaczyć wykres w konsoli programu Spyder kliknij zakładkę Plots w konsoli po prawej stronie.

Histogram rysowany funkcją plot.hist() z modułu Matplotlib ma słupki (serie danych), których granice niekoniecznie wypadają na wartościach całkowitych.

Jeśli chcemy wymusić całkowite granice możemy użyć biblioteki Seaborn do wygenerowania wykresu. Poniżej wykres wygenerowany za pomocą funkcji displot z modułu Seaborn.

import seaborn as sns
sns.displot(df, x="Pregnancies", discrete=True);

Python Seaborn wizualizacja zmiennej Pregnancies

Wizualizacja zmiennej Outcome

Zmienna outcome zawiera informację, czy dana pacjentka ma cukrzycę, czy nie. Na wykresie widać, że ponad 50% pacjentek nie ma cukrzycy.

df['Outcome'].value_counts().plot.pie()

Python wizualizacja zmiennej Outcome

Wizualizacja zmiennych Poziom glukozy i Insulina

Na wykresie widać, że wielu pacjentów ma poziom insuliny na poziomie zero. Poziom glukozy natomiast zmienia się w szerokim zakresie.

df.plot.scatter(x='Glucose', y='Insulin')

Python wizualizacja zmiennych Insulin i Glucose

Wizualizacja zmiennych Outcome i Age

Aby zrobić rysunek, w jaki sposób zmienna Outcome zależy od zmiennej Age, użyjemy funkcji catplot() z pakietu Seaborn. Funkcja ta umożliwia narysowanie wykresu pudełkowego (ang. boxplot):

sns.catplot(x="Outcome", y="Age", kind="box", data=df)

Python wizualizacja zmiennych Age i Outcome

Wykres pudełkowy zawiera:

  • pionową oś liczbową, na której odmierzamy wartości badanej cechy. W przykładzie na osi pionowej prezentujemy wiek (ang. Age)
  • pudełko – dolna granica pudełka wyznacza wartość kwartyla 1, a górna granica wartość kwartyla 3
  • wąsy znajdują się na zewnątrz pudełka. Wyznaczamy je według następującego wzoru:

    Min = Q1 − 1.5 ∗ IQR

    Max = Q3 + 1.5 ∗ IQR

Do utworzenia wykresu potrzebujemy:

  • kwartyl 1 (Q1) – wartość, poniżej której znajduje się jedna czwarta wszystkich obserwacji
  • medianę (M) – połowa wszystkich obserwacji znajduje się poniżej tej wartości a połowa powyżej. Mediana nie musi znajdować się na środku pudełka. Mediana wieku dla osoby cierpiącej na cukrzycę wynosi 35 lat.
  • Q3- kwartyl 3 – wartość, poniżej której jest 75 procent wszystkich obserwacji
  • IQR- rozstęp ćwiartkowy – jest to różnica pomiędzy trzecim a pierwszym kwartylem. Wyliczamy ją według wzoru IQR = Q3- Q1

Wartości, które znajdują się poniżej Min lub powyżej Max to wartości odstające.

Wartości odstające oznaczają takie, które w znaczący sposób odbiegają od pozostałych wartości. W naszym przykładzie większość osób, które chorują na cukrzycę to ludzie po 60 roku życia. Osoby powyżej 60 roku życia, które nie mają cukrzycy oznaczone są na wykresie jako wartości odstające.

Macierz korelacji

Na poniższym wykresie sprawdzamy korelację pomiędzy poszczególnymi zmiennymi. Rysujemy go za pomocą funkcji heatmap() pakietu Seaborn. Jest to macierz korelacji, która pozwala lepiej zaobserwować i zrozumieć korelacje zachodzące pomiędzy poszczególnymi zmiennymi w zbiorze danych.

sns.heatmap(df.corr(), cmap='Spectral',
center=0, vmin=-1, vmax=1)

Python macierz korelacji

Rodzaje korelacji

Korelacja między zmiennymi może być dodatnia lub ujemna.

Korelacja dodatnia oznacza, że jak wartość jednej zmiennej zwiększa się, wartość drugiej też ulega zwiększeniu np. jeśli zwiększa się wiek dziecka zwiększa się też jego wzrost.

Korelacja ujemna oznacza, że jak wartość jednej zmiennej zmniejsza się, zmniejsza się też wartość innej zmiennej.

W analizowanym zbiorze widać, że jest wyraźna dodatnia korelacja pomiędzy zmiennymi Age i Pregnancies. Im starsza jest osoba tym więcej razy była w ciąży.

Dodatnia korelacja jest również pomiędzy zmiennymi BMI i Glucose. Wraz ze zwiększaniem się wartości BMI rośnie też wartość glukozy.

Analiza danych – szkolenia

Jeśli zainteresowała Cię analiza danych i chciałbyś samodzielnie lub z nami nauczyć się programowania w Pythonie oraz poznać obszar data science, przejrzyj zakres naszych szkoleń. Dowiesz się, jakie umiejętności będą Ci potrzebne oraz w jakiej kolejności poznawać poszczególne tematy.

Poniżej znajdziesz szkolenia, w ramach których uczymy naszych studentów języka Python, pokazujemy na czym polega prawidłowe przetwarzanie danych oraz ich eksploracja i analiza.

  • Programowanie w języku Python od podstaw – jest to wprowadzenie do języka Python. W trakcie 16 godzin zajęć poznasz podstawowe struktury języka takie jak zmienne, instrukcje warunkowe, pętle i funkcje.
  • Analiza i przetwarzanie danych w języku Python – jest to kurs, na którym podczas 24 godzin nauki doskonale poznasz pakiety biblioteki Anaconda oraz dostępne dla tego środowiska narzędzia.
  • Python uczenie maszynowe – na tym kursie nauczysz się tworzenia modeli predykcyjnych. Będziesz miał możliwość pracy na dużych zbiorach danych. W trakcie 24 godzin nauki przejdziesz samodzielnie przez wszystkie etapy analizy danych.

Podsumowanie

Python jest obecnie jednym z najpopularniejszych języków programowania używanych w analizie danych. Dostępne w nim biblioteki są ważnym narzędziem pracy, którym powinien umieć posługiwać się analityk danych.

Python umożliwia pobieranie danych i ich analizę na wielu płaszczyznach. Możesz jedynie wczytać dane i przeprowadzić ich analizę eksploracyjną (ang. Exploratory data analysis). Robiąc to poznasz dane historyczne i dowiesz się np.

  • jakie pożyczki były najczęściej wybierane w banku
  • jaki jest profil klientów (wiek, płeć, dochody), którzy wybierali poszczególne rodzaje pożyczek
  • jaki jest profil klientów, którzy nie dokonywali terminowych spłat pożyczek.

Możesz jednak prowadzić głębsze analizy i wykorzystać posiadane dane do zbudowania modelu predykcyjnego, który umożliwi Ci np. lepsze dopasowywanie produktów do potrzeb klientów, rozpoznawanie obrazów lub pisma.

Umiejętność analizy, przetwarzania i wizualizacji danych to kompetencje, które są obecnie mocno poszukiwane na rynku pracy. Jeśli zdecydujesz się na rozwój kariery w branży IT na stanowisku analityka danych, nie powinieneś mieć kłopotu ze znalezieniem ciekawej pracy z atrakcyjnym wynagrodzeniem.

Rafał Lelusz

Programista Python, C#
Udostępnij wpis: udostępnij Facebook udostępnij Linkedin udostępnij e-mail

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Podobne artykuły z kategorii: Python

Może Cię zainteresować