Rozdział 13 Proces budowy modelu scoringowego

13.1 Lista kontrolna projektu uczenia maszynowego

Według Aureliéna Gerona (2020) projekt uczenia maszynowego składa się z ośmiu etapów:

Określenie problemu i przeanalizowanie go w szerszej perspektywie.
Pozyskanie danych.
Analiza danych w celu wykrycia dodatkowych informacji.
Przygotowanie danych w sposób uwidaczniający wzorce wykorzystywane przez algorytmy uczenia maszynowego.
Sprawdzenie wielu modeli i stworzenie krótkiej listy najwydajniejszych z nich.
Dostrojenie modeli i połaczenie ich w zespoły uzyskujące jeszcze lepsze wyniki.
Prezentacja rozwiązania.
Uruchomienie, monitorowanie i utrzymywanie systemu.

Ta ogólna lista może być oczywiście dowolnie dostosowywana do potrzeb konkretnego projektu.

W przypadku modeli scoringowych etap pierwszy, określenie i analiza problemu obejmuje na pewno:

dokładne zdefiniowanie celu,
określenie planowanego sposobu wykorzystania modelu,
określenie metod oceny modelu i minimalnych wymagań dotyczących jego jakości,
zidentyfikowanie istniejących rozwiązań, które mają być zastąpione lub uzupełnione.

Na etapie pozyskania danych należy:

zidentyfikować źródła danych,
sprawdzić możliwość ich uzyskania i korzystania z nich (również z prawnego punktu widzenia),
zebrać dane w jednym miejscu, w odpowiednim formacie,
dane wrażliwe usunąć lub zamaskować, aby usunąć ryzyko ich ujawnienia,
wydzielić zbiór testowy,
ustalić możliwość weryfikacji out of period).

Przygotowanie danych obejmuje:

utworzenie kopii danych wsadowych przed ich przekształcaniem,
tworzenie zmiennych pochodnych poprzez transformację, łączenie czy wydobywanie danych (np. dzień tygodnia z daty),
kubełkowanie,
przygotowanie funkcji przekształcających dane (ze względu na ich późniejsze wykorzystanie do zastosowania produkcyjnego, powtórnego przetwarzania, nowych danych czy nowych projektów oraz ze względu na możliwość potraktowania ich jako hiperparametrów)
usunięcie zmiennych bez wartości predykcyjnej.