Rozdział 13 Proces budowy modelu scoringowego

13.1 Lista kontrolna projektu uczenia maszynowego

13.1.1 Lista Aureliéna Gerona

Według Aureliéna Gerona (2020) projekt uczenia maszynowego składa się z ośmiu etapów:

  1. Określenie problemu i przeanalizowanie go w szerszej perspektywie.

  2. Pozyskanie danych.

  3. Analiza danych w celu wykrycia dodatkowych informacji.

  4. Przygotowanie danych w sposób uwidaczniający wzorce wykorzystywane przez algorytmy uczenia maszynowego.

  5. Sprawdzenie wielu modeli i stworzenie krótkiej listy najwydajniejszych z nich.

  6. Dostrojenie modeli i połaczenie ich w zespoły uzyskujące jeszcze lepsze wyniki.

  7. Prezentacja rozwiązania.

  8. Uruchomienie, monitorowanie i utrzymywanie systemu.

Ta ogólna lista może być oczywiście dowolnie dostosowywana do potrzeb konkretnego projektu.

13.1.2 Perspektywa modeli scoringowych

W przypadku modeli scoringowych etap pierwszy, określenie i analiza problemu obejmuje na pewno:

  • dokładne zdefiniowanie celu,

  • określenie planowanego sposobu wykorzystania modelu,

  • określenie metod oceny modelu i minimalnych wymagań dotyczących jego jakości,

  • zidentyfikowanie istniejących rozwiązań, które mają być zastąpione lub uzupełnione.

Na etapie pozyskania danych należy:

  • zidentyfikować źródła danych,

  • sprawdzić możliwość ich uzyskania i korzystania z nich (również z prawnego punktu widzenia),

  • zebrać dane w jednym miejscu, w odpowiednim formacie,

  • dane wrażliwe usunąć lub zamaskować, aby usunąć ryzyko ich ujawnienia,

  • wydzielić zbiór testowy,

  • ustalić możliwość weryfikacji out of period).

Przygotowanie danych obejmuje:

  • utworzenie kopii danych wsadowych przed ich przekształcaniem,

  • tworzenie zmiennych pochodnych poprzez transformację, łączenie czy wydobywanie danych (np. dzień tygodnia z daty),

  • kubełkowanie,

  • przygotowanie funkcji przekształcających dane (ze względu na ich późniejsze wykorzystanie do zastosowania produkcyjnego, powtórnego przetwarzania, nowych danych czy nowych projektów oraz ze względu na możliwość potraktowania ich jako hiperparametrów)

  • usunięcie zmiennych bez wartości predykcyjnej.