Credit Manager Magazine 9/2024

EDUKACJA (analiza punktu odcięcia) oraz informatycznego (pozostałe etapy). Liniowy układ kroków jest uproszczeniem kolejności realizacji rzeczywistych działań. W praktyce identyfikacja modelu jest efektem iteracyjnego wykonywania kolejnych etapów. W pracy zostały uwzględnione cztery metody analizy danych. Podczas ich wyboru w pierwszej kolejności kierowano się powszechnością ich wykorzystania w praktycznych zastosowaniach. Drugim kryterium było zapewnienie odpowiedniej reprezentacji zarówno dla metod „białoskrzynkowych”, jak i tych działających na zasadzie czarnej skrzynki. Ostatnim czynnikiem wziętym pod uwagę podczas wyboru metod było wykorzystanie przynajmniej jednej metody ekonometrycznej. Na podstawie powyższych kryteriów wybrano cztery narzędzia analityczne: regresję logistyczną, będącą reprezentantem metod ekonometrycznych (oraz „białoskrzynkowych”), powszechnie wykorzystywaną w modelowaniu zagadnień biznesowych, w tym modelowaniu ryzyka kredytowego czy retencji klientów; drzewa klasyfikacyjne CART będące jedną z najpopularniejszych metod opartych na rekurencyjnym podziale przestrzeni zmiennych, pozwalającą na łatwą interpretację zbudowanych modeli; sieci neuronowe, przeżywające obecnie swój kolejny renesans, w badaniach wykorzystane zostaną jednokierunkowe sieci oparte na perceptronie wielowarstwowym; drzewa wzmacniane oparte na bibliotece XGBoost wykorzystywanej powszechnie zarówno do rozwiązywania rzeczywistych problemów biznesowych, jak i pozwalającej na zwycięstwa w szeregu konkursach machine learning . Uzyskane wyniki Na podstawie przeprowadzonych badań można stwierdzić, że czynniki wpływające na jakość modeli scoringowych działają na nie inaczej w i walidacyjny zawierające po 15% przypadków (przyjęto konwencję nazw zbiorów zgodną z programem TIBCO Statistica). Podział na próby oraz podział segmentacyjny został wykonany za pomocą przestrzeni roboczej programu Statistica. W kolejnych krokach zrealizowano czynności związane z czyszczeniem danych, przeprowadzono proces uzupełnienia braków danych oraz wykonano dodatkową kategoryzację zmiennych jakościowych. Kroki te nie były różnicujące dla przebiegu eksperymentu. Wymiarem uwzględnionym w eksperymencie było wykorzystanie (bądź też nie) zmiennych pochodnych. W procesie identyfikacji zmiennych pochodnych wykorzystano zarówno podejście eksperckie jak również podejście automatyczne oparte na dekompozycji drzew klasyfikacyjnych zbudowanych za pomocą losowego lasu. Kolejny krok to wstępna selekcja zmiennych przeprowadzona za pomocą filtrów ukierunkowanych (miary IV, GINI oraz ReliefF) oraz nieukierunkowanych (selekcja reprezentantów wspierana przez metodę PCA). Ostatnim krokiem poprzedzającym analizę było skalowanie zmiennych. Wykorzystano do tego trzy metody: zmienne przekształcone za pomocą standaryzacji logistycznej Pyle’a (Pyle), 1. zmienne WoE na podstawie decyli (WoE-Decyle), 2. zmienne WoE na podstawie algorytmu CART (WoE-CART). 3. Analizowane zbiory danych mogły się zatem różnić ze względu na fakt zastosowania w ich przypadku trzech rodzajów modyfikacji (w nawiasie podano liczbę wariantów): standaryzacja zmiennych (4), dodanie zmiennych pochodnych (2), segmentacja zbioru danych (2). Daje to 16 wariantów zbiorów danych możliwych do zbadania. W pracy badawczej porównaniu zostały poddane powyższe kombinacje dla wybranych metod analitycznych. Poszczególne warianty zbioru danych poddane zostały kolejnym etapom analizy przedstawionym na rysunku poniżej. www.creditmanagermagazine.pl WRZESIEŃ / SEPTEMBER 2024 18 przekroju różnych metod. Opisane w pierwszej części artykułu aspekty TIVHE przełożyły się w praktyce na pięć czynników, które zostały wybrane w sposób uwzględniający specyfikę wykorzystywanych metod analitycznych. W trakcie badań wzięto pod uwagę następujące kwestie: transformację zmiennych, wprowadzenie do modelu zmiennych pochodnych, optymalizację hiperparametrów, segmentację zbioru danych, agregację modeli. Wpływ analizowanych czynników na siłę predykcyjną budowanych modeli podsumowano w tabeli poniżej. Analizując uzyskane wyniki, można stwierdzić, że aspekt transformacji zmiennych okazał się znaczący jedynie w przypadku regresji logistycznej i miał dla tej metody relatywnie duży wpływ na jakość modelu. Wyniki dla tej metody przedstawiono na kolejnych wykresach. Na rysunku poniżej pokazano poziom AUC (pole powierzchni pod krzywą ROC) w przekroju trzech czynników uwzględnianych w badaniu. Wymiary segmentacja oraz zmienne pochodne zostały połączone (oś pionowa). Na analizowanym wykresie niższe wartości AUC oznaczone zostały kolorem żółtym i zielonym, a najwyższe kolorem brązowym. Selekcja zmiennych Optymalizacja hiperparametrów Agregacja modeli Ocena i wybór modelu Analiza punktu odcięcia Wdrożenie modelu Stosowanie modelu Monitorowanie modelu Reestymacja modelu W pracy przedstawiono etapy wyróżnione kolorem żółtym. Etapy, wyróżnione kolorem szarym nie były przedmiotem analizy. Są one ściśle związane z aspektem wdrożeniowym, wymagającym znajomości uwarunkowania biznesowego

RkJQdWJsaXNoZXIy MTU4MDI=