Credit Manager Magazine 9/2024

Procedura badawcza polegała na wykonaniu badań symulacyjnych oceniających wpływ determinant wpływających na jakość modeli migracji klientów oraz określenie relacji między nimi. Wykorzystując dostępne zbiory danych, zbudowano szereg modeli zgodnie z metodyką CRISP-DM. Podczas symulacji były brane pod uwagę następujące czynniki: T ransformation – sposób przygotowania predyktorów, dyskretyzacja, standaryzacja itp., I nteraction – fakt uzupełnienia zbioru danych o zmienne pochodne (derived variables), V ariables – sposób doboru zmiennych do modelu, H yperparameters – metody optymalizacji hiperparametrów, E nsembles – dodatkowe strategie uczenia: segmentacja, hybrydyzacja, agregacja modeli. W praktyce siła predykcyjna jest tylko jednym z wielu kryteriów, jakie są brane pod uwagę podczas budowy modelu. Do innych kryteriów można zaliczyć: łatwość interpretacji modelu, logiczność zależności opisywanych przez model, liczbę zmiennych w modelu oraz ich współliniowość zmiennych a także stabilność działania modelu w czasie czy wrażliwość na zmiany w strukturze populacji klientów. Nie bez znaczenia są także łatwość implementacji i utrzymania oraz szybkość oceny pojedynczego klienta. Jeśli chodzi o same miary siły predykcyjnej, to warto pamiętać, że nie ma jednej, „najlepszej”, powszechnie przyjętej miary oceniającej ten wymiar działania modelu, jednak do częściej wykorzystywanych należą niewątpliwie pole powierzchni pod krzywą ROC oraz miary z nią związane, a także miara Kołmogorowa-Smirnowa ( KS ) oraz przyrost (lift ). Podczas przeprowadzonego badania wybrano do oceny działania modelu pierwszą z wymienionych miar. Opis zrealizowanych prac Budowę modelu scoringowego zrealizowano zgodnie z paradygmatem budowy modeli data mining zakładającym wtórne wykorzystanie danych gromadzonych w wyniku realizacji standardowych procesów biznesowych. Implikuje to pracę na zastanych zbiorach danych zgromadzonych w systemach informatycznych przedsiębiorstw. W pracy wykorzystano doświadczenie autora w budowie modeli na rzeczywistych zbiorach danych klientów z wielu branż. Podstawą analizy był zbiór danych dostępny w domenie publicznej, dotyczący ryzyka rezygnacji z usług telefonii komórkowej, cechujący się wystarczającą złożonością oraz wolumenem. Analizowany zbiór danych zawierał 100 tys. obserwacji, a każda z nich dotyczyła jednego abonenta pewnej sieci telefonicznej Zbiór zawierał 173 zmienne z czego jedna pełniła w modelowaniu rolę zmiennej zależnej, 171 rolę zmiennych niezależnych, a 1 zmienna była identyfikatorem klienta. Spośród potencjalnych predyktorów 55 to predyktory jakościowe, a 116 to predyktory ilościowe. Modele scoringowe to narzędzia powszechnie wykorzystywane przez instytucje finansowe oraz inne przedsiębiorstwa do wsparcia procesów związanych z ryzykiem kredytowym, ryzykiem operacyjnym a także w obszarze zarządzania relacjami z klientem. Modele mogą być budowane za pomocą metod ekonometrycznych oraz metod uczenia maszynowego. Sam proces budowy modelu jest złożony, składa się z wielu kroków, które mają zasadniczy wpływ na jego końcową postać oraz jakość. Samo pojęcie jakości modelu bywa różnie interpretowane w zależności od rodzaju realizowanego zadania a także uwarunkowań biznesowych. Co determinuje siłę predykcyjną modelu scoringowego? Grzegorz Migut Dyrektor Działu Technicznego w StatSoft Polska „Nie ma jednej, ‘najlepszej’, powszechnie przyjętej miary oceniającej siłę predykcyjną modelu scoringowego. W praktyce siła predykcyjna jest tylko jednym z wielu kryteriów, jakie są brane pod uwagę podczas budowy modelu.” Aspekty TIVHE zostały wzięte pod uwagę w sposób uwzględniający specyfikę wykorzystywanych metod analitycznych. Innymi czynnikami mogącymi wykazywać wpływ na wyniki modelowania są niewątpliwie zmienne zakłócające oraz sposób uzupełnienia braków danych. Te wymiary nie były rozważane podczas realizacji analizy. Przed wykonaniem docelowej analizy podjęto kroki mające na celu przygotowanie zbioru do analizy. Zbadano poziom kompletności zmiennych, oceniono rozkłady a także wyeliminowano zmienne puste oraz nie wykazujące zmienności. W kolejnych krokach wykonano segmentację zbioru danych oraz dokonano losowego podziału każdego ze zbiorów danych na trzy podzbiory; uczący, który stanowił około 70% przypadków oraz testowy www.creditmanagermagazine.pl WRZESIEŃ / SEPTEMBER 2024 16 EDUKACJA

RkJQdWJsaXNoZXIy MTU4MDI=