Credit Manager Magazine 9/2024
EDUKACJA Grzegorz Migut Posiada wieloletnie doświadczenie w projektowaniu i implementacji aplikacji dostosowujących systemy Statistica, w realizacji projektów doradczych i wdrożeniowych w obszarze ryzyka kredytowego i operacyjnego (w tym budowa modeli skoringowych), w realizacji projektów w obszarze analitycznego CRM (segmentacja, skoring marketingowy). Jest głównym projektantem aplikacji wspierającej budowę kart skoringowych w Statistica. Brał udział we wdrożeniach rozwiązań StatSoft Polska m.in. w Banku Millennium, SKOK Stefczyka, Axcess Financial Poland, TUiR Warta, BEST SA i wielu innych instytucjach (nie tylko finansowych). Budował modele skoringowe dla Invest- Banku, On-Line Investments & Loans, grupy PRESCO. Prowadzi szkolenia z budowy modeli skoringowych na potrzeby analiz związanych z ryzykiem kredytowym i innych obszarów biznesowych. WRZESIEŃ / SEPTEMBER 2024 www.creditmanagermagazine.pl 19 podstaw do wyciągania jednoznacznych, ogólnych wniosków na temat uniwersalności przedstawionych zależności. Dodatkowa pogłębiona analiza innych zbiorów danych w celu potwierdzenia obserwacji poczynionych w niniejszej pracy może być kierunkiem nowych dociekań naukowych w tym zakresie. Niemniej jednak uzyskane wyniki, a także kolejne kroki, które prowadziły do ich uzyskania, mogą przyczynić się do identyfikacji strategii budowy modeli najczęściej prowadzących do uzyskania pożądanych przez badacza rezultatów. Autor wyraża nadzieję, że przykład analizy przedstawiony w pracy może być wartościową wskazówką dla osób zajmujących się budową modeli scoringowych. Analiza rysunku obok pozwala na zaobserwowanie kluczowego wpływu segmentacji na uzyskane wyniki. Naniesione na wykresie powierzchnie mają charakter poglądowy i w pewnym stopniu ułatwiają interpretację występujących prawidłowości. Modele hybrydowe oparte na segmentacji zapewniają wyższą jakość predykcyjną w przekroju wszystkich wariantów analizy. Dla pozostałych metod wpływ segmentacji był neutralny bądź wręcz pogarszający uzyskane wyniki. Dodanie zmiennych pochodnych było jedynym czynnikiem wpływającym pozytywnie na wyniki wszystkich analizowanych metod. Podobny efekt, z pominięciem regresji logistycznej, dla której nie był on rozważany, zauważono dla optymalizacji hiperparametrów. Segmentacja zbioru danych okazała się czynnikiem poprawiającym jedynie jakość modeli „białoskrzynkowych”. W przypadku regresji logistycznej jej wpływ był wręcz dominujący w przekroju badanych czynników. Dla modeli „czarnoskrzynkowych” stwierdzono negatywny wpływ segmentacji na siłę predykcyjną. Agregacja modeli okazała się czynnikiem poprawiającym jakość wszystkich modeli z wyjątkiem regresji logistycznej. W przypadku tego modelu wpływ agregacji okazał się neutralny, tj. nie poprawiał ani nie obniżał trafności predykcji modelu. Aspektem wartym odnotowania jest porównanie działania poszczególnych metod na analizowanym zbiorze. Uzyskane wyniki przedstawiono na rysunku poniżej. Na jego podstawie można stwierdzić, że najwyższą siłą predykcyjną cechowały się modele budowane za pomocą drzew wzmacnianych. Regresja logistyczna oraz drzewa CART uzyskały porównywalne, słabsze wyniki. W środku zestawienia znajduje się model sieci neuronowych. Należy dodatkowo zwrócić uwagę na fakt, że modele zwycięskie w swojej klasie narzędzi analitycznych poddano dodatkowej ocenie na walidacyjnym zbiorze danych. Nie stwierdzono znaczących różnic w działaniu zbudowanych modeli w porównaniu ze zbiorem testowym, co może świadczyć o braku nadmiernego dopasowania modeli. Wnioski Na zakończenie należy stwierdzić, że do uzyskanych wyników należy podchodzić z należytą ostrożnością. Analiza jednego, choć złożonego zbioru danych nie daje Literatura Chollet F. [2019], Deep Learning Praca z językiem Python i biblioteką Keras , Helion, Gliwice. Migut G. [2020], Assessment of the Influence of Dependent Variable Distribution on Selected Goodness of Fit Measures Using the Example of Customer Churn Model , „Econometrics”, 24(1), s. 51–70. Migut G. [2024], Budowa skutecznych modeli Data Mining na przykładzie utrzymania klientów , EduLibri, Kraków [pozycja w przygotowaniu]. Migut G., Jakubowski J., Stout D. [2014], TUTORIAL Developing Scorecards Using STATISTICA Scorecard , StatSoft Polska/StatSoft Inc., Kraków/Tulsa. Pyle D. [1999], Data preparation for data mining , Morgan Kaufmann Publishers, San Francisco.
Made with FlippingBook
RkJQdWJsaXNoZXIy MTU4MDI=