Презентация на тему: Tinkoff Data Science Challenge

Реклама. Продолжение ниже
Tinkoff Data Science Challenge
Цель
Road map
Беглый взгляд
Беглый взгляд
Работа с пропусками
Работа с пропусками
Анализ выбросов
Обработка категориальных признаков
Обработка категориальных признаков( living_region )
Обработка категориальных признаков( living_region )
Обработка категориальных признаков( living_region )
Обработка категориальных признаков( living_region )
Обработка категориальных признаков( gender)
Обработка категориальных признаков( marital_status )
Обработка категориальных признаков( job_position )
Обработка категориальных признаков( tariff_id )
Обработка категориальных признаков( education)
Дисбаланс классов
Logistic Regression
Logistic Regression
Logistic Regression
Decision Tree
Decision Tree
Random Forest
Random Forest
Итог
1/27
Средняя оценка: 4.1/5 (всего оценок: 16)
Код скопирован в буфер обмена
Скачать (8447 Кб)
Реклама. Продолжение ниже
1

Первый слайд презентации: Tinkoff Data Science Challenge

Изображение слайда
Изображение для работы со слайдом
1/2
2

Слайд 2: Цель

Необходимо классифицировать клиентов на тех, кто не откроет кредитного счета, и тех, кто его откроет. Метрика AUC: 0.75 на 5-ти блочной кросс-валидации отличный результат. Цель Домой P.S. На следующем слайде для удобства изображена карта с рабочими ссылками на соответствующие слайды. Помимо этого для более удобной навигации внизу каждого слайда есть кнопка «Домой», которая вернет вас в нужный момент на навигационную карту. Для более детального просмотра кода переходите на гитхаб : https://github.com/Lolitworks/Tinkoff_credit_scoring

Изображение слайда
Изображение для работы со слайдом
1/2
3

Слайд 3: Road map

Беглый взгляд Работа с пропусками Анализ выбросов Обработка категориальных признаков Дисбаланс классов Logistic Regression Random Forest Decision tree

Изображение слайда
Изображение для работы со слайдом
1/2
4

Слайд 4: Беглый взгляд

170746 записей о клиентах, 15 признаков Есть пропущенные значения Беглый взгляд Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
1/3
5

Слайд 5: Беглый взгляд

Список исходных переменных включает в себя: • категориальный предиктор Идентификационный номер [ client_id ]; • категориальный предиктор Пол [ gender ]; • количественный предиктор Возраст [ age ]; • категориальный предиктор Семейный статус [ marital_status ]; • категориальный предиктор Сфера занятости [ job_position ]; • количественный предиктор Сумма кредита [ credit_sum ]; • количественный предиктор Срок кредитования [ credit_month ]; • количественный предиктор Внутренняя скоринговая оценка [ score_shk ]; • категориальный предиктор Образование [ education ]; • категориальный предиктор Идентификационный номер тарифа [ tariff_id ]; • количественный предиктор Месячный заработок [ monthly_income ]; • количественный предиктор Количество кредитов у клиента [ credit_count ]; • количественный предиктор Количество просроченных кредитов у клиента [ overdue_credit_count ]; Беглый взгляд Домой

Изображение слайда
Изображение для работы со слайдом
1/2
6

Слайд 6: Работа с пропусками

Есть множество пропущенных значений по признакам: overdue_credit_count Credit_count Living_region Score_shk Monthly_income Education Marital_status Age Credit_sum Необходимо будет поработать с каждым из них Работа с пропусками Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
1/3
7

Слайд 7: Работа с пропусками

Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
1/4
Реклама. Продолжение ниже
8

Слайд 8: Анализ выбросов

Каждый признак прогнал через функцию для определения безопасных от выбросов областей, получилось: - Возраст: должен быть < 65.5 - Сумма кредита: должна быть < 57808 - Срок кредитования: лежит в промежутке 7 < x < 15 месяцев - Скоринговый рейтинг: внутренний скоринговый рейтинг должен лежать в диапазоне 0.12018774999999987 < x < 0.8117457500000002 - Ежемесячный доход: должен быть < 87500 - Количество действующих кредитов: должно быть < 6 - Количество просроченных кредитов: = 0 Анализ выбросов Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
1/4
9

Слайд 9: Обработка категориальных признаков

Далее обработаем каждый из признаков Обработка категориальных признаков Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
1/3
10

Слайд 10: Обработка категориальных признаков( living region )

Далее обработаем каждый из признаков Обработка категориальных признаков( living_region ) Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
1/5
11

Слайд 11: Обработка категориальных признаков( living region )

Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
1/4
12

Слайд 12: Обработка категориальных признаков( living region )

Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
1/3
13

Слайд 13: Обработка категориальных признаков( living region )

Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
1/4
14

Слайд 14: Обработка категориальных признаков( gender)

Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
1/3
Реклама. Продолжение ниже
15

Слайд 15: Обработка категориальных признаков( marital status )

Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
1/3
16

Слайд 16: Обработка категориальных признаков( job position )

На данном этапе при обработке признака job_position редкие значения были просто сформированы в единую категорию OTHER Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
1/3
17

Слайд 17: Обработка категориальных признаков( tariff id )

... Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
1/5
18

Слайд 18: Обработка категориальных признаков( education)

Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
1/3
19

Слайд 19: Дисбаланс классов

Домой В данных присутствует явный дисбаланс классов. В качестве дальнейшей стратегии я выбрал UnderSampling.

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
1/4
20

Слайд 20: Logistic Regression

Домой Изначально я написал функцию, которая строит логистическую регрессию, после чего измеряет необходимые метрики качества, проводит кросс-валидацию и рисует графики.

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
1/3
21

Слайд 21: Logistic Regression

Домой После этого я выбрал две стратегии: StandardScaler + RandomUnderSampler MinMaxScaler + RandomUnderSampler Целью было посмотреть как способ масштабирования данных может сказаться на качестве работы логистической регрессии. Однако качество не менялось.

Изображение слайда
Изображение для работы со слайдом
1/2
22

Слайд 22: Logistic Regression

Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
1/7
23

Слайд 23: Decision Tree

Домой Здесь я также написал функцию, внутри которой корректировал гиперпараметры дерева и смотрел как менялось качество.

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
1/3
24

Слайд 24: Decision Tree

Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
1/5
25

Слайд 25: Random Forest

Домой На Random Forest также была написана функция, в которой я менял параметры и смотрел на качество. В результате оптимальными были параметры: n_estimators = 60 max_depth = 15

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
1/3
26

Слайд 26: Random Forest

Домой

Изображение слайда
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
Изображение для работы со слайдом
1/5
27

Последний слайд презентации: Tinkoff Data Science Challenge: Итог

Домой Целевой метрикой качества была AUC, наибольший показатель на 5-ти блочной кросс-валидации выдал случайный лес (0.73 против 0.7 решающего дерева и 0.72 логистической регрессии. Для более подробного рассмотрения кода переходите на гитхаб : https://github.com/Lolitworks/Tinkoff_credit_scoring

Изображение слайда
Изображение для работы со слайдом
1/2
Реклама. Продолжение ниже