[Bank Marketing데이터 분석] 1. python 배깅 , 랜덤포레스트 bagging, randomforest

silversu 2021. 8. 23. 14:14

2021. 8. 23. 14:14

러닝스푼즈 수업 정리

< 이전 글 >

https://silvercoding.tistory.com/65

[IRIS 데이터 분석] 2. Python Decision Tree ( 의사 결정 나무 )

러닝스푼즈 수업 정리 < 이전 글 > https://silvercoding.tistory.com/64 https://silvercoding.tistory.com/63?category=967543 https://silvercoding.tistory.com/62 [boston 데이터 분석] 1. 차원축소 (PCA) 파..

silvercoding.tistory.com

배깅 bagging

- 배깅의 철학

1. 많을수록 좋다.

2. 다양할수록 좋다.

(ex) 남성 1명 < 남성 10명 (수가 많음) < 남성 5명 , 여성 5명 (수가 많고 다양함)

- 각 모델의 다양성 확보를 어떻게 하는가? (배깅 프로세스)

1. 전체 데이터셋에서 랜덤 샘플링 ( 복원 추출 / 중복 데이터가 나올수도, 아예 뽑히지 않은 데이터가 있을수도. ) -> 여러 데이터셋 생성

2. 각 데이터셋으로 모델 생성

3. 모델별로 학습하는 데이터셋이 다르므로 모델의 다양성 확보

- 최종 결과물의 결합?

: 각 모델로부터 나온 예측치의 단순 평균을 구한다.

- 랜덤포레스트 (본 포스팅에서 사용할 모델)

: 배깅의 프로세스를 따르면서 의사결정나무를 사용하는 알고리즘

데이터 살펴보기

사용할 데이터는 캐글의 Dataset 에서 받을 수 있다.

< Bank Marketing dataset >

https://www.kaggle.com/volodymyrgavrysh/bank-marketing-campaigns-dataset

Bank marketing campaigns dataset | Opening Deposit

Bank Marketing (with social/economic context) dataset with loan target variable

www.kaggle.com

import os
import pandas as pd

os.chdir('../data')  # 본인의 파일 폴더 경로 
data = pd.read_csv("bank-additional-full.csv", sep = ';')

데이터를 불러올 때 주의할 점은 sep=';' 을 설정해 주어야 한다는 것이다. 이 파일은 csv 파일이지만 콤마(,) 가 아닌 세미콜론(;) 으로 구분이 되어있기 때문이다.

data.head()

나이, 직업, 결혼여부, 대출여부 등의 예측변수를 사용하여 해당 고객의 예금 가입여부를 맞히는 학습을 진행한다.

data.info()

dtype이 object인 변수는 범주형 변수로 , 원핫인코딩을 해주어야 한다.

랜덤포레스트 사용

전처리 - 범주형 변수 원핫인코딩

- dtype이 object인 컬럼 추출

obj_column = []
for column in data.columns[:-1]:
    if data[column].dtype == 'object':
        obj_column.append(column)
        
obj_column

data = pd.get_dummies(data,columns=obj_column)

get_dummies를 이용하여 원핫인코딩을 진행한다.

data

컬럼수가 많이 늘어난 것을 볼 수 있다.

data['id']=range(len(data))

데이터 구분을 위하여 id값을 부여한다.

- train & test 데이터셋 분리

train = data.sample(30000,replace=False,random_state=2020).reset_index().drop(['index'],axis=1)

train 데이터셋을 비복원추출로 30000개를 구성한다.

test = data.loc[ ~data['id'].isin(train['id']) ].reset_index().drop(['index'],axis=1)

test데이터셋은 train에 없는 id값으로 총 11188개의 데이터로 구성된다.

랜덤포레스트 모델 학습

랜덤포레스트

- 특징

해석이 어려움
매우 느림
의사결정나무보다 더 객관적인 변수 중요도를 뽑아낼 수 있음

- RandomForestClassifier(n_estimators=m, min_samples_split=n)

n_estimators : 몇개의 의사결정 나무를 만드는가
max_depth : 각 의사결정나무의 최대 깊이
min_samples_split : 각 의사결정나무에서 각 노드의 최소 샘플 수

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(n_estimators=500, min_samples_split=10)

랜덤포레스트 객체를 생성한다.

data.columns

input_var = ['age', 'duration', 'campaign', 'pdays', 'previous', 'emp.var.rate',
       'cons.price.idx', 'cons.conf.idx', 'euribor3m', 'nr.employed',
       'job_admin.', 'job_blue-collar', 'job_entrepreneur', 'job_housemaid',
       'job_management', 'job_retired', 'job_self-employed', 'job_services',
       'job_student', 'job_technician', 'job_unemployed', 'job_unknown',
       'marital_divorced', 'marital_married', 'marital_single',
       'marital_unknown', 'education_basic.4y', 'education_basic.6y',
       'education_basic.9y', 'education_high.school', 'education_illiterate',
       'education_professional.course', 'education_university.degree',
       'education_unknown', 'default_no', 'default_unknown', 'default_yes',
       'housing_no', 'housing_unknown', 'housing_yes', 'loan_no',
       'loan_unknown', 'loan_yes', 'contact_cellular', 'contact_telephone',
       'month_apr', 'month_aug', 'month_dec', 'month_jul', 'month_jun',
       'month_mar', 'month_may', 'month_nov', 'month_oct', 'month_sep',
       'day_of_week_fri', 'day_of_week_mon', 'day_of_week_thu',
       'day_of_week_tue', 'day_of_week_wed', 'poutcome_failure',
       'poutcome_nonexistent', 'poutcome_success']

반환된 data의 컬럼에서 y를 뺀 컬럼들을 input_var 변수에 저장해 준다.

rf.fit(train[input_var],train['y'])

train 데이터셋으로 랜덤포레스트분류기 모델 학습을 진행한다.

predictions = rf.predict(test[input_var])

test데이터셋으로 예측을 진행하고, predictions 변수에 저장해 준다.

(pd.Series(predictions)==test['y']).mean()

predictions와 정답값(y) 을 비교하여 평균을 내주면 정확도는 약 91% 가 나오게 된다.

* 의사결정나무와의 비교

from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier(min_samples_split=10)

의사결정나무 객체를 생성한다.

dt.fit(train[input_var], train['y'])

predictions = dt.predict(test[input_var])

학습데이터를 사용한 학습과 테스트데이터를 사용한 예측을 진행한다.

(pd.Series(predictions) == test['y']).mean()

정확도를 비교해보니 의사결정나무보다 랜덤포레스트 모델의 정확도가 조금 더 높은 것을 알 수 있다.

변수중요도

feature_imp = rf.feature_importances_
imp_df = pd.DataFrame({'var':input_var,
                       'imp':feature_imp})

imp_df.sort_values(['imp'],ascending=False)

feature_importances_ 를 사용하여 변수중요도를 알아볼 수 있다. 내림차순으로 정렬을 해 보았더니 duration이 가장 높고, default_yes 컬럼이 가장 낮은 것을 볼 수 있다. (변수중요도에 대한 개념은 다다음시간에 자세히 알아본다.)

'데이터 분석 이론 > 머신러닝' 카테고리의 다른 글

[머신러닝] 변수중요도, shap value (0)	2021.08.27
[Bank Marketing데이터 분석] 2. python 부스팅 Boosting, XGBoost 사용 (0)	2021.08.23
[IRIS 데이터 분석] 2. Python Decision Tree ( 의사 결정 나무 ) (0)	2021.08.20
[IRIS 데이터 분석] 1. Python KNN 분류 (0)	2021.08.20
[boston 데이터 분석] 2. PCA, 군집화를 사용한 집값 분석 (0)	2021.08.19

🤍