[머신러닝] 앙상블(Ensemble) 기법_배깅(Bagging)

1) 트리 개수

• 앙상블 멤버로 사용될 트리의 개수 N_estimators로 설정, 기본값은 100

• 멤버 수가 증가함에 따라 앙상블 성능이 증가하다가(분산이 작아지므로) 어느 순간 수렴 => 성능이 안정될 만큼 멤버 수를 크게 설정

• Q: 멤버가 너무 많아지면 과적합이 발생하지 않는가? – Bagging은 과적합이 거의 발생하지 않음

• N_estimators =10 ~ 5000으로 바꿔가며 성능을 확인 => 성능이 일정 수준에서 수렴함

2) 샘플 크기

• Bootstrap 샘플 크기 Max_samples로 설정, 기본값은 1.0 / 원자료 크기에 대한 비율(0.0~1.0) 입력, 클수록 좋음

• Bootstrap = True: False설정 시 bootstrap 수행하지 않음

• Max_samples = 0.0~1.0 -> 1.0에 가까울 수록 성능이 좋아짐

3) 타 알고리즘

• 앙상블 멤버로 사용할 알고리즘, base_estimator로 설정 기본값은 None, base_estimator를 KNN으로 k=1~20 설정 -> 작은 값의 k가 적절함

1) Bootstrap 대신 다른 샘플링 방법 이용, 큰 데이터셋에서 유용하게 사용할 수 있음

2) Pasting Ensemble: Bootstrap 대신 랜덤 표본을 사용

3) Random Subspace Ensemble: Bootstrap 대신 원래 데이터셋의 feature로 부터 random subset을 구성(랜덤으로 일부 columns만 추출)

4) Random Patches Ensemble : Bootstrap 대신 원래 데이터셋의 samples(row)와 feature(columns)로 부터 random subset을 구성(Pasting Ensemble + Random Subspace Ensemble)

1) Feature Selection(변수 선택) : target variance과 가장 연관 깊은 column들을 선별, ‘가장 연관이 깊다’를 판단하는 기준에 따라 여러방법론이 존재

2) Feature Selection Subspace Ensemble: 변수 선택을 통해 얻은 feature subspace를 앙상블에 이용

3) Single Feature Selection Method Ensemble (하나의 방법론 사용): Feature subspace의 크기(= 포함된 feature 개수)를 1~(전체 column)로 설정, 각각을 이용해 모형을 학습시켜 앙상블을 만듦

• ANOVA F-statistic: 두개 이상의 표본으로부터 나온 평균들이 같은 분포를 따르는지 여부를 검정

• Mutual information: 엔트로피를 기반으로 두변수의 dependency측정, 0 이상이면 independent, 높을수롣 dependent, y와의 correlation이 가장 높은 변수를 뽑는 셈

• Recursive Feature Selection(RFE): 모든변수를 포함시켜 모형을 학습시킨 뒤, 가장 중요도가 낮은 변수를 하나씩 소거함, 원하는 개수의 변수가 남을때까지 모형 학습 -> 변수 소거를 반복

4) Combined Feature Selection Ensemble (여러 방법론 사용): 여러변수 선택 방법론으로 부터 각각을 이용한 feature subspace를 만들고, 이를 이용해 모형을 학습시켜 앙상블을 만듦

• 변수 개수 고정: 특정 변수 개수 고정(=15) 앞선 세가지 변수 선택 방법으로 feature subspace 구성

• 여러가지 변수 개수 사용: 여러 개의 변수 개수(1~20) 각각에 3가지 변수 선택 방법 적용

[머신러닝] 앙상블(Ensemble) 기법_부스팅(Boosting)_GBM (1)	2024.01.12
[머신러닝] 앙상블(Ensemble) 기법_부스팅(Boosting)_Adaboost (1)	2024.01.12
[머신러닝] 앙상블(Ensemble) 기법_부스팅(Boosting)_개념 정리 (0)	2024.01.12
[머신러닝] 앙상블(Ensemble) 기법_배깅(Bagging)_Random Forest Algorithm (1)	2024.01.12
[머신러닝] 앙상블(Ensemble) 기법_배깅(Bagging)_개념 정리(1) (0)	2024.01.12

홍이지