본문 바로가기

머신러닝

[머신러닝] 앙상블(Ensemble) 기법_배깅(Bagging)_개념 정리(2)

반응형

Bagging의 Hyperparmater

1) 트리 개수
앙상블 멤버로 사용될 트리의 개수 N_estimators로 설정, 기본값은 100
멤버 수가 증가함에 따라 앙상블 성능이 증가하다가(분산이 작아지므로) 어느 순간 수렴 => 성능이 안정될 만큼 멤버 수를 크게 설정
Q: 멤버가 너무 많아지면 과적합이 발생하지 않는가? Bagging과적합이 거의 발생하지 않음
N_estimators =10 ~ 5000으로 바꿔가며 성능을 확인 => 성능이 일정 수준에서 수렴함
2) 샘플 크기
Bootstrap 샘플 크기  Max_samples로 설정, 기본값은 1.0 / 원자료 크기에 대한 비율(0.0~1.0) 입력, 클수록 좋음
Bootstrap = True: False설정 시 bootstrap 수행하지 않음
Max_samples = 0.0~1.0 -> 1.0에 가까울 수록 성능이 좋아짐
3) 타 알고리즘
앙상블 멤버로 사용할 알고리즘, base_estimator로 설정 기본값은 None, base_estimator KNN으로 k=1~20 설정 -> 작은 값의 k가 적절함

 

Bagging Extensions

 

1) Bootstrap 대신 다른 샘플링 방법 이용, 큰 데이터셋에서 유용하게 사용할 수 있음
 
2) Pasting Ensemble: Bootstrap 대신 랜덤 표본을 사용
 
3) Random Subspace Ensemble:  Bootstrap 대신 원래 데이터셋의 feature부터 random subset을 구성(랜덤으로 일부 columns만 추출)
 
4) Random Patches Ensemble : Bootstrap 대신 원래 데이터셋의 samples(row)feature(columns)부터 random subset을 구성(Pasting Ensemble + Random Subspace Ensemble)

 

 

Feature Selection Subspace Ensemble

1) Feature Selection(변수 선택) : target variance과 가장 연관 깊은 column들을 선별, 가장 연관이 깊다 판단하는 기준에 따라 여러방법론이 존재
2) Feature Selection Subspace Ensemble: 변수 선택을 통해 얻은 feature subspace 앙상블에 이용
3) Single Feature Selection Method Ensemble (하나의 방법론 사용): Feature subspace의 크기(= 포함된 feature 개수) 1~(전체 column)로 설정, 각각을 이용해 모형을 학습시켜 앙상블을 만듦
ANOVA F-statistic: 두개 이상의 표본으로부터 나온 평균들이 같은 분포를 따르는지 여부를 검정
Mutual information: 엔트로피를 기반으로 두변수의 dependency측정, 0 이상이면 independent, 높을수롣 dependent, y와의 correlation이 가장 높은 변수를 뽑는 셈
Recursive Feature Selection(RFE): 모든변수를 포함시켜 모형을 학습시킨 뒤, 가장 중요도가 낮은 변수를 하나씩 소거함, 원하는 개수의 변수가 남을때까지 모형 학습 -> 변수 소거를 반복
4) Combined Feature Selection Ensemble (여러 방법론 사용): 여러변수 선택 방법론으로 부터 각각을 이용한 feature subspace 만들고, 이를 이용해 모형을 학습시켜 앙상블을 만듦
변수 개수 고정: 특정 변수 개수 고정(=15) 앞선 세가지 변수 선택 방법으로  feature subspace 구성
여러가지 변수 개수 사용: 여러 개의 변수 개수(1~20) 각각에 3가지 변수 선택 방법 적용
반응형