반응형
Bagging의 Hyperparmater
1) 트리 개수
• 앙상블 멤버로 사용될 트리의 개수 N_estimators로 설정, 기본값은 100
• 멤버 수가 증가함에 따라 앙상블 성능이 증가하다가(분산이 작아지므로) 어느 순간 수렴 => 성능이 안정될 만큼 멤버 수를 크게 설정
• Q: 멤버가 너무 많아지면 과적합이 발생하지 않는가? – Bagging은 과적합이 거의 발생하지 않음
• N_estimators =10 ~ 5000으로 바꿔가며 성능을 확인 => 성능이 일정 수준에서 수렴함
2) 샘플 크기
• Bootstrap 샘플 크기 Max_samples로 설정, 기본값은 1.0 / 원자료 크기에 대한 비율(0.0~1.0) 입력, 클수록 좋음
• Bootstrap = True: False설정 시 bootstrap 수행하지 않음
• Max_samples = 0.0~1.0 -> 1.0에 가까울 수록 성능이 좋아짐
3) 타 알고리즘
• 앙상블 멤버로 사용할 알고리즘, base_estimator로 설정 기본값은 None, base_estimator를 KNN으로 k=1~20 설정 -> 작은 값의 k가 적절함
Bagging Extensions
1) Bootstrap 대신 다른 샘플링 방법 이용, 큰 데이터셋에서 유용하게 사용할 수 있음
2) Pasting Ensemble: Bootstrap 대신 랜덤 표본을 사용
3) Random Subspace Ensemble: Bootstrap 대신 원래 데이터셋의 feature로 부터 random subset을 구성(랜덤으로 일부 columns만 추출)
4) Random Patches Ensemble : Bootstrap 대신 원래 데이터셋의 samples(row)와 feature(columns)로 부터 random subset을 구성(Pasting Ensemble + Random Subspace Ensemble)
Feature Selection Subspace Ensemble
1) Feature Selection(변수 선택) : target variance과 가장 연관 깊은 column들을 선별, ‘가장 연관이 깊다’를 판단하는 기준에 따라 여러방법론이 존재
2) Feature Selection Subspace Ensemble: 변수 선택을 통해 얻은 feature subspace를 앙상블에 이용
3) Single Feature Selection Method Ensemble (하나의 방법론 사용): Feature subspace의 크기(= 포함된 feature 개수)를 1~(전체 column)로 설정, 각각을 이용해 모형을 학습시켜 앙상블을 만듦
• ANOVA F-statistic: 두개 이상의 표본으로부터 나온 평균들이 같은 분포를 따르는지 여부를 검정
• Mutual information: 엔트로피를 기반으로 두변수의 dependency측정, 0 이상이면 independent, 높을수롣 dependent, y와의 correlation이 가장 높은 변수를 뽑는 셈
• Recursive Feature Selection(RFE): 모든변수를 포함시켜 모형을 학습시킨 뒤, 가장 중요도가 낮은 변수를 하나씩 소거함, 원하는 개수의 변수가 남을때까지 모형 학습 -> 변수 소거를 반복
4) Combined Feature Selection Ensemble (여러 방법론 사용): 여러변수 선택 방법론으로 부터 각각을 이용한 feature subspace를 만들고, 이를 이용해 모형을 학습시켜 앙상블을 만듦
• 변수 개수 고정: 특정 변수 개수 고정(=15) 앞선 세가지 변수 선택 방법으로 feature subspace 구성
• 여러가지 변수 개수 사용: 여러 개의 변수 개수(1~20) 각각에 3가지 변수 선택 방법 적용
반응형
'머신러닝' 카테고리의 다른 글
[머신러닝] 앙상블(Ensemble) 기법_부스팅(Boosting)_GBM (1) | 2024.01.12 |
---|---|
[머신러닝] 앙상블(Ensemble) 기법_부스팅(Boosting)_Adaboost (1) | 2024.01.12 |
[머신러닝] 앙상블(Ensemble) 기법_부스팅(Boosting)_개념 정리 (0) | 2024.01.12 |
[머신러닝] 앙상블(Ensemble) 기법_배깅(Bagging)_Random Forest Algorithm (1) | 2024.01.12 |
[머신러닝] 앙상블(Ensemble) 기법_배깅(Bagging)_개념 정리(1) (0) | 2024.01.12 |