본문 바로가기

머신러닝

[머신러닝] 앙상블(Ensemble) 기법_부스팅(Boosting)_개념 정리

반응형

Boosting 이란?

1) 배깅과 마찬가지로 부스팅도 일반적인 통계학습방법들에 적용할 수 있다.
2) 부스팅 경우 배깅과 비슷한 방식이긴 하지만, 결정적인 차이는 trees 한꺼번에 다 만들지 않고 순차적으로 생성된다는 점. 새로운 tree는 이전의 tree 이용하여 생성

 

Boostingwork하는 이유?

1) Boosting경우 overfitting을 하지 않게 하기 위해 천천히 learn을한다.
2) 현재 모형에서 나온 잔차에 fitting하고 의사결정나무를 더하여서 현재 모형과 잔차를 업데이트한다.
3) 각각의 tree는 단지 몇개의 노드만으로 이루어진 간단한 tree 사용해도 무방
4) 여기서 shrinkage parameter λ 사용함으로 전체과정은 더욱 천천히 진행할 수 있고 이에 따른 효과는 많은 트리를 사용하여 잔차를 보다 효율적으로 적합

 

Strong vs Weak Learners

1) Weak Learner:
무작위 선정하는 것보다는 성공확률이 높음, 즉 오차율이 50% 이하인 classifier이다. Decision tree model은 가장 흔한 weak leaner이다. (이 중 하나의 Root 노드만 가진 decision tree”Decision stump”)
또 다른 후보: K=1 k-Nearest Neighbors,  단일 노드를 가진 multilayer Perceptron, 하나의 입력 변수로 작동하는 naïve bayes
2) Strong Learner
좋은 정확도를 달성하는 classifier 뜻한다.

후보: Logistic regression, Support Vector Machine, k-Nearest Neighbors

Weak and Strong learners and Boosting

1) Boosting: Weak learner로부터의 출력을 결합하여 더 좋은 예측율을 갖는 Strong learner 만드는 방법
2) Boosting의 작동 방식: 새로운 Weak learner 학습할 때마다 이전 결과를 참조한다.

 

Weak and Strong learners and Other Models

1) 배깅은 독립적으로 weak leaner 생성한다.(부스팅은 현재의 weak leaner가 이전에 weak leaner 영향을 받는다.)
2) 스태킹은 Strong learner의 예측을 결합하여 Strong learner(meta-leaner)생성한다.
3) Mixture of Expertsgating network 통해 여러개의 strong model(experts) 결합하여 더 강력한 모델을 생성한다.

Boosting에서의 조절 모수들

1) Tree의 개수 B: baggingRF와 달리 B가 커질 경우 boostingOverfit을 할 수 있다. 교차 검증을 통해서 B 선택
2) shrinkage parameter λ: 일반적으로 0.01 또는 0.001을 사용하며 적용되는 문제의 성격에 따라 다르게 선택할 수 있다.
3) Split의 개수 d: d=1이 종종 사용, d split는 최대 d개의 예측변수를 사용하므로 이를 이용하여 interaction depth 조정

변수의 중요도

1) Bagging/RF regression tree 경우 각 변수별로 노드에서 사용될 경우  감소된 잔차 제곱합을 각 bootstrap sample별로 구하고 평균을 구한다. 큰 값이 중요한 예측 변수임
 

2) 잔차 제곱합 대신 Gini index의 감소를 같은 방법으로 예측 변수별로 구한 후 역시 평균 등을 이용하여 변수들의 중요성을 나타낸다.

반응형