[머신러닝] 앙상블(Ensemble) 기법_스태킹(Stacking)

Weighted Average Ensemble: 가중 평균 앙상블 소개

1) 앙상블의 일부 모델이 다른 모델보다 더 많은 기술을 지니고 있어 더 많은 기여를 한다고 가정

2) 모델 예측값에 고정 가중치가 할당됨

3) 투표 앙상블의 확장: 모든 모델이 동일하게 학습되고, 앙상블에 의해 만들어진 예측에 비례적 기여를 함

4) 기여도 결정 = 기능 또는 기술에 비례하여 가중치가 부여됨

5) 투표 앙상블에서 모델 예측의 평균 = 가중 평균 앙상블에서 모델의 기여도에 비례하여 계산

6) 모든 모델이 동등하게 효과적이라는 투표 앙상블의 한계를 극복

7) 분류: 각 클래스 레이블에 대한 가중치 합을 계산 / / 회귀: 앙상블 구성원의 예측 산술 평균을 계산하는 방식

Weighted Voting Ensemble 소개

1) 정의: 기여도에 따라 각 모델의 예측값에 가중치(weight)를 주어, 최종 예측값을 만드는 앙상블 기법

2) 특징:
- 가중 평균 앙상블과 가중 합계 앙상블 모두 투표 앙상블의 확장형
- 투표 앙상블 경우, 모든 모델이 예측에 있어서 동일하게 영향을 준다고 가정하기 때문에 모델의 기여도에 따라 가중치를 부여하여 투표 앙상블보다 나은 성능을 기대

Ensemble Member Selection 소개

1) 정의: Ensemble Member Selection이란 앙상블 내 모델 조합을 최적화 시키는 알고리즘

2) 특징

• 앙상블의 성능 저하를 최소화하면서 앙상블 모델을 축소하고 이를 통해 앙상블 계산 복잡도를 감소시킴

• 단순히 voting과 stacking ensemble로 어떤 조합의 모델이 최고의 성능을 내는지 알 수 없기 때문에 Ensemble Member Selection 수행

3) 종류

• Ensemble Growing: 탐욕적 방법(Greedy manner)으로 더이상 성능 개선이 없을 때까지 앙상블에 모델 추가

• 탐욕적 방법(알고리즘): 현재 상황에서 가장 좋은 것을 고르는 알고리즘. 언제나 최적일 수는 없다는 특징을 가지고 있음

• Ensemble Pruning: 탐욕적 방법으로 더이상 성능 개선이 없을 때까지 전체 앙상블에서 모델을 제거 => 회귀분석에서의 stepwise feature selection(순차적 변수 선택)과 유사

4) 앙상블의 크기: 앙상블의 크기를 작게 하는 데에는 2가지 주요 원인이 존재한다.

1. Computational Overhead(계산적 오버헤드) 감소: 더 작은 크기의 앙상블은 더 적은 계산적 오버헤드를 발생 => Computational Overhead: 어떤 처리를 위해 들어가는 간접적인 시간

2. Accuracy(정확도) 향상: 앙상블의 일부모델들은 성능을 감소시키는 원인 모델 => 때로는 성능이 조금 저하되더라도 모델 복잡도를 크게 감소시키면 바람직하다고 간주

Stacking Ensemble 소개

1) 정의: 여러가지 모델들의 예측값을 최종 모델의 학습 데이터로 사용하여 예측하는 방법

2) 특징

• 성능 개선을 위해 개발되었지만, 언제나 성능 개선이 이루어지는 것은 아님

• 개별 모델들의 성능이 좋아야하며, 모델에서 나온 예측치 끼리 uncorrelated 되어야함

• 개별 모델(base model)의 수가 2개 이상이어야함

3) 스태킹에서 단계별 모델

• Base Models: 학습 데이터를 이용해 모델을 학습시키고 예측치들을 합침(Level 0)

• Meta Model: Base Models의 예측치를 합쳐 개선된 성능을 가진 모델 생성(Level 1)

4) Stacking = 개별적인 여러 알고리즘을 서로 결합해 예측 결과를 도출하는 것 + 이를 기반으로 다시 예측

5) 여러 개별 모델의 예측 데이터를 각각 스태킹 형태로 결합해. 최종 메타 모델의 data set을 만드는 것이 중요

6) 이점: 분류/회귀 작업에서 성능이 좋은 다양한 모델의 기능을 활용 + 단일 모델보다 성능이 더 좋은 예측 가능

7) 목표: 스태킹 앙상블 성능 > 어떤 단일 기본 모델 성능: 그렇지 않다면 기본 모델을 앙상블 모델에 유리하게 사용

8) 스태킹의 구조

• 스태킹: 결합기가 개별 학습기를 결합하도록 훈련하는 일반적인 절차
- 개별 학습기 = 1단계 학습기
- 결합기 = 2단계 학습기 또는 메타 학습기

• 스태킹 모델 구조 = Level 0 models(=기본 모델) + Level 1 model(= 메타모델)
- 기본 모델: 모델이 훈련 데이터에 적합 + 예측이 컴파일 됨
- 메타 모델: 기본 모델의 예측을 잘결합하는 방법을 학습

'머신러닝' 카테고리의 다른 글

[비지도학습] 클러스터링(k-means, GMM, DBSCAN)_차원축소(PCA, SVD)_개념, 정리 (2)	2024.01.23
[머신러닝] 앙상블(Ensemble) 기법_스태킹(Stacking)_알고리즘 소개(2) (1)	2024.01.15
[머신러닝] 앙상블(Ensemble) 기법_스태킹(Stacking)_개념 정리 (0)	2024.01.15
[머신러닝] 앙상블(Ensemble) 기법_부스팅(Boosting)_LightGBM (1)	2024.01.13
[머신러닝] 앙상블(Ensemble) 기법_부스팅(Boosting)_XGBoost (0)	2024.01.13

홍이지

[머신러닝] 앙상블(Ensemble) 기법_스태킹(Stacking)_알고리즘 소개(1)

Weighted Average Ensemble: 가중 평균 앙상블 소개

Weighted Voting Ensemble 소개

Ensemble Member Selection 소개

Stacking Ensemble 소개

'머신러닝' 카테고리의 다른 글

티스토리툴바

[머신러닝] 앙상블(Ensemble) 기법_스태킹(Stacking)_알고리즘 소개(1)

Weighted Average Ensemble: 가중 평균 앙상블 소개

Weighted Voting Ensemble 소개

Ensemble Member Selection 소개

Stacking Ensemble 소개

'머신러닝' 카테고리의 다른 글

'머신러닝' Related Articles

티스토리툴바