본문 바로가기

머신러닝

[비지도학습] 클러스터링(k-means, GMM, DBSCAN)_차원축소(PCA, SVD)_개념, 정리

반응형

비지도학습(Unsupervised Learning)

1. 훈련 샘플의 레이블 정보가 없거나 활용하지 않는 형태의 학습

2. 데이터 내재된 특성과 규칙을 찾아 다음 단계의 데이터 분석을 위한 기초로 다지는 목적

 

클러스터링(Clustering)

1. 데이터 세트의 샘플들을 교차하지 않는 여러 개의 부분집합으로 분할하는 방법

2. 각각의 부분집합을 클러스터하고 일컬음

3. 각 클러스터는 잠재적인 개념(클래스)에 대응됨

4. 클러스터링 알고리즘은 잠재적인 개념 및 대응 관계에 대한 사전 정보가 없음

 

1) 클러스터링의 목적

1. 단일로 사용될 경우 데이터 내의 분포 구조를 찾는데 사용될 수 있음

2. 본격적인 분석에 앞서 하나의 사전 절차로 사용될 수 있음

 

2) 성능 척도

1. 클러스터링 유효성 지표(validity index)

2. 클러스터 내 유사도, 클러스터 간 유사도 

3. 외부 지표: 클러스터링 결과와 어떤 참고 모델을 서로 비교

4. 내부 지표: 참고 모델을 사용하지 않음

 

3) K-Means Clustering

1. 프로토타입: 샘플 공간에서 대표성을 가진 점들

2. 프로토타입 기반 클러스터링: 클러스터 구조가 프로토타입을 통해 형성화 될 수 있다고 가정

3. 장점

 - 알고리즘이 직관적이며, 쉽고 간결함

4. 단점

 - K를 직접 정해야함

 - 속성의 개수가 많을 경우 군집 정확도가 떨어짐

 - 반복 수행 횟수가 많을 경우 느린 수행 시간

유클리디안 거리

4) 가우시안 혼합 모델(Gaussian Mixture Model(GMM))

: GMM은 확률 모델을 기반하여 클러스터의 프로포타입을 표현

 

5) DBSCAN

1. 특정 공간 내의 데이터 밀도 차이를 기반으로 군집화하며 복잡한 기하학적 분포도를 가진 데이터세트에 성능이 우수한편

2. 입실론 주변 영역: 개별 데이터를 중심으로 입실론 반경을 가지는 원형의 영역

3. 최소 데이터 개수: 개별 데이터의 입실론 주변 영역에 포함되는 타 데이터 수

4. 핵심포인트(Core Point), 이웃포인트(Neighbor Point), 경계포인트(Border Point), 잡음포인트(Noise Point)

 

차원축소(Dimensionality Reduction)

1.  차원이 높으면 데이터 샘플이 희소하게 되고, 거리 계산이 힘들어짐 -> 차원의 저주(Curse of dimensionality)

2. 어떤 수학적 변환을 통해 고차원적의 속성 공간을 저차원의 부분공간으로 변환하는 방식

 

1) PCA

1. 여러 변수간에 존재하는 상관관계를 이용해 이를 대표하는 주성분를 추출하여 차원을 축소하는 기법

2. 차원 축소 시 기존 데이터의 정보 유실이 발생하며 PCA에서는 이를 최소화하기 위해 분산 개념을 이용함

  - 가장 높은 분산을 가지는 데이터의 축을 찾아냄

  - 위에서 찾은 축과 직교하는 축을 찾아냄

  - 위에서 찾은 축과 직교하는 축을 찾아내며 이를 반복

 

2) SVD(Singular Value Decomposition) 특이값 분해

1. 선형 대수학의 기초적인 연산 중 하나로, 행렬을 특정한 형태로 분해하는 기법 중 하나

2. 특이값 분해를 통해 특이값이 작은 부분을 제거하여 원래 행렬을 저차원으로 근사 -> 이는 데이터의 잡음을 제거하거나 차원을 축소하여 계산 비용을 줄이는 데 사용

3. SVD는 다양한 분야에서 활용되며, 주로 행렬의 차원 축소, 행렬 근사, 행렬의 특이값과 특이벡터 분석 등에 사용

4. 데이터 분석, 머신러닝, 신호 처리 등 다양한 분야에서 응용

반응형