본문 바로가기
Machine Learning

ML #13 : 머신러닝 k-means Clustering 특징, 장단점, 적용 예시 (비지도학습)

by 무적물리 2020. 4. 25.

k-means Clustering 개요

k평균 클러스터링은 앞 포스팅에서 설명한 자율학습(비지도학습)의 분류기법 입니다. k평균 클러스터링의 분류 절차는 아래와 같은 순서대로 이루어집니다.


1. 중심값 선정

2. 중심값과 다른 데이터 간 거리로 분류

3. 분류 완료 때까지 반복


k평균 클러스터링은 모집단 또는 범주에 대한 사전 정보가 없을 때, 주어진 관측값들 사이의 거리를 측정함으로써 유사성을 이용해서 분석할 수 있습니다. 또한, 전체 데이터를 여러 개의 집단으로 그룹화하는데, 이는 각 집단의 성격을 파악하며 데이터 전체 구조를 이해하기 위함입니다.


k평균 클러스터링의 핵심은 새로운 데이터와 기존 데이터 간의 유클리디안 거리가 최소가 되도록 분류하는 것입니다. 기존 데이터를 기준점으로 유클리디안 거리를 측정하고 거리가 최소화되도록 k개의 군집으로 클러스터링합니다. 이때, 각 클러스터와 거리 차이의 분산을 최소화해야 함으로써 그룹화 합니다.




k-means Clustering 개념

k평균 클러스터링은 입력 값으로 k를 취하고 객체 집합을 k개의 클러스터로 만드는 방법입니다. 즉, 클러스터 내 유사성은 높게, 클러스터 간 유사성은 낮게해야 좋은 분류가 이루어집니다.


1. 클러스터 내 유사성 : HIGH

2. 클러스터 간 유사성 : LOW



k-means Clustering 특징

k평균 클러스터링은 기본적으로 거리기반 분류이기 때문에 유클리디안 거리를 측정하며, 중심점과의 거리를 최소화하는 작업을 반복함으로써 분류하는 머신러닝의 비지도학습 기법입니다. 반복 작업을 통해서 초기의 오류를 회복하며, 새로운 자료에 대한 탐색을 통해 의미 있는 자료를 찾아냅니다. k-means clustering의 특징은 아래와 같습니다.


1. 짧은 계산 시간 : 간단한 알고리즘

2. 탐색적 방법 : 대용량 데이터에 적합

3. 다양한 데이터 적용 가능


k-means Clustering 수행 절차

k-means clustering은 아래와 같은 절차에 따라 수행됩니다. 클러스터의 개수를 정하면 클러스터의 중심을 뿌리고 고치는 작업을 반복함으로써 분류가 이루어집니다.



1. 클러스터링의 수 k 정의

2. 각 측정값을 클러스터에 할당

3. 새로운 클러스터의 중심 계산

4. 클러스터 재분류

5. 반복

6. 경계가 변경되지 않으면 종료


k-means Clustering 초기화 기법

k평균 클러스터링의 초기화 기법에는 무작위 분할, Forgy, MacQueen, Kaufman과 같은 기법이 있습니다. 아래에서 각 초기화 기법에 대해 설명하겠습니다.


#1. 무작위 분할 기법은 가장 많이 쓰이는 기법으로 임의의 클러스터에 데이터들을 배당합니다. 각 데이터들에 대해 고르게 분포되며, 데이터 집합의 중심에 클러스터가 위치한다는 특징이 있습니다. 초기화 기법을 잘 모르겠다면 그냥 무작위 분할 기법을 사용하는 것이 가장 만만합니다.


#2. Forgy 초기화 기법은 임의의 k개 데이터를 선택해서 초기 중심으로 설정합니다. 따라서, 각 클러스터의 중심이 데이터 중심으로 부터 멀리 떨어져 위치한다는 특징이 있습니다.


#3. MacQueen 기법은 초기 클러스터 중심 배당은 Forgy와 동일하지만, 클러스터 중심을 다시 계산하는 기법입니다. MacQueen 기법은 최종에 가까운 클러스터를 찾는 것을 빠르지만, 최종에 해당하는 클러스터를 찾는 것은 매우 느리다는 단점이 있습니다.


#4. Kaufman 기법은 가장 중심에 위치한 데이터를 첫번째 중심으로 설정하고, 선택되지 않은 데이터 집합에 근접하게 위치한 데이터를 새로운 중심으로 k개의 중심이 설정될 때까지 반복하는 기법입니다. Kaufman 기법은 다른 초기화 기법보다 월등한 성능을 보여줍니다.


k-means Clustering 클러스터 수 계산

k평균 클러스터링의 클러스터 수를 계산하는 기법은 Rule of Thumb, Elbow Method, 정보 기준 접근법이 있습니다. 이 역시 하나씩 아래에 설명하겠습니다.


#1. Rule of Thumb은 가장 간단한 방법이며, 데이터 수가 n개라고 한다면 k = (n/2)^(1/2) 로 정해주면 됩니다.


#2. Elbow Method는 클러스터 수를 순차적으로 늘려가면서 결과를 모니터링하는 방법입니다. 하나의 클러스터를 추가했을 때, 이전보다 좋은 결과를 나타내지 않으면 이전의 클러스터 수를 최종 클러스터의 수로 설정하면 됩니다.


#3. 정보 기준 접근법은 클러스터링 모델에 대해 가능성을 계산하는 방법입니다. 가능성을 계산할 수 있는 경우에 사용하지만 일반적으로 가능성을 계산할 수 있는 데이터가 많이 없기 때문에 Rule of Thumb, Elbow Method를 사용합니다.



k-means Clustering 장점

k평균 클러스터링은 분석방법의 적용이 쉽다는 장점이 있습니다. 데이터에 대한 사전 정보가 필요하지 않으며, 사전에 특정 변수에 대한 역할 정의가 필요하지 않습니다. 또한, 관찰 데이터 간의 거리만이 분석에 필요한 입력 값 입니다.


k-means Clustering 단점

k평균 클러스터링도 역시 단점이 존재합니다. 먼저, 가중치와 적정 거리에 대한 정의가 필요합니다. 관찰 데이터들 사이의 거리를 정의하는 것이 어렵고, 각 변수에 대한 가중치를 결정하는 것이 어렵습니다. 또한, 초기 클러스터의 수를 결정하는데에 어려움이 있는데, 초기 설정 클러스터의 수가 적합하지 않으면 결과가 좋지 못합니다. 마지막으로, 모든 데이터를 거리로만 판단하게 됨으로, 사전에 주어진 목적이 없어 결과 해석이 어렵다는 단점도 존재합니다.


1. 가중치와 거리 정의 필요

2. 초기 클러스터링 수 결정

3. 결과해석이 어려움


k-means Clustering 활용 예시

1. 데이터 분류, 클러스터링 방법

2. 성향이 불분명한 시장 분석

3. 트렌드와 같이 명확하지 목한 기준 분석

4. 패턴인식, 음성인식 기본 기술

5. 관련성을 알 수 없는 데이터 초기 분류


마무리

이번 포스팅에서는 클러스터링 방법 중 가장 기본적인 k평균 클러스터링 기법에 대해 알아보았습니다. 실제로 실무에서 많이 사용하고 있는 기법이며 간단하게 적용하능하지만, 클러스터 수를 정하기가 어렵다는 단점이 있습니다. 잘만 활용한다면 좋은 군집화 기법이니, 잘 활용하시면 좋겠습니다.


댓글