15.Text Clustering 개념 및 활용
💡목표
- Text Clustering의 개념에 대해 이해하기
- 유클리드의 거리를 계산하기
- 군집화 방법에 대해 알아보기
15강. Text Clustering 개념 및 활용
01. Text Clustering 개념
- 개채들은 다양한 변수를 기준으로 다차원 공간에서 유사한 특성을 가진 개체로 묶는 방법
- 개체들의 유사성과 상의성에 근거하여 군집을 찾고 자료를 요약하는 탐색적인 자료분석방법
유사성과 상의성이라고 하는 계량화된 수치를 통해서 군집별로 분류하는 방법이라 할 수 있다.
1-1. 거리계산방법
-
유사성과 상의성을 수치화하는 방법으로 개체들간의 거리를 계산하여 유사성과 상의성을 측정한다.
-
거리를 계산하는 방법은 대표적으로 유클리드의 거리, ward의 거리 등이 있음.
< 2차원에서 유클리드의 거리 >
- 위와 같은 3개의 점 간의 거리를 유클리드의 거리로 계산해보자
- 파란점과 주황점의 거리 =
=85.4
-
주황점과 초록점의 거리 =
=94.3
- 초록점과 파란점의 거리 =
=80
이를 통해 초록점과 파란점의 거리가 가장 가까운 것을 확인할 수 있다.
2차원을 넘어간다면 어떻게 될까?
이러한 식처럼 같은 차원의 값을 빼주고 곱한 후 루트를 씌우면 된다.
1-2. 단어간 거리(distance)
단어간 거리는 단어간의 유사성과 상의성을 수치화하여 확인할 수 있게 되는데 이를 위해선 TDM형태의 자료가 필요하다.
문서1 | 문서2 | 문서3 | |
---|---|---|---|
Model | 24 | 21 | 12 |
system | 32 | 10 | 16 |
- 위와 같은 자료가 TDM형태의 자료이다. 단어간 거리를 계산하기 위해선 문서가 축(기준)이 되고 단어의 좌표 간의 거리를 계산하기 때문에 TDM형태의 자료가 분석의 단위이다.
- 이땐 기준이 문서1, 문서2, 문서3 총 3개이다. 이때 유클리드의 거리로 계산한 거리의 값은 얼마일까?
- 이렇게 단어간의 거리를 위의 유클리드의 식을 활용하여 구해서 유사성을 측정해낼 수 있다.
1-3. 문서간 거리(distance)
그렇다면 문서간의 유사성과 상의성을 수치화하기 위해선 어떻게 해야할까
model | System | algorithm | |
---|---|---|---|
문서1 | 24 | 21 | 9 |
문서2 | 32 | 10 | 5 |
-
위와 같이 문서간 거리를 계산하기 위해 단어가 축(기준)이 되고 문서의 좌표 간의 거리를 계산한다. 이를 위해선 DTM형태의 자료가 분석의 단위이다.
-
이때도 유클리드의 거리로 계산해낼 수 있다.
1-4. 거리 계산 방법
- 여러 기준 변수를 사용하여 개체간의 거리를 계산하려면 먼저 기준변수를 표준화시킨 후 거리 계산방법을 이용해야 함.
사람 간의 유사성을 측정하기 위해 ‘나이’,’소득’,’키’와 같은 변수가 있을 땐 꼭 이 변수들을 표준화 시켜주는 작업을 해서 변수 간의 단위를 맞춰줘야 한다.
- 유클리드 거리 : 변수값 차이를 제곱하여 합산한 거리 다차원 공간에서 직선 최단거리를 의미함. 가장 일반적으로 사용되는 측정방법
- 제곱유클리드 거리 : 유클리드 거리를 제곱한 거리. SPSS에서는 이 방법이 디폴트(default)로 지정되어 있음
- 체비셰프 거리 : 변수값 차이의 절대값 중 가장 큰 값을 환산한 거리
- 블록거리 : 변수값 차이의 절대값을 합한 거리
- 민코우스키 거리 : 변수값 차이의 p제곱합 1/p 누승근으로 환산한 거리
1.5 군집화 방법
군집연결방법은 거리가 가까운 것끼리 묶인 집단(군집) 간의 거리를 측정하는 방법으로 여러가지 방법이 있다.
-
최단연결법 Single Linkage Method, Nearest Neighbor Method
- 군집간의 거리가 가장 가까운 개체 간의 거리
- 최장연결법 Complete Linkage Method, Furthest Neighbor Method
- 군집간의 거리가 가장 먼 개체 간의 거리
- 중심연결법 Centroid Linkage Method
- 군집 내의 중심 간의 거리
- 중위수연결법 Median Linkage Method
- 군집 내의 중위수에 해당하는 값의 군집 간의 거리
- 군집 간 평균 연결법 Between Average Linkage Method
- 가장 많이 쓰이는 방법으로 군집 간의 개체들의 거리를 모두 계산한 후 이의 평균적인 거리
- 군집 내 평균 연결법 Within Average Linkage Method
- 군집 내의 평균 거리를 계산하여 거리를 계산하는 방법으로 자주 사용하지 않음.
- 왈드 군집법 Ward’s Method
- 서열적인 거리에서 많이 쓰이는 방법
댓글남기기