2 분 소요

💡목표

  • Text Clustering의 개념에 대해 이해하기
  • 유클리드의 거리를 계산하기
  • 군집화 방법에 대해 알아보기

15강. Text Clustering 개념 및 활용

01. Text Clustering 개념
  • 개채들은 다양한 변수를 기준으로 다차원 공간에서 유사한 특성을 가진 개체로 묶는 방법
  • 개체들의 유사성과 상의성에 근거하여 군집을 찾고 자료를 요약하는 탐색적인 자료분석방법

유사성과 상의성이라고 하는 계량화된 수치를 통해서 군집별로 분류하는 방법이라 할 수 있다.

1-1. 거리계산방법
  • 유사성과 상의성을 수치화하는 방법으로 개체들간의 거리를 계산하여 유사성과 상의성을 측정한다.

  • 거리를 계산하는 방법은 대표적으로 유클리드의 거리, ward의 거리 등이 있음.

< 2차원에서 유클리드의 거리 >

{\displaystyle d(p,q)={\sqrt {(q_{1}-p_{1})^{2}+(q_{2}-p_{2})^{2}}}.}

image-20230501183343461

  • 위와 같은 3개의 점 간의 거리를 유클리드의 거리로 계산해보자
  • 파란점과 주황점의 거리 = CodeCogsEqn=85.4
  • 주황점과 초록점의 거리 = CodeCogsEqn (1)=94.3

  • 초록점과 파란점의 거리 = CodeCogsEqn (2)=80

이를 통해 초록점과 파란점의 거리가 가장 가까운 것을 확인할 수 있다.

2차원을 넘어간다면 어떻게 될까?

CodeCogsEqn (3)

이러한 식처럼 같은 차원의 값을 빼주고 곱한 후 루트를 씌우면 된다.

1-2. 단어간 거리(distance)

단어간 거리는 단어간의 유사성과 상의성을 수치화하여 확인할 수 있게 되는데 이를 위해선 TDM형태의 자료가 필요하다.

  문서1 문서2 문서3
Model 24 21 12
system 32 10 16
  • 위와 같은 자료가 TDM형태의 자료이다. 단어간 거리를 계산하기 위해선 문서가 축(기준)이 되고 단어의 좌표 간의 거리를 계산하기 때문에 TDM형태의 자료가 분석의 단위이다.
  • 이땐 기준이 문서1, 문서2, 문서3 총 3개이다. 이때 유클리드의 거리로 계산한 거리의 값은 얼마일까?

CodeCogsEqn (4)

  • 이렇게 단어간의 거리를 위의 유클리드의 식을 활용하여 구해서 유사성을 측정해낼 수 있다.
1-3. 문서간 거리(distance)

그렇다면 문서간의 유사성과 상의성을 수치화하기 위해선 어떻게 해야할까

  model System algorithm
문서1 24 21 9
문서2 32 10 5
  • 위와 같이 문서간 거리를 계산하기 위해 단어가 축(기준)이 되고 문서의 좌표 간의 거리를 계산한다. 이를 위해선 DTM형태의 자료가 분석의 단위이다.

  • 이때도 유클리드의 거리로 계산해낼 수 있다.

CodeCogsEqn

1-4. 거리 계산 방법
  • 여러 기준 변수를 사용하여 개체간의 거리를 계산하려면 먼저 기준변수를 표준화시킨 후 거리 계산방법을 이용해야 함.

사람 간의 유사성을 측정하기 위해 ‘나이’,’소득’,’키’와 같은 변수가 있을 땐 꼭 이 변수들을 표준화 시켜주는 작업을 해서 변수 간의 단위를 맞춰줘야 한다.

  1. 유클리드 거리 : 변수값 차이를 제곱하여 합산한 거리 다차원 공간에서 직선 최단거리를 의미함. 가장 일반적으로 사용되는 측정방법
  2. 제곱유클리드 거리 : 유클리드 거리를 제곱한 거리. SPSS에서는 이 방법이 디폴트(default)로 지정되어 있음
  3. 체비셰프 거리 : 변수값 차이의 절대값 중 가장 큰 값을 환산한 거리
  4. 블록거리 : 변수값 차이의 절대값을 합한 거리
  5. 민코우스키 거리 : 변수값 차이의 p제곱합 1/p 누승근으로 환산한 거리
1.5 군집화 방법

군집연결방법은 거리가 가까운 것끼리 묶인 집단(군집) 간의 거리를 측정하는 방법으로 여러가지 방법이 있다.

  1. 최단연결법 Single Linkage Method, Nearest Neighbor Method

    • 군집간의 거리가 가장 가까운 개체 간의 거리
  2. 최장연결법 Complete Linkage Method, Furthest Neighbor Method
    • 군집간의 거리가 가장 먼 개체 간의 거리
  3. 중심연결법 Centroid Linkage Method
    • 군집 내의 중심 간의 거리
  4. 중위수연결법 Median Linkage Method
    • 군집 내의 중위수에 해당하는 값의 군집 간의 거리
  5. 군집 간 평균 연결법 Between Average Linkage Method
    • 가장 많이 쓰이는 방법으로 군집 간의 개체들의 거리를 모두 계산한 후 이의 평균적인 거리
  6. 군집 내 평균 연결법 Within Average Linkage Method
    • 군집 내의 평균 거리를 계산하여 거리를 계산하는 방법으로 자주 사용하지 않음.
  7. 왈드 군집법 Ward’s Method
    • 서열적인 거리에서 많이 쓰이는 방법

댓글남기기