1 분 소요

18강 LDA와 Topic Modeling 개념 및 활용

가. Topic Modeling
  • 키워드(단어)를 바탕으로 유사하게 언급되고 있는 주제(Topic)을 도출하기 위한 통계적 분석 방법
  • 비정형 텍스트 분석에 많이 사용되고 있으며 다양한 종류의 데이터에도 적용가능
  • 주제별 키워드 분포를 바탕으로 주어진 문서에서 발견된 키워드 분포를 분석함으로써 해당 문서에 사용된 주제들을 추정하고 문서들을 주제별로 분류함
  • 또한 문서들이 어떤 주제들을 함께 다루고 있을지 예측이 가능하고 시간에 따라 주제들의 동향 파악과 신규문서가 어느 주제에 대한 것인지 등을 추정할 수 있음.

키워드가 한 주제에 대해서 한 문서에서가 아닌 여러 문서에서 분포되는데 키워드 들의 분포를 파악해서 자주 나타나는 그룹들을 찾아내가는 방법이다.

클러스터링과 비슷하지만 클러스터링은 하나의 군집에만 속하지만, LDA방법은 하나의 주제가 여러 문서에서 동시에 존재할 수 있다는 가정이다. 그렇기에 확률적인 접근으로써 분포를 파악한다.

나. 잠재 디리클레 할당(LDA, Latent Dirichlet Allocation) 개념
  • 디리클레 분포를 이용하여 주어진 문서에 숨겨져 있는 주제들을 추론하는 확률모델 알고리즘
  • 각 주제에서 도출할 수 있는 단어들의 확률 분포를 알고 있을 때, 무작위 과정에 의해 문서가 생성될 수 있다고 가정하는 모형
  • 하나의 문서는 여러 주제로 구성되고 문서의 주제 분포에 따라 단어의 분포가 결정된다는 가정 하에 단어 문서가 생성
  • 문서 전체의 주제, 각 문서별 주제 비율, 그리고 각 주제에 포함될 단어들의 분포 파악

LDA에서 Latent는 문서들 속에서 하위 주제들이 숨겨져있다는 의미적인 용어이다. Dirichlet는 분포의 이름으로 어떤 단어가 어떤 주제에 속할 확률값에 대한 추정하는 방법론이다. 해서 이 단어들을 주제별로 추론하여 할당(Allocation)하는 방법이다.

각 주제에서 도출 할 수 있는 단어들의 확률 분포가 100일때 무작위 과정을 통해서 각 몇퍼센트 나타낼 수 있도록 가정하는 모형이라 할 수 있다.

다. 잠재 디리클레 할당의 원리

연구자는 크게 3가지를 지정해줘야한다.

  • 첫번재는 주제의 수(토픽의 수) 즉 몇가지의 주제로 나눌 것인가.

  • 2,3번째는 임의적인 값인 디리클레 분포 알파값과 베타값 파라미터를 조정해주어야 한다. 이 값이 너무 클수록 문서 집합에 많은 주제가 포함이 되고, 주제에 많은 단어가 포함된다. 주제가 잘 찾아지는 키워드로 연구자가 확인하며 조정해줘야 한다.

여기서 사용 되는 topic과 단어 간의 거리는 실제 거리가 아닌 확률 값으로, 단어는 topic1, topic2, topic3 등 각 주제에 사용될 확률에 따라 비슷하게 많이 사용되는 단어들의 주제를 찾아내는 것이 LDA라고 할 수 있다.

댓글남기기