20.LDA 결과의 시각

최대 1 분 소요

20강 LDA 분석과 결과의 해석

01. 패키지와 데이터 불러오기

!pip install pyLDAvis
import pyLDAvis.gensim

import gensim
from gensim import corpora
# from sklearn.externals import joblib
import joblib
import sklearn
sklearn.externals.joblib = joblib

시각화하기 위해서 pyLDAvis 패키지를 설치하고 19강에서 불러왔던 패키지를 그대로 import 해준다.

en_dict = gensim.corpora.Dictionary.load_from_text('en_lda_dict.txt')
en_corpus = gensim.corpora.MmCorpus('en_lda_corpus.mm')
en_lda = joblib.load('en_lda_model.pkl')

19강에서 저장해줬던 3개의 파일을 그대로 불러옵니다.

단어를 저장해둔 en_dict, bow인 en_corpus, lda모델인 en_lda를 각각 불러와서 저장해줍니다.

en_lda_ldavis = pyLDAvis.gensim.prepare(en_lda, en_corpus, en_dict)
pyLDAvis.save_html(en_lda_ldavis, 'en_lda_ldavis.html')

pyLDAvis 패키지를 사용해서 lda 시각화 모형을 따로 html에서 확인하기 위해서 html로 저장해줍니다

2. 시각화 해보기

저장되어 있는 en_lda_ldavis.html 파일을 크롬을 통해서 열어서 확인해보자

10개의 군집으로 되어 있는 topic들을 확인할 수 있다.

각 군집을 클릭하면 해당 군집에 대한 단어와 차지하는 비율을 확인해볼 수 있다.

첫번째 군집같은 경우는 17.6%를 가진 가장 큰 군집으로 가장 많은 단어를 품고 있고 10번째 토픽이 가장 작은 군집인 것을 한눈에 확인할 수 있다.

클릭하면 위와 같이 어떤 단어들이 어느정도 포함되어 있는지 확인할 수 있다.

여기서 주의해야할 점은 19강에서 확인했던 군집의 순서가 아니기 때문에 안에 있는 단어로 확인해볼 필요가 있다.

모든 군집에서 자주 출현하는 단어를 정제할 필요가 있어보인다.

Twitter Facebook LinkedIn

20.LDA 결과의 시각

20강 LDA 분석과 결과의 해석

01. 패키지와 데이터 불러오기

2. 시각화 해보기

공유하기

댓글남기기

참고

22.word2vec Modeling 실습

22.word2vec Modeling 실습

21.word2vec의 개념 및 원리

19.LDA 분석과 결과의 해석