이번에 학교에서 LDA 모형을 개선하여 토픽 모델링 하는 사업을 맡게 되었다. 데이터는 Visual Genome 사이트의 img, json 파일들을 이용하였고, 기존에 전처리 되어있는 파일에서 뽑아 Gensim에 LDA 모형을 돌려보기로 했다. LDA란? LDA란 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지에 대한 확률모형입니다. LDA는 토픽별 단어의 분포, 문서별 토픽의 분포를 모두 추정해 냅니다. DataSet https://visualgenome.org/api/v0/api_home.html Visual Genome API visualgenome.org - 이미지 파일이 2개의 폴더로 나누어져서 1개의 폴더로 옮겨 담는 작업을 python 코드로 진행 import os import sh..