다이엔 스페이스

토픽모델링(1)

[토픽모델링] LSA (Latent Similarity Analysis)를 이용한 토픽모델링 파이썬 코드
데이터 불러오기 from sklearn.datasets import fetch_20newsgroups #20 가지의 서로다른 뉴스데이터 dataset=fetch_20newsgroups(shuffle=True, random_state=1, remove=("headers","footers","quotes")) type(dataset) #sklearn.utils.Bunch documents=dataset.data len(documents) #11314건의 뉴스기사 print(type(documents)) #list 가공이 안된 law data이여서 데이터 전처리 과정이 필요 # 카테고리 확인 dataset.target_names sklearn 패키지에서 분류해놓은 카테고리 ( 결과값 ), 토픽모델링을 하면 여..
2020.04.09

1

티스토리툴바