노트(211)
-
[머신러닝] 결정트리와 랜덤포레스트를 이용한 분류 기법
참고 문헌 : [파이썬 라이브러리를 활용한 머신러닝] p103~ p121 1. 결정트리 (DecisionTreeClassifier) * 만들어진 모델을 쉽게 시각화할 수 있어 비전문가도 이해하기 쉬움 * 특성의 정규화나 표준화 같은 전처리 과정이 필요없음 * 과대적합이 되는 경향이 있음 유방암 분류 예제 import sklearn from sklearn import datasets from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split cancer = sklearn.datasets.load_breast_cancer() X_train, X_test , y_train, y_test =..
2020.05.19 -
[자연어처리] LSTM을 이용한 챗봇(chatbot) 만들기
학습 데이터 import pandas as pd path = "C:\\Users\\student\\Desktop\\chatbot\\01.data\\" chatbotData=pd.read_csv(path+"ChatData.csv") question, answer = list(chatbotData["Q"]) , list(chatbotData["A"]) print(len(question)) print(len(answer)) >>> 11823 11823 for i in range(10): print("질문:" + question[i]) print("답변:" + answer[i]) print(" ") >>> 질문:12시 땡! 답변:하루가 또 가네요. 질문:1지망 학교 떨어졌어 답변:위로해 드립니다. 질문:3박4일..
2020.05.18 -
[자연어처리] 문장 생성하기 (text generation)
# 텍스트 제너레이션 from keras.preprocessing.text import Tokenizer from keras.preprocessing.sequence import pad_sequences text="""과수원에 있는 배가 맛있다 그의 배는 많이 나왔다 가는 길에 배를 탔고 오는 길에도 배를 탔다\n""" 텍스트 인코딩 tok = Tokenizer() tok.fit_on_texts([text]) vocSize=len(tok.word_index)+1 seqs = list() for line in text.split("\n"): encoded = tok.texts_to_sequences([line])[0] for i in range(1, len(encoded)): seq = encoded[:i..
2020.05.18 -
[자연어처리] word2vec 로 워드임베딩 하기
* 원핫인코더 vs 워드임베딩 원핫인코더 -> 멀캠 => [0,1,,0,0,0,0,0,] 1000차원 워드임베딩 -> 멀캠 => [0.3,-1.5] 100차원 * word2vec 알고리즘이 구현된 사이트 https://word2vec.kr/search/ Korean Word2Vec ABOUT 이곳은 단어의 효율적인 의미 추정 기법(Word2Vec 알고리즘)을 우리말에 적용해 본 실험 공간입니다. Word2Vec 알고리즘은 인공 신경망을 생성해 각각의 한국어 형태소를 1,000차원의 벡터 스페이 word2vec.kr * Word2vec Skip-gram : 중간 단어들로 부터 주변 단어를 예측 CBOW : 주변 단어들로 부터 중간 단어를 예측 모델 생성 코드 import re from lxml import..
2020.05.18 -
[자연어처리] 번역기 프로그램 만들기
데이터 www.manythings.org/anki/ Tab-delimited Bilingual Sentence Pairs from the Tatoeba Project (Good for Anki and Similar Flashcard Applications) Introducing Anki If you don't already use Anki, vist the website at http://ankisrs.net/ to download this free application for Macintosh, Windows or Linux. About These Files Any flashcard program that can import tab-delimited text files, such as Anki (fre..
2020.05.14 -
[자연어처리] 케라스로 단어사전 만들기
단어 토큰화 from keras.preprocessing.text import Tokenizer tok = Tokenizer() text = "Regret for wasted time is more wasted time" tok.fit_on_texts([text]) # 사전을 생성 #[text] : 단어 단위 토큰화 #text : 문자 단위 토큰화 print(tok.word_index) test = "Regret for wasted time is more wasted hour" seq = tok.texts_to_sequences([test]) # 사전에 test에 저장된 단어가 있는지 확인 from keras.preprocessing.sequence import pad_sequences # pad_seq..
2020.05.08