랜덤포레스트(3)
-
[머신러닝] 랜덤포레스트를 이용한 은행 마케팅 (deposit 예측)
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.tree import export_graphviz from sklearn import tree from sklearn import metrics %matplotlib inline 데이터 # UCI Bank Marketing data set archive.ics.uci.edu/ml/datasets.php path = "C:\\Users\\student\\Desktop\\DY\\★ 데이터\\307.bankmarketing\\" ..
2020.05.19 -
[머신러닝] 결정트리와 랜덤포레스트를 이용한 분류 기법
참고 문헌 : [파이썬 라이브러리를 활용한 머신러닝] p103~ p121 1. 결정트리 (DecisionTreeClassifier) * 만들어진 모델을 쉽게 시각화할 수 있어 비전문가도 이해하기 쉬움 * 특성의 정규화나 표준화 같은 전처리 과정이 필요없음 * 과대적합이 되는 경향이 있음 유방암 분류 예제 import sklearn from sklearn import datasets from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split cancer = sklearn.datasets.load_breast_cancer() X_train, X_test , y_train, y_test =..
2020.05.19 -
[Kaggle] 자전거 수요 예측 분석 (bike-sharing demand prediction)
데이터 다운로드 https://www.kaggle.com/c/bike-sharing-demand/data Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com bike data 불러오기 이번 프로젝트는 Kaggle에 있는 공용 자전거 수요 데이터를 학습하여, 각 날짜마다 자전거 수요를 예측해보는 프로젝트에 대해 포스팅하려고 한다. 먼저 트레이닝 데이터와 테스트 데이터를 불러온다. train=pd.read_csv("train.csv", parse_dates=['datetime']) #pare_dates: 날짜 시간으로된 컬럼을 datetime으로 파싱 train.head() test=pd.read_csv("test.csv",p..
2020.04.02