sklearn(5)
-
[캐글필사] EDA to Prediction (DieTanic)
출처 : https://www.kaggle.com/ash316/eda-to-prediction-dietanic# EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com EDA To Prediction (DieTanic) 1. Explorartory Data Anlysis(EDA) import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns plt.style.use('da..
2021.06.13 -
[파이썬] 데이터변형 | 정규화와 표준화
변수들 간 척도가 다른 경우 데이터 표준화 모집단 : 전체집단, 모집단에서 표본을 추출 표본집단 : 평균, 표준편차, ... -> 통계량 모수적 방법 : 중심극한정리 : 무작위로 복원추출하면, 연속형 자료의 평균에 대한 분포는 정규분포를 띈다. - 가정 : 30개 이상의 표본의 경우에 정규분포를 따른다. 비모수적 방법 : - 10개 미만의 표본의 경우에는 모수적 방법을 사용하지 못함. - 자료를 크기로 나열 -> 순위 매김 -> 차이 비교 표준화 = $ {(각 데이터-평균(각 열)) \over 표준편차(각 열)}$ 평균까지의 거리로, 2개 이상의 대상이 단위가 다를때, 대상 데이터를 같은 기준으로 볼수있게 해줌 모집단이 정규분포를 따르는 경우에 $N(0,1)$ 인 표준정규분포로 표준화 하는 작업 1) n..
2020.04.14 -
[토픽모델링] LSA (Latent Similarity Analysis)를 이용한 토픽모델링 파이썬 코드
데이터 불러오기 from sklearn.datasets import fetch_20newsgroups #20 가지의 서로다른 뉴스데이터 dataset=fetch_20newsgroups(shuffle=True, random_state=1, remove=("headers","footers","quotes")) type(dataset) #sklearn.utils.Bunch documents=dataset.data len(documents) #11314건의 뉴스기사 print(type(documents)) #list 가공이 안된 law data이여서 데이터 전처리 과정이 필요 # 카테고리 확인 dataset.target_names sklearn 패키지에서 분류해놓은 카테고리 ( 결과값 ), 토픽모델링을 하면 여..
2020.04.09 -
[파이썬] 데이터 변형 | 원핫인코딩
머신러닝을 하기 위해서 전처리 작업을 할때, 컴퓨터 알고리즘이 읽을 수 있는 범주형 데이터로 바꿔주는 작업이 필요하다. 이를 원핫인코딩이라고 한다. import seaborn as sns tip=sns.load_dataset("tips") tip.head() 원데이터를 확인해보면 'sex' colomn의 경우 Female과 Male로 되어있다. 이러면 알고리즘이 해당 데이터를 읽지 못한다. 그래서 숫자로 바꿔주어야 한다. # 원핫 인코딩 Female -> 0 , Male -> 1 from sklearn.preprocessing import LabelEncoder def genToInt(data): data['sex']=LabelEncoder().fit(['Female','Male']).transform(..
2020.04.04 -
[Kaggle] 자전거 수요 예측 분석 (bike-sharing demand prediction)
데이터 다운로드 https://www.kaggle.com/c/bike-sharing-demand/data Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com bike data 불러오기 이번 프로젝트는 Kaggle에 있는 공용 자전거 수요 데이터를 학습하여, 각 날짜마다 자전거 수요를 예측해보는 프로젝트에 대해 포스팅하려고 한다. 먼저 트레이닝 데이터와 테스트 데이터를 불러온다. train=pd.read_csv("train.csv", parse_dates=['datetime']) #pare_dates: 날짜 시간으로된 컬럼을 datetime으로 파싱 train.head() test=pd.read_csv("test.csv",p..
2020.04.02