[파이썬기초] 데이터전처리 결측값 (NaN) 처리
2020. 4. 6. 15:18ㆍ노트/Python : 프로그래밍
데이터 결측값 생성
import numpy as np
import pandas as pd
df=pd.DataFrame(data=np.arange(0,15).reshape(3,5),index=['n1','n2','n3'])
df.ix[0,0]=np.nan
df.ix[2,2]=np.nan
df
결측값 채우기
#NaN 결측값 -> 0으로 대체
df.fillna(0)
df.fillna(0, inplace=True) # 기존객체를 변경
#NaN 결측값 -> 각 열의 평균값으로 대체
df.fillna(df.mean())
df.fillna(method="ffill") #바로 위의 데이터값으로 채우기(보간)
누락된 데이터 골라내기
# 데이터프레임: 누락된 데이터 모든 행(row) 골라내기
df.dropna() #열: axis=1 / 행: axis=0 제거(default)
df.dropna(axis=1)
from numpy import nan as NA
data=pd.Series([1,NA,3.5,NA,7])
data
data.dropna() # Series: 누락된 데이터 골라내기
# 결측값 확인
df.isnull().sum()
# 결측값 시각적으로 확인
import missingno as msno
import matplotlib.pyplot as plt
msno.matrix(df)
plt.show()
'노트 > Python : 프로그래밍' 카테고리의 다른 글
[파이썬기초] 데이터전처리 중복값 처리 (0) | 2020.04.07 |
---|---|
[알고리즘] 영화 추천 시스템 코드 (1) | 2020.04.06 |
[파이썬기초] 한글 깨짐 방지코드 (0) | 2020.04.06 |
[파이썬] 데이터 변형 | 원핫인코딩 (0) | 2020.04.04 |
[Kaggle] 자전거 수요 예측 분석 (bike-sharing demand prediction) (0) | 2020.04.02 |