노트/Python : 프로그래밍(69)
-
[텐서플로우] 선형회귀분석(Linear Regression) 기본 구조 파이썬 코드
★설치 환경 pip install tensorflow==1.15.0 tensorboard 2.0.2 tensorflow 1.15.0 tensorflow-estimator 2.0.1 버젼 tensorboard 1.15.0 tensorflow 1.15.0 tensorflow-estimator 1.15.1 Python 3.7.4 텐서플러우로 예측분석 데이터 코드 # 데이터 읽기 path = "C:\\Users\\student\\Desktop\\DY\\★ 데이터\\306. carsdata" cars=pd.read_csv(path + "\\cars.csv") # 사용할 데이터 칼럼 및 xtrain , ytrain data=cars[[' cylinders',' hp']] xtrain = list(data[' cyl..
2020.04.14 -
[파이썬] 데이터변형 | 정규화와 표준화
변수들 간 척도가 다른 경우 데이터 표준화 모집단 : 전체집단, 모집단에서 표본을 추출 표본집단 : 평균, 표준편차, ... -> 통계량 모수적 방법 : 중심극한정리 : 무작위로 복원추출하면, 연속형 자료의 평균에 대한 분포는 정규분포를 띈다. - 가정 : 30개 이상의 표본의 경우에 정규분포를 따른다. 비모수적 방법 : - 10개 미만의 표본의 경우에는 모수적 방법을 사용하지 못함. - 자료를 크기로 나열 -> 순위 매김 -> 차이 비교 표준화 = $ {(각 데이터-평균(각 열)) \over 표준편차(각 열)}$ 평균까지의 거리로, 2개 이상의 대상이 단위가 다를때, 대상 데이터를 같은 기준으로 볼수있게 해줌 모집단이 정규분포를 따르는 경우에 $N(0,1)$ 인 표준정규분포로 표준화 하는 작업 1) n..
2020.04.14 -
[파이썬기초] 데이터 합치기(병합)
pandas.merge() : 하나 이상의 키를 기준으로 DataFrame의 로우를 합침 join메서드 : 컬럼이 겹치지 않고, 완전히 같거나 유사한 색인구조를 가진 여러개의 DataFrame 객체를 합침 pandas.concat() : 하나의 축을 따라 객체를 이어 붙임 combine_first 메서드 : 두 객체를 포개서 한 객체에서 누락된 데이터를 다른 객체에 있는 값으로 채움 예제 데이터 생성 import pandas as pd dleft=pd.DataFrame({"key":['k0','k1','k2','k3'], "A":['a0','a1','a2','a3'], "B":['b0','b1','b2','b3']}) dright=pd.DataFrame({"key":['k2','k3','k4','k5']..
2020.04.13 -
[파이썬기초] 문자열(str) 데이터 다루기
문자열 데이터 변형 data = " a, b, apple" #공백문자 (줄바꿈 문자 포함) 제거하여 리스트로 생성 list=[x.strip() for x in data.split(",")] >>> ['a', 'b', 'apple'] # 쉼표 구분 없이 문자열들의 나열로 리스트 생성 " ".join(list) >>> 'a b apple' join() : 문자열을 구분자로 하여 다른 문자열을 순서대로 이어붙인다. index() : 부분 문자열의 첫번째 글자의 위치를 반환한다. 없을 경우 ValueError find() : 부분 문자열의 첫번째 글자의 위치를 반환한다. 없을 경우 -1 rfind() : 부분 문자 문자열의 마지막 글자의 위치를 반환한다. replcae() " 문자열을 다른 문자열로 치환한다. ..
2020.04.13 -
[파이썬기초] 시계열 데이터 생성하기
시계열 데이터 생성 # 시계열 데이터 생성 import pandas as pd data_ix = pd.date_range("2020/04/13",periods=5,freq="D") #일 >>>DatetimeIndex(['2020-04-13', '2020-04-14', '2020-04-15', '2020-04-16', '2020-04-17'], dtype='datetime64[ns]', freq='D') data_ix = pd.date_range("2020/04/13",periods=5,freq="M") #월 >>>DatetimeIndex(['2020-04-30', '2020-05-31', '2020-06-30', '2020-07-31', '2020-08-31'], dtype='datetime64[ns]'..
2020.04.13 -
[토픽모델링] LSA (Latent Similarity Analysis)를 이용한 토픽모델링 파이썬 코드
데이터 불러오기 from sklearn.datasets import fetch_20newsgroups #20 가지의 서로다른 뉴스데이터 dataset=fetch_20newsgroups(shuffle=True, random_state=1, remove=("headers","footers","quotes")) type(dataset) #sklearn.utils.Bunch documents=dataset.data len(documents) #11314건의 뉴스기사 print(type(documents)) #list 가공이 안된 law data이여서 데이터 전처리 과정이 필요 # 카테고리 확인 dataset.target_names sklearn 패키지에서 분류해놓은 카테고리 ( 결과값 ), 토픽모델링을 하면 여..
2020.04.09