노트/Data Science : 데이터과학(15)
-
[Regression and Prediction] 선형회귀 (Linear Regression)
지도학습 - 선형회귀 (Linear Regression) 선형 회귀는 독립변수와 종속변수간의 선형 관계를 찾는데 유용합니다. 독립변수는 집의 크기이고 종속변수는 집의 시장 가격인 데이터셋이 있으면, 아래와 같은 등식을 만들 수 있습니다. X와 Y를 학습 데이터에서 고려한다면, 학습 데이터를 가장 최적으로 적합하는 등식을 만들어내는 $\theta_0^*$ 과 $\theta_1^*$ 를 추정하는 것을 목적으로 합니다. 실제값과 예측값의 차이를 오차 또는 잔차라고 부릅니다. 수학적으로 표현하면 다음과 같이 표현할 수 있습니다. $W = Y - (\theta_0^* + \theta_1^* X ) $ 최적의 직선을 추정하기 위해서, 평균 제곱 오차 (mean squared error)를 최소화 하여 $ \th..
2024.05.02 -
[UnstructuredData] k-means 클러스터링
보호되어 있는 글입니다.
2024.04.27 -
[UnstructuredData] 차원축소 (Dimensionality Reduction) (PCA & tSNE)
보호되어 있는 글입니다.
2024.04.27 -
[Foundation of Data Science] 가설 검정 프레임워크
보호되어 있는 글입니다.
2024.04.09 -
[Naver Deview 2021] ClickHouse (클릭하우스) 리뷰
아래 영상을 보고 리뷰 및 정리한 글 입니다. https://www.deview.kr/2021/sessions/462 글로벌 데이터 주권 강화 시대에 맞는 DATA CUBE 개발 ( GDPR 에 맞서는 개발 ) 발표자 : 김영진, 이모원 deview.kr https://www.deview.kr/data/deview/session/attach/4_%E1%84%80%E1%85%B3%E1%86%AF%E1%84%85%E1%85%A9%E1%84%87%E1%85%A5%E1%86%AF%20%E1%84%83%E1%85%A6%E1%84%8B%E1%85%B5%E1%84%90%E1%85%A5%20%E1%84%8C%E1%85%AE%E1%84%80%E1%85%AF%E1%86%AB%20%E1%84%80%E1%85%A1%E1%86..
2024.03.26 -
[Foundation of Data Science] 가설 검정
다룰 개념들: 모평균 μ에 대한 가설 검정 단측 검정과 양측 검정 시스템에 Scipy의 최신 버전을 설치하기 위해 명령어를 입력합니다. !pip install scipy==1.6.1 import scipy scipy.__version__ >> '1.7.3' 필요한 패키지들을 import 합니다. # import the important packagews import pandas as pd # 데이터 핸들링과 분석을 위한 라이브러리 import numpy as np # 배열에 사용되는 라이브러리 import matplotlib.pyplot as plt # 그래프와 시각화를 위한 라이브러리 import seaborn as sns # 시각화를 위한 라이브러리 %matplotlib inline import sc..
2023.11.05