노트(211)
-
[Regression and Prediction] 부트스트랩핑 (Bootstrapping)
부트스트래핑 이란? 부트스트래핑은 하나의 데이터 셋으로 부터 많은 시뮬레이션할 샘플들을 만들기 위해 재샘플링 하는 통계적 과정을 의미합니다. 어떻게 부트스트래핑을 수행할수 있는지? 복원 추출 방식으로 부투스트래핑을 수행할 수 있고, 각 샘플을 "Bootstrap Sample"이라 부릅니다. 복원 추출할 때, 모수로 부터 임의로 하나를 추출하고, 다시 모수 안에 넣은다음 다음 아이템을 추출합니다. 즉 각 아이템이 매번 선택될 확률이 동일합니다. 그래서 한 항목이 특정 샘플에 여러번 선택될 수도 있습니다. 부트스트래핑에서 많은 부트스트래핑의 건수는 더 작거나 원래 데이터의 전체 수와 동일합니다. 더미데이터로 부터 부트스트래핑 샘플의 예시를 생각해봅시다: 아래 이미지는 원래 데이터셋으로 부터 만들어진 부트..
2024.05.03 -
[Regression and Prediction] 선형회귀 (Linear Regression)
지도학습 - 선형회귀 (Linear Regression) 선형 회귀는 독립변수와 종속변수간의 선형 관계를 찾는데 유용합니다. 독립변수는 집의 크기이고 종속변수는 집의 시장 가격인 데이터셋이 있으면, 아래와 같은 등식을 만들 수 있습니다. X와 Y를 학습 데이터에서 고려한다면, 학습 데이터를 가장 최적으로 적합하는 등식을 만들어내는 $\theta_0^*$ 과 $\theta_1^*$ 를 추정하는 것을 목적으로 합니다. 실제값과 예측값의 차이를 오차 또는 잔차라고 부릅니다. 수학적으로 표현하면 다음과 같이 표현할 수 있습니다. $W = Y - (\theta_0^* + \theta_1^* X ) $ 최적의 직선을 추정하기 위해서, 평균 제곱 오차 (mean squared error)를 최소화 하여 $ \th..
2024.05.02 -
[UnstructuredData] k-means 클러스터링
보호되어 있는 글입니다.
2024.04.27 -
[UnstructuredData] 차원축소 (Dimensionality Reduction) (PCA & tSNE)
보호되어 있는 글입니다.
2024.04.27 -
인프런 구글 클라우드 플랫폼 (GCP) 강의
Google Cloud Platform 강의 https://www.inflearn.com/course/%EC%B4%88%EB%B3%B4%EC%9E%90-gcp 새 프로젝트 생성 프로젝트ID 끝에 생성일자를 기재해줌 프로젝트 선택 클릭 상단에 gcp-pjt-share 로 바뀐것을 확인할 수 있음 Compute Engine : AWS EC2와 동일한 클라우드 서버 사용 버튼 클릭 쿠버네티스 엔진 API 사용 버튼 클릭 IAM 서비스 계정 생성 아래 서비스 계정은 Compute Engine 사용하기를 클릭해서 생성된 이메일이며, 추가로 서비스 계정 만들기를 클릭함 - 서비스 계정 이름 : gcp-share-backend - 서비스 계정 ID : gcp-share-backend-20240411 - 설명 : ba..
2024.04.11 -
[Foundation of Data Science] 가설 검정 프레임워크
보호되어 있는 글입니다.
2024.04.09