Value Yourself(293)
-
진짜 자기소개서
보호되어 있는 글입니다.
2024.05.04 -
[Unstructured Data] 고객 클러스터링 2024.05.03
-
[Regression and Prediction] 부트스트랩핑 (Bootstrapping)
부트스트래핑 이란? 부트스트래핑은 하나의 데이터 셋으로 부터 많은 시뮬레이션할 샘플들을 만들기 위해 재샘플링 하는 통계적 과정을 의미합니다. 어떻게 부트스트래핑을 수행할수 있는지? 복원 추출 방식으로 부투스트래핑을 수행할 수 있고, 각 샘플을 "Bootstrap Sample"이라 부릅니다. 복원 추출할 때, 모수로 부터 임의로 하나를 추출하고, 다시 모수 안에 넣은다음 다음 아이템을 추출합니다. 즉 각 아이템이 매번 선택될 확률이 동일합니다. 그래서 한 항목이 특정 샘플에 여러번 선택될 수도 있습니다. 부트스트래핑에서 많은 부트스트래핑의 건수는 더 작거나 원래 데이터의 전체 수와 동일합니다. 더미데이터로 부터 부트스트래핑 샘플의 예시를 생각해봅시다: 아래 이미지는 원래 데이터셋으로 부터 만들어진 부트..
2024.05.03 -
[Regression and Prediction] 선형회귀 (Linear Regression)
지도학습 - 선형회귀 (Linear Regression) 선형 회귀는 독립변수와 종속변수간의 선형 관계를 찾는데 유용합니다. 독립변수는 집의 크기이고 종속변수는 집의 시장 가격인 데이터셋이 있으면, 아래와 같은 등식을 만들 수 있습니다. X와 Y를 학습 데이터에서 고려한다면, 학습 데이터를 가장 최적으로 적합하는 등식을 만들어내는 $\theta_0^*$ 과 $\theta_1^*$ 를 추정하는 것을 목적으로 합니다. 실제값과 예측값의 차이를 오차 또는 잔차라고 부릅니다. 수학적으로 표현하면 다음과 같이 표현할 수 있습니다. $W = Y - (\theta_0^* + \theta_1^* X ) $ 최적의 직선을 추정하기 위해서, 평균 제곱 오차 (mean squared error)를 최소화 하여 $ \th..
2024.05.02 -
[UnstructuredData] k-means 클러스터링
보호되어 있는 글입니다.
2024.04.27 -
[UnstructuredData] 차원축소 (Dimensionality Reduction) (PCA & tSNE)
보호되어 있는 글입니다.
2024.04.27