[Regression and Prediction] 부트스트랩핑 (Bootstrapping)

2024. 5. 3. 12:35노트/Data Science : 데이터과학

부트스트래핑 이란? 

부트스트래핑은 하나의 데이터 셋으로 부터 많은 시뮬레이션할 샘플들을 만들기 위해 재샘플링 하는 통계적 과정을 의미합니다. 

 

어떻게 부트스트래핑을 수행할수 있는지? 

복원 추출 방식으로 부투스트래핑을 수행할 수 있고, 각 샘플을 "Bootstrap Sample"이라 부릅니다. 

복원 추출할 때, 모수로 부터 임의로 하나를 추출하고, 다시 모수 안에 넣은다음 다음 아이템을 추출합니다. 즉 각 아이템이 매번 선택될 확률이 동일합니다. 그래서 한 항목이 특정 샘플에 여러번 선택될 수도 있습니다. 

부트스트래핑에서 많은 부트스트래핑의 건수는 더 작거나 원래 데이터의 전체 수와 동일합니다. 

 

더미데이터로 부터 부트스트래핑 샘플의 예시를 생각해봅시다

아래 이미지는 원래 데이터셋으로 부터 만들어진 부트스트랩 샘플입니다. 우리의 경우 3개의 각 부트스트랩 샘플을 원합니다. 

위 이미지에서 부트스트랩 샘플을 만들기위해 임의로 추출된 3개의 항목들을 볼수 있습니다. 여기서 index 7이 부트스트랩 샘플에서 2번 반복되었습니다. 

 

위 이미지에서 부트스트랩 샘플을 만들기위해 임의로 추출된 3개의 항목들을 볼수 있습니다. 여기서 index 5가 부트스트랩 샘플에서 2번 반복되었습니다. 

 

위 이미지에서 부트스트랩 샘플을 만들기 위해 임의로 추출된 3개의 항목들을 볼 수 있습니다. 여기서 모든 항목들은 유니크합니다.