[Regression and Prediction] 선형회귀 (Linear Regression)

2024. 5. 2. 14:37노트/Data Science : 데이터과학

지도학습 - 선형회귀 (Linear Regression)

선형 회귀는 독립변수와 종속변수간의 선형 관계를 찾는데 유용합니다. 독립변수는 집의 크기이고 종속변수는 집의 시장 가격인 데이터셋이 있으면, 아래와 같은 등식을 만들 수 있습니다. 

 

 

X와 Y를 학습 데이터에서 고려한다면, 학습 데이터를 가장 최적으로 적합하는 등식을 만들어내는 $\theta_0^*$ 과 $\theta_1^*$ 를 추정하는 것을 목적으로 합니다. 실제값과 예측값의 차이를 오차 또는 잔차라고 부릅니다. 수학적으로 표현하면 다음과 같이 표현할 수 있습니다. 

$W = Y - (\theta_0^* + \theta_1^* X ) $ 

최적의 직선을 추정하기 위해서, 평균 제곱 오차 (mean squared error)를 최소화 하여 $ \theta_0^* $ 와 $ \theta_1^* $ 를 추정할 필요가 있습니다. 평균 제곱 오차를 계산하기 위해서 각 오류항의 제곱을 합하고 전체 건수로 나눕니다. 

 

 

최적 직선은 다음을 따릅니다 .

 

 

보지 않은 데이터에 모델을 적용하기 전에 신뢰할 수 있는지 성능을 확인해 보는것은 중요합니다. 선형 회귀 모델의 성능을 평가하는데 몇가지 지표들이 있습니다. 

 

  1. R-squared (결정계수) : R-squared는 학습데이터에 선형 모델이 얼마나 잘 적합되었는지 이해하기에 좋은 성능 지표입니다. 예를들어 R-squared가 80% 라는 것은 학습 데이터의 80%가 선형 모델에 적합했다는것을 의미합니다. 더 높은 R-squared 값일 수록 모델에 더 잘 핏팅 됬다는 것을 뜻합니다. 

  2. Adjusted R-squared (조정된 결정계수) : Adjusted R-squared 값은 모델에서 독립변수의 갯수를 고려하여 R-squared의 수정된 버전입니다. 새로운 변수가 추가될 때, adjusted R-squared 값은 이 변수가 모델에 값을 추가하면 증가하고, 추가하지 않으면 감소됩니다. 따라서 Adjusted R-squared 값은 종속 변수의 값을 잘 예측하기 위해 모든 독립변수가 필요할 때만 높은 상태를 유지하기 때문에, 여러개의 독립변수가 있는 회귀 모델의 품질을 평가하기 위해서는 R-squared 보다 더 좋은 평가 지표 입니다. 예측 변수에 큰 영향을 미치지 않는 독립변수가 있다면 감소하게 됩니다. 

    https://m.blog.naver.com/tlrror9496/222055889079 (결정계수 설명)  
  3. RMSE : RMSE는 평균제곱오차의 제곱근(Root Mean Squared Error) 을 의미합니다. 실제값과 예측값 사이의 차이의 제곱에 대한 평균에 제곱근을 구한것으로 계산됩니다. RMSE가 더 낮을 수록 모델 성능이 더 좋다는 것을 의미합니다. 수식적으로 아래와 같이 표현할 수 있습니다. 

 

 

결정계수에 대한 해석 

R squared는 적합 품질에 대하 말해주는 중요한 지표입니다. 독립변수가 종속변수에서 설명하는 분산을 나타내며, 범위는 아래와 같습니다. 

$0 \leq R^2 \leq 1 $

R2는 항상 비 음의 0과 1 사이의 값을 가지며, 전체 분산 중에서 설명되어지는 비율을 의마합니다. 1에 가까울 수록 정의했듯이 더 많은 분산들이 설명된다고 볼 수 있습니다. 그래서 R squared 값이 높을 수록 좋습니다. 

 

$R^2$ 는 X가 1차원일때 단순 선형회귀로 표시되는 수학적 표시입니다. $R^2$ 는 X와 Y간의 상관계수의 제곱입니다. 그래서 이 지표는 그자체로 수학적 해석을 가지고 있습니다. 그러나 X가 더 높은 차원일때는 더이상 해석을 가지지 못합니다. 

 

한 예시를 봅시다. 

 

$\hat{Sales} = 2.94 + 0.046\cdot (TV) + 0.19\cdot (Radio) - 0.001\cdot (NewsP) $ 

$R^2 = 0.897 $

 

다중 회귀 분석을 수행하고, 매출에 대한 predictor를 도출해냈다. predictor는 매우 좋다. $R^2$ 가 거의 0.9에 가깝기 때문이다. 다른 영역간의 광고 예산을 고려했을 때 판매액의 90%의 변동성은 설명될 수 있따는 것이다. 그래서 광고 예산으로 매출을 설명할 수 있다. 

 

한번 한 변수만 가지고 같은 작업을 반복해보자. 

신문 광고만 한번 보면 

$\hat{Sales} = 12.35 + 0.055\cdot (NewsP) $ 

$R^2 = 0.05 $

이 경우에 $R^2$ 값은 매우매우 작다. 이것은 신분 예산은 매출 예측하는데 그렇게 유용하지 않다는 것을 뜻한다. 매출을 어쨋든 설명하지 못한다. 

 

TV만 단독으로 계산하면 $R^2 = 0.61$ 이 되고, 

Radio만 단독으로 계산하면 $R^2 = 0.33$ 이 된다. 

 

우리는 또한 같은 연습을 반복하고 TV 예산만으로 간단한 선형 회귀를 실행하며 어느 정도 매출을 예측하는 데 적합합니다. 라디오도 그 자체로 판매를 설명하는 것으로 밝혀졌는데, 그 정도는 훨씬 작았지만 말이다.

 

여기서 TV와 라디오 각 변수들이 어느정도 설명하는데 도움을 준것으로 보인다. 하지만 우리가 3가지 변수들을 함께 놓고 보면, 더 잘 설명이 된다. 함께 보는것이 더 매출을 잘 예측할 수 있다. 

 

이것이 전형적인 회귀 문제다. 당신이 더 많은 변수를 사용할 수록 $R^2$ 는 증가한다. 더많은 변수들 즉 더 많은 X값들을 우리가 던진다면, 예측값이 더 좋아질 것이라는 뜻이다. 그러나 우리는 이것을 과하게 할 수 없다. 우리가 너무너무 많은 변수들을 던진다면, $R^2$ 는 거의 1과 가까운 값이 될 것이고 완벽한 예측치를 만들수 있게 될 것이다. 

이런 완벽한 예측은 과적합에 해당할 수 있으므로 이에 대해 주의해야 할 것입니다. 

 

이 공식들에는 변수의 수를 늘릴 때(위 식에서 'm') 데이터를 적합시킬 수 있는 추가 자유도가 하나 더 있다는 점을 고려하여 보고하는 R2를 조정해야 합니다.

 

우리의 특정한 예에서, 조정된 R2는 우리가 이전에 가졌던 R2와 거의 같습니다. 따라서 이 공식은 큰 차이를 만들지 못한다. 일반적으로 n이 크고 m보다 훨씬 클 때 (n - m)은 n과 거의 같으므로 조정된 R2는 본질적으로 R2와 같으며 우리가 걱정해야 할 차이는 아니게 됩니다.

 

 

 

선형 회귀의 가정 (Assumptions of Linear Regression) 

 

현실 세계의 회귀 문제를 풀기위해 선형 회귀를 적용할 때, 알고리즘이 몇가지 가정 하에 작동한다는 것을 이해할 필요가 있습니다. 이 가정은 우리의 분석 결과를 정확하게 결론 짓게 합니다. 하나 이상의 몇가지 가정들이 만족되지 않는 케이스 에서는, 모델의 성능과 결과가 모델로 부터 추론을 이끌어내기에 충분히 신뢰하기 어렵거나, 눈에 보이지 않는 데이터에 적용되게 됩니다. 그래서 아래의 몇가지 가정들이 선형회귀에 의해 만족되는지 확인해보는 것은 중요합니다. 

  • 선형성 (Linearity) : 첫째 그리고 가장 중요한 가정은 독립변수와 종속변수 간의 관계와 관련되어있습니다. 선형회귀모델은 데이터를 직선으로 적합하기 때문에, 독립변수와 종속변수간의 관계는 반드시 선형이어야 합니다; 그렇지 않다면, 데이터의 패턴을 식별하는데 실패하고 결과에 높은 오류가 생깁니다. 
  • 다중공선성 (Multicollinearity) : 데이터의 독립변수들 간의 관계에 관련된 현상입니다. 선형 회귀는 독립변수들 간의 다중공선성이 없다는 것을 가정합니다. 다중공선성은 추정계수의 정밀도를 감소시켜 회귀모형의 통계적 검정력을 약화시킵니다. 이 이유는 연관된 변수들은 모델에게 반복된 정보들을 제공하게 되고 그에 따라 실제 값보다 한 변수의 중요성이 약화될 수 있기 때문입니다. 이를 피하기 위해서, 오직 상관관계가 없는 독립변수들만을 모델에 포함하는 것은 중요합니다. 
  • 등분산성 (Homoscedasticity) : 가정에 다르면, 각 데이터 포인트와 관련된 에러는 최적합된 선을 따라 균등하게 스프레드 되어야 합니다. (동일한 분산을 가진다는 의미입니다.) 선형 회귀 모형의 방정식 도출은 오차항들이 일정한 분산을 갖는다고 가정합니다. 따라서,  등분산성 가정을 위반한 경우 선형 회귀 모형의 결과는 신뢰할 수 없을 수 있습니다.
  • 오류항의 정규 분포 (Normal Distribution of error terms) : 오류항이 정규분포를 따르지 않는다면, 신뢰 구간이 너무 넓거나 좁아질 수 있습니다. 한번 신뢰 구간이 불안정해지면, 최소 제곱에 대한 최소화를 근거로 계수를 추정하는데 어려움을 겪게 됩니다. 비 정구분포의 존재한다는 것은 비정상적인 데이터 지점이 있다는 것을 의미해서, 더 좋은 모델을 위해 면밀히 연구되어야 합니다. 
  • 내생성 (Endogeneity) : 모델의 오류항과 관련되어있는 독립변수에 대한 현상입니다. 내생성을 가지면, 최적화 과정이 편향된 모델 파라미터로 이어지게 될것입니다. 이는 모델 성능에 악영향을 끼치게 될것입니다. 이를 피하기 위해서, 독립변수들이 오류항에 관련 없다는 것을 가정해야 합니다. 

 

OLS (최소자승법) 

https://xiang32.tistory.com/11

 

 

계수 추정치의 신뢰도 (Reliability of Coefficient Estimates)

우리가 추정하고자 하는 진짜 $\theta^*$ 값이 있다고 믿는것은 의미가 있을 것입니다. 

한 세팅값에서 매우 큰 진짜 모수가 있고 우리는 최적 선형 예측기를 다루는 것에 관심이 있다고 해봅시다.

 

 

유한한 샘플에서, 최적합선을 찾으려고 시도하려 합니다. 만약 우리가 그 모집단과 여전히 대표적이지만 다른 개체를 가진 다른 유한 표본을 갖게 된다면 말입니다. 그럼 그 선은 다소 달라지게 될것입니다. 그래서 우리가 얻은 특정 샘플에 따라 $\theta$값의 추정치는 변동성이 있습니다. 이는 샘플링의 무작위성이 결과에 영향을 미친다는 것을 의미합니다.

 

그렇다면, 결과가 다소 랜덤이라면 얼마나 랜덤한지, 또는 변동성을 얼마나 우리가 예측할 수 있을까요? 위에서 예측한 빨간선이 거의 같거나 매우 다르다는 걸 예측할 수 있을까요? 

만약 매우 다르다면, 우리의 최적합 선을 매우 신뢰할 수 없다는 것을 의미합니다. 왜냐하면, 다른날 실험을 한다면 매우 다른 결과를 갖게된다는 사실을 알게되었기 때문이죠. 하지만 그렇게 너무 다르지 않다면, 그 결과를 더 잘 신뢰할 수 있을것입니다. 

이런 추론 방식을 좀 더 정확하게 하기 위해서, 여기에 진짜 $\theta^*$ 값이 있다고 가정해봅시다. 세계가 선형적이고, 모델이 합리적인 가정들을 만족한다고 가정해봅시다. Y값들은 X값의 선형 함수에 몇몇 독특한 노이즈를 더한 값입니다. 

만약에, 구조적인 가정이 사실이 아니라면, 우리의 추정치의 변동성과 정확성을 평가하기 위한 몇가지 방법들이 있습니다. 하지만 이를 위해서는 좀더 데이터 직접적으로 적용해봐야 합니다. 이건 나중에 논의하기로 하고, 지금은 공식적이고 분석적인 방식으로 적용해 봅시다. 

분석적인 방식은 최적 추정치, 즉 선형 회귀의 결과가 단순한 공식에 근거했다는 사실을 기반으로 합니다. 추정치는 X와 Y의 함수입니다. Y는 noise 항목을 가지고 있어서 $\theta$ 또한 noisy 합니다. 

그래서 $\hat{\theta}$ 는 랜덤 변수 입니다. 랜덤 변수 이기 때문에, 통계적 속성을 가지고 있습니다. 우리는 추정치가 파라미터의 측정한 값에 가깝길 기대합니다. 그리고 여기서, index j를 고려해야합니다. 우리는 한가지 파라미터만 살펴보았습니다. $\theta^*_j$ 는 실제값이고 $\hat{\theta_j}$ 는 추정치 입니다. 이 두값이 얼마나 떨어져 있는지 평균 을 내면, 

 라는 기대값을 가지게 됩니다. 

 

 

따라서 모집단에 걸쳐 개인을 표본으로 추출하는 경우, 표본을 추출하는 전체 모집단이 될 것으로 예상됩니다. 따라서 데이터 세트의 무작위성과 관련된 기대입니다. 그리고 우리의 추정치에 영향을 미치는 것은 노이즈 W에 대한 기대이기도 합니다. 

 

이제 이것은 우리의 추정 절차의 평균 제곱 오차이며 우리가 이 절차를 적용할 때마다 평균적으로 어떤 종류의 오차를 얻을 것으로 예상하는지 알려준다. 그리고 이 평균 제곱 오차는 기본 확률의 공식을 사용하면 두 항으로 분해될 수 있습니다.

첫번째 항은 실제 값과 추정치들의 평균값들의 차이 는 편향(bias) 이라고 한다. 

여기서 bias = 0 이면 편향이 없다라고 하고 bias != 0 이면 편향이 있다고 한다. 

그리고 우리 추정치의 변동성과 관련된 또 다른 용어가 있습니다. 그래서 우리가 실험을 할 때마다, 우리는 다른 추정치를 얻을 것입니다. 그리고 추정치는 얼마나 다를까요?

이와 관련댄 항은 추정치의 분산을 뜻하는 두번째 항이다. 

 

이것이 추정 문제에서 발생하는 일반적인 상황입니다. 추정치가 오버슈팅되거나 과소슈팅되는 체계적인 경향인 편향이 항상 발생할 가능성이 있습니다.그리고 또 다른 항은 이 테스트의 무작위성의 양과 관련되어 있으며 이것도 그렇습니다. 

 

만약 추정치가 비편향되었다면 (unbiased) 즉 $E[\hat{\theta_j}] = \theta^*_j $ , bias (편향) 은 0이고 오직 분산 항목만 에러항에 기여할 것입니다. 다행히도 추정치는 선형회귀에서 비편향적입니다. 그래서 우리는 $\hat{\theta_j}$ 의 분산인 $var(\hat{\theta_j})$ 에 집중할 것입니다. 

 

그렇다면, 새로운 샘플에 같은 추정 과정을 적용한다면 $\hat{theta}$ 는 얼마나 달라질까요? 

 

$\hat{theta}$ 의 분포 : 

이제 $\hat{theta}$ 의 분산에 대해 이야기하기 위해, $\hat{theta}$ 의 확률 분포가 무엇인지 이해할 필요가 있습니다. 

$\hat{theta}$ 는 랜덤 변수라는걸 기억하새요. $\hat{theta}$를 결정할 때, Y를 고려해야하고 Y들은 noise를 가지고 있습니다.

그럼 어떤 종류의 랜덤 변수일 까요? 

 

벡터 θ의 대표적인 성분인 j번째 성분을 살펴봅시다. 이 랜덤 변수는 정규분포를 따르는 요소라는 것이 밝혀 졌습니다. 이것은 문자 그대로가 아니라 사실입니다. 우리가 큰 데이터셋을 다룰 때도 중심 극한 정리에 근거하기 때문에 사실입니다. 대규모 데이터 세트에서는 θ에 대한 공식에 들어오는 많은 무작위 W가 있고 그들은 합산된다. 그리고, 많은 임의의 것들을 합산하면 결국에는 정규 랜덤 변수를 얻게됩니다. 

 

만약 우리가 Wi가 정상(normal) 이라는 추가적인 가정을 한다면, θ는 정확히 정규 확률 변수가 될 것이다.

수식적으로 $\hat{\theta}$ 는 정규분포를 따르는 서로 다른 요소들의 선형결합을 의미하는 소위 다변량 정규분포라고 불리는 벡터입니다.  

그럼 아래와 같이 작성할 수 있습니다. 

$\hat{\theta}$ 는 정규 확률 변수입니다. 정규분포의 평균은 파라미터의 실제값 ($\theta^*_j$) 입니다.  이것은 추정치가 편향되지 않고 무작위성이 있다는 사실이며, 이는 추정치의 분산에 의해 포착됩니다. 

$\hat{\theta}$  분포를 그림으로 그려보면 아래와 같은 정규분포임을 확인할 수 있습니다. 

 

위 모형에 따라 데이터를 수집하고 추정치를 구성하면 해당 추정치는 모수의 정확한 값 근처에 있을 것입니다 그리고 확률 변수가 될 것입니다. 그리고 평균적으로 그 확률 변수의 평균은 참값입니다. 왜냐하면 추정치가 편향되지 않은 것으로 밝혀졌고, 그것은 일정한 분산을 가지고 있기 때문입니다

이 분산이 정규 분포의 너비를 결정한다. 정규 분포의 경우, 우리는 평균에서 두 표준 편차를 벗어나면 분포의 95%를 커버하고 양 끝쪽에 2.5%의 확률만 남긴다는 것을 알고 있습니다. 이것은 정규 확률 변수의 매우 유용한 속성이다. 95%의 확률로 우리는 평균으로부터 두 표준 편차 안에 든다.

 

그래서, 표준 편차는 중요한 수치입니다. 이것을 추정치의 표준 오차 (standard error) 라고 부릅니다. 

표준 오차는 우리가 특정한 요소인 벡터 $\theta$ 를 추정하려고 할 때, 우리의 추정치가 얼마나 오류가 발생할지를 나타내는 기본적인 지표입니다. 

 

그리고 여기서 오는 것은 정확성과 관련하여 표준 오차가 매우 중요하다는 것입니다. 그래서 우리는 표준 오차를 계산할 수 있는 방법을 갖고자 합니다. 일단 표준 오차가 생기면, 우리는 그것을 다양한 목적으로 사용할 수 있습니다. 그러한 목적은 소위 신뢰 구간을 구축하고 가설 검정을 실행하는 것일 수 있습니다.

 

신뢰 구간과 가설 검정 (Confidence Intervals and Hypothesis Testing)

우리의 추정치는 정규분포로 묘사되는 진짜 값 근처에 있을 것입니다. 

이 정규분포는 특정한 표준 편차를 가지고 있습니다. 그래서 우리의 추정치는 95% 확률로 진짜값으로 부터 2 표준편차 내에 있을 것입니다. 

그리고 95% 확률로 오차는 2 표준편차보다 작거나 같을 것입니다. 

이 명제를 설명하는 또다른 방법으로는, 95% 확률 내로 $\theta^*_j$ 의 진짜 값은 구간 내에 있을 것입니다. 

이 구간을 신뢰 수준 (Confidence Interval) 이라고 부릅니다. 

신뢰수준은 추정치로부터 2 표준편차만큼 더하거나 빼서 계산됩니다. 

95%라는 값에는 특별한 것이 없습니다. 99% 신뢰수준또한 사용할 수 있습니다. 이런 경우에 신뢰수준은 더욱 넓어질 것이고, 2 표준 편차 범위보다 더 큰 값을 가지게 될 것입니다. 

그러나 한가지 중요한 사항은, 아래의 문장을 해석해야된다는 점인데, 아래의 문장이 정확히 무엇을 뜻하는 것일까요? 

위 수식은 확률에 대한 정의입니다. 여기에서 $\theta^*_j$ 는 상수입니다. 여기서 random 인 것은 신뢰수준입니다. 

신뢰수준에 대하여 고려해봐야할 점은 아래와 같습니다. 

$\theta^*_j$ 라는 실제 값이 있는데, 우리는 추정치와 신뢰 구간을 생성하는 추정을 수행하고, 신뢰수준에 대하여 리포트하게 됩니다. 

이제 만약 우리가 새로운 데이터로 다시 비슷한 추정을 수행하면 또 다른 신뢰수준을 얻게됩니다. 비슷하게 우리가 또 다른 데이터셋으로 추정을 다시 수행하면 우리는 다른 신뢰수준을 얻게 됩니다. 

 

그래서 위의 수식에서는, 95% 정도는 우리가 추정을 수행할때 신뢰수준이 진짜 값을 포착할 확률이다 라는 것을 말하고자 합니다. 

그러면 매일 매일 회귀를 수행하는 한 사람을 생각해봅시다. 매번 이를 사용하여 다른 신뢰수준을 얻었습니다. 이 신뢰수준의 95%는 진짜 값을 포착하였습니다. 그래서 95% 정도는 우리의 신뢰 수준이 진짜 값이 있었다는 점에서 합리적입니다. 

그러나 $\theta^*_j$ 는 무작위성이 없습니다. 예를들어 우리가 신뢰수준을 CI = [2,4] 로 얻었다고 해봅시다. 그럼 우리는 $\theta^*_j$ 가 95%확률로 이 신뢰수준에 있다고 말하고자 하는 것이 아닙니다. 잘못된 설명입니다. $\theta^*_j$ 는 랜덤이 아닙니다. 우리는  $\theta^*_j$ 가 그곳에 있거나 없을 확률에 대하여 말할 수 없습니다. 

오히려 정확한 설명은 소위 "빈도주의" 적인 해석입니다. 우리가 우리의 회귀 분석을 매번 수행 했을 때 시행의 95% 는 진짜 값을 포착할 수 있다라고 말하는 것입니다. 

 

이제, 이 신뢰수준에 대한 개념을 가지고 실제 가설 검정을 해봅시다. 

 

귀무가설 $\theta^*_j = 0$ 을 검정

가설은 아마 " 특정한 계수가 0이다" 라고 할지도 모릅니다. 예를들어 한 가설이 다음과 같다고 합시다. "newspaper 광고와 관련된 계수가 = 0" 이다. 

그러면, 이 가설을 뒷받침할 데이터에 대한 질문은 무엇일까요? 

데이터가 귀무 가설 $\theta^*_j$ = 0과 호환됩니까?

이를 귀무가설이라 부릅니다. 'null' 이라고 부르는 이유는 귀무 가설 하에서는 아무 일도 일어나지 않는다는 디폴트 가설이라는 점에서 'null' 이라고 부릅니다. 

그리고, Wald test라고 부르는 이를 결정하는 매우 간단한 방법이 있습니다. 

 

Wald Test: 

https://blog.naver.com/sw4r/222440251798

 

[가설검정] Wald Test 란? (선형 회귀분석 예제 포함)

Wald Test는 귀무가설을 따르는 값과 제한조건이 없는 추정치 사이에 웨이트가 있는 거리를 기반으로 하...

blog.naver.com

 

우리는 theta ($\theat^*_j$) 가  0인지 확인하고자 합니다. 우리는 한 추정치를 만들고 이 추정치 근처의 신뢰수준을 만들었습니다. 만약 이 신뢰 수준이 0을 포착하지 않는다면 ( 아래 그림과 같이 ) 

$theta^*_j$ 가 0이 아니다 라는 증거를 가지게 됩니다. 그리고 이 경우 우리는 귀무 가설을 기각하여, 진짜 theta값 ($\theta^*_j$ )이 0이 아니다 라고 주장할 수 있습니다. 

반면에, 아래 그림 처럼 신뢰숮눈이 0을 포함하게 된다면, 우리가 본 데이터로 계수가 0이라고 고려할 증거를 가지게 됩니다. 그래서 귀무 가설을 기각할 수 없게 됩니다. 

그래서 이것은 매우 단순한 테스트 입니다. 우리가 신뢰수준을 구했을 때, 0이 안쪽에 있는지 바깥쪽에 있는지만 체크하고 결론을 내리면 됩니다. 

 

그러면 이 테스트가 잘못될 때는 언제일 까요? 

우리가 진짜 가설이 $\theta^*_j = 0$ 라고 가정해봅시다. 

이제 우리가 이를 기각하여 실수할 가능성은 얼마나 될까요? 

이런 일은 만약 신뢰수준이 아래 그림과 같이 나왔다면 발생할 것입니다. 

이제, 신뢰수준으로 부터 진짜 값이 떨어져 있을 가능성이 얼마나 되고, 신뢰 수준이 진짜값 을 놓칠 가능성은 얼마나 될까요? 신뢰 수준의 정의에 의해 이 값은 딱 5% 정도 됩니다. 신뢰수준을 구하는 방식이 95% 확률로 진짜 값을 포착한다고 가정했기 때문입니다. 그래서 오직 5% 시도에서만 이를 놓칠 것입니다. 

 

가설을 실행하는 것 외에도 다양한 가설을 확인하는 또 다른 간접적인 방법은 p-값을 보고하는 것입니다. 그리고 p-값은 그러한 결과를 보고하는 데 매우 인기가 있다

 

p-value : 

여기서 우리는 진짜 값이 0이라는 가설을 다루고 있습니다. ($\theta^*_j = 0$) 

우리는 저 가정 하에 $\hat{\theta}$ 의 확률 분포를 가지고 있습니다. 

그리고 추정치의 진짜값을 관찰하고 진짜값과 얼마나 떨어져 있는지 확인하고자 합니다. 

만약 추정치의 값이 사진의 빨간 점이라면, 우리는 그 쪽의 확률을 볼 수 있을 것입니다

 

 

그리고, 다른쪽의 확률도 고려할 수 있습니다. 이것이 p-value라고 부르는 특정 숫자 p 값 입니다. 

따라서 p-값은 관측된 것 (  $\hat{\theta}$  ) 과 같이 ($\theta^*_j = 0$) 하에서 극단적인 것을 얻을 확률입니다

만약 $\theta^*_j = 0$ 이라면, 우리가 이 극단적인 것을 얻을  확률은 어떻게 될까요? 

위의 그림에서 보여준 것이 바로 그 정규분포의 꼬리 밑에 있는 확률입니다. 

 

만약 p-value가 0.05보다 작다면, 극단적인 값을 가지게 될 확률은 오직 5%라는 뜻입니다. 그래서 데이터가 가절에 양립하지 않을 것이로 보입니다. 그러면 우리는 귀무 가설을 기각하고 $\theta^*_j$ 가 0이 아니라고 고려해볼 수 있을 것입니다. 

 

p-value도 또한 잘못 해석될 수도 있따는 점을 기억해야합니다.