'귀무가설'에 해당되는 글 2건

  1. 2017.09.11 41. p-value
  2. 2017.08.29 37. 가설검정②

41. p-value

야행하는 리서치 2017. 9. 11. 09:00

귀무가설의 채택 여부를 결정하는 기준으로 통계분석프로그램에서 흔히 제시되는 값으로p-value가 입니다. p-value는 유의확률(significance probability)라고도 하는데, p-value는 검정통계량의 결과값에 대해 귀무가설을 기각할 수 있는 최소한의 유의수준을 말합니다. 만약 보다 작은 유의수준으로 귀무가설을 기각할 수 있다면 검정통계량의 결과값은 귀무가설 하에서 발생가능성이 보다 희박한 사건이 될 것이므로 p-value 값이 작을수록 대립가설에 대한 보다 강력한 증거가 됩니다. 즉 p-value는 설문조사의 결과가 대립가설을 반대하는 입증정도를 나타냅니다.

이미 주어진 유의수준 하에서 기각역을 계산할 수 있음에도 p-value를 제시하는 이유는 표본크기가 커질수록 표본의 표준편차 즉 표준오차가 작아지므로 미세한 차이도 구분이 가능해지고 실제 귀무가설이 참이건 거짓이건 상관없이 대부분의 경우에 귀무가설을 기각할 수 있기 때문입니다. 이러한 문제를 해결하기 위해 획일적인 유의수준을 제시하지 않고 의사결정자가 의사결정에 따른 오류 가능성을 어느 정도 받아 들이지에 따라 스스로 귀무가설의 기각여부를 판단할 수 있도록 p-value를 제시합니다.

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

                                                     

 

 

Posted by dooka
,

 

 

36. 가설검정 ①

 

 

지난 포스팅에 이어 가설검정의 기본원리에 대해 알아보겠습니다. 언제나 늑대가 나타났다고 거짓말하는 양치기 소년의 우화를 생각해 보면 실제로 늑대가 나타났는지 여부와 양치기 소년이 늑대가 나타났다고 말하는지 여부에 따라 네 가지 경우가 존재합니다. 이 중 귀무가설이 참임에도 불구하고 귀무가설을 기각할 가능성을 제1종 오류라고 하고 대립가설이 참임에도 불구하고 귀무가설을 채택할 가능성을 제2종 오류라고 합니다. 대립가설이 참일 때 대립가설을 채택할 가능성을 특히 검정력(power)라고 합니다.

 

                          

 

귀무가설이 참이라는 가정 하에서 확률표본을 이용하여 구한 모수에 대한 추정량을 검정통계량이라고 합니다. 이 검정통계량의 값을 가설채택 여부의 기준이 되는 임계치와 비교하여 가설 채택 여부를 결정하게 됩니다. 만약 양치기 소년이 검정통계량이라면 매우 나쁜 검정 통계량임을 알 수 있습니다. 언제나 늑대가 나타났다고 말하므로 제2종 오류의 가능성은 0이 되고 검정력은 극대화되지만 제1종 오류의 가능성 역시 극대화됩니다.

통계적 가설 검정에서 대립가설이 참일 경우 귀무가설을 기각할 확률 즉 검정력을 아래 그림과 같이 I+II에서 I+II+III+IV로 높이기 위해 가설 채택 여부의 기준이 되는 임계치를 C1에서 C2로 변경한다면, 잘못해서 귀무가설을 기각할 확률 즉 제1종 오류를 범할 확률 역시 II에서 II+IV로 증가함을 알 수 있습니다. 표본크기가 주어진 경우 제1종 오류를 범할 확률과 제2종 오류를 범할 확률을 동시에 감소시킬 수는 없음을 알 수 있습니다. 그러므로 오류 발생 시 발생할 위험이 중요한 유형의 오류를 최대 허용 수준을 지정한 후 나머지 오류를 극소화하는 방식으로 의사결정규칙을 정하는 것이 위험 회피 관점에서 합리적입니다.

현재 상황을 유지하는 경우보다는 현재 상황을 변경하는 경우의 위험이 더 큰 것이 일반적이기 때문에, 잘못해서 현재의 상황을 지지하는 귀무가설을 기각하는 제1종 오류가 제2종 오류보다는 더 중요한 오류라고 볼 수 있습니다. 그렇다면 제1종 오류를 범할 확률의 최대 허용 상한인 유의수준을 정한 후에 그 범위 내에서 잘못해서 귀무가설을 기각하지 못하는 제2종 오류를 극소화하는, 즉 실제 귀무가설이 틀렸을 때 귀무가설을 기각하는 검정력(power)을 극대화하는 의사결정규칙을 찾아야 합니다.

가상의 시장에서 신제품 컨셉트의 10점 만점 호감도가 7점보다 큰 값을 가지는지가 관심인 사례에서 호감도가 7보다 작거나 같다는 귀무가설 하에서는 고려해야할 표본평균값은 무수히 많습니다. 그러나 일단 가설 채택 여부의 기준이 되는 임계치를 설정하고 보면 평균 호감도가 7일 때 잘못해서 귀무가설을 기각할 제1종 오류를 범할 확률이 최대가 되므로 우리는 평균 호감도가 7인 경우의 표본분포만을 고려하면 됩니다. 그림에서 임계치를 c1으로 설정했을 때 평균이 7인 경우의 제1종 오류를 범할 확률(영역 II)과 평균이 7보다 작은 경우의 제1종 오류를 범할 확률을 비교해보면 전자가 후자보다 더 큰 값을 가짐을 시각적으로 확인할 수 있습니다.

우리는 제품 컨셉트의 호감도가 7보다 큰 값인지 여부가 관심인 사례에서 가능한 귀무가설 하의 표본분포 중에서 평균이 7인 경우의 표본분포에서 제1종류를 범할 확률이 최대가 됨을 확인했습니다. 잘못해서 귀무가설을 기각할 오류인 제1종 오류를 범할 확률의 상한인 유의수준은 가능한 귀무가설 하의 여러 표본평균 중 경계에 있는 값, 사례에서는 평균 호감도 7을 기준으로 지정하면 되는 것입니다. 만약 유의수준을 위 그림의 영역II의 면적이 되도록 정했다면 이에 대응하는 검정통계량 값 c1보다 같거나 큰 값 중에서 검정력이 가장 큰 값을 임계치로 설정하면 가설검정을 위한 의사결정규칙을 완성하게 됩니다. 변수값 c1에 대응하는 검정력은 영역 I+II의 면적이 되고 이 면적이 대립가설 하에서는 c1보다 큰 어떤 값의 검정력보다 크다는 사실을 확인할 수 있습니다. 귀무가설 하에서의 제1종 오류를 범할 확률의 상한인 유의수준을 정하고 유의수준에 대응하는 변수 값을 구하면 대립가설 하에서 그 값에 대응하는 검정력이 가장 커지므로 귀무가설 하에서 유의수준에 대응하는 변수 값을 가설채택 여부의 기준이 되는 임계치로 설정하면 됩니다. 즉, 귀무가설이 참일 때의 검정통계량 표본분포의 꼬리 부분에 유의수준 크기에 대응하는 기각역을 설정하면 잘못해서 귀무가설을 채택할 제2종 오류를 최소화할 수 있습니다. 여기서 기각역이란 임계치 이상의 값을 가지는 검정통계량의 부분집합을 말하며 검정통계량의 값이 이 영역에 속하면 귀무가설을 기각합니다. 통계적 가설검정에서 제1종 오류를 범할 확률의 상한인 유의수준의 의미는 가설검정을 반복할 때 잘못하여 귀무가설을 기각할 확률이 유의수준 이하라는 의미를 담고 있습니다.

 

정확한 분석을 통해 의사결정의 품질을 높이고 싶으시다면 데이터테일즈와 상담해 보세요.

'야행하는 리서치' 카테고리의 다른 글

39. 이표본 가설검정 ①  (0) 2017.09.06
38. 가설검정③  (0) 2017.09.04
36. 가설검정①  (0) 2017.08.18
35. 통계적 추정의 기본원리②  (0) 2017.08.02
34. 통계적 추정의 기본원리①  (0) 2017.07.26
Posted by dooka
,