'이표본가설검정'에 해당되는 글 3건

  1. 2018.01.03 44. 분산분석 ①
  2. 2017.09.25 43. 독립표본의 검정과 쌍체 비교
  3. 2017.09.06 39. 이표본 가설검정 ①

지난 포스팅에서 우리는 이표본에서의 모평균 비교에 대한 가설검정을 알아보았습니다. 그렇다면 비교 대상이 두 집단보다 커지는 경우에는 어떤 분석이 가능할지 생각해고자 합니다. 고등학생들을 대상으로 한 스터디 카페를 운영하는 기업에서 광고 모델 후보로 유명 연예인 A와 교육 전문가 B, 그리고 고등학생 자녀를 둔 일반 학부모 C를 고려하고 있으며 고등학생 자녀를 둔 학부모를 대상으로 설문조사를 실시하고 그 결과에 따라 A, B, C 중 한 명을 광고 모델로 선정하기로 했다고 가정해 보겠습니다.

 이들 후보 A, B, C에 대한 호감도에 차이가 있는지 여부를 알아보기 위해 각각 이표본 가설검정 절차를 적용한다면 A와 B, A와 C, B와 C를 비교한 총 3회의 가설검정 절차를 거쳐야 합니다. 각각의 검정 절차에서 유의수준을 5%로 제어할 경우, 총 3회의 가설검정에서 단 한번이라도 잘못해서 귀무가설을 기각할 제1종 오류를 범할 확률은 5%를 상회합니다.

 각각의 검정에 대해 제1종 오류를 범할 확률의 상한인 유의수준이 5%라고 하면 귀무가설이 참일 때 귀무가설을 기각하지 않을 확률의 최소 95%가 되고 총 세 가지의 검정별로 귀무가설이 참일 때 가능한 의사결정 유형의 확률을 정리해 보면 좋은 의사결정이 되기 위해서는 세 가지 의사결정에서 모두 귀무가설이 참일 때 귀무가설을 기각하지 말아야 하고 이 확률은 95%가 아니라 95%×95%×95%=86% 입니다. 또한, 검정 절차 중 어느 하나라도 잘못해서 귀무가설을 기각할 확률은 14%에 이르게 됩니다. 이처럼 세 집단 이상인 경우 이표본 가설검정 절차를 적용하면 가설검정의 오류를 관리하는 것이 쉽지 않습니다.

 

                                                  

 

 세 집단 이상 비교에서 가설검정의 오류를 효율적으로 제어할 수 있는 분석 방법이 동시검정이 가능한 분산분석(ANOVA; Analysis of Variance)입니다. 분산분석은 독립변수로 구분하는 세 개 이상의 집단에 속한 종속변수의 평균에 차이가 있는지 검정하는 분석방법으로 원인이 되는 독립변수는 명목형이나 서열형 척도로 측정한 값이고 결과가 되는 종속변수는 등간척도나 비율척도로 측정한 값일 때 적용 가능합니다.

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

 

 

 

 

 

 

 

 

 

 

'야행하는 리서치' 카테고리의 다른 글

46. 리서처가 바라본 빅 데이터  (0) 2018.03.15
45. 분산분석 ②  (0) 2018.03.15
43. 독립표본의 검정과 쌍체 비교  (0) 2017.09.25
42. 이표본 가설검정 ③  (0) 2017.09.13
41. 이표본 가설검정 ②  (0) 2017.09.11
Posted by dooka
,

이표본 가설검정은 전체 표본을 무작위로 두개의 집단으로 구분한 후 각각 서로 다른 실험처리를 적용하는 방법으로 진행합니다. 그렇게 함으로써 두 집단의 동질성을 평균적으로 확보할 수 있습니다. 그러나, 다이어트 약의 효과 여부를 파악하는 경우와 같이 연령, 성별, 비만 정도가 동일한 실험대상을 찾기가 현실적으로 어렵습니다. 다이어트 약 효과를 파악하기 위해 이표본 가설검정을 적용한다면 다이어트 약의 임상 효과와 다른 제3의 요인에 의한 효과를 정확하게 분리하는 것이 곤란해 질 수 있습니다. 이런 경우에는 동일한 실험대상자를 하나의 쌍으로 보아 다이어트 약을 복용하게 해서 복용 후와 복용 전의 효과를 비교하는 쌍체 비교(Paired T test)를 활용하는 것이 정확한 다이어트 약의 효과를 파악하기 위해 좋은 방법입니다.  서로 다른 광고 시안 A와 B에 대한 소비자 호감도를 파악하기 위해 표본으로 추출한 소비자 전체에 대해 무작위로 광고 시안 A와 B를 모두 보여 주고 이들 광고시안에 대한 호감도의 차이를 알아 보는 방법 역시 쌍체 비교의 한 예입니다.

이제 표본크기가 200명이고 이들 응답자들에게 서로 다른 광고 시안 A와 B를 무작위로 노출한 후 호감도를 평가하여 얻은 가상의 데이터 cc를 이용해 쌍체 비교를 실행해 보겠습니다. 가상의 데이터에서 변수 X는 광고 시안 A에 대한 호감도, 변수 Y는 광고 시안 B에 대한 호감도이며 변수 Z는 X와 Y의 차이 X-Y 입니다. 쌍체 비교의 자료 입력 방식이 이표본 가설검정의 그것과는 차이가 있음에 유념해야 합니다.

 

 

 

가상의 데이터 cc를 이용해 R에서 쌍체 비교를 실시한 결과는 아래와 같습니다. p-value 값은 0.003으로 유의수준 0.05 하에서 광고 시안 A와 B의 호감도는 차이가 없다는 귀무가설에 대한 강력한 반증이 되므로 광고 시안 B의 호감도가 A에 비해 더 높은 것으로 판단할 수 있습니다.

 

 

광고 시안 A, B에 대한 예에서 쌍체 비교 시 자유도는 200-2=198이 되는 반면, 동일한 내용의 이표본 가설 검정에서의 자유도는 400-2-398이 됩니다. 쌍체 비교는 표본크기와 자유도의 손실로 귀무가설을 기각하는 검정력이 이표본 가설검정에 비해 감소합니다. 그러나, 쌍체 비교는 쌍으로 구획하여 광고 시안 이외에 광고 시안에 대한 호감도에 영향을 미치는 요인들이 쌍 내의 개체들에게 동일하게 영향을 미치므로 X-Y의 분산이 감소하고 모집단 표준편차의 추정값이 감소하여 검정력을 증가시킵니다. 그러므로 이표본 가설검정과 쌍체 비교는 설문조사를 위한 비용 및 시간과 함께 얼마나 효과적으로 쌍으로의 구획이 가능한지에 따라 판단할 문제입니다. 표본크기가 증가하면 비용이 상승하므로 시장조사 실무에서는 이표본 가설검정보다는 쌍체 비교를 위한 조사설계를 선호하는 편입니다.

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오. 데이터테일즈가 성실하게 답변 드리겠습니다.

                                        

cc.csv

 

 

 

 

 

 

'야행하는 리서치' 카테고리의 다른 글

45. 분산분석 ②  (0) 2018.03.15
44. 분산분석 ①  (0) 2018.01.03
42. 이표본 가설검정 ③  (0) 2017.09.13
41. 이표본 가설검정 ②  (0) 2017.09.11
41. p-value  (0) 2017.09.11
Posted by dooka
,

통계적 가설검정에서는 단일표본에 대한 가설검정보다는 실험집단과 통제집단에 서로 다른 실험처리(treatment)를 적용해서 두 집단의 평균을 비교하는 이표본 가설검정이 일반적입니다. 이표본 가설검정을 적용하기 위해서는 확률추출법을 적용한 n개의 개체에 대해 처음 처리1을 적용할 n1개를 임의추출하고 나머지 n-n1=n2개의 개체들에 대해서는 처리2를 적용합니다. 이와 같이 실험처리를 적용하게 되면 각 개체들의 실험처리에 대한 반응값에는 실험처리에 의한 효과 이외의 다른 요인들의 영향을 평균적으로는 동일하게 제어할 수 있습니다. 예를 들어 제품 패키지 A와 B에 대한 호감도를 알아보기 위한 조사에서 표본추출 후 설문조사 진행 시 패키지 A와 B를 무작위로 노출하게 되면 A를 접한 응답자들과 B를 접한 응답자들은 서로 다른 패키지에 노출되었다는 점 외에 다른 특성들은 평균적으로 동일하다고 볼 수 있습니다.

이제 구체적으로 오픈소스 프로그램 R을 이용한 이표본 가설검정 절차에 대해 알아 보겠습니다. 이표본 가설검정의 데이터 형태는 아래와 같습니다. 파일의 저장형식은 CSV파일로 지정해 줍니다. 데이터에서 package는 제품 패키지 유형을 구분하는 명목형 변수이고 변수x는 각 패키지에 대한 5점 만점 호감도입니다.

이표본 가설검정을 실행하기에 앞서 먼저 두 집단의 분산이 동일한지에 대한 검정을 실시해야 합니다. 왜냐하면 분산이 동일한지 여부에 따라 표본분산의 계산방법이 달라지고 그에 다라 검정통계량과 임계치의 값이 달라지기 때문입니다.

만약 두 집단의 분산이 다르다면 두 집단은 서로 독립이므로 두 집단의 표본평균의 차이에 대한 분산은 각각의 표본분산을 합산하여 구하면 되지만 두 집단의 분산이 동일하다면 pooled variance를 활용하여 표본평균의 차이에 대한 표본분산을 구해야 합니다. 분산이 동일한 경우 표본분산은 pooled variance×(1/n1+1/n2)로 계산하며 pooled variance는 두 집단의 표본분산에 각각의 자유도 즉 각각의 표본크기에서 1을 뺀 수를 곱하여 더한 후 전체 자유도 n1+n2-2로 나누어 줌으로서 구합니다. 전체 자유도를 전체 표본크기에서 1이 아닌 2를 차감해서 구하는 이유는 각각의 표본분산을 구하는데 이미 2만큼의 정보를 사용했기 때문입니다.

 

pooled variance= [(n1-1)+(n2-1)]/(n1+n2-2)

먼저 등분산 가정에 대한 가설검정에 앞서 R의 파일 메뉴에서 작업 디렉토리를 지정해 줍니다. 표본평균에 대한 이표본 가설검정에 앞서 등분산 여부를 검정하는 R의 실행명령어는 다음과 같습니다. 먼저 등분산 가정에 대한 가설검정에 앞서 R의 파일 메뉴에서 작업 디렉토리를 지정해 줍니다. 그리고 해당 디렉토리에 aa라는 이름으로 저장해 둔 CSV파일을 불러 옵니다. 분산의 동일성을 검정하는 명령어는 var.test(실험처리에 대한 반응변수~실험처리 유형을 구분하는 독립변수, data=검정대상파일명)입니다. R에서 등분산 검정을 실행한 결과는 아래와 같습니다.

 

 

먼저 F가 눈에 띄는데 이는 F분포를 따르는 검정통계량을 의미합니다. F분포 역시 t분포와 마찬가지로 정규분포 모집단의 표본분포입니다. 두 집단이 서로 독립이고 정규분포를 따르는 경우 각각의 표본분산에 각 집단의 자유도를 곱하여 모분산으로 나눈 확률변수의 비(比)인 통계량 F는 자유도가 n1-1, n2-1인 F분포를 따르게 됩니다. 제곱합 형태의 통계량이므로 항상 0보다 큰 값을 가지며 오른쪽으로 긴 꼬리를 가지는 기울어진 형태를 가지고 있습니다.

 

 

aa.csv

 

직관적으로 본다면 검정통계량인 F는 두 집단의 분산이 동일하다는 귀무가설 하에서는 1에 가까운 값을 가질 것입니다. 결과에서 p-value 값은 0.61로 유의수준 0.05보다 큰 값을 가지므로 귀무가설을 기각할 수 없고 두 집단의 분산은 동일하다고 볼 수 있습니다.

 

정확한 분석을 통해 의사결정의 품질을 높이고 싶으시다면 데이터테일즈와 상담해 보세요.

                                                     

 

 

 

 

 

Posted by dooka
,