데이터를 분석하다 보면 입력내용이 없을 경우, 이것을 ‘null’로 처리할지 아니면 ‘0’으로 처리할지 고민해야 할 때가 있습니다. 우선 ‘null'과 ’0‘값을 구분해 보도록 하겠습니다. 'null'은 말 그대로 입력값이 없기 때문에 분석 시 사례에 포함하지 않고, ’0‘값은 사례에 포함하여 데이터 분석에 반영해야 합니다. 아래 데이터를 보면 ’0‘값을 포함한 A2 변수에서는 ’0‘값을 포함하여 평균을 계산한 반면, null'이 있는 A1 변수에서는 평균 계산 시 'null'인 사례를 제외하고 평균을 계산함을 확인할 수 있습니다.

 

’null'과 ‘0'을 구분하여 데이터를 처리하는 기준은 의사결정에 필요한 정보가 무엇인가 될 것입니다. 사례를 통해 좀 더 자세히 알아보겠습니다. 가상의 지방자치단체 A시와 B시가 있고 A시와 B시에는 각각 10개의 협동조합이 있다고 가정해 보겠습니다. A시와 B시에 있는 협동조합들의 경력단절 여성 고용현황은 아래와 같습니다. 협동조합 전체 근로자 중 10%가 근무하기 전 경력단절 여성이었음을 알 수 있습니다.

 

이제 ‘0’으로 처리하는 경우와 ‘null’로 처리하는 경우와 로 나누어 A시와 B시의 경력단절 여성 근로자 평균 인원을 비교해 보겠습니다. 먼저 경력단절 여성을 고용하지 않은 경우 ‘0’을 입력하고 데이터를 분석해 보면, 경력단절 여성 근로자 수를 전체 근로자 수로 나눠 산출한 경력단절 여성 고용율은 A시와 B시 모두 10%임을 확인할 수 있습니다.

 

만약 사회적협동조합의 경력단절여성 고용 촉진을 고려하고 있는 A시와 B시의 정책담당자들은 경력단절여성 고용율 평균만을 의사결정을 위한 정보로 활용한다면 정책 방향의 차이가 별로 없을 것입니다.

 

이와 같이 경력단절여성을 고용하지 않은 경우에 '0'값으로 처리하는지 아니면 ‘null'값으로 처리하는지에 따라 A시와 B시의 사회적협동조합 경력단절여성 고용율이 차이가 큰 이유는 조합별 경력단절여성 고용 인원 수 뿐만 아니라 경력단절여성을 고융한 사회적협동조합의 수에도 차이가 크기 때문입니다.

경력단절여성을 고용하지 않은 경우를 'null'로 처리했을 때 A시와 B시의 차이는 사회적협동조합의 경력단절여성 고용 촉진을 위한 정책 처방 역시 A시와 B시가 달라야 함을 시사합니다. 그러므로 경력단절여성 비고용인 경우에 ‘0’으로 처리하여 경력단절여성 고용율 평균마을 제시할 것이 아니라 경력단절여성 고용 여부와 경력단절여성을 고용한 사회적 협동조합의 경력단절여성 근로자의 인원 현황을 함께 제시하는 것이 바람직합니다.

 

A시는 전체 사회적협동조합의 80%가 경력단절여성을 고용하고 있으며, 경력단절여성을 고용한 협동조합의 경력단절여성 근로자 인원 평균은 1.3명입니다. 반면, B시는 전체 사회적협동조합의 20%만이 경력단절여성을 고용하고 있지만, 경력단절여성을 고융한 협동조합의 경력단절여성 근로자 인원 평균은 5명입니다.

 

이를 근거로 보면 A시가 사회적협동조합의 경력단절여성 고용을 촉진하기 위해서는 경력단절여성을 이미 채용하고 있는 사회적협동조합의 추가 고용을 축진할 수 있는 정책처방이 필요한 반면,B시의 경우는 사회적협동조합의 경력단절여성 신규채용을 촉진할 수 있는 정책처방이 필요함을 알 수 있습니다.

이와 같이 데이터를 분석하기 전에 결측값을 ‘null'로 처리할지, ’0‘로 처리할지 여부는 의사결정을 위해 제공해야할 정보가 무엇인가를 근거로 판단해야 합니다.

 

궁금한 점이 있으면 아래 버튼을 클릭해 주십시오.

                                        

'야행하는 리서치' 카테고리의 다른 글

50. 회귀분석 ①  (0) 2018.08.06
49. AHP(Analytical Hierarchy Process)에 대한 이해  (1) 2018.07.06
47. 분산분석 ③  (0) 2018.05.07
46. 리서처가 바라본 빅 데이터  (0) 2018.03.15
45. 분산분석 ②  (0) 2018.03.15
Posted by dooka
,