게시판 즐겨찾기
편집
드래그 앤 드롭으로
즐겨찾기 아이콘 위치 수정이 가능합니다.
5월 6일 올라온 더플랜 분석의 문제점
게시물ID : science_63636짧은주소 복사하기
작성자 : 김윤슬
추천 : 4
조회수 : 683회
댓글수 : 9개
등록시간 : 2017/05/08 20:10:31
pc가 아니라 폰으로 쓰는거라 사진등을 캡쳐해서 올리지 못한 점 양해바랍니다 역시 폰으로 쓰고있어서 글로 설명하느라 문장이 길어질 수 있음을 양해바랍니다 아래에 프로젝트부를 링크해놓겠습니다

http://www.projectboo.com/archive/153432



결론부터 말하면 5월 6일 올라온 위 링크 자료의 논리는 성립하지 않습니다 

링크된 자료를 보시면 고령층의 미분류발생확률 q와 저연령층의 미분류발생확률 r을 구하는 작업부터 하는데요 과정은 건너뛰고 분석의 맥락만 간단히 설명하면 이런거에요
 
전체집합의 q와 r 값을 추정하고 그것을 통해 분할인 각 개표소의 미분류율을 예측한 후 실제값과 비교합니다 근데 여기서 논리의 문제가 있는데요 q와 r의 추정과정에서 필요한 정보가 미분류율과 미분류조건부확률인데 이것은 251개 개표소에서 각각 얻을 수 있는 데이터이기 때문에 전체 q와 r을 가지고 지역개표소의 미분류율을 예측할 것이 아니라, 251개의 q와 r을 가지고 각 지역의 미분류율을 예측해서 그 실제치와 비교를 해야 맞습니다 

즉, 한 개의 시스템이 아니라 251개의 시스템을 풀어서 구한 251개의 q와 r을 가지고 각개표소의 미분류율 U를 추정해서 그 실제치와 비교를 해야 하는것이죠 

다시말해, 전체 값 q와 r로 추정한 개표소별 미분류율 값들이 통계적으로 실제치와 유의미한 관계를 안갖는것이 어찌보면 당연한거고 그렇기때문에 그 결과가 고령층가설의 설명력을 디나이한다고 주장할수는 없다는 겁니다 

풀어서 다시 말하면, 개별 개표소의 q와 r을 다 구해서 해야 하는것인데요 이 개별 개표소의 q와 r 을 얻는 연립방정식의 텀에 개표소의 미분류율과 미분류조건부 후보의 득표율이 들어가기때문에, 각각의 q와 r에는 해당 지역의 미분류표에 반영된 각 후보별 지지율정보가 반영이 되고요 따라서 q와 r이 전적으로 연령에 의존한다는 설명은 틀린 설명이 됩니다 논리를 바르게 전개하려면 이렇게 구한 각 개표소별 q와 r은 해당지역의 연령층별 미분류확률의 추정치가 되는거고 이 추정치를 통해 그지역의 미분류율 추정치를 구한뒤, 실제 미분류율과 비교를 하는 작업을 해야 한다는거죠 

그런데 문제가 하나 있어요 지역별 q와 r을 구하는 시스템에 해당지역의 연령별 후보지지율자료가 필요한데 그것은 당시 출구조사로부터 얻을 수 있습니다 그러나 251개 지역별로 나눠서 얻어진 출구조사 데이터가 있는가? 더플랜측은 전국집계출구조사 데이터만을 사용하여 전체 q와 r값만을 구했는데요 나뉘어진 각 지역출구조사 데이터를 확보하지 못해서 그런건지는 모르겠지만, 논리적으로는 그 지역별 출구조사 데이터를 가지고 각 지역 개표소의 q와 r 들을 구하는 것이 맞기 때문에 위의 그래프로 보여지는 더플랜측의 결론이 제대로 된 결론은 아니라는 것만은 명백합니다 

결국, 더플랜측은  개표 지역별로 나뉘어져 집계된 출구조사 데이터를 구해서 다시 지역별 q와 r 그리고 u를 추정한 후 실제치와 비교하여 고령층 가설을 반론하던가 어쩌던가 해야한단 얘기죠 

그리고 자잘한 지적으로는, 미분류가 전적으로 고령층에 의해 만들어진다는 헛소리는 빼라고 말해주고 싶고요, 또한 각각의 q r u를 추정해서 실제치와 비교했을때 나타나는 오차는 출구조사의 실제개표결과와와 갖는 상관성이나, 연령층의 단순 2분할에서 비롯되는 오차등이 함께 포함되어있기 때문에 해당 방식의 분석이 고령층 가설을 기각한다 또는 고령층가설이 한계가 있다는식의 일의적인 결론은 옳지 않다는 걸 얘기하고 싶네요 

그리고 교수들 스스로가 언급한것처럼 k=1.5 라는 값에 맞는 시나리오를 짜맞추는것이 수리적으로 가능하기 때문에 그렇게 시나리오를 짜맞추어서 설명력을 갖는다고 주장하는 것이 검증과정에서 자연적, 기술적 오차를 내포할수밖에 없는 고령층가설보다 우월한가에 대해 해당 교수들은 진지하게 고민해볼 필요가 있다고 봅니다

즉, 이번 더플랜 교수들의 반론도 논리적으로 맞지 않는 분석이란 얘기입니다  

한가지 재밌는것은, 이전 반론에서 고령층과 미분류율간 관계에 대한 어떤 언급을 하지 않았던것에 비해 이번에는 그것을 인정했는데요 솔직히,  좀 웃겨요 애초에 k값을 분석하는데 있어서 시나리오를 짜맞추는것보다 고령층과 미분류율간의 관계를 분석해보는게 훨씬 쉽거든요 몰랐을리가 없다고 보는데 뭐 혹 몰랐다면 쉬운길을 애써 돌아갔단 소린데 글쎄요 모르겠습니다 뭔 생각이었던건지는 

여하튼, 해당 교수들은 논문정리해서 그냥 한국의 학회에 발표하고 검증받는게 우선일듯 합니다 그렇게 게시판 뒤에 숨어서 일반인들이랑 숨바꼭질 하지말구요 프로면 프로답게 놀아야죠 깔끔하게 정리될 문제를 정리 안하고 질질 끄는건 보기에 좋지 않으니까요
전체 추천리스트 보기
새로운 댓글이 없습니다.
새로운 댓글 확인하기
글쓰기
◀뒤로가기
PC버전
맨위로▲
공지 운영 자료창고 청소년보호