게시판 즐겨찾기
편집
드래그 앤 드롭으로
즐겨찾기 아이콘 위치 수정이 가능합니다.
더플랜 K값과 시나리오에 대하여(정리글)
게시물ID : science_64341짧은주소 복사하기
작성자 : 김윤슬
추천 : 16
조회수 : 1338회
댓글수 : 49개
등록시간 : 2017/06/10 19:23:16
더플랜 공개 직후 처음 시사게에 글을 쓴 이후로 과게로 옮겨와서 이런저런 글도 쓰고 많은 댓글들로 논쟁하는 와중에 개인차단도 많이 되었을테고, 메모도 많이 되었을 것 같습니다. 게시글 고작 몇개정도인데 논쟁의 시간, 정도 면에서는 솔직히 이젠 지치고 힘드네요. 그래도 주장과 논지를 크게 정리해놓는게 좋을 것 같아서 한 번 더 글을 씁니다. 정리하고싶기도 했구요. 댓글로 더플랜과 k값 관련한 논쟁은 계속 하겠지만, 게시글을 쓰는건 이걸 마지막으로 할까 합니다. 최대한 쉽게 논리만 따라오면 다 이해가 되실거라 생각을 합니다. 


0. 비판의 이유

더플랜에 담긴 여러 주장들 중 K값에 대한 분석(이하 K논증)과 그 결론을 바탕으로 한 개표조작 시나리오가 핵심이기 때문입니다. 시간역전, 역누적 의혹의 경우, 작년 파파이스에서 공개된 의혹의 수준 이상을 벗어나지 못했고, 더플랜에선 그에 대한 나름의 해석을 내놓지도 않았어요. 따라서, 논리적으로 이 두가지 의혹은 말 그대로 '합리적 의심' 수준에서 제기할 수 있는 의혹에 그칩니다. 반면, K논증의 경우는 파파이스에서 제기했던 의혹을 한단계 업그레이드 하여 통계적인 방법을 통해 '규명'을 하고 그것을 바탕으로 시나리오를 썼어요. 즉, 단순한 의혹차원을 넘어서 지난 18대 대선 개표과정이 조작되었다는 결론을 내렸기 때문에 앞선 의혹과는 정도가 다른 문제라는 얘기. K논증이 개표조작의 증거라는 진술은 기자시사회에서도 그리고 더플랜 영화 내에서도 언급이 됩니다. 



 그리고 후에 보시겠지만, 영화 내에서도 개표조작 증거로써 K논증을 계속 언급하게 되죠. 그리고 더플랜의 다른 주장들 - 민주주의 관점에서 투표소수개표방식의 우월성이라든가, 분류기와 사람의 순서를 바꿔야 한다 등 - 에 이 K논증이 보강논거로 사용된 만큼, 더플랜의 핵심은 K논증이라는 것을 부정할 수가 없습니다.

 그럼 K논증이 과연 논리적으로 문제가 없는가? 

 털보형 스스로가 과학적 방법론을 바탕으로 객관적인 구축 작업을 했다고 공언했으니, 그것에 대한 가부판단기준은 이미 마련되어 있는 셈이죠. 통계학과 수리논리. 만약 K논증이 논리적으로 틀리다면, 그것을 바탕으로 한 다른 결론과 주장들이 기각되거나, 설득력을 잃게 되는것은 당연하구요. 더플랜은 진실규명의 강력한 증거가 아니라 거짓논리로 무장된 음모론일 뿐이게 되는 것이죠. 

 이 K논증의 가부판단에 대한 핵심은 바로 미분류유효표의 임의추출성 여부에 있습니다.    

1. 미분류유효표의 임의추출성

   미분류표는 개표분류기가 식별하지 못한 표들입니다. 그 예로 다음과 같은 것들이 있죠.

미분류유효표 예시.png


분류기는 확실한 기표용지를 제외하고 모두 미분류로 토해냅니다. 그림에서처럼 구분선에 기표된 경우라든가, 도장의 일부만 찍힌 표, 도장이 번진 표 등 조금이라도 이상이 있는 표들은 다 미분류로 가게 됩니다. 사실, 이것은 당연하죠. 민주주의 주권자의 집단의사결정인 선거제도에서 유권자 한사람 한사람의 의사표시는 객관적으로 최대한 인정하고 존중하며 결정과정에 반영해야 하니까요. 기기의 식별 알고리즘을 짜는 것은 한계가 있기때문에, 일단 조금이라도 이상있는 표들을 미분류로 보내놓고, 수작업으로 검표해서 유효화하는 과정을 거치게 되는 것입니다. 위의 그림처럼 말이죠. 여하튼 기기가 토해낸 미분류표는 심사집계부의 육안검표과정을 통해 위의 예시처럼 유효화 작업을 거치게 되고, 그리고나서 최종적으로 개표상황표에 미분류유효표 숫자로 집계됩니다.

그럼 과연 미분류유효표가 더플랜이 수조속 입자들을 예로 들어 설명해준 것처럼 임의추출성을 갖는가? 결론부터 말하자면 답은 아니요 입니다.

먼저 분류기가 위와 같은 기준을 가지고 모집단에서 걸러내는 작업은 임의추출이 아니에요. 쉽게 예를 들면 어떤 제품이 5%의 불량율로 생산되는 공장이 있다고 할때, 임의추출은 말그대로 생산된 제품들을 무작위로 한웅큼 뽑아내는 것이지, 불량을 식별해서 뽑아내는 것을 임의추출이라고 하진 않거든요. 즉, 분류기의 목적때문에 미분류로 분류되는 과정은 임의추출이 아니라는 거죠. 

별론이지만, 개표분류기가 미분류로 내뱉는 것에는 기기 자체의 오류로 인한 정상표들도 속해있습니다. 동시에 미분류되어야 할 표들이 분류표화 되기도 하죠 물론, 이 시스테미컬한 오류는 기기마다 다릅니다. 그리고 개표를 참관해본 사람이라면 이 오류 역시 목격을 했을겁니다. 그러나 이 문제가 미분류의 임의추출성을 담보해주진 않죠? 또한, 그 시스템오류로 인한 미분류표들은 바로 다음에 보시는 것처럼 검표가 되죠.  

두번째로, 그렇게 걸러진 미분류표는 심사집계부에서 검표원들의 육안검표작업을 통해 후보자별로 유효표/무효표 구분이 됩니다. 이런 방식으로요




이 작업을 통해 유효화된 표들은 개표상황표에 다음과 같은 방식으로 집계가 됩니다(예시)

개표상황표 예시.png

 
이렇게 분류기를 통해 미분류되는 과정과, 심사집계부에서 육안검표를 통해 유효화과정을 거친 미분류유효표들은 모집단에서 무작위로 뽑아낸, 임의추출을 거친 표들이 아니죠. 즉, 더플랜의 수조속 입자그림은 틀린 설명이란 얘기.

그런데, 그럼에도 미분류유효표의 임의추출성을 담보할 수 있는 논리가 있습니다. 바로, 각 후보자에 대해 기표한 유권자들의 실수확률이 동등하다 라는 전제죠 

K 관계식(1).png
(자료제공 과게 dacoon 님) 

내용은 별 것 없습니다. K값의 평균이 1일 필요충분조건은 박,문 두 후보의 동일 미분류확률 즉, 유권자의 동일한 기표실수확률입니다. 두 후보에 대한 기표실수확률이 동일하다면 전국 251개 개표소 데이터로 뽑은 통계량 K 의 평균값은 1이 된다는거죠. 다시말해, 미분류유효표가 모집단에서 마치 임의추출을 한 것처럼 모집단의 성격을 그대로 따른다는 것입니다. 한 개표소를 기준으로 생각할때, 개표소의 미분류유효표에서 집계된 두 후보자의 상대득표율이 해당개표소에서 집계된 두 후보자의 상대득표율을 평균적으로 따르게된다. 그리고 이것은 251개 개표소 모두에 해당한다. 라는 것이죠.

더플랜 K논증의 핵심전제인 [ E(K)=1 이 정상이다 ] 또는 [ K 평균은 1이 나와야 정상이다 ] 라는 것에 대한 통계학적 논거가 바로 이것입니다. 즉, 모든유권자의 기표실수확률이 동일하다면 당연히 K값의 평균은 1 이 나와야 합니다. 그런데, 문제가 있죠. 모든 유권자의 기표실수확률(미분류표발생률)을 동일하게 봐야할 이유가 있는가? 애초에, 저나 과게분들은 더플랜 공개 직후 이 부분에서 문제인식을 가지고 있었습니다. 사실, 저도 파파이스 애청자라서 작년 파파이스에서 털보형이 미분류표미스테리를 이야기 할때, 모집단을 미분류유효표집단이 따라야 한다는 털보형의 이야기를 들었을때부터 들었던 의문이기도 합니다. 이걸 어떻게 같다고 볼 수가 있지? 

이런 관점은 기본 논리를 해치지 않는 선에서 수학적분석의 편의를 위해 가정을 하는것과는 의미가 달라요. 유권자들의 투표행위가 있었고 그것이 통계데이터로 남았다면, 유권자의 동등한 실수확률가정은 논리적으로 자명하게 받아들일 '전제'가 아니라, 통계데이터의 분석을 통해 살펴봐야 할 '가설'인 거죠. 통계학에서는 이런걸 null hypothesis(H0), 귀무가설 이라고 해서 데이터를 통해 기각여부를 검정하게 됩니다. 유권자의 기표실수확률이 동등하다는 가정은 일견 고개가 끄덕여지는 가설일 수도 있지만, 실상은 그렇지 않을 수도 있기 때문에 '전제'를 하면 안되는 것이죠. 즉, 가설에 대한 검정이 먼저 행해지고, 그 가설을 데이터가 기각하지 않는다면 전제로 받아들이고 논증을 해도 무방합니다. 그러나, 더플랜은 그것을 하지 않았어요. 

유권자 전체는 박,문 지지자로 분할되고 동시에 고령층과 저연령층으로도 분할되므로 박,문 지지유권자의 기표실수확률이 동일하다는 진술은 고령층과 저연령층의 기표실수확률이 동일하다는 진술과 상통합니다. 어느 한쪽이 부정되면 다른쪽도 부정되는 관계죠. 그래서 수학적으로 다음의 진술이 가능합니다.(빨간글씨를 앞으로 'new K논증' 이라고 부르겠습니다) 

고령층과 저연령층의 기표실수확률이 동등하면 K값의 평균은 1이다. 

사실, 18대 대선의 전수데이터를 통한 분석으로 K값의 평균이 1.5가 나왔다는 사실은, 고령층과 저연령층의 기표실수확률이 동등하지 않다는걸 통계적으로 보여준 것일 뿐입니다. 비정상적인 결과가 나온것이 아니라 단지, 유권자들의 특성을 알려준것 뿐이죠. 즉, 애초에 K값의 평균이 1이어야 정상이다라는 잘못된 '전제'로부터 출발한 K논증의 결과는 논리적으로 오류를 범한 논증입니다. E(K)=1.5 라는 통계적 사실은 털보형이 시사회에서 얘기한것처럼 불가능한 것이 아니라(E(K)=1을 염두에 두었으니 그런 얘기를 한거겠죠), 상황에 따라 통계적으로 충분히 나올 수 있는 숫자이며, 그것 자체로 정상 비정상을 이야기 할 논리적 근거는 없다라는 얘기고요. 털보형의 무학의 통찰은 이 지점에서부터 헛다리 짚은것이죠. 

한편으로, K논증과 관련해서 더플랜 중간중간에 삽입된 외국교수들의 코멘트 역시 신뢰하기가 어렵습니다. 



영상을 보면 교수들의 코멘트만 존재할뿐, 무엇에 대한, 어떤 질문에 대한 코멘트인지는 나와있지 않습니다. 질문을 어떻게 했는지 알 수 없다는 것. 그것은 곧 코멘터리가 본래의 맥락,내용과는 다른 방식으로 쓰일 수 있다는 말입니다. 악의적으로도 말이죠. 기레기들이 하는 그런 장난 말입니다. 애초에 외국교수들에게 제대로 된 설명과 질문을 던지지 않았을 수도 있구요. 일종의 유도질문이겠죠. 즉, 이 외국교수들의 코멘터리 역시 K논증을 지지하는데 무리가 있는 내용들입니다.


여하간, 위와 같은 이유에서 결과적으로 더플랜의 K논증은 틀린 논증입니다. 논증이 틀린 이상, 그 논증으로 논리보강된 다른 주장들 역시 설득력을 잃게 되겠죠? 그것은 나중에 아래에서 더 살펴보기로 하고요. 이제 살펴볼 것은 그럼 과연 고령층이 정말로 미분류표를 더 많이 발생시켰는가? 그리고 더플랜이 분석한 전국 K 값 데이터들을 고령층가설이 과연 설명할 수 있는가? 를 이야기 해볼까 합니다.


2.고령층가설

노인가설의 핵심은 두가지 입니다. 첫째, 고령층이 상대적으로 더 많이 미분류표를 발생시킨다. 둘째, 고령층의 박근혜 지지율이 상대적으로 더 높다. 여기에서 두번째는 당시 여론조사들과 출구조사등에서 수차례 확인된 사실이기 때문에 받아들이는데 무리는 없습니다. 문제는 첫번째 진술, 고령층의 상대적으로 높은 기표실수확률에 대한 가부판단이죠.

이미 위에서 보여드린 대로 고령층과 저연령층의 기표실수확률이 동등하지 않음을 이야기 했습니다(new K논증). 그렇다면, 과연 고령층의 실수확률이 상대적으로 더 클 것인가? 이건 분석을 해봐야겠죠. 재밌게도, 이와 관련한 분석과 결론은 이미 더플랜측 교수들이 내놓았습니다. 다음과 같이 말이죠.


http://www.projectboo.com/archive/153432


프로젝트부 연령층 미분류율 분석1.png

프로젝트부 고령층 미분류율 분석.png


 확률계산식과 방정식을 풀어 나온 결론은, 고령층의 미분류표발생확률이 상대적으로 더 컸다는 것입니다. 고령층과 미분류발생율간의 관계는 이곳 과게 유저분들의 회귀분석자료도 있습니다만(고령층과 미분류율간 정비례관계), 고령층가설 자체를 안믿는 분들을 생각해서 더플랜 교수들의 분석결과를 가져왔습니다. 노인가설의 핵심 중 하나인 '고령층이 상대적으로 더 많이 미분류표를 발생시킨다' 라는 진술에 대한 논거로 이정도면 충분하다고 생각이 됩니다. 사진의 q 와 r 값, 그러니까 고령층의 미분류확률과 저연령층의 미분류확률은 전국집계 데이터에서 얻은 전국 기준입니다. 그렇다면, 251개 개표소 지역의 고령층과 저연령층의 미분류발생확률도 저것을 따를 것인가? 당연하죠. 각 개표소가 관할하는 선거구에 속한 유권자풀은 전국 유권자의 분할이기 때문에, 확률론관점에서 고령층과 저연령층의 미분류발생확률이 전국의 그것을 따르게 됩니다. 각 지역별로 그 정도의 차이야 있겠지만, 평균적으로 각 지역의 노인들의 실수확률은 젊은이들의 실수확률보단 상대적으로 크다는 말이죠. 따라서, 고령층 가설을 이루는 두가지 핵심 진술은 논리적으로 지지됩니다. 더플랜의 K논증처럼 논증구조부터 기각되지는 않아요. 두가지를 동등한 관점에서 가설로 취급할 수는 없다는 얘기죠. 

 노인들의 기표실수율이 높은 이유는 선험적으로도 알 수 있는 사실입니다. 손떨림이 전부 심하다? 아니요 그것보단, 노안에 따른 기표용지와 도장의 식별 어려움과, 유효표/무효표에 대한 미흡한 사전지식 때문이죠. 젊은사람들이야 기표용지가 잘 안보이면 가까이 두고 찍으면 그만입니다. 그러나 노인들은 그렇지가 않죠. 멀리 떨어뜨려서 볼 수록 정확하게 보입니다. 한정된 공간에서 투표해야 하는 상황, 그 상황에서 정확하게 보기위해 투표용지를 멀리 놔두고 도장을 찍는게 노인들에겐 쉬운 일이 아니죠. 정확하게 보기 위해 멀리 놔두면 도장 찍기가 불편하고, 도장찍기 편할만큼 가까우면 투표용지 칸과 도장이 잘 안보이고, 그래서 적당한 거리를 두고 힘들게 우선 도장을 찍어요. 그런다음 투표용지를 들어서 멀리 놓고 확인을 해보죠. 아차~! 잘못 찍혔네? 선에 걸치거나, 부분적으로 찍히거나 해서 모양이 이쁘지가 않습니다. 이거 무효되면 어떡하지? 그래서 다시 한 번 찍죠. 그러면서 인주가 뭉개지거나 두 개, 세 개, 중첩된 인주자국이 남습니다. 또는, 애초에 어디를 찍어야 할지 잘 모르기도 하죠. 동시에 무효인지 유효인지도 모른 상태에서 대충 찍기도 합니다. 이렇게 만들어진 투표용지는 두말할 것도 없이 기기가 미분류해버립니다. 실제로, 투표소에서 노인들의 기표에 대한 어려움 호소는 수도 없이 목격되곤 합니다. 시골에서는 너무 찍기가 힘드니까 대신 좀 찍어달라고 호소하시는 노인분들이 종종 목격되곤 하죠. 그러니까 노인들의 기표실수율(미분류표발생확률)이 젊은이들보다 높은것은 상식적으로도, 경험적으로도 받아들일 수 있는 사실이에요. 고령층 가설을 무시하는 더플랜옹호자분들은 해킹을 통해 조작된 투표용지들이 251개 개표소의 모든 검표인원과 참관인, 정당위원들 그 수천의 눈을 무리없이 프리패스한다는 확률적으로 가능성이 매우 낮은 더플랜 시나리오는 충분히 가능하다고 여기면서 정작, 주변에서 항상 목격되어왔던 노인들의 신체적 어려움은 말도 안된다고 무시했죠. 다 제쳐두고 가능성측면에서 둘 중 어느게 더 일어날 가능성이 더 클까요? 아마 저와 여러분의 판단은 같을거라고 봅니다.

어쨌든, 고령층 가설은 더플랜의 K논증과는 다르게 그 핵심논거들이 지지됩니다. 내용도 별 것 없어요. 요지는 이겁니다. 미분류유효표에 고령층의 후보 지지의사가 상대적으로 더 크게 반영이 되어 있기 때문에, 미분류표에서의 두 후보간 상대적 지지율이 분류표에서의 그것과 다른 것은 당연하며 문제가 되지 않는다. 특히, 고령층의 박후보에 대한 60% 이상의 지지를 보인 사실에 미분류표에서의 상대적으로 높은 박후보의 득표결과가 부합한다. 쉽죠? 

그러면 여기서 잠깐 더플랜의 분석자료에 대한 자잘한 의문을 해결하고 가겠습니다.

3. 호남의 K 값은 그럼 무엇?   

노인가설을 믿지 않는 사람들이 종종 하는 이야기는 바로 호남의 K 값입니다. 호남은 노인, 젊은이 할 것 없이 90프로에 가까운 문재인 득표가 나왔는데 노인가설이 맞다면 호남의 K값은 낮아야 정상 아닌가? 혹은 1보다 아래여야 정상이 아닌가? 

이것은 K값의 정의를 보면 알 수 있습니다. 

더플랜 k.jpg

K 값의 정의가 비율의 상대비라는 것을 생각하면 호남의 K 가 1을 넘게 나온것도 별 무리는 없습니다. 노인가설에 따라 고령층의 지지의사가 미분류유효표에 상대적으로 더 크게 반영이 되어있으므로, 호남 전체의 박근혜에 대한 지지율보다 호남 고령층의 박근혜에 대한 지지율이 높기만 하면 K의 분자가 분모보다 크게 되어 그 값은 1을 넘게되죠. 즉, 호남 고령층의 박근혜 지지율이 매우 낮아도 그것이 호남 전체의 박근혜 지지율보다 높기만 하면, 그 고령층의 지지의사가 상대적으로 더 크게 반영된 미분류표에서 박근혜의 상대적 지지율이 분모인 분류표에서의 그것보다 크게 잡힐 수 있기 때문에 호남의 K도 1을 넘을 수가 있단 거죠. 호남의 K 값이 노인가설을 부정하는 근거가 되진 않는다는 얘기. 


4. 더플랜측의 노인가설에 대한 반박은 무엇? 


파파이스는 다음 그래프로 노인가설을 반박했습니다. 

파파이스의 노인가설반박그래프.png
251개의 개표소별 고령층 비율과 K 값간의 무상관 관계를 그래프로 나타낸 것인데요. 이것으로부터 노인가설이 K값을 설명하지 못한다고 반박을 했죠.

그러나, K의 정의에 따라 이러한 무상관성은 자연스러운 것입니다. 설명하면 이런거에요. K의 정의가 비율의 상대비이기 때문에, 분모분자가 동시에 변하는 것을 허용하므로 고령층의 비중이 낮은 지역에서 높은 K 값이 나올 수도, 고령층의 비중이 높은 지역에서 낮은 K값이 나올 수도 있다는 것입니다. K의 정의로부터 유도되는 당연한 property 이기 때문에 이것이 고령층 가설을 논리적으로 기각하질 못해요. 즉, 고령층 가설과 저 그래프는 논리적으로 양립이 가능하단 얘기.

더 쉬운 이해를 위해서 간단한 숫자로 설명을 해보면 다음과 같습니다.

전체 100명의 유권자중 60대 이상 고령층이 고작 20명 밖에 없는 지역에서 미분류표가 10표 나왔고 그 중 8표가 고령층에서 나왔다고 해보죠

고령층 미분류 8표중 박6 문2
젊은층 미분류 2표중 박1 문1

고령층 분류표 12표중 박9 문3
젊은층 분류표 78표중 박18 문60

이때 K 값은 (7/3) / (27/63) = 5.444

고령층이 상대적으로 많이 미분류표를 발생시켰고(고령층가설), 해당지역의 유권자중 고령층 비중이 20프로밖에 안되지만(낮은 지역고령층비중), K 값이 매우 크게나왔죠? 즉, 고령층가설 하에서 지역 고령층 비중이 낮아도 K 값이 크게 나올 수 있다는 얘기.

산술적으로 이런 가능한 조합이 매우 많고 K 값의 비율의 상대비 정의에 따라 자연스럽게 나오는 성질이기 때문에 지역의 고령층비중이 낮아도 K 값이 높게 나오거나 고령층 비중이 높아도 K값이 낮게 나오거나 두가지 경우 모두 가능하죠. 다시말해, 지역고령층 비중과 K 값 크기가 무상관하게 데이터로 뽑혀도 이상할게 없고요. 그 성질은 노인가설하에서도 마찬가지기 때문에 더플랜의 노인가설에 대한 반박은 사실 반박이 아니라는겁니다. 즉, 위의 그래프와 관련된 파파이스와 더플랜측 반박논리는 사실, 엄한 거 가져다가 쓸데없는 반박을 한거란 얘기.  


5. 개표분류기 해킹 시나리오 

더플랜의 해킹 시연 영상을 한 번 보도록 하죠.






 문제가 뭘까요? 바로, 시뮬레이션을 준비한 담당자가 사전에 두 후보에 기표된 투표용지를 가지고 시연을 했다는 겁니다. 개표분류기는 컴퓨터기기이기 때문에 간단한 코딩으로 해킹작업을 할 수 있는 것은 맞아요. 그러나, 해킹이 된다는 것과 해당 해킹 시연이 실제 18대 대선 개표절차를 제대로 묘사하는지 여부는 다른 문제죠. 영상에서는 감독을 포함한 시연주체들이 시연을 위해 가져온 투표용지의 각 후보자별 득표수를 미리 알고 있어요. 무슨 얘기냐면, 각 후보자별 득표수를 사전에 알고 있는경우 간단한 코딩으로 분류기를 해킹해서 분류작업을 조작하기가 쉽다는 거에요. 링크된 영상에 다 나오지 않았지만, 영화후반부에서 그것을 보여주죠. 그런데 문제는 18대 대선의 개표과정에서 사전에 두 후보의 총 득표수를 알 수 있었는가? 투표종료후 개표소 이송작업때까지 봉인된 전국의 모든 투표함 내부를 까보지도 않고 어떻게 알지? 당연히 알 수가 없죠. 원래 18대 대선개표과정에서 분류기 해킹으로 조작을 했다면 말이죠. 총투표수는 투표소의 선관위 집계로 알고있을 수 있지만, 각 후보의 득표수를 모르기 때문에 전국의 모든 개표분류기가 투표지 한 장을 식별하는 그 짧은 매 순간마다 각 후보의 득표수를 센터에 업데이트하여 공유하면서 매 순간, 후보자의 최종 득표수, 득표율을 확률적으로 예측하여 그때 그때 분류작업을 수정, 조작해야 됩니다. 말그대로 센터에 빅 알파고가 있고, 251개 개표소별 수백대의 개표분류기가 스몰 알파고가 되어서 그 복잡한 연산작업과, 분류조작 작업을 그 짧은 순간 바뀌는 후보자의 최종득표예측에 따라 계속 수정해가면서 해줘야 한다는 거에요. 센터에 플래너가 존재한다면 말이죠. 근데 더플랜의 해킹 시연은? 애초에 다 알고있잖아요 시연용 샘플로 가져온 투표지의 두 후보자별 득표수를. 이건, 트릭입니다. 마술사가 관객을 속이는 트릭과 같은거라구요. 와 해킹이 되네? 저게 말이돼? 심각하구만. 센터의 플래너가 다 해먹었겠어~




아시겠죠? 이미 결과값을 알고있는 상태에서 조작을 하는 해킹으로 18대 대선 개표과정에서 해킹의 가능성을 주장할 수가 없습니다. 이 방법이 되려면, 18대 대선이 투표 종료후, 개표소로 이동하는 과정에서 미리 각후보자의 득표수를 설정해놓은 다른 투표용지로 바꿔치기 하는 것 밖에 없어요. 투표종료시 집계되는 투표율과 총 투표수에 맞춰서 말이죠. 따라서 더플랜 교수의 조작 시나리오가 어떤 메커니즘으로 되는가 따져보는것과는 별개로, 더플랜의 해킹 시연은 개표조작의 가능성을 지지하는 근거가 될 수 없어요. 다시말해, 마술을 보여준 것일 뿐이죠. 

그러면 교수들의 시나리오, 그 개표조작을 말한 시나리오는 무엇이었는가? 



영화에는 그 시나리오에 대한 설명이 나와있질 않아요. 한편, 영화에선 통계적으로 1.5가 플랜이 없이는 불가능하다고 강조를 하죠. 논문에 어떤 시나리오를 썼는지 봐야겠지만, 사실 이쯤되면 그렇게까지 할 필요가 없어요. 왜냐? 어떤 시나리오가 되었든, 중앙 서버와 개표분류기의 해킹을 통한 분류작업 조작시나리오인데, 문제는 그 시나리오대로 분류표와 미분류표가 무효표 혼표들을 가지고 당락을 결정할 만큼 조작이 이루어진 상태에서, 심사집계부의 검표인원과 참관인, 그리고 각 정당 참관위원들 수천의 눈을 별다른 무리 없이 통과를 해야 하는 두번째 단계는 아무도 설명하지 않았다는겁니다. 그저 개표인원과 참관인들의 불완전성, 대충 작업하는 모습들을 보여주었지만, 투표용지 100장당 평균 5장의 혼표 내지 무효표가 들어있는 모든 투표지 다발이 전국적으로, 그리고 개표시작부터 개표종료시까지 꾸준한, 지속적인 개표인원들의 불성실함이 발현되어야 시나리오가 완성되는 그 가상의 상황을 설득력있는 논리로 설명한 적이 없습니다. 뭘 설명했죠? 개표분류기는 해킹이 가능한 컴퓨터기기이다 라는 것뿐. 이 거창한 시나리오에 비하면, 노인가설은 참 소박하기 그지 없습니다. 그런데, 둘 중 어느것이 더 현실적으로 가능성이 있죠? 틀린 논증으로 시작된 시나리오와, 경험적 사실로 지지되는 가설. 역시 저와 글을 읽고계시는 분들의 판단은 같을거라 생각합니다. 

참고로 개표인원들의 인지미숙, 판단 불완전성을 언급하면서 분류표 계수기의 속도를 지적하기도 합니다. 불완전성이 의도되었다라는 의미인데, 과연 그랬을까? 영상을 보시고 판단을 해보시면 될 듯 합니다.

 


위의 영상은 18대 대선 개표당시 최대속도 300으로 돌린 계수기 시연 영상이구요




이 영상은 이번 19대 대선 계수기 속도 150을 시연한 영상입니다. 

개표 참관인 시민의 눈으로 활동한 제 지인의 이야기를 들어보면, 이 계수기 파트가 쉴 틈 없이 돌아가는 것은 아니라더군요. 150의 속도로 보더라도 한 번 보고 쉬는 텀이 있다고 합니다. 바로바로 100장 묶음이 안올때가 있단 얘기겠죠. 하물며 300의 속도에선 더욱 그렇겠죠? 계수기의 속도를 눈으로 따라갈수 있는지 여부는 영상을 보셔서 아실 거라 생각합니다. 재밌게도, 이런 작업은 150 속도로 관찰하는 것이 더 힘들어요. 더 오랜시간 눈을 떼지 않고 지켜본다는게 더 지루하고 힘든 일이죠. 속도가 너무 느려도 이런 작업에선 눈의 피로 개선에 별 도움이 안될 수 있단 얘기.

어쨌든 결과적으로, 개표조작의 방법, 그에 대한 설득력 있는 설명 아무것도 없었어요. 논리적으로 틀린 K논증을 통해 인위적 개입을 미리 상정했으니, 그 논증으로 유도된 시나리오 또한 논리적으로 설득력이 없습니다. 털보형의 미분류표미스테리로부터 출발해 해킹시연으로 마무리되는 모든 논증과정이 틀렸어요. 그렇기 때문에, 더플랜을 음모론으로 치부할 수밖에 없다는 겁니다. 


6. 노인가설 검증에 대한 더플랜측 교수의 보충 설명 

http://www.projectboo.com/archive/153432

앞서 링크한것과 같은 프로젝트부의 아카이브 게시판입니다. 쉽게 설명하면 맥락은 이렇습니다 전국의 고령층과 저연령층의 미분류발생율 q 와 r 을 방정식을 통해 구하고 이것으로 251개 각 개표소별 미분류율을 추정한뒤, 그 추정치와 실제치를 비교했더니 잘 맞지 않았다. 따라서 노인가설의 K값 설명력이 낮다.

그러나, 여기도 문제가 있습니다. q 와 r 을 구하는 연립방정식의 계수행렬 성분들은 다음으로 구성됩니다.

1. 고령층의 박 지지율

2. 저연령층의 박 지지율

3. 고령층의 비율

4. 저연령층의 비율

즉, q 와 r 은 그 방정식체계상 위 네가지 요소의 영향을 받고, 따라서 전적으로 연령에만 의존한다는 교수의 코멘트는 틀린 것이 됩니다.


더플랜 교수설명오류.png

지역마다 달라집니다. 왜냐, 개표소마다 연령층별 박 지지율과 연령층의 비중이 다르기 때문이죠. 그 각각의 데이터로 개표소별 q 와 r 을 구하는 251개의 연립방정식이 만들어지고, 따라서 251개의 개표소별 q 와 r 이 도출됩니다. 즉, 더플랜 교수가 한 것처럼 전국 q 와 r 값으로 각 개표소별 251개의 미분류율을 추정할 것이 아니라, 251개의 개표소별 q 와 r 을 구하고 그것으로부터 각 개표소의 미분류율을 추정해서 실제치와 비교를 해야 논리적으로 더 정밀하다는 얘기입니다. 애초 교수가 한 방법은 덜 정밀하고 오차를 줄일 수 있는 상황이기 때문에 그것으로 고령층가설의 설명력을 낮다 라고 말할 수가 없는 것이죠. 오차를 줄여보면 어떻게 될지 모르거든요. 

역시 이것도 고령층 가설에 대한 제대로 된 반박이나 더플랜 측 K 논증에 대한 논리적인 보충이 되지 못합니다.


7. 맺음말(why?)


더플랜 공개 직후 관련 글과 댓글들을 수없이 써오면서 고민한 것은, 이 통계적,수리적 논리가 고도의 사고를 요하는 것이 아님은 분명한데, 전공교수가 이걸 정말 몰랐을까? 입니다. 여러번 생각해본 결과 제 나름의 결론은 모를리가 없다 입니다. 즉, K논증이 애초에 틀린 것이란걸 털보형과 더플랜측, 그리고 백그라운드를 담당한 교수들도 알고 있었는데, 탄핵 정국으로 시작된 정권교체 바람에 나름의 의도를 가진 목적 적합한 음모론이 필요하다는 점에서 기획된 영화일 가능성을 높게 보고 있습니다. 뭐, 물론 아닐 수도 있구요. 교수들과 털보형의 실수일 수도 있죠. 

그러나 어찌되었든, 틀린 것은 틀린 것이고, 아닌 것은 아닌 것이죠. 개표과정의 투명성과 공정성에 대한 시민의식 환기라는 멋진 목적을 달성하지 않았나 라고 말하는 분들이 많지만, 글쎄요. 전 이렇게 생각합니다. 결과가 좋다고 과정이 정당한 것은 아닙니다. 분명, 틀린 논증을 통해 대중들에게 왜곡된 정보를 각인시켰고, 논리오류로 범벅된 K논증이 다른 주장에 보강논리로 사용된 만큼, 나머지 주장들의 설득력도 잃게 되는 것이라구요. K논증이 아니었어도 충분히 좋은 방법으로 목적을 달성할 수도 있었습니다. 저는 그렇게 봅니다. 애초에 비합리적이었던 논증을 합리적 의심의 연장선으로 인정해줄 이유도 없구요. 


무엇보다, 거짓으로 정의를 세워서는 안되니까요. 저는 그렇게 믿고 있습니다. 


더플랜 사태와 관련해 제가 쓴 글을 마지막으로 링크하겠습니다. 글이 좀 쎕니다만, 가감없는 저의 생각입니다. 

http://www.todayhumor.co.kr/board/view.php?table=sisa&no=952691&s_no=13531807&kind=member&page=1&member_kind=total&mn=745923


더플랜 공개 이후 두 달이 지났습니다. 뉴스타파가 이번 대선과 관련한 K 값으로 프로그램을 기획하여 방송한다고 하는데요. 그 방송이 나가고 나면 또 어떤 이야기가 오고 갈 지 모르겠습니다. 아마도, 오고가는 이야기 중 절반은 '그래도 의도는 좋았다, 결과도 좋았지 않냐?' 식의 이야기일 것 같네요.

앞으로 더이상 더플랜 관련 게시글을 안쓰려구요. 다시 말씀드리지만, 물론 이 음모론으로 진실을 굴절시키는 곳에는 끝까지 달려가서 댓글로 논쟁할겁니다. 현재 여당과 문재인대통령을 지지하는 지지자분들, 시민사회에 음모론 묻는거 싫거든요.   

전체 추천리스트 보기
새로운 댓글이 없습니다.
새로운 댓글 확인하기
글쓰기
◀뒤로가기
PC버전
맨위로▲
공지 운영 자료창고 청소년보호