게시판 즐겨찾기
편집
드래그 앤 드롭으로
즐겨찾기 아이콘 위치 수정이 가능합니다.
더 플랜 2번째 돌려본뒤 제 생각입니다
게시물ID : science_64208짧은주소 복사하기
작성자 : MC스피릿
추천 : 12
조회수 : 812회
댓글수 : 40개
등록시간 : 2017/06/05 23:40:22
k값논란이 좀처럼 사그러들지를 않아서 저 혼자 다시 한번 더플랜을 보면서 생각을 정리해 봤습니다






더플랜에서 처음으로 지적한 문제는 시간 역전입니다


선관위에서 공표되지도 않은 투표 결과들이 방송국에선 미리 사용 되었다는 내용인데요


심지어는 투표함이 도착하기도 전에 방송탄곳이 51군데라고 나오네요


K값때문에 이 부분은 거의 묻힌거 같은데 개인적으로 이 시간 역전을 파고 드는게 더 낫지 않나 싶네요


시간 역전은 선관위까지 갈필요 없이 방송국쪽에 해명을 요구할 수 있는 부분이라고 생각해요


K값 이슈에 묻혀 제가 보지 못했을 수도 있습니다








그 다음으로 나오는 문제는 역누적 그래프입니다


제 생각에는 이부분은 큰 문제가 있나 싶어요


만약 개표를 선입선출식으로 한다면 누적그래프가 말해주는것은 초반에는 박근혜 지지자가 많고


후반에는 문재인 지지자가 많다는 거겠죠(선입선출은 제생각입니다)


이 부분은 박지지자가 연령층이 높고 연령층이 높은분들이 일찍 투표한다는 가정하에


큰 문제가 없어 보여요 실제로 그러하다고 생각되고요


이게 만약 조작에 의해 그런것이라 초반에는 조작을 하다가 나중에 확정된 이후에는 조작을 하지 않았다라고 하기엔


굳이 그럴필요가 있을까요? 인터넷 연결도 안되는 분류기를 실시간으로 조정한다?


원거리에서든 직접하는것이든 타당성이 떨어져보여요 중간에 건드리는건 위험도가 더 높죠


그렇다고 결과가 어떻게 될지 모르는데 일정시간까지만 조작하도록 설정한다? 굳이?










그 다음 문제가 논란이 되고 있는 K값입니다


이 부분은 이렇게 시작됩니다


18대 대선에서 미분류표가 3.6%나 되고 그중 실제 무효표는 0.3%밖에 되지 않으며


결국 3.3%의 표가 미분류를 거쳐서 유효한 표로 분류가 된다는 것이고


이 수치는 너무 많다는 거죠


그리고 이어지는 내용은 미국쪽 내용인데 클린트 커티스라는 분이 나오면서


자신이 개표조작프로그램을 만들었다고 하죠


그러면서 이걸 막는 방법으로 말하는것이 개표기와 별도로 투표용지를 사용하고


반드시 수검표를 하라는 내용이죠


뒤에 나오는 존 보니파즈라는 분에 의하면 미국은 수검표를 하지 않습니다


기계에 의존해 표를 집계하고 종이 기록지를 다시 들여다 보지 않는다고 합니다


우리나라와의 큰 차이점이겠죠


그리고 전자투표 부분은 우리나라와 상관 없으니 넘어가도록 할게요


다시 미분류표 3.6%에 대해 나옵니다 이어서 개표기 조작에 대한 내용도 나오죠


여기서 정리하고 넘어갈 부분이 미국이나 해외는 개표기가 맞고 우리나라는 분류기가 맞는걸로 알고 있습니다


미국은 다시 수검표를 안하고 우리나라는 하니까요 그래서 번역된 자막을 보면 다 분류기로 나옵니다


그리고 전자 투표내용이 끝나면 대망의 K값이 시작되는데요


문제의 시작은 간단합니다 내용은 다 아실테니 짧게 말하면 K=1.5 가 나오드라는겁니다


정확히는 K=1.5를 평균으로하는 표준분표가 나온거죠


그리고 왜 K=1.5인가에 대한 가정중 하나가(영화를 보시면 현화신 교수님이 직접 강조하시면서 


모델 K=1.5가 나오는 방법은 한가지가 아니고 여러가지고 그중에 하나를 시나리오로 잡았다고 하십니다)


유효표를 미분류로 보내고 그 만큼의 무효표를 다시 유효표로 가져와 바꿔치기를 한다는 겁니다


어떻게 바꿔치느냐 유효표를 4대1의 비율로 4는 유효표 그대로 1은 무효표로 보냅니다


(후보 1에 대해서만 말씀하셔서 후보2나 다른 후보의 비율은 같은 비율인지 아닌지 모르겠네요)


그리고 위에서 말한대로 그 만큼의 실제 무효표(미분류 표가 아닙니다)를 가져와 빈자리를 채우면 후보1의 표가 뻥튀기 되는겁니다


이게 더플랜 영화에 나오는 K=1.5의 시나리오인데요


뒤에 자료화면과 같이보면 위에 말했던 4대1의 비율은 그냥 예인거 같습니다 실제로 어떤값을 쓰셨는지는 모르겠지만


4대 1수준으로 무효표로 갈 수는 없겠죠 20%인데(이부분과 뒤에 나오는 논문에서 비율부분을 찾기가 힘드네요)


그리고 K=1.5가 정상적인지 조작인지 확인해 보기위해서 그 전 대선의 결과를 비교하는데요


16대 대선 데이터 하나 17대 대선 데이터 2개 입니다


16대 대선은 이회창과 노무현


17대 대선은 이명박과 정동영


18대 대선은 박근혜와 문재인


16대 대선에서 나온 데이터는 1.04 17대 대선에서 나온 데이터 두개는 1.02 1.04 입니다


18대 대선에서 동일 지역에서 1.35  1.44   1.37이 나옵니다


같은 지역임에도 불구하고 K값이 다르죠 많게는 0.42 적게는 0.31 차이나 납니다 표본이 적은건 아쉽습니다만


확실히 K값이 상승하는 모습을 보여줍니다


그리고 논문 [A Master Plan 1.5 ] 에 관한 내용이 나오는데 솔직히 논문도 대략 검색해봤는데 영어이다 보니


잘 이해 안가는부분들이 해결이 안되더군요 ㅠㅠ


제가 이해 한 내용은 위에서 말한 어떤 비율대로 무효표와 유효표가 바꿔치기가 되서 K=1.5가 되도록 시뮬레이팅했더니


실제 투표결과와 97%일치하더라가 논문의 내용같은데


시뮬레이팅에 사용한 원 데이터를 어떤 데이터를 이용했는지를 못찾겠드라구요 이 부분은 혹시 아시는분 계시면 설명 부탁드립니다


그리고 이제 분류기 해킹시범이 나오죠


처음 데이터 박 4950        해킹후   박 5167
            문 4950                 문 4738
            무효 50                 무효와 기타는
            기타 50                 언급이 없습니다


2번째 데이터 박 4700       해킹후   박 5142
             문 5200                문 4761
             무효 50                무효와 기타는
             기타 50                언급이 없습니다


해킹을 통해 이런 결과가 나옵니다




여기서 부터 더플랜의 K값에 대한 문제인데요


일단 최초 이 문제가 제기된 부분은 앞서 말한대로


미분류비율이 높다


이거에요 3.6%나 되고 그중 3.3%가 유효표로 돌아가죠


이게 너무 높은 수치라고 하는데 저 시나리오에 의하면


3.3%의 유효표(미분류로 가버린)가 사실 그냥 유효표 자리로 가야하고 그 자리를 채우고 있는 무효표가 미분류 자리로 가야합니다


유효표에서 미분류로 미분류에서 유효표로 이동하는 양은 당연히 같겠죠?


어라? 그러면 애초에 우리나라의 미분류 그것도 무효표의 비율이 3.6%동일합니다 뭐 오차를 감안한다 치더라도


본인들이 문제라고 지적하고 시작한부분이 본인들 시나리오에서 하나도 해결이 안되요


그리고 그 다음 같은 지역에서 다른 K값에 관한 내용인데


제가 위에 적었듯이 후보가 다릅니다 예 인기도 달라요


저 3번의 대선에서 동일한 그러니까 이회창 이명박 박근혜를 찍은사람과


노무현 정동영 문재인을 찍은 사람의 비율이 전체에서 몇퍼센트정도 될까요


3명 동시가 아니고 두명씩 짝짓더라도 전체에서 봤을때 절대 다수(과반 이상이겠지만 8~90정도는)아닐거라고 생각됩니다


조작이 없더라도 K값이 달라질 여지가 있다는 거에요


그리고 미분류에 영향을 크게 미칠거 같은 투표용지를 검색해봤는데 16 17 18 모두 대동소이 했습니다


19대 때는 후보간 간격이 있는 반면 다른 시기에는 양식은 비슷하고


도장의 크기가 같다고 했을때 칸의 크기는 19<<17<18=<16 으로 보이네요


(눈대중으로 기표하는곳 바로 위 도장으로 비교했습니다 제가 경험하지 못한 투표가 있어 정확하지 않습니다)


여기까지만 보면 결국 K=1.5를 반박하지 못하는것처럼 보입니다만


영화에서 K가 1이여야 하는 이유를 설명하면서 나오는 영상이 있죠


빨강공과 파란공이 한상자에 담겨있는데 한쪽 구멍의 크기는 96이고 다른쪽은 4입니다


이때 당연히 양쪽으로 나온 각각의 빨간공과 파란공의 비율이 동일해야 하고 그렇지 않은경우는 이상하다고 설명합니다


과연 그럴까요? 저는 이런걸 모델링이라고 배웠습니다


어떤 현상이라던가 상황을 간략하게 바꾸어서 듣는사람이 듣기 쉽거나


문제 해결을 간단하게 할 수 있도록 하는것이죠


쉽게 예를 들면 공을 수평으로 던졌을때 궤적을 구한다고 할때 보통 공기저항이라던가 공의 크기라던가 하는 부분은 고려하지 않죠


이 모델링의 문제는 항상 현실과 맞아 떨어지지 않는다는거에요


공을 수평을 던지면 이상적으로 날아갈까요?


위의 설명에서 보자면 과연 빨간공과 파란공의 크기 모양 무게 등등이 동일할까요?


다시 말해 1번을 찍은 사람들이 투표용지에 찍은모양 과 2번을 찍은 사람들이 투표용지에 찍은 모양이 같을까요?


(모양이라고 했지만 위치 번짐정도 등등을 모두 내포한겁니다)


아니 1번을 찍은 사람끼리조차 같지 않을겁니다 2번도 마찬가지겠죠?


1번을 찍는 사람과 2번을 찍는사람들이 기표를 할 때 실수를 할 확률이 같거나 근사해야


비로소 빨간공과 파란공의 크기 모양 무게 등등이 동일하다고 할수 있을겁니다(저 모델링하에서요)


여기서 사람들이 주장하는것이 어르신분들께서 기표하신 표는 아무래도 시력문제도 있고하니


기표를 하는 순간 실수를 하실수도 있고 번복을 할 수도 없고(이번에 아무생각없이 1번찍고 다른투표용지 달라고 하신분 계셨죠?)


미분류로 갈 확률이 높습니다(거기에 장애인분들까지 동원해서 1번을 찍게 했다면 미분류로 가는게 더 커지겠죠?)


즉 애초에 박스안에 들어있던 빨간공과 파란공은 모양 크기 무게가 다른것입니다


또한 96크기의 구멍과 4크기의 구멍으로 비교하는것이 아닌


과일 크기 분류와 비슷하게 생각해야 합니다


과일을 위에서 쪼르륵 굴리면 크기에 따라 분류되는 기계는 많이 보셨을겁니다


투표분류는 이렇게 봐야 합니다 말 그대로 분류하는거니까요


이 공이 이쁜지 안이쁜지를 검사해서 이쁜건 고르고 자기 기준에 안이쁜건 거른겁니다


거기서 골라진 비율이 96이고 걸러진 비율이 4인거죠


이건 크기 96짜리 구멍과 4짜리 구멍뚫어놓고 공을 들이 붓는것과 같지 않습니다


그리고 해킹 시연부분인데요


해킹데이터를 다시 보시죠


처음 데이터 박 4950        해킹후   박 5167
            문 4950                 문 4738
            무효 50                 무효와 기타는
            기타 50                 언급이 없습니다



여기서 무효와 기타로 간표를 무시하고 해킹후 박근혜의 표중 박근혜의 표가 아닌 표의 최소치를 구해봅시다


간단하죠? 빼면 됩니다 5167-4950=217


박근혜 후보의 표중 잘못온표의 비율은 217/5167은 약 0.0419로 대략 25장중 한장이 잘못온표입니다


이 25장중 1장이 잘못된것을 100장묶음 200장 묶음 250장 묶음에서 한장도 못거를까요?


한장 이상한것을 걸렀을때 다시한번 살펴보지 않을까요?


아무리 피곤하고 반복작업중이라도 대선 투표용지가 25장에 1장꼴로 이상한데 계속 대충 확인할까요?


2번째 데이터를 보시죠



2번째 데이터 박 4700       해킹후   박 5142
             문 5200                문 4761
             무효 50                무효와 기타는
             기타 50                언급이 없습니다


똑같은 계산을 해봅시다 5142-4700=442   442/5142=0.0859로 12장중 한장이 잘못되있겠네요


그걸 못본다구요? 12장중 1장이 계속 이상한데?


실제로 영상에서 이상한점을 계속 발견하죠 어머어머 하면서


당연합니다 박근혜쪽 표만봐도 최소 저만큼이 이상해요


더 플랜의 시나리오대로면 문재인쪽 에도 무효표를 우겨넣었으니 그쪽에도 잘못된 표가 나올겁니다


이걸 실제로 사용해서 안걸렸다구요? 다시 말하지만 여기서 계산한 잘못된 표는 최소치입니다


또 49대 51 이수치가 나와야 1.5이내가 아니여서 저수치로 조정한다고 말했죠


저게 미국에서 가능한 이유는 간단합니다


검수를 안하거든요 그냥 쭉읽고 순서고 뭐고 그냥 입력된 값만 출력하면 그만이에요


우리나라는 분류기이기 때문에 분류가 된것을 다시 셉니다


종이가 들어가는곳은 하나지만 나오는곳이 15군덴가 그렇죠


영상에서 다른나라 옵티컬스캐너를 다시 봐봅시다


팩스랑 비슷하네요 들어가는곳 나오는곳 한군데에요 그냥 쭉 읽고 결과 값이 나옵니다


우리나라처럼 분류하지 않으니 49대 51하기가 너무 쉬워요 한표한표 계산해서 분류할 필요가 없거든요


혼자 읽는척하고 나중에 적당한 값을 말하면 되요


우리나라는 그렇지 않죠? 분류기가 읽고 분류할때마다 얘를 어떻게 어디로 보낼지 생각하고 계산해야합니다


일단 복잡한 정도가 달라요


또 우리나라에선 투표함 까기전에 아무도 결과를 모르는데 어떤 수치가 나올줄 알고


49대 51이 나오도록 K값을 설계하죠?


해킹을 통해 K값이 1.5가 나오도록 어떻게하는지는 모르겠습니다만


(해킹 방법말고 K가 1.5가 나오도록하는 유효표를 무효표로 보내는 비율이요)


그걸 할 수 있다고 해도(실제 투표결과를 모르는채로) 49대 51이 나오도록 k값을 설정해야하는데


그게 마침 1.5였다? 아니면 1.5로만 맞추면 어떤 결과가 나오든 49대 51로 나온다?


글쎄요 이게 번개 두번맞을 확률이 아닐까 싶네요


마침 얘기 나온참에 번개 두번 맞을 확률얘기가 나오죠


제가 이해한 이 확률은 그거에요


1을 평균으로 하는 정규분포에서 무작위 추출을 했더니 1.5를 평균으로하는 정규분포가 나오드라


제가 이해한 내용입니다


즉 K가 1이 맞을 경우에 저렇게 나올 가능성을 논하신거지


애초에 K가 1이 아닐 수 있다면?


제가 주장한대로 빨간공과 파란공의 특성이 다르고 구멍으로 빠지는게 아닌 분류하는거라면?









그리고 영화가 끝나고 김어준총수가 주장합니다 사람이 먼저 세기만 하면 신뢰 가능하다


테이블 순서만 바꾸면 된다


제일 이해 안가는 부분인데요


그렇게 시스템을 바꾼다고 하면 이미 다 분류한 투표용지를 분류기에 넣습니다


한쪽으로 다 가겠죠?


완벽하네요


그런데 그렇지 않다면요?


분류한 투표용지를 집어넣었더니


한쪽으로 이쁘게 모이지 않고 이상한곳으로 빠진다거나


미분류로 간다거나 한다고 하면


그건 결국 사람이 확인해야 하는부분 아닌가요? 그게 테이블만 바꾸는 수준인가요?


그런 결과가 나왔을때 기계가 맞기도 하고 틀리기도 하겠죠


이때 기계가 한곳에 모은 투표용지는 신뢰 가능한가요?


그리고 이번에 특수한 경우처럼 후보가 많아서 한구역에 복수의 인원이 배정될경우엔 결국 다시 봐야합니다 


예를 들어 14번과 15번이 같은 곳으로 분류된다고 했을때 14번 후보의 표를 모아 분류기에 넣었고 한쪽으로 모였을때


이 기계가 15번으로 분류하지 않았는지 어떻게 알죠?


아니면 신뢰 안가는 기계를 이미 사람손을 한번 거친거니 믿고 맡기나요?


무슨 검사를 할때 신뢰도가 제일 높은걸 뒤쪽으로 배치해야 효율적인거 아닌가요?


왜 신뢰 못할 기계를 사람 뒤에 놓자고 하는지도 잘 모르겠습니다


제가 모르는 무언가가 있었고 저렇게 배치할경우 어떤 문제를 모두가 알게되서 그 때 빵 터뜨리려는 시나리오밖에는 안떠오르는데 


투표가 끝난지금 아무말 없는거 보면 그런것도 없던거 같네요







처음 이 영화가 논란이 되어 보게 됬을때 조금 갸우뚱하면서 봤습니다만 의도는 충분히 납득이 갔습니다


하지만 의도가 좋다고 해서 과정이 공정하지 못하다면 결과도 정의롭지 못하겠죠


기회는 평등하게 과정은 공정하게 결과는 정의롭게 문재인대통령 혼자서 쓸쓸히 외치지 않기를 바랍니다
전체 추천리스트 보기
새로운 댓글이 없습니다.
새로운 댓글 확인하기
글쓰기
◀뒤로가기
PC버전
맨위로▲
공지 운영 자료창고 청소년보호