이 게시판에 온지 얼마 되지 않아서... K=1이 아닌 것이 아무 문제가 없다고 주장하시는 분들이 저는 노인손떨림 이론 주장하시는 줄 알았는데 보니까 그게 아니라 원래 근본적으로 K=1이 아니어도 아무 상관 없다고 주장하시는 듯 보입니다. 아니라면 이 글은 뻘글이 될텐데...
1. 문제가 뭔지를 잘못 인식하고 계십니다. 박근혜와 문재인 지지자 사이에 아무런 편향이 없을 때 K=1이 나와야 하는 것은 너무나도 당연합니다. 이걸 거부하면 답이 없는 거고. 근데 결과를 보니 K=1.5입니다. 이 결과는 그 자체로 두 후보의 지지자가 투표하는, 흑은 그것이 개표되는 과정 자체에 어떤 편향이 존재했다는 뜻이고, 지금 문제는 그 편향이 무엇인가를 찾고자 하는 것입니다. 이런 상황에서 어차피 두 후보자는 달라서 K=1이 아닐 수 있는데 뭔 개소리냐 이런 식으로 나오면 아무 해결이 되지 않습니다. 편향이 뭔지를 찾자는데 편향이 있어라고 주장하는게 어떤 도움이 된다는 것인지...
2. 논문에서 상당히 유의미한 시뮬레이션을 합니다. 어떤 시뮬레이션이냐 하면 박근헤의 표가 미분류표가 될 확률이 r1, 문재인의 표가 미분류표가 될 확률이 r2, 그리고 r1>r2라고 가정을 했을 때 시뮬레이션의 결과와 실제 결과가 잘 맞는가를 본 것입니다. 아마 K=1이 원래 아니다라고 주장하는 대부분의 분들이 생각하는 시나리오가 이 상황일 것입니다. 그런데 결과는 어떨까요? 논문에 따르면 잘 맞지 않습니다. 사실 이건 분포가 정규분포에 가깝다는 것으로부터 어느 정도 예측할 수 있습니다.
3. 문제는 r1>r2로 하는 대신에 영화에서처럼 유효표의 비어 있는 부분을 무효표로 채워 넣었더니 잘 맞더라는 것입니다 (지금 돌아다니는 논문에는 자세한 내용이 나오지 않아서 영화의 시나리오를 상정했습니다. 시뮬레이션 결과가 잘 맞는다는 것은 논문에도 나오는 내용입니다). 잘 생각해 보시면 이렇게 해야 K가 정규분포가 될 것이라는 예측을 할 수 있을 것입니다. 그 이유는 다음과 같습니다. 무효표로 채우지 않은 2번 같은 경우는 실제 득표수 자체가 K값에 영향을 미치게 됩니다. 그렇게 되면 지역과 인구수의 상관관계 때문에 정규분포가 나오지 않습니다. 무효표로 채웠을 때는 원래 K값을 정의한 목적대로 미분류표의 비율만이 잡히게 되고 따라서 정규분포가 나올 가능성이 있습니다. 정규분포가 나왔다는 것의 의미는 아래의 제 글을 참고하시길.
4. 많은 분들이 이 통계적 결과의 의미를 상당히 과소평가하고 있다고 봅니다. 물론 엄밀하게 논리적으로 따지자면 상관관계를 통해 인과관계를 밝힐 수는 없습니다. 근데 생각해 보세요. 당췌 어떤 시나리오를 생각하면 3번에 상정했던 시나리오와 비슷한 결과를 얻을 수 있을까요? 2번처럼 독립적인 편향도 안 됩니다. 그렇다고 노인비율처럼 지역과 상관관계를 보이는 인자가 K값을 변화시킬 수 있어도 안 됩니다. 그렇다고 샘플 수가 작은 것도 아닙니다. 제가 알고 있는 지금까지 나온 어떤 가설도 설명하지 못 했습니다. "확신할 수는 없지만" 저는 지금까지 부정선거만큼 간단하면서도 제대로 설명하는 가설을 본 일이 없습니다.
5. 저는 개인적으로 부정선거가 아닌 다른 어떤 이유가 밝혀지면서 이 문제가 허무하게 설명되고 끝날 가능성도 있다고 봅니다. 보통 이런 식의 문제가 종종 그렇게 끝나기도 하죠. 사람의 상상력은 한계가 있으니까요. 하지만 그렇다 하더라도 영화와 논문에서 보여준 노력과 합리성 자체를 어줍잖은 "감상"으로 폄훼하는 건 좀 신중해야 한다고 봅니다. 어떤 이유가 되었던 간에 K=1.5 중심의 정규분포라는 것은 그 의미를 아는 사람들에게는 충격으로 다가올 수 밖에 없습니다. 그리고 그것이 상징하는 어떤 구조적, 사회적 모순은 어떤 식으로도든 바꿔야할 문제입니다. 그런 맥락에서 수개표로 바꾸는 것도 상당히 의미 있는 진전이 될 것이라 봅니다. 개표 과정은 모르겠지만 (이 부분도 헛점이 많다고 생각하지만), 최소한 분류기계를 해킹할 수 없다고 생각한다면 그건 정말 어처구니 없는 오산입니다. 제가 사실 충격을 먹은 건 실제 작동하는 컴퓨터를 연결해서 표를 처리했다는 것입니다. 미친 거 아닌지...