여담으로 할 얘기는 무지 많지만 바로 본론으로 들어가겠습니다. 이 글은 기본적으로 노인손떨림 이론의 문제를 지적하는 글입니다.
1. 들어가기에 앞서 우선 다음의 분석을 보시죠.
보시면 아시겠지만 노인비율과 미분류율 사이에는 상관관계가 보이지만 노인비율과 K값 사이에는 상관관계가 보이지 않죠. 지금 상황은 정확히 말하자면 노인비율과 K값은 상관이 없는데 왜 미분류율은 상관이 있을까를 따져야할 일입니다. 하지만 사실은 저 분석을 보기 전에도 영화 및 논문의 결과와 노인손떨림 이론은 양립할 수 없다는 것은 직관적으로 알 수 있었어야 합니다. 통계에 대한 정확한 지식이 있다면.
2. 제가 가장 답답한 부분은 노인손떨림 주장을 하시는 분들이 K의 평균이 바뀌네 마네 하는 얘기만 하고 정규분포에 대해서 말씀을 안 하신다는 것입니다. 만일 K의 분포가 "완벽한 정규분포"라면 그것이 의미하는 바는 이렇습니다. 어떤 확률분포가 완벽한 정규분포가 되기 위해서는 개개의 이벤트가 "독립적"이어야 합니다. 문제가 되는 분포는 251개 "지역"의 K값을 가지고 그린 것입니다. 여기서 이벤트가 독립적이라는 것은 K값이 지역과는 상관 없는 확률변수여야 한다는 것입니다. 따라서 기본적으로 지역과 상관관계가 있는 어떠한 인자(이 경우는 노인비율)가 K의 값을 변화시킬 수 있다면 완벽한 정규분포는 나올 수 없습니다. 아시다시피 한국은 노인비율이 지역에 따라 판이하게 다르죠. 따라서 완벽한 정규분포를 가정한다면 노인손떨림 가설은 설 자리가 없습니다. 물론 완벽한 정규분포가 아니라는 것을 생각해야 합니다. 하지만 R2=0.98로 정규분포에 매우 가깝습니다. 따라서 직관적으로는 노인손떨림이 영향을 미친다 하더라도 그 영향은 매우 작아야 한다고 생각함이 옳습니다. 1번에 언급한 분석에도 잘 나오죠.
3. 그렇다면 왜 노인비율과 미분류율 사이에 상관관계가 보일까요? 사실 생각해 보면 너무나 당연합니다. 지금 우리가 보고 있는 현상이 후보자가 누구냐와 미분류율(의 상대적 비율) 사이에 상관관계가 있다는 것이잖아요. 당연하게도 후보자의 득표율과 상관관계를 가지는 어떠한 것을 가지고 와도 미분류율과 상관관계를 보여야 할 것입니다. 예를 들어, 해 본 적은 없지만, 지역과 미분류율 사이의 상관관계를 조사해 보시면, 아마도 특정 지역 사람들은 손을 달달 떤다는 결론에 도달하실지도 모릅니다. 제발 상관관계와 인과관계를 혼동하지 마시길.
3. 노인비율이 높을 수록 미분류율이 높은데 어떻게 노인비율은 K와 상관이 없을까요? 이 부분도 참 답답한데, 이렇게 설명 드리죠. 노인비율과 미분류율 사이의 상관관계를 찾는 글들을 보면 대부분 전체 미분류율과 비교를 하더군요. 제대로 비교를 하려면, 박근혜 표에 한정해서 노인비율과 미분류율 사이의 관계, 문재인 표에 한정해서 노인비율과 미분류율 사이의 관계를 따로 구해야죠. 그 둘 사이의 관계가 K값을 결정하는 거잖아요. 그리고 사실 미분류율 자체가 높다고 K가 반드시 커지는 것도 아니예요. 무슨 말이냐 하면 미분류율이 높으면 K가 커진다고 생각하는 것 자체가 이미 노인손떨림 이론을 전제하고 있다는 겁니다. 논리적으로 보자면 노인비율과 미분류율 사이의 상관관계를 보이는 것은 노인손떨림 이론의 근거 자체가 되지를 못 합니다.
4. 기표란이 맨 위에 있어서 1번 프리미엄이 있었다는 주장도 보았습니다. 참신함 만큼은 인정해 주고 싶군요. 너무 문제가 많아서 구지 설명 드리지 않겠습니다.
5. 논문에서는 두 가지 시나리오에 대해 시뮬레이션을 합니다. 첫번째 시나리오에서는 어떠한 구조적 편향에 의해 박근혜 표가 미분류가 될 확률이 문재인 표가 미분류가 될 확률보다 더 클 경우를 생각합니다. 두번째 시나리오는 영화에 나온 그 시나리오인 듯이 보입니다. 사실 논문이 완전한 형태가 아니라서 두번째 시나리오에 대한 자세한 설명은 없습니다. 투고버전인데 그림, 테이블, appendix는 따로 첨부하나 하는 생각을 했었는데 정확히는 모르겠군요. 영화로부터 유추해 보자면 첫번째와 동일한데 대신 유효표 자리의 빈 공간을 무효표로 채운 시나리오인 것 같습니다. 하여간 시뮬레이션의 결과는 첫번째 시나리오는 실제 결과와 잘 맞지 않고 두번째 시나리오는 실제 결과와 잘 맞더라는 것입니다. 1번 시나리오가 잘 맞지 않는 것은 아마 그런 방식으로 하면 K 값이 실제 득표수 자체에 영향을 받아서 완전히 독립적인 확률변수가 되지 않기 때문인 듯 보입니다. 참고로 1번 시나리오는 노인손떨림 가설과는 다른 상황입니다.
6. 5번에서 중요한 것은 두번째 시나리오가 잘 맞기 때문에 조작이다라는 결론을 내리는 것은 아닐 것입니다. 물론 시뮬레이션은 정말 꽤 잘 맞습니다. 하지만 다시 한 번, 상관관계가 인과관계를 설명하는 것은 아니죠. 물론 정말 가능한 모든 시나리오를 테스트해 봤는데 (그게 가능할 지는 모르겠지만) 마땅한 것이 없더라 하면 점점 조작 쪽으로 무게중심이 기울 수는 있겠죠. 어쨌든, 여기서 중요한 것은 만일 당신이 어떤 시나리오로 K=1.5 중심의 정규분포를 설명하고 싶으면 그 시나리오가 두번째 시나리오와도 잘 맞아야 한다는 것이리라 봅니다. 다시 한번 노인손떨림 이론을 봅시다. 이게 두번째 시나리오와 잘 맞을까요? K값을 결정하는 데 있어 지역과 상관관계가 있는 어떠한 인자도 넣지 않고 돌린 시뮬레이션인데 그 상황에서 지역과 강한 상관관계를 가지는 노인비율이라는 인자를 넣어서 K값을 바꾸고 그러면서도 비슷한 결과가 나오도록 딱딱 맞춘다? 2번에서도 얘기했지만 가능한 일이라 보지 않습니다.
과학게시판이니만큼 끝맺음도 여담은 빼겠습니다. 말이 길어질 것 같아서…
아, 혹시 잘못된 거 있으면 알려 주세요. 누구든 잘못 생각할 수 있는 거고, 틀리면 틀렸다 하면 되는 거죠 뭐. 그런다고 누가 잡아 가는 것도 아니고. 그렇게 더블 트리플 체크 후에 논문 출판한 후에도 틀린 거 발견하는 경우가 다반사인데요. 단, 박반하기 전에 정말 내가 맞는 말을 하고 있는 건가 하고 한번만 더 생각해 주시길 부탁드립니다.