[더플랜] 문과생/수포자 히치하이커를 위한 k=1 vs k=1.5 안내서

이 글은 더 플랜에 나오는 k값(논란이 되고 있는 1과 1.5를 중점으로)이 의미하는게 무엇인가를 아주 원론적인 측면에서만, 문과생도(최대한) 이해하기 쉽게 설명하기 위한 글입니다.

작성자 본인이 문과가 아니라 이 중차대한 작업을 제대로 수행할 자격이 충분한지는 모르겠습니다만 가능한 한도에서 최대한 노력하겠습니다.

이 k라 불리는 통계학적 수치에 대한 해석은 안타깝게도 주관이 끼어들 여지가 다분하며 과게 내에서도 저와 해석이 갈리는 분들이 많습니다. 해당 쟁점도 짚어볼 생각입니다.

k의 정의
정의.k는 박근혜 표가 미분류표로 분리되는 확률과 문재인 표가 미분류표로 분리될 확률 간의 비율을 의미합니다.

예제.위 1번 정의가 어려우신 분들을 위해 예시로써 부연설명하자면
예제-1. k=1인 경우, 분류기는 문재인표 100개중 3개를 미분류표로 분리하며 박근혜표 100개중 3개를 미분류표로 분리했음을 의미합니다.
예제-2. k=1.5인 경우, 분류기는 문재인표 100개중 2개를 미분류표로 분리하며 박근혜표 100개 중 3개를 미분류표로 분리했음을 의미합니다.

위 정의에서 하나 더 정의해야할 용어가 보이는군요. "미분류표"가 무엇인지 정의해야합니다
미분류표는 다음 두 가지 경우에 의해 발생하는 표입니다

1.기기 자체의 부정확성으로 인해 이게 박근혜표인지 문재인표인지 무효표인지 가려내지 못한 표
2.(중요*) 도장 번짐, 표 찢어짐, 도장 선걸침 등으로 인해 기기로 판독할 수 없고 사람의 눈으로 판독해야만 하는 표. 이 표들은 무효표, 박근혜표, 문재인표를 모두 포함

선관위가 공개한 스펙에 따르면 2012 대선에 활용한 분류기는 1번 경우로 인해 미분류표가 발생할 확률이 0.1퍼센트 미만이라고 합니다.

이를 근거로 미분류표 3.6퍼센트는 너무 큰 게 아닌가?라는 주장이 보이는데 이는 2번경우로 발생하는 미분류표를 무시하는 처사입니다. 미분류표는 1번 2번 모두 합해서 전체
표의 3.6퍼센트가 미분류표로 분류되었습니다. 이는 다른 총선 대선과 비교하더라도 정상적인 수치입니다.

또한 선관위가 공개한 스펙이 맞다면, 3.6퍼센트라는 수치는 미분류표가 1번경우보다 2번경우로 인해 생겼을 확률이 압도적으로 높다는 증거이므로 후에 나오는 "미분류표"는 1번경우의 미분류표는 없고 2번경우의 미분류표가 거의 전부라고 가정합니다.

자 정의가 끝났으니 본론으로 넘어갑니다.

k값은 과연 어떤 조건에서 1이어야 하는가?

여기서 한가지 큰 쟁점이 발생하는데요
랜덤추출(임의추출)이 필요한가? vs 필요하지 않은가?

단언하자면 분류기는 애초에 미분류 표들을 랜덤추출하지 않습니다. 만약 미분류표가 1번 경우에 의해서만 발생한다면 미분류표는 랜덤추출에 가까운 성향을 보일 것입니다.

하지만 2번경우는 "도장/기표용지의 상태"라는 요소에 의해서 좌우되는, 말 그대로 랜덤하지 않고 일정한 기준에 의해서 추출되는 미분류표들입니다.

여기서 "미분류표는 랜덤추출이 아니므로 k는 1이 아니다"라는 논리를 즐겨쓰는 분들이 있는데요. 맞는 말이지만 k를 꽤나 무시하는 처사입니다...이걸로는 k가 1이 아니라 1.5라는걸 설명하기엔 많이 부족합니다...

사실 현실세계에서 랜덤추출은 어렵습니다 아니 불가능합니다. 최근 뉴스를 봐도 우리가 여론조사에서 유무선비율을 따지고 국번을 따지는 것도 국민이라는 표본에서 완전 랜덤한 샘플을 얻는게 불가능하기 때문에 그렇죠

k의 힘은 여기서 나옵니다. 이 싱기방기한 통계수치인 k는 랜덤추출이 아니더라도 1에 수렴할 수 있습니다! 이에 대한 증명은 통계학 원서에서 다루는 매우 중요하고 흥미롭지만 복잡한 과정이기에 생략하겠습니다.

다만 그게 항상 그런건 아니고. k는 "추출이 랜덤" 뿐만 아니라 "모집단 내에 타겟집단이 랜덤"인지도 잡아내는 역할을 합니다. 무슨 말인가하면, 랜덤추출이 아님에도 불구하고 k=1이다라는 답을 얻었을 때. 한 가지 결론을 내릴 수 있습니다: "우리가 조사하고있는 타겟집단이 모집단 내에 균등하게/랜덤하게 분포하고 있다!"

k=1.5라는 것은 바로 위 문장이 사실이 아님을 나타냅니다. 즉 조사하는 타겟집단이 모집단 내에 균등하게 분포하지 않는다는 것이죠.

어렵네요. 그러므로 좀 더 알기 쉽게 설명합니다.
풀어서 말하면, 이번 2012대선에서 관찰된 데이터와 k=1.5는 다음과 같은 의미를 지나고 있습니다.

타겟집단:미분류표를 만든 사람
모집단:박근혜에기 투표한 그룹과 문재인에게 투표한 그룹
k=1.5이므로 박근혜 투표자그룹에는 문재인 투표자그룹보더 미분류표를 생산한 사람들이 더 많이 분포해 있었음.

즉 박근혜 투표자 중에 미분류표를 찍은 사람이 3퍼센트, 문재인 지지자 중에 미분류표를 찍은 사람이 3퍼센트 이런식으로 균등하게 분배되어 있는게 아니라

박근혜 지지자 중에 미분류표를 찍은 사람이 3퍼센트
문재인 지지자 중에 미분류표를 찍은 사람이 2퍼센트
이런식으로 차이가 나게 분배되어 있다는 얘기입니다.

자 다시 k는 언제 1인가? 라는 최초 질문으로 돌아가서
1.k는 표본이 랜덤추출일 경우 1에 근접한다
2. 만약 랜덤추출이 아니더라도 모집단에 타겟집단(현재 상황에선 미분류표를 생산하는 집단)이 랜덤분포하면 k= 1에
근접한다.
2-1. k=1이 아니라는 것은 미분류표를 생산하는 집단이 한쪽(2012 대선에선 박근혜투표자쪽)에 치우쳐서 분포한다는 얘기이다.
사족. 또 한 발 더 나아가서 k=1이 아닌 값에 무려 정규분포를 보인다는 것은 미분류표를 생산하는 집단이 일정한 패턴을 가지고 한쪽에 집중된다는 의미이다.
3. 왜 이러한 패턴이 발생했는가?에 대해서는 여러가지 가설을 세울 수 있으며, 가능성이 있는 가설 중에는 현재 해킹설, 연령설이 있다.

일단 이 글은 k의 의미를 설정하고 설명하는 것이 목적이고 소기 목적을 충분히 달성했다고 개인적으로 판단되므로 여기서 끝마칩니다.

이 정보를 바탕으로 과게와 다른 커뮤니티에서 불타고 있는 논란과 온갖 데이터를 해석하기 더 편해졌기를 바랍니다. 더 플랜의 주장이 옳은지 아닌지를 판단하는 것은 이제 기초를 배운 여러분의 몫으로 남기겠습니다.

길고 부족한 글 읽어주셔서 감사합니다.
진실의 침몰을 막기 위한 노력이 계속되길 바라는 마음에서
이 부족한 글에 대한 온갖 태클을 환영합니다.