상대적 득표율 K에 대한 의미....

안녕하세요 어제 더플랜 관련글에 긴댓글한번달고 신경안쓰다가 일어나보니 요놈때문에 시끌시끌한거같아서 몇자적어봅니다.

저도 영상은 안보고있다 학과 지인들이 한번보라고 해서 봤습니다.

저는 통계학부 졸업생이고, 지극히 통계학을 접해본 사람입장에서 k가 뭘 의미하는지 주접좀 떨어보겠습니다.

제가말할꺼는 k가 직관적으로 뭘 의미하고 그값이 1일때와 1이 아닐때 K값이 의미하는것이 무엇인지 떠들어 보겠습니다.

저는 개표기기가 표를 분류하는과정을 통계조사에서 조사자가 샘플링하는 과정에 비유해서 접근해봤습니다.

일단 통계학에서 표본조사를 하는이유는 전수조사는 시간과비용이많이들고 불가능한경우가 대부분이기 때문입니다.

그래서 모집단을 잘 대표하게끔 표본을 뽑아 그 표본을 대상으로 조사를 합니다.

자 그럼 항상 모집단=표본일까요?? 당연히 아니겠죠.. 그래서 모집단과 표본의 분포가 가장 흡사하게하기위해서... 그래서 표본이 모집단을 잘 대표할수있겠끔 하는 여러 조건중에 가장중요한것이 랜덤샘플링입니다. 쉽게말해 표본을 표집할때 조사자의주관이 개입하지않고 오직 랜덤하게 뽑아 그들을 표본으로 꾸리는것을 말합니다.

자 그럼 모집단에서 조사자가 랜덤샘플링을 잘해서 표본을 뽑으면 당연히 그 표본은 모집단을 잘 대표할것입니다.

그럼 반대로말하면. 조사자가 주관을 개입해서 조사자 주관대로 표본을 뽑는다면. 그 표본은 편향된 표본으로 모집단과 다른분포의 표본이되겠죠..

이것은 학부1~2년생이 조사방법론에서 배우는 아주 기초적인겁니다. 굳이 전공자가아니더라도 일반인도 많이 접하는 이론입니다.

이런 아주 기초적인 것에서 출발해보면.

투표함(모집단)에서 개표기기(조사자)가 랜덤하게 표집을해 미분류표집단을 구성했다면, 모집단인 투표함을 잘대표하고 분포도 같을 것입니다.

이것을 측정하기위한 척도,지표로 그 여성통계학자분은 상대적득표율인 K라는 지표를 만들었습니다.

투표함이라는 모집단에서 개표기기는 두개의 표본을 뽑습니다. 기계가잘분류한 분류표들의집단A 기계가분류하지못한 미분류표의집단B

만약에 두집단 A와B가 조사자 즉 개표기기의 주관을 개입하지 않고 랜덤샘플링을 잘했다면 모집단인 투표함과 같은 분포를 보일겁니다.

즉 투표함에 50:50이라면 두집단의 분표도 50:50입니다. 그럼 그 두집단의 비율도 같으니 K값은 1이 나오겠죠.

전국적으로 잘분류된A는 모집단의분포인 50:50을 잘 대표합니다.

하지만 유독.. 미분류표집단B의 분포가 50:50이아닌 60:40으로 수렴합니다. 그래서 K값은 1.5가되죠..

이것이 무엇을 가시적으로 설명하냐..

모집단에서 미분류표집단B를 표집할때 조사자가 랜덤샘플링을하지않고 조사자의주관을 개입시켜 랜덤화조건을 만족시키조 못했다는겁니다.

즉

"투표함(모집단)에서 개표기기(조사자)가 주관을 개입시켜 미분류표를 표집했다는겁니다."

여기서 기계인 개표기기는 주관을 가질 수 없으니 설명되지않은 어떤 알고리즘이겠죠.. 그 알고리즘을 해커들이 손댄것이겠구요.

물통이니 국자니그런게 중요한게아닙니다.

K가 1에수렴하지않고 1.5에 수렴한다는것이 중요한겁니다.

만약에 K가 1에수렴했더라면, 미분류표가 3.6%든 36%든 기계의 단순결함이라고 설명이됩니다. 왜냐면 미분류표가 몇표가 나왔든 그 분포는 모집단과 같고 그럼 랜덤화조건이 충족됬다는것이고. 확율이 낮지만 실수,오류,결함 이라는 단어들로 설명이가능합니다. 하지만. 개표기기는 실수,오류,결함이라는 이유로 평소보다 2.6%의 미분류표를 더 많이 분류했으며 그렇게 분류된 표들이 특정한 주관(규칙)에 의해 같은실수,오류,결함을 반복했다는 이야기입니다.

원래 개표기기가 미분류표를 분류할때 몇가지알고리즘이 있을 껍니다 우리가 잘 아는 중복투표나 선가운데 투표하더나 번지거나 등등..

이런 것들도 하나의 주관이라고 할수있죠.. 하지만 이런것으로 분류된 것은 0.3%입니다. 나머지 3.3%의 미분류표가 우리가 알지 못하는 또 다른 규칙으로 미분류표가 분류됫다는겁니다. 즉 개표기기가 3.3%의 실수를 평소보다 더 했는데 그 실수가 모두 같은실수인거죠.

우연이아니라 의도된것이라는겁니다.

제가 생각한것은 정석적인 방법은 아닙니다. 개표기기가 각표들을 분류하는작업을 통계조사에서 조사자가 표집하는 작업에 비유해서.

샘플링과정의 이론들을 역으로 생각해서 개표기기가 각표를분류하는작업에 대입시킨거라.. 빈틈은 분명있을껍니다. 하나의 생각을 떠들어본겁니다.

무튼 짧게나마 저의 얇은지식이 도움이됬으면 하는바램입니다.