결과적으로 드리고 싶은 말씀은 예입니다.
제가 드리고 싶은 말씀은 당원 50% 국민 50%의 비중이 적절한가? 가 아닙니다.
다만 국민 2000명의 응답 자료가 통계적으로 충분히 유의미하다는 걸 설명하고 싶습니다.
이 아래로는 제 주장의 이해를 돕기 위해 부연 설명을 드리고자 합니다.
제가 사용한 프로그램은 Raosoft에서 개발한 표본크기 계산기(Sample size calculator)입니다.
아래 쓰인 사이트에서 직접 이용하실 수 있습니다.
다음으로는 표본크기 계산기를 활용한 통계 결과를 보여드리겠습니다.
읽기 어려우신 분들은 아래 결론으로 넘어가시면 됩니다.
첫번째 결과입니다. 입력해야 하는 값들을 설명드리겠습니다.
1. Margin of error: 추정치의 오류를 어느 정도 수용할 것인가? (작을수록 자료의 신뢰도가 높아집니다.)
2%로 설정했습니다. 결과에서 +1%, -1% 정도의 오류는 발생할 가능성이 충분하다는 말입니다.
아래 작은 글씨로 "5%를 일반적으로 선택함"이라고 쓰여있기 때문에 신뢰도는 더욱 높아집니다.
2. Confidence level: 자료의 신뢰도를 얼마로 정할 것인가? (클수록 자료의 신뢰도가 높아집니다.)
95%로 설정했습니다. 사회통계에서 일반적으로 95%로 설정하고, 또 대부분의 여론조사에서 95%로 설정합니다.
3. Population size: 모집단의 크기는 얼마인가? (클수록 더 많은 표본을 필요로 합니다.)
35,000,000으로 설정했습니다. 국민 5,000만명 중 투표가능인구를 대충 크게 잡아서 3,500만명으로 잡아서 입력했습니다.
4. Response distribution: 선택지의 분포는 어떻게 구성되는가? (50%에 가까울수록 더 많은 표본을 필요로 합니다.)
50%로 설정했습니다. 최대한 많은 표본을 요구하도록 하기 위함이었습니다.
결과를 보시면 2401입니다.
95%의 신뢰도로, +-1%의 오류를 감수하면서, 3,500만명을 대변할, 분포적으로 가장 불리한 상황에서,
모든 사람의 의견을 대변할 유의미한 자료를 위해 2401명의 응답이 있으면 됩니다.
두번째 결과입니다.
1. Margin of error
3%로 설정했습니다. 결과에서 +1.5%, -1.5% 정도의 오류는 발생할 가능성이 충분하다는 말입니다.
2. Confidence level
위와 동일하게 95%로 설정했습니다.
3. Population size
위와 동일하게 35,000,000으로 설정했습니다.
4. Response distribution
위와 동일하게 50%로 설정했습니다.
결과를 보시면 1068입니다.
95%의 신뢰도로, +-1.5%의 오류를 감수하면서, 3,500만명을 대변할, 분포적으로 가장 불리한 상황에서,
모든 사람의 의견을 대변할 유의미한 자료를 위해 1068명의 응답이 있으면 됩니다.
결론입니다.
당에서는 경선 국민 투표를 위해 2,057의 표본크기를 확보했습니다. 이 표본 크기는
아주 일반적인 신뢰도인 95%하에서, 어림잡아 투표가능인구 3,500만명으로 계산하고, 가장 불리한 분포를 가정했을 때,
오류수준 +-1% ~ +-1.5% 사이의 높은 정확도를 확보할 수 있는 큰 표본 크기입니다.
따라서 통계적으로 유의미하다는 게 저의 주장입니다.
게다가 오류수준은 보통 +-2.5%로 잡는데, 이럴 경우 약 385명만 확보하여도 국민의 여론을 추정하기에 충분한 답변을 얻을 수 있습니다.
70,000명과 2,000명의 답변이 동일한 무게를 가졌다는 것에 충분히 기분 나쁘실 수 있다고 생각합니다.
다만 통계적으로 충분한 크기의 표본이었다는 것을 말씀드리고 싶었습니다.
모든 논리적인 비판을 언제나 환영하겠습니다.