게시판 즐겨찾기
편집
드래그 앤 드롭으로
즐겨찾기 아이콘 위치 수정이 가능합니다.
K1.5 설계의 함정
게시물ID : science_63405짧은주소 복사하기
작성자 : 아오린
추천 : 1
조회수 : 843회
댓글수 : 59개
등록시간 : 2017/04/24 10:08:44
위 표를 보시면 후보간 1~99%의 득표율일때 미검표율은 3%, K 값을 1.5로 고정한 데이터입니다.

조금만 보시면 이상한 점을 금새 느끼실 수 있겠지만 양 후보 접전지역인 50%로 다가갈수록
미검표득표율과 실제 득표율의 차가 늘어난다는 것을 알 수 있습니다.
즉 두 후보의 표차이가 접전을 이룰수록 특정 후보의 표가 늘어나는 괴이한 현상이 벌어집니다

즉 특정 후보를 극단적으로 지지하는 지역으로 갈 수록
특정후보를 지지하는 실제 득표율과는 반대로 미검표득표율은 낮아지게 됩니다.

극단적인 두 지역을 예로 들자면
영남지방에서의 박근혜 후보 득표율은 90%에 달하고
호남지방에서의 박근혜 후보 득표율은 10%입니다만
이것과는 관계 없이 50:50에 가까워야만 미검표 득표율은 10% 이상 차이가 나게 됩니다.

극단적인 영남이나 호남 지방에서 초접전지역인 10%대의 미검표득표율을 적용해보면
호남지방은 1.95로 K 2점대 값이 나오고
영남지방은 4.41로 k 5점대 값이 나와야 정상입니다.
(각 지역별 9%로 미검표 득표율에 관한 표는 하단에 다시 첨부합니다)

즉 K값을 정하는 실제 득표수와 미검표 득표수의 인과관계가 정상적이지 않습니다.

전자개표를 이용해서 얻고자 하는 양후보간의 표차를 특정 퍼센테이지로 지정해놓고 설계를 했다면
이런 함정에 빠지게 됩니다..

아마 설계를 K값 1에서 2사이에 모든값이 rand하게 설정해 둔 것으로 생각되고
평균치는 K1.5로 설정해아먄 발생할 수 있는 문제입니다.

정상적인 경우라면 영남 호남처럼 극단적으로 표가 갈린 지역은
K값이 2~5 이상의 분포를 보여야 정상 범위로 보여집니다.
전체 추천리스트 보기
2017-04-24 10:10:04추천 0
K값은 각 후보의 지지율과는 별개의 문제입니다.
댓글 1개 ▲
2017-04-24 10:13:56추천 0
극단적으로 표가 갈린 영남 호남지역에서의 K값이 비정상적입니다
극단적으로 표가 갈린 호남 구간은 K값 2점대가 나와야 평균값이고
영남 구간은 K4점대가 나와야 득표율 51:49 대 K1.5 (6:4) 와 동률을 이룹니다.
2017-04-24 10:10:21추천 0

실제 득표율비와 미검표 득표율 비의 평균 차인 9%를 적용했을때 지역별 K값 변동
또 초 접점 지역에서의 9% 적용시 K값 변동
댓글 0개 ▲
2017-04-24 10:12:06추천 0
........ 당연하죠. 문제 없는 표입니다.
근데 결론이 이상하네요.
왜 이 도표를 보고 k가 2~5여야 된다는 결론이 나오는 거죠?
댓글 16개 ▲
2017-04-24 10:15:34추천 0
K값은 평균치지만 전체분포를 봤을때 난수값 1~2를 넘지 않습니다
그렇다면 K값 (1.5 = 6:4)의 평균 비율을 적용했을때
영호남 지방은 각 K4, K2 점대를 유지해야 전체 평균과 동률을 이룹니다.
2017-04-24 10:17:35추천 0

각 후보의 득표율이 아주 높거나 아주 낮은 지역에서는 미검표 득표율의 차가 거의 없고
초박빙을 이루는 지역에서만 미검표 득표율의 차가 크게 벌어집니다.
이것은 K1.5값으로 묶어 두지 않고서는 발생할 수 없는 치명적인 오류입니다
2017-04-24 10:19:39추천 0
네. 그렇게 묶어두시니까 그런 치명적인 오류가 나왔겠죠...?
2017-04-24 10:20:29추천 0

50:50 득표율을 보이는 초접점 지역으로 갈수록 미검표 득표율의 비율 차이가 늘어나고
특정 후보가 강세를 보이거나 약세를 보이는 지역으로 갈수록 미검표 득표율의 비율 차이가 줄어드는
기이한 현상이 발생합니다.
2017-04-24 10:20:47추천 0
그 박빙이라는 상황을 어떻게 해석하느냐에 따라 다를 수 있습니다만, 세대간 갈등이 첨예하게 나타나는 지역이라면 지지자 특성이 K값에 더 강하게 나타날 수 있고, 세대간 갈등이 약한 지역에서는 지지자의 특성이 K값에 덜 뚜렷하게 나타날 수 있죠.
2017-04-24 10:22:40추천 0
그 박빙의 값이 중요합니다
7:3이나 8:2의 상황인 우세지역이나
1:9 또는 9:1의 극단적인 지역이나 K값이 같다는 것은 분포값이 많이 다릅니다.

율무차님 / K 1.5로 묶어두지 않고 맥시멈인 K 2.1대까지 묶어도 같은 결과가 도출됩니다.
2017-04-24 10:27:20추천 0
예상대로네요. 그걸 묶으니까 그런거겠죠?
2017-04-24 10:27:48추천 0
지금 하시는게 무슨 의미를 가지고있는지 알고계시긴 하는지요
전 모르겠거든요. 가르쳐주세요.
2017-04-24 10:31:51추천 0
하나 여쭤보지요 영남지방에서 90:10 에서 90에 대한 K 1.5값과
호남지방에서 10:90 득표율의 10에 대한 K 1.5값이 동률을 이룬다고 생각하십니까?
2017-04-24 10:35:12추천 1
네.
지역별 득표율이 다르다는 건 두 모집단의 크기가 다른거죠?
그건 k값 내에 이미 내재되어 계산된 값입니다
한쪽은 9가 되고 다른 한쪽은 1/9가 되겠죠.
그냥 역수관계네요. 그걸 factor 하면 동률이 되는게 당연하지 않을까요
2017-04-24 10:37:24추천 0
그렇게 보시면 안되죠
각 지역별 200개가 넘는 모든 개표소에서 K값이 1.5라고 한다는 것은 모순이 됩니다
9와 1/9의 관계를 아셨다고 하신다면
1/9를 평균치로 환산했을때 영남지방의 K값은 4.5대가 나와야 동률이라고 말씀드리는 겁니다.
2017-04-24 10:49:24추천 0
아뇨. 이미 내재된 값이기에 그걸 또 집어넣으면 더블카운팅이 됩니다.
2017-04-24 10:50:46추천 0
그래서 4.5가 나온거군요. 더블카운팅입니다. 이미 들어가있는 그거 또 집어넣으니까 k가 5까지 비대해지죠. 에비. 그거 다시 다 빼세요.
2017-04-24 10:52:20추천 0
무슨소리신지?
식을 어떻게 써야 됩니까
또 집어넣지 않았습니다.
2017-04-24 10:56:02추천 0
잘 이해를 못하고 계신 것 같은데 실제 득표율과 미검표 득표율의 증감관계는 어느정도 비례해야 하는데
득표율이 과하게 많거나 작은 구간으로 갈수록 미검표득표율이 득표율과의 상관관계를 보이지 않는다고 말씀드리고 있습니다.
비율로 본다면 영남지역은 K 1.5가 아니라 평균을 토대로 한다면 K4 이상의 값을 기록해야 정상이라고 말씀드린 거구요
지금은 전구간 K 1.5 기준으로 작성한 데이터입니다.
2017-04-24 10:59:13추천 0
그리고 당연한 전제지만 각 개표소별 데이터를 기준으로 말씀드린겁니다.
2017-04-24 10:17:36추천 1
가정1. 고령층은 실수할 확률이 3% 이다. 젊은층은 실수할 확률이 2% 이다.
가정2 세대별로 지지하는 후보가 다르다.

이 가정이 참이라고 한다면 K값은 노령 인구의 비율이나 특정 후보의 지지도의 영향은 크게 받지 않습니다.

이 가설이 참이라는 전제 하에 문 후보의 지지율이 90%인 지역에서도 K는 1.5가 나올 수 있습니다.
댓글 3개 ▲
2017-04-24 10:26:07추천 0
위의 표는 실제 발생한 3%대의 미검표를 기준으로 설정했고,
K값은 동률로 1.5로 설정했을때의 데이터입니다.

손가락으로 검증할려고 하지 마시고 데이터 제시하세요
2017-04-24 10:29:09추천 0
도표가 어느 방향으로 가려고 한다면 도표를 근거로 하는 값들은 반드시 일정한 상관관계가 있고 패턴이 있어야 합니다.
1과 2안에 갇혀버린 k값 때문에 상관관계에서 오류가 나버린 전형입니다.
2017-04-24 10:44:05추천 0
데이터 제시가 제대로된 해석이어야 제시를 말고 하죠. 소설 쓰지 마시고 제대로된 시뮬레이션 데이터 가지고 오세요.
2017-04-24 11:02:42추천 0
재밌네요.
k=1.5로 묶인 적 없습니다
더플랜도 그렇게 주장하지 않습니다.
1.5에 대해 정규분포를 그리는 겁니다. 모든 개표소가 다 k=1.5가 나온게 아니라요.
앞뒤 사실관계도 제대로 파악하지 않은 모델입니다.
댓글 6개 ▲
2017-04-24 11:14:08추천 0
K값이 정확하게 1.5에 고정되어 있다고 말씀드리지 않았습니다
위의 경우 박근혜 전 대통령 최다 미검표 득표율을 고려했을때 K값 2.대 초반으로 하더라도
값이 근사하다고 말씀드렸습니다.
K 최소값 0.9 1개소 최대값 2.2 인가 그런걸로 알고있습니다
전체 평균은 1.5 모델을 그리고 있습니다.
이런 허접한 난수는 300개 정도 5분도 걸리지 않는 시간에 디자인 할 수 있습니다.
특히 득표율에서 큰 차이를 보인 호남 지역과 영남지역은 K값에서 큰 차이를 보이지 않습니다
2017-04-24 11:18:24추천 0
아래글에서도 말씀드렸지만 오히려 평균연령대가 높을 것으로 예상되는
농어촌 지역과 도시 지역의 K값도 큰 차이를 보이지 않았습니다.

오직 큰 차이를 보이는 것은 지역별 득표율 뿐입니다.

K값 1에서 2사이로 묶어두는 것은 미검표득표율이 나갈 수 있는 한계를 만들어버려
K < 1 도 불가능했지만 (1개소만 0.9를 기록) K > 2도 불가능한 결과를 만들고 말았고,
그 결과가 K값을 정하는 실 득표율과 미검표득표율간의 아무런 상관관계가 없게 만든게 아닌가
하는게 제 생각입니다. 영남은 K 4점대 이상 나왔어야 정상이라고 생각합니다.
(51:49 기준 평균 미검표득표율 적용시)
2017-04-24 11:29:09추천 0
평균과 extrapolation의 함정이죠.
약한 상관관계를 100% 인과관계로 놓고 계산하니까 그런겁니다.
지역별 k와 농어촌/도시가 왜 그렇게 나올 수 있는 지는 다른 분들이 충분히 댓글 달았고 저도 그에 동의합니다.
2017-04-24 11:30:24추천 0
@ 아오린
무슨 말씀을 하시는 것인지 모르겠지만  K가 1이 나와야 정상이라는 더 플랜의 주장은 틀렸고 K가 매우 큰 값, 영남의 경우 4 이상 나와야 한다고 주장하시는 건가요?
2017-04-24 11:33:18추천 0
curio님
K는 1 전체 평균값이 1의 모델로 나와야 정상이 맞습니다.
만약 전체 노령인구에서 동일하게 특정후보를 특정비율로 지지했다고 한다면
특히 지지비율이 높은 영남권에서는 이런 평균을 기초로 하였을때 K 4.0대 이상이 나와야 정상적인 도표가 됩니다.
2017-04-24 11:57:16추천 0
@ 아오린
K = (박근혜 미분류표/문재인 미분류표) / (박근혜 분류표/문재인 분류표)
K의 전체 평균이 1이 정상이라고 주장하는 분이 지지비율이 높은 영남은 K가 4 이상이 나와야 정상이라고 주장하고 계십니다. 도대체 무슨 말을 하고 싶으신 겁니까?
2017-04-24 11:28:33추천 0
K값을 고정값으로 두고 득표율 변화에 따라 비분류표의 득표율을 시뮬레이션한 것 맞나요?
댓글 9개 ▲
2017-04-24 11:31:13추천 0
네 맞습니다
중요한건 실제 분포를 보인 K값 1~2까지의 경우로 대체해도 같은 결과가 나올 겁니다.
실제 득표율과 미분류 득표율의 상관관계가 없기 때문입니다.

만약 설계되지 않았다면 1보다 작은 K값 부터 4~6에 달하는 K값까지 다양하게 도출되었을 것으로 생각합니다.
2017-04-24 11:34:03추천 0
그러면 시뮬레이션이 잘못됀 것 아닌가요?

제가 시뮬레이션 해 보니 결과가 전혀 다른데...
2017-04-24 11:38:12추천 0
그리고 애초에 K값을 고정으로 두고 미분류표의 비율이 산출되었다면, 여기서 얻어진 값을 K값 구하는 공식에 넣으면 K값이 그대로 나와야 합니다.

이게 다르면 시뮬레이션이 무언가 잘못되었다는 겁니다.
2017-04-24 11:41:43추천 0
시뮬레이션 결과값 공유 부탁드립니다
한번 보고 토론하시죵
2017-04-24 11:48:15추천 0
어떻게 계산하셨는지 알려주시면 저도 검증해보겠습니다.
2017-04-24 11:53:17추천 0
https://drive.google.com/file/d/0B_EqYk3fmwMJV0tlRVlTUThSQWs/view?usp=sharing

솔직히 이 시뮬레이션에 무슨 의미가 있나 싶은데, 시뮬레이션을 하면 이렇게 됩니다.
2017-04-24 11:59:23추천 0
위에 제가 올려둔 도표랑 완전히 동일한 도표네요..
제 도표 어디에 K값이 전혀 다르게 나왔는지 알려주세요
2017-04-24 12:02:43추천 0
다시보니 제가 잘못 봤네요.
2017-04-24 12:06:34추천 0
K가 4.5가 나와야 한다느니 하는 이야기때문에 착각했습니다.

그런데 그게 그렇게 나와야 할 이유가 없는데요.
2017-04-24 12:10:25추천 0
실제득표율과 미검표득표율의 차이를 K라고 보시는건가요?
댓글 7개 ▲
2017-04-24 12:11:13추천 0
K는 이미 1.5로 주어진 값인데, 이걸로 또다른 K를 구한다는게 말이 안된다고 보는데요...

이건 K와는 다른 별개의 개념으로 정의해야죠.
2017-04-24 12:13:43추천 0
그리고 이걸 K값 1.5와 비교하는 것도 더욱 의미가 없고요.
2017-04-24 12:16:48추천 0
그리고 대체 이게 무슨 의미가 있는 값인지도 모르겠고...
2017-04-24 12:19:34추천 0
전체 득표율인 51:49로 보면 미검표득표율의 비율은 6:4가 됩니다
합산 K값이 1.5가 아니라 개표소별 K값이 동일하게 1.5라면
한 후보의 득표율은 개표소별 미검표 득표율과의 상관관계가 문제가 됩니다.
왜냐면 영남호남의 경우에는 득표율이 9:1과 1:9의 비율입니다만
K값은 동일하게 1.5가 된다면 한 후보의 득표율과 미검표득표율과의 차이는
지역별의 득표율이 90% 이상에 달하거나, 10% 미만에 달하는 지역이 존재하기 때문에
같은 값일 경우 같은 비율로 볼 수 없습니다.

후보간의 경쟁이 치열한 40:60 에서 60:40 구간에서는
두 후보의 득표율과 미검표 득표율이 비례합니다만
반대로 1:9나 9:1 구간에서는 비례 또는 반비례하지 않고 U자 형태의 그래프를 그립니다.

상관관계가 반대로 될 수는 있지만,  경쟁이 치열하지 않은 구간일수록 두 후보간의 미검표 득표의 비가 차이가 좁아진다는 말이 됩니다.
이것은 전혀 말이 되지 않습니다.
2017-04-24 12:23:09추천 0
반대로 모든 경쟁이 몹시 치열한 모든 구간에서는 미검표 득표 차가 커진다는 말이 됩니다.
이것은 표를 구성하는 숫자의 문제가 아니라
K값을 구성하는 요소들의 방향성에서 통일된 문제점을 나타낸다고 할 수 있습니다.
2017-04-24 12:24:58추천 0
그게 왜 말이 안되는건데요?

말이 된다/안된다를 판단하는 기준이 대체 무엇인가요?
2017-04-24 12:30:23추천 0
그리고 일반득표율과 미검표득표율의 차이는 제대로 하면 단위는 %P(퍼센트 포인트) 가 되어야 합니다. 그리고 이건 백분율(%)과는 다른 개념입니다. 그리고 지금 그걸 동일시하고 계시는 것 같네요.
2017-04-24 12:26:57추천 0
K 4.5의 값이라고 하는것은 평균치인 51:49일때 6:4 (K1.5)를 구성하므로 이 비울을 그대로 적용할 경우
9:1의 득표율이었던 영남은 4.5 / 1:9의 득표율이었던 호남은 2.0으로 오히려 K 1.5를 상회하는 결과를 낳습니다.
허나 개표소별 K값이 모두 1.5로 동일하므로 결국 이것은 결국 올바른 형태의 통계나 분포자료로 볼 수 없습니다.
댓글 1개 ▲
2017-04-24 12:30:16추천 0
차라리 개표소별 평균이 0.5 ~ 4 등 1~2를 크게 벗어나는 수치이고
전체 평균이 1 플마 0.2 정도 구간이라면 납득하겠습니다만, 이것은 전혀 반대의 문제입니다.
2017-04-24 12:30:56추천 0
지금 보니까 %P와 %를 혼동하고 계시네요.
댓글 1개 ▲
2017-04-24 12:35:35추천 0
득표율과 미검표득표율의 상관관계를 보여드리기 위해서 궂이 퍼센트로 자료를 작성했고
퍼센트 포인트로 나타내거나 설명드릴 자료가 본문에 있지 않습니다.
2017-04-24 12:42:10추천 0
지금 문제는 일반득표율과 미검수표의 득표율의 차이라는, 대체 무슨 의미가 있는지도 알 수 없는 지표를 가지고 이상하다고 하고 계시는 겁니다.

솔직히 그 지표를 왜 신경써야 하고 뭐가 이상한지는 전혀 모르겠습니다.
댓글 1개 ▲
[본인삭제]아오린
2017-04-24 12:58:54추천 0
2017-04-24 13:04:56추천 0
문맥 수정해서 새로 올려드립니다..

예를 들어서 호남에서 문재인 9:1 박근혜의 비율로 득표되었다면, 상식적으로 미검표 중 누구의 표가 더 많을지는 알 수 없습니다
반대로 영남에서 문재인 1:9 박근혜의 비율로 득표되었다면 이 또한 상식적으로 미검표 중 누구의 표가 더 많을지는 알 수 없습니다.
또 하나의 예를 들어 두 후보가 51:49의 비율로 득표되었다면 상식적으로는 미검표중 누구의 표가 더 많을지는 알 수 없지만
6:4의 비율 K1.5로 박근혜의 표가 더 많은 것으로 나타났습니다.

모든 개표소에서 K 1.5의 비율로 더 많은 표를 획득했다고 한다면 이것은 이상해 집니다.

어디가 이상해 지냐면 K1.5를 적용하면 박빙의 승부를 보인 51:49의 개표소에서는 두 후보의 미검수표 비율이 검수표와 비교해서 10%로 벌어지지만
1:9나 9:1의 승부를 보인 곳에서는 두 곳 모두에서 미검수표 비율이 검수표와 비교해서 4%로 떨어지게 됩니다.
(해당 자료는 위에 있는 표를 참조해 주시기 바랍니다.)

즉 어떤 후보를 지지하던지, 어떤 지역에서 승부가 나던지에 관계 없이 박빙의 승부를 보인 곳에서 동일하게 미검수표의 비율이 더 커지게 된다는 것을 의미합니다.
이것은 모든 개표소가 동일한 K 1.5값을 이룬다면 어떤 후보든지 간에 극단적으로 많은 지지를 받는 곳은 어느 후보라고 할 것 없이 미검수표에서는 경쟁이 치열해 진다는 것을 의미합니다.

즉 특정후보에게 극단적으로 많은 투표를 한 지역 = 후보와 관계없이 미검수표의 경쟁이 치열해짐
(미검수표와 검수표의 차가 줄어듬)
1, 2위 후보가 박빙이었던 개표소 = 미검수표와 검수표의 차가 10% 이상 벌어짐
이것은 말이 되지 않습니다.
즉 지역을 바꾸어 호남의 미검수표가 박근혜후보에게 유리하게 투표되었거나 반대로 영남에서 박근혜 후보에게 유리하게 투표되었다 하더라도 이런 결과는 나오지 않습니다.
댓글 1개 ▲
2017-04-24 13:30:34추천 0
일반득표율과 미검수득표율의 차이는 그냥 일반득표율과 미검수득표율의 차이입니다. 이건 일반득표율과 미검수득표율의 비율과는 다른 개념이에요.

그래서 %와 %P를 착각하고 계신다고 말씀드린거고요.
2017-04-24 13:32:03추천 0
개별 투표소에서 k값이 0.97 에서 2 이상 까지 나타나고 있는데 (이미 발생한 현상) 왜 여기다 또 1.5를 적용하고 이상해진다는지 의미를 알 수가 없네요.
댓글 1개 ▲
2017-04-24 13:34:51추천 0
투표소->선거구
2017-04-24 14:51:28추천 0
양극단의 값이 커야 한다는 님 주장은 표준편차가 더 커야 한다는 주장인가요? 그렇더라도 특정평균값을 가진 확률분포라는 사실은 변하지 않는데요?
댓글 0개 ▲
새로운 댓글이 없습니다.
새로운 댓글 확인하기
글쓰기
◀뒤로가기
PC버전
맨위로▲
공지 운영 자료창고 청소년보호