http://m.todayhumor.co.kr/view.php?table=total&no=13347823&page=1
시사게에서도 썼지만 대차게 까였고
그래서 프게에도 썼는데 시사게에서 좌표 공유해서 날라오신분들이 대차게 까시더군요...
과게서도 까일까 싶어서 써봅니다.
저는 전자투표기의 문제에 대해서 심히 공감하는 바이고, 수개표만이 답이라고 생각하는 사람입니다.
하지만 어떠한 현상이 생긴것에 대해서는 정확하게 검증하고 이해를 하고 넘어가야 한다고 생각합니다.
전자투표기가 표 오분류의 문제가 있고, 그것을 재검표하는 사람들의 성의 문제가 있기 때문에
문제가 발생할 여지는 충분히 있다고는 생각합니다.
하지만 K=1.5라는 값은 누군가가 임의로 조작하기 위한 숫자가 아니라는것이 제 견해입니다.
아래는 시사게 프게에 올린 글 전문입니다.
--------------------------------------------------------------------------------------------
대학원에서 비전 알고리즘을 공부했고, 지금도 비전으로 밥벌어 먹고 있는 연구원입니다.
K=1.5는 분명히 자연적인 현상이 아닙니다.
이는 분명 인위적이라고 생각합니다.
하지만 이는 비전 알고리즘상의 bias 때문일거라고 생각합니다.
우선 K=1.5가 되면서 누군가 이익을 봐야 하는데
개표 과정 구조상 이익을 볼 사람이 없습니다.
그럼에도 불구하고 누군가가 큰 위험을 무릎쓰고 조작을 한다?
그건 아니라고 생각합니다.
비전 알고리즘으로 해당 투표 영상이 특정 후보으로 분류한다고 할때
보통 딱 이 후보다 라고 나오는게 아닙니다.
A후보 : 98.849...%
B후보 : 0.83993%
C후보 : 0.001%
이런식으로 나오게 되고 특정 후보일 확률이 어느 기준선 이상이다라고 하면
기계가 그 후보라고 나누게 되는겁니다.
미분류표가 많은 이유도 아마, 알고리즘을 만든 회사 혹은 개발자가
False alram(A후보거인데 B후보라고 분류하는것)을 줄이기 위해
기준선을 꽤나 높게 정했기 때문에
조금이라도 특정후보일 확률이 적으면 미분류표로 넘겨서 미분류표가 많아진것이라고 생각합니다.
미분류표가 되면 사람이 직접 보고 확인해서 해당 후표로 표를 넘겨주기 때문이죠.
비전 알고리즘을 학습하는 과정에서 학습 데이터들이나,
알고리즘만의 특성상 bias(편중)이 1.5가 된게 아닌가 생각이 듭니다.
김어준도 이를 알고 있기 때문에
더 플랜에서 이를 자세하게 조사하는것이 아니라
투표기 각 개개인을 해킹하는 것을 중심으로 영상을 많이 잡았던게 아닌가 생각이 듭니다.
해킹 하는 방법을 얼핏 보니 dll injection으로 수정된 dll파일만 바꿔 치기 하는 방법 같았는데
이 방법은 하나의 투표기에 하기에는 쉽지만 전국의 230개가 넘는 투표기 모두에 적용하기는 어렵습니다.
또한 중앙 서버 접속할때 수정할수 있다는 가정을 했는데
그게 가능하렬면 역시 연관된 사람이 많아지게 됩니다.
연관된 사람이 많아질수록 개표 조작은 더욱더 어려워집니다.
그래서 제가 생각한 부정 개표 방법은,
투표함 바꿔 치기정도가 한계라고 생각합니다.
그리고 이 투표함 바꿔치기는 해봐야 대세에 크게 영향을 주진 않습니다.
말이 길어졌는데 결론은,
시민의 눈으로 투표함 바꿔치기 및 조작, 그리고 부정선거를 최대한 막아야 된다고 생각은 합니다만,
k=1.5가 곧 부정투표의 증거가 되지는 않는다는 겁니다.
잘못된 지식 전달과 선동은 오히려 이쪽에 독이 됩다고 생각합니다.
--------------------------------------------------------------------------------------------------
설명이 부족한것 같아 추가 설명 드립니다.
우선 18대 대선은 현재 대세인 딥러닝(그중 CNN)을 쓰진 않았을겁니다. 어떻게 튜닝하느냐에 따라 다르긴 하겠지만,
그당시는 CNN이 그렇게 핫한 상태도 아니었고, CNN을 돌리기 위한 자원들이 저런 특정 목적을 가진 투표기에 넣기에는 너무 단가가 비쌉니다.
보통 그당시에는 비전알고리즘의 지배적인 SVM(Support Vector Machine)이라는 분류기를 사용하게 됩니다.
이 분류기는 영상의 각 픽셀 정보를 하나의 의미 있는 특징으로 만들기 위해 사람이 알고리즘을 구상하고 구현합니다.
(딥러닝에서는 이 부분을 어느정도 학습에 의해 자동으로 생성해줍니다.)
예를 들어 5x5 픽셀의 그림 영상이 있다면 이를 25개 픽셀로구성된 한줄로 만들어 벡터로 쓰는것도 하나의 특징입니다.
얼굴인식에서는 Haar-like라는 특징을 쓰게 되는데 이것은 두 영역의 차이를 이용해 특징을 잡기 때문에 명백한 구분영역이 있는 얼굴 인식에 용이합니다.
LBP(Local Binary Pattern)이라는 특징은 아주 국소적인 픽셀값들의 차이를 이용하기 떄문에 조명변화에 굉장히 강한 특징이 있습니다.
이와 같이 비전 알고리즘에는 수많은 특징을 추출하는 알고리즘이 존재하고 각각의 특징은 장단점이 존재합니다.
또한 대부분의 특징들은(SIFT나 SURF같은것을 제외하고)는 회전된 물체에 대해 인식률이 저조합니다.
(이를 인식하려면 대상 영상을 회전 시켜가면서 일일이 비교해야하죠)
투표용지도 회전 문제가 충분히 있을수 있는 낙인이고 한가지 방법으로만 비전 알고리즘을 쓰지 않았을겁니다.
그래서 편향성이라는게 생길수도 있다는겁니다.
무엇보다 박근혜 투표 영역 위는 비어 있지만 문재인님 투표 영역은 위가 막혀있죠.
이것도 어쩃든 영향을 주게 됩니다.
그외에도 학습을 위한 데이터도 편향에 영향을 줄수도 있구요.
_______________________________________________________________________________________________
편향성에 대해서 추가 설명 드리겠습니다.
영상이 무엇이나 분류를 할때 각 클래스라는것을 정합니다.
일반적으로 배, 사람, 오토바이 등등으로 나눌수 있고 투표지 같은 경우는 A후보, B후보, C후보등등으로 나눌수 있겠지요.
일반적인 영상인식 알고리즘들을 보면 각 클래스마다 다른 정확도를 갖습니다.
위의 링크를 보시면 왼쪽에 수많은 알고리즘들이 있고, 상단에는 각 클래스들이 있는것을 확인하실수 있습니다.
그 아래 도표의 숫자들을 보시면 같은 알고리즘이라도 클래스에 따라서 정확도가 상당히 큰 차이가 나는 것을 볼수 있습니다.
이것을 bias라고 하는겁니다.
저것을 투표로 적용해보면, A후보가 A후보로 인식되는 정확도와 B후보가 B후보로 인식되는 정확도가 같을 수가 없다는겁니다.
물론 링크 도표는 딥러닝 알고리즘들의 비교이고, 딥러닝 알고리즘들은 특징을 추출하는것이 어느정도
학습에 의해서 결정되기 때문에 bias가 적은 편입니다.
하지만 18대 대선시 사용된 알고리즘은 svm으로 추정이 되고 이는 특징을 사람이 뽑기 때문에 bias가 더 심할 가능성이 있습니다.
물론 투표용지 인식과 영상 분류 인식은 차이가 있습니다만, 투표 용지 인식도 무효표와 유효표 구분 기준이 까다롭기 때문에
OMR답안지 분류하듯이 단순 시그널로 분류가 가능한게 아닙니다.