게시판 즐겨찾기
편집
드래그 앤 드롭으로
즐겨찾기 아이콘 위치 수정이 가능합니다.
k=1의 가정에 대하여
게시물ID : science_63308짧은주소 복사하기
작성자 : adnoctum
추천 : 0
조회수 : 364회
댓글수 : 6개
등록시간 : 2017/04/22 00:09:17
살펴 보니, 가정 r=Pr(Um)=Pr(Up), 
즉, 후보 M에게 기표되었지만 미분류로 판단된 확률과 후보 P에게 기표되었지만 미분류로 판단된 확률이 같다, 
라는 가정에서 계속 혼동이 오고 있는듯 하네요. 

이 부분을 다음처럼 이해하면 저 가정이 이상해 보일 수 있습니다. 즉, 
"후보 M에게 기표된 것 중 무작위로 미분류표를 추출하는 확률 Pr(Um)과, 
후보 P에게 기표된 것 중 무작위로 미분류표를 추출하는 확률 Pr(Up)는, 
같다. 왜 이 둘이 같아야 하지?? 이건 그냥 가정이잖아", 
라고 생각하면 이 근본 가정 자체가 성립하지
않을 수 있기 때문에 그 뒤의 전개가 받아들이기 힘들죠. 

하지만, 이것은 이 전제를 잘못 이해한 것이죠. 

우선, 자동분류기는 (fair하다면) 아직 '이 표가 어느 후보에게 기표된 것인가'라는 판단을 하기 전 입니다. 
즉, fair한 자동분류기의 경우, 지금 보고 있는 표가 어느 후보에게 기표된 것인지 판단하기 전 입니다. 
그 상황에서 정확히 어느 후보에게 기표한 것인지 판단할 수 없는 것을 미분류로 놓겠다는 것이죠. 
즉, "후보M에게 투표된 것 중 미분류표를 추출하는 확률과 후보P에게 투표된 것 중 미분류표를 추출하는 확률"
이 아니라는 얘기입니다. 이것은 실제 상황을 완전히 잘못 이해한 것이죠. 이런 상황은 실제 상황이 아니죠. 

제가 썼던 댓글에서 가져 오자면, 

"박근혜에게 투표했지만 (동그라미가 네모칸에 걸치거나 원이 완전히 그려지지 않는 등의 이유로) 자동개표기가 박근혜에게 투표된 것인지 아닌지 정확히 판단할 수 없기 때문에 미분류로 해 놓을 확률"과,
"문재인에게 투표했지만 (동그라미가 네모칸에 걸치거나 원이 완전히 그려지지 않는 등의 이유로) 자동개표기가 문재인에게 투표된 것인지 아닌지 정확히 판단할 수 없기 때문에 미분류로 해 놓을 확률".

위 두 확률 (사실 모든 후보자에 대해서)이 같다는 것이에요. 즉,
"박근혜의 유효표에서, 랜덤 샘플링으로 미분류표를 추출해요. 그리고 문재인의 유효표에서 랜덤 샘플링으로 미분류표를 추출해요."
이런 확률이 아니라는 것이죠. 개표기는 아직 이 표가 누구에게 갈 표인지 모르는 상황이에요(fair한 개표기라면). 
그 상황에서 어느 후보에게 간 것인지 몰라서 미분류로 해 놓는다는 거죠. 

즉, 동그라미를 네모칸에 벗어 나게 하거나 한 80% 걸치게 하거나 동그라미가 그려지다 말게 누르거나, 해서 자동개표기가 도무지 어디에 기표한 것인지 판단할 수 없는 확률, 이 확률이 어느 네모칸(후보자 이름 밑의)에 대해서나 같다는 말이죠.

저 가정을 깰 수 있는 (더) 간단한 방법은, 생각해 보니, 2번 후보의 경우 실제로 이미지인식장치가 인식하는 네모칸을 실제 네모칸의 왼쪽 절반으로 해 놓고, 나머지 오른쪽 절반에 제대로 동그라미를 한 경우에는 미분류로 해 놓는 것이네요. 그러면 2번 후보에게 투표한 표가 미분류표로 분류될 확률이 1번에 비해 (대략) 두 배가 되겠네요. 실제로는 이런 수작이 없을 것이라 가정할테고, 그러니 이렇게 기계가 미분류로 놓는 확률이 모든 후보에 대해 동일하다는 가정을 하는 것이죠. 

그리고, 다른 네모칸과 인접하는 선분의 개수 등으로 1.5를 설명하는 시도도 보이긴 하는데, 영상 처리 루틴을 조절하면 네모칸 인접 선분과 상관없이 K값을 변경시킬 수 있습니다. 즉, 첫 번째 네모칸을 처리할 경우 thresholding 을 할 때 다른 칸보다 더 높게 임계값을 잡으면 약간 흐릿하게 찍힌 경우 미분류로 가게 되죠. 

"누구에게 간 표인지도 판단할 수 없어서 미분류 표로 놓는 상황이지만 (즉, 이 표가 누구에게 간 표인지 아직 모르지만) 이 상황에서도 누군가에게는 미분류표가 갈 확률이 높을 수 있다." ==> 이런 상황이 가능한가요? 

논문에서 말하는 가정은, 

"누구에게 간 표인지도 판단할 수 없어서 미분류 표로 놓는 상황이며  (즉, 이 표가 누구에게 간 표인지 아직 모르며), 따라서 이 경우 이렇게 미분류로 놓이는 확률은 모든 후보에 대해 같다", 이죠. 

하나의 동일 기계일 경우 위 가정은, 저는, 매우 합리적이라고 봅니다. 

논문의 나머지 내용에 대해서는  언급하지 않겠지만, 수식이 더 편한 저같은 경우 K의 정의에 따라 fair한 경우 K=1이어야 한다는 것이 거의 직관적으로 다가오더군요. 그리고, 논문 내용은 이해가 되고, 결론도 받아들일 수 있는데, 그렇다고 이것이 어떻게 Up에게 유리한지는 잘 모르겠습니다. 

= = =

약간 다른 얘기이긴 한데, K에 관련한 글은 오유에서만 읽었고, 내용도 거의 훑는 식으로 읽었는데, 
이 논란(?)을 보면서 든 느낌은, C++에서 STL에 대한 초보자들의 태도와 비슷한 것 같다는 느낌이었습니다. 
C++ 초보자의 경우 STL을 처음 접하면 엄청나게 욕하죠. (실제로 몇 가지는 그럴만 하긴 합니다)
설계가 바보같다, 비효율적이다, 나같으면 이것보다 훨씬 잘 만들 수 있다, 등등등. 
그러다 C++을 점점 잘 하게 되면서... 깨닫게 되죠, STL이라는 이 물건의 진가를...

이건 흔히 하는, 
"학부 4학년: 난 전공에 대해 완전 잘 알아.
석사과정: 아, 난 아는 게 하나도 없었구나. 
박사과정: 아, 나만 모르는게 아니었구나.
교수:이거로 사기칠 수 있겠군."
하고도 유사하죠. 

여러 사람이, 자신이 잘못 알고 있는 것임에도 불구하고 이 가능성을 완전 배제하고 있는 것으로 보입니다. 
뭐, 그럼에도 불구하고, 
제 생각도 틀릴 수도 있습니다. 틀려도 됩니다, 제가 뭐 여기에 목숨을 건 것도 아니고, 별 명예같은 것도 없고. 

제 생각에, 아마도, 진짜 이 관련 분야 전문가들은 대부분 이런 곳에 내용을 안 쓰지 않을까, 왜냐 하면,
너무 많은 오류들을 짚어 줘야 하는데, 바빠 죽겠는데, 피곤한데, 쉴 때도 이러고 싶지 않을 것 같거든여. 
그리고, 그런 사람들은 자문비 받으며 그런 일을 하겠죠. 


전체 추천리스트 보기
새로운 댓글이 없습니다.
새로운 댓글 확인하기
글쓰기
◀뒤로가기
PC버전
맨위로▲
공지 운영 자료창고 청소년보호