게시판 즐겨찾기
편집
드래그 앤 드롭으로
즐겨찾기 아이콘 위치 수정이 가능합니다.
더 플랜 K값 반밖글 이해가 안돼서 해봤다.
게시물ID : science_63241짧은주소 복사하기
작성자 : 잡학편식
추천 : 3
조회수 : 730회
댓글수 : 12개
등록시간 : 2017/04/20 22:55:27
옵션
  • 창작글

 

K=1이 나와야 된다는 전제가 잘못 됐다는 글들을 보고 이해가 안돼서 그냥 프로그램을 짜서 돌려봤다.

 

가설 - 빨간공 파랑공을 3%짜리 구멍이 있는곳을 통과 시킬경우 처럼 분류된 후의 데이터를 가지고

(3% 통과한 공들의 비율)/(97% 통과한 공들의 비율) 과 같이 했음

 

선거구 300곳 선거구당 10만명 총 3천만명

실제 투표 1 51%, 2 48%, 무효표 1%

분류기 정확도 97%

 

결과 - 선거구별 K값 분포

CASE1.JPG

(꼬릿말의 소스를 matlab 2015a을 실행시키고 바로 수행하면 정확한 수치까지 재현 가능. rand함수의 비밀~)

 

K=1 근처로 나왔다.

근데 이건 정확도의 정의가 미분류표/ 총표수 이다.

 

정확도는 각 표를 정확히 분류한 표수/ 총표수이다.

나머지는 2번에 투표했는데 1번에 들어가서 1번에 카운트 된 것도 있고 미분류로 들어간 것도 있다.

 

어째든 이걸로 좀 더 복잡하게 시뮬 (일이 커졌다 ㅡㅡㅋ)

 

CASE2.JPG

그래봐야 1근처로 분포했다.

 

근데 프로그램 짜 놓고 깨닳은 건데 미분류표 3.6%는 지나치게 높다.

분류 정확도가 95%로 설정했을 때 미분류표 수치가 3.5%가 나왔다.

 

분류 정확도 99.5%면 미분류표가 저렇게 많이 나오는게 이상하다.

스팩을 뻥튀기 했던가

 

에매한건 일단 미분류로 보내기 때문인데

유독 1번이 애매한게 많더라~ 라는 결론입니다.

 


추가 : 일단 표본이 랜덤해야 1이 나오는건 맞구요

       표본이 유독 한쪽으로 쏠린건 원인 파악을 해봐야 합니다. 

 


PS. 합리적인 지적 환영합니다.

 

꼬릿말 보기
전체 추천리스트 보기
새로운 댓글이 없습니다.
새로운 댓글 확인하기
글쓰기
◀뒤로가기
PC버전
맨위로▲
공지 운영 자료창고 청소년보호