[생물, 통계, 뻘짓 기록] 간단할 꺼라고 생각했는데 외계어가 나온다.

요약

맨 마지막 이미지보고 맨붕.

결국 모르는 점의 해답은 못찾아..

일단은 포기.

생물을 공부하신 분이라면 한번쯤 들어봤을 이야기일껍니다.

움직이는 동물 개체군의 개체수를 세는 방법에는 capture-recapture라는 방법이 있는데요. 간단히 말하면 대충 이런 이야기입니다.

충분히 큰 개체군에서 일정한 개체수 (제 1 표본)을 잡아 각 개체에 표지한 후 본래의 개체군으로 돌려보내고 일정한 기간이 지난 다음 다시 일정한 개체수(제 2 표본)을 잡아 표지된 개체수의 비를 계산한다. 마킹되어 있을 비율을 P라고 할 때

P =

이다. 따라서

개체수(N) = M * C/R

로 구할 수 있다.

그런데 실험 시간에는 뭐 신뢰한계가 어쩌고, 표준오차가 어쩌고, t값이 어쩌고저쩌고 하더군요. 결국은 이해를 못해서 자료 해석도 야매로 대충 하고 지나갔는데요. 이번에 고등학교 통계를 복습한김에 겸사겸사 다시 자료해석에 도전했습니다.

근데 표본의 표준편차를 이용하면 간단히 해결될 것 같았던 일이 전혀 간단하지 않았습니다. (뻘짓의 시작)

일단 주어진 표준오차 식을 조금 더 자세히 알아볼까 하여 검색을 해봤습니다. '섬강에 서식하는 멸종위기종 꾸구리 Gobiobotia macrocephala (Pisces: Cyprinidae)의 서식개체수 추정' 같은 생태학의 향기가 물씬 풍기는 문서가 몇 개 검색됩니다.

근데 이것들도 그냥 식만 딸랑 적어놓았습니다.

이해를 돕기 위한 용어들을 알았다는데 의의를 두고 모르는 용어들을 검색해봅니다. 표준오차(SE), 스튜던트 t 분포, Lincoln–Petersen estimator, Chapman estimator 등등이 뭔지 익혔습니다. 물론 maximum likelihood estimate 같이 뭔 뜻인지 이해는 하겠는데 어떻게 구하는지 모르겠는거는 나 자신과 타협하고 넘어갑니다.

다시 보았습니다. 여전히 이해가 안갑니다. 그래서 위의 문서들이 참조했다는 논문을 찾아보았습니다.

Chapter 7: Stream Fish Population Estimates by Mark-and-Recapture and Depletion Methods (Lockwood and Schneider, 2000)

Ricker, W. E. 1975. Computation and interpretation of biological statistics of fish populations. Fisheries Research Board of Canada, Bulletin 191.

등등

아아.. 여기서부터 영어의 홍수입니다. 괴롭습니다. :ㅁ;

Ricker씨가 식을 조금 자세히 적어놓았길래 열심히 해석해봤습니다. 전부는 안적고 식 몇 개만 가져와보자면

u = R/M이라면서 -- 이해 안감 1

u의 분산값이 이거라는 겁니다.

-- 이해 안감 2. 이항분포를 이용했다길래 _nC_xp^x(1-p)^n-x 에서 분산값은 np(1-p)니깐 p=M/N 라 두고 열심히 식을 변형시켜봤지만 여전히 이해는 안갔습니다.

-- 식 변환은 이해 함. 공부를 한 보람이 있습니다.

-- 역시 식 변환은 이해 함.

-- 이해 안감 3. 난데없이 역수의 분산을 취하라고 합니다. 어쩌라는걸까요.

표본의 크기가 작을 때는 N = MC/R 로 구하면 실제와 많이 어긋나므로, 표본의 편중 등등을 고려해서 다른 식을 이용하는데. 그 중 하나가 Chapman estimator입니다. 참고로 Chapman estimator는 이겁니다.

\hat{N}_C = \frac{(K+1)(n+1)}{k+1} - 1

-1은 별 의미가 없다고 하니 그냥 생략하랍니다.

이 때 분산은 바로 이것!

어쩌라는걸까요. 일단은 그냥 그렇다고 이해해봅니다.

근데 또 같은 Chapman estimator를 이용하는데 문서마다 분산값이 조금씩 다릅니다.

이것도 있고

$\operatorname{var}(\hat{N}_C) = \frac{(K+1)(n+1)(K-k)(n-k)}{(k+1)(k+1)(k+2)}.$

이것도 있습니다.

일단 거둔 수확은 표본 크기는 C고, 표본평균?처럼 쓰이는건 N이라는 것을 알게되었습니다.

근데 왜 표본평균처럼 쓰이는게 N인지, 왜 N의 분산을 구하는건지 도무지 이해가 가지 않았습니다. 표본평균이 N이면 그럼 모평균은 뭐인걸까요? 왠지 표본크기가 C이면 마킹된 비율(R/C)을 이용한 표본비율을 이용해서 솰라솰라 해야할 것 같은 느낌이 있는데 영 아니네요.:(

또한 mark-recapture 시행을 수십번 반복할 때 이 떄 나온 N값들을 어떻게 처리해야하는지도 아직은 이해가 가지 않습니다. 지금까지 살펴본 바로는 위의 식들은 한 번만 시행했을 때 관찰값을 가지고 총 개체수를 추정하는 방법이거든요. 문서 밑에 여러번 시행했을 때 개체수를 구하는 방법이 있는 것 같기도 한데, 영어피로증 때문에 읽어보진 않았습니다.

그래서 저 분산을 구하는 식이 처음 나온 것 같은 논문을 찾아봅니다.

On Estimating the Size of Mobile Populations from Recapture Data - 1번

Improvements in the Interpretation of Recapture Data - 2번

무려 1951, 1952년도에 나온 논문입니다. 이 때 논문이 인터넷에 올라와 있다는게 신기합니다. 게다가 스캔도 아니야! 2번 논문은 일단 넘어가고 1번 논문부터 살펴봅니다.

,,.... 헐.

일단 앞 부분만 가져와봤습니다.

가끔 '문과는 그냥 지나가겠습니다...'라는 댓글이 보이던데, 오늘만큼 절절히 공감했던 적은 없던 것 같습니다. 생물 전공은 그냥 지나갑니다.. ㄷㄷㄷㄷㄷㄷㄷ

결국 의문은 풀리지 않았습니다. 하지만 이 뻘짓에 오늘 하루를 통째로 쏟아부었기에 이제 그만 '언젠간 하겠지' 목록으로 넘기고 마무리하려고합니다.