제가 라이브러리로 쓰는 BeautifulSoup4 자체의 문제도 약간 있는 것으로 발견되고, 또 리플리스트가 순서대로 올바르게 출력되는건지는 확실하지는 않지만, 일단 당일치기 프로젝트므로, 그냥 프로그램을 통해 추출된 CSV가 적당히 데이터를 잘 가져왔다고 가정하고 그냥 진행하죠...
또한 이런저런 분석을 더 할 수는 있겠지만, 그런 것도 조금, 아니 많이 귀찮으므로 간단한 분석만 해 보도록 하죠.
(번호가 빠지는 현상에 대한 추가 설명을 글 마지막에 덧붙였습니다.)
# 프로그래밍 게시판에 단 답글의 개수
"board" 열에는 각 게시판별 아이콘 파일의 경로를 담고 있어요. 아이콘 파일은 동일할테니, 각 게시판 별로 리플을 구분할 수 있는 좋은 재료가 됩니다. 그럼 board에 컴게 아이콘만 쫙 출력하면...
이 경우 'title'이 '원 게시글이 삭제되었습니다'라는 내용으로 나오게 됩니다. 그러므로 필터링해서 저 문자열만 추출하면,
저는 3건의 먹튀를 컴퓨터 게시판에서, 그리고 10건의 먹튀를 프로그래머 게시판에서 당했군요. 그러므로 ((3 + 10) / (98 + 136)) * 100 = 5.56% 먹튀를 당했습니다. 물론 여러 다른 게시판에서도 원글이 삭제된 경우를 봤지만, 보통 다른 게시판에는 질문에 대한 답변을 올리지 않으므로 스킵하겠습니다. 5.56%면 많은 건가요, 적은 건가요?
# 나는 어느 게시판에 가장 댓글을 많이 남겼을까?
자 이제 분석스러운 분석 하나 정도는 해 보도록 하죠. 나는 어떤 게시판에 몇 개나 글을 남겼을까요?
피벗 테이블을 쓰면 되겠죠?accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=1'...# 설명
parsing...
page 1 parsed. 14 items captured ( 322 ~ 308 )
WARN! Missing number is present: 313
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=2'...
parsing...
page 2 parsed. 13 items captured ( 307 ~ 293 )
WARN! Missing number is present: 305 299
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=3'...
parsing...
page 3 parsed. 14 items captured ( 292 ~ 278 )
WARN! Missing number is present: 281
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=4'...
parsing...
page 4 parsed. 15 items captured ( 277 ~ 263 )
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=5'...
parsing...
page 5 parsed. 13 items captured ( 262 ~ 248 )
WARN! Missing number is present: 259 256
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=6'...
parsing...
page 6 parsed. 15 items captured ( 247 ~ 233 )
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=7'...
parsing...
page 7 parsed. 15 items captured ( 232 ~ 218 )
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=8'...
parsing...
page 8 parsed. 15 items captured ( 217 ~ 203 )
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=9'...
parsing...
page 9 parsed. 15 items captured ( 202 ~ 188 )
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=10'...
parsing...
page 10 parsed. 13 items captured ( 187 ~ 173 )
WARN! Missing number is present: 181 177
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=11'...
parsing...
page 11 parsed. 14 items captured ( 172 ~ 158 )
WARN! Missing number is present: 171
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=12'...
parsing...
page 12 parsed. 15 items captured ( 157 ~ 143 )
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=13'...
parsing...
page 13 parsed. 13 items captured ( 142 ~ 128 )
WARN! Missing number is present: 141 133
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=14'...
parsing...
page 14 parsed. 15 items captured ( 127 ~ 113 )
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=15'...
parsing...
page 15 parsed. 15 items captured ( 112 ~ 98 )
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=16'...
parsing...
page 16 parsed. 15 items captured ( 97 ~ 83 )
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=17'...
parsing...
page 17 parsed. 15 items captured ( 82 ~ 68 )
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=18'...
parsing...
page 18 parsed. 15 items captured ( 67 ~ 53 )
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=19'...
parsing...
page 19 parsed. 15 items captured ( 52 ~ 38 )
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=20'...
parsing...
page 20 parsed. 15 items captured ( 37 ~ 23 )
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=21'...
parsing...
page 21 parsed. 15 items captured ( 22 ~ 8 )
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=22'...
parsing...
page 22 parsed. 6 items captured ( 7 ~ 1 )
WARN! Missing number is present: 5
sleep for 5 seconds
accessing 'http://www.todayhumor.co.kr/board/myreply.php?mn=156985&page=23'...
parsing...
no item found! stop crawling...
csv file saved as 'replies_156985.csv'