게시판 즐겨찾기
편집
드래그 앤 드롭으로
즐겨찾기 아이콘 위치 수정이 가능합니다.
[Python3] 네이버 카페 댓글 수집 스크립트 입니다.
게시물ID : humorbest_1338349짧은주소 복사하기
작성자 : 만능소보로
추천 : 23
조회수 : 4492회
댓글수 : 13개
베스트 등록시간 : 2016/11/20 20:11:49
원본글 작성시간 : 2016/11/18 21:40:17
* 2016년 11월 19일 02:08 추가

글 올린 이후에 권한이 필요한 댓글 수집은 막혔어요. 공개글 댓글만 가능해요.




네이버 카페 댓글 수집기 코드를 짰습니다. 월요일에 짰는데 사정이 있어 지금에야 올리네요.

카페번호(clubid)와 글번호(articleid)를 입력하면 댓글을 모아 csv로 출력해서 스프레드시트(엑셀)로 읽을수 있게 했어요.

Python3로 작성했구요. (파이썬2로는 실행안되요)
웹이나 앱쪽이 아니다보니까 파이썬은 제대로 공부한적이 없어서 문법적으로 틀린게 있을지도 몰라요 . for문 문법도 몰라서 인터넷 찾아보고;;; 그래도 인터넷 찾아 뚝딱 이런걸 만들수 있는걸 보면...
파이썬이 정말 강력하네요.

* 아래의 주소(페이스트빈)로 보는게 깔끔해요. Run(온라인테스트)은 안되더라요.
https://glot.io/snippets/ekff7ak3lo


import json
import urllib.request
import random
import time

# by 만능소보로 in 오늘의유머 when 2016.11.14

def requestComment(clubID, articleID, page):
    commentURL = "http://cafe.naver.com/CommentView.nhn?search.clubid=" + clubID + "&search.articleid=" + articleID + "&search.page=" + str(page)

    # 가져오기.
    try:
        print("요청중[" + str(page) + "] : " + commentURL)
        requestResult = (urllib.request.urlopen(commentURL).read()).decode("utf-8")
    except:
        print("연결에 문제가 생겼어요...")
        exit()

    # JSON으로 파싱하기.
    try:
        commentJson = json.loads(requestResult)
    except:
        print("혹시 숫자 잘못입력한거 아니죠? 확인하고 다시 시도해주세요.")
        exit()

    # 정상적으로 파싱됬나?
    commentResult = commentJson.get("result")
    if commentResult is None:
        print("어? 필요한 값이 사라졌어요...(바뀌었나?)")
        exit()
    return commentResult

# 입력.
clubID = input("카페 번호(clubid)는? : ")
articleID = input("글 번호(articleid)는? : ")

# 첫페이지 가져와요.
commentResult = requestComment(clubID, articleID, 1)

# 변수 확인!!!
commentTotalCount = commentResult["totalCount"]
commentCountPerPage = commentResult["countPerPage"]
commentPage = 0
if commentTotalCount > 0:
    commentPage = ((commentTotalCount - 1) // commentCountPerPage) + 1;

print("")
print("총 댓글수 : " + str(commentTotalCount))
print("댓글 페이지 : " + str(commentPage))
print("")

resultText = "번호\t날짜\t유저ID\t유저닉네임\t내용\t대댓글여부\t삭제여부\n"
for page in range(1, commentPage + 1):
    if commentResult is None:
        commentResult = commentResult = requestComment(clubID, articleID, page)
    else:
        print("요청중[" + str(page) + "] : 이미 가져왔었음.")

    # 개별 댓글 수집
    commentLists = commentResult["list"]
    for eachComment in commentLists:
        #
        eachCommentID = eachComment["commentid"]
        eachCommentDate = eachComment["writedt"]
        eachCommentUserNickname = eachComment["writernick"]
        eachCommentUserID = eachComment["writerid"]
        eachCommentContent = eachComment["content"].replace("\t", " ")
        eachCommentReplayID = eachComment["refcommentid"]
        eachCommentIsReply = eachComment["refComment"]
        eachCommentISDeleted = eachComment["deleted"]
        #
        resultText += str(eachCommentID) + "\t"
        resultText += eachCommentDate + "\t"
        resultText += eachCommentUserNickname + "\t"
        resultText += eachCommentUserID + "\t"
        resultText += eachCommentContent + "\t"
        if eachCommentIsReply == True:
            resultText += str(eachCommentReplayID) + "\t"
        else:
            resultText += "\t"
        resultText += str(eachCommentISDeleted) + "\n"

    commentResult = None # 비우면 다음 루프때 받을거야.
    time.sleep(random.uniform(0.75, 1.25)) # 예의상 사람인척 딜레이를 주었다.



try:
    resultFile = open("navercafe_comment_" +  clubID + "_" + articleID + ".csv", 'w')
    resultFile.write(resultText)
finally:
    resultFile.close()

# 작업 완료
print("\n\n끝!!!")
time.sleep(random.uniform(1.5, 2.5))
print("\n\n\(안녕)/\n\n")
time.sleep(random.uniform(1.5, 2.5))


예제로 아사모의 공지글로 테스트를 했습니다.
* 왜 아사모냐 하면... 이 글을 쓰는 게시판이 "프로그래머 게시판"이라, 현재 컴퓨터 카페 랭킹 1위로 골랐어요. 댓글 많은 공지글도 있구요.


글번호나 카페번호 확인하는 방법은 다음과 같구요.

ncc_001.png

(왜 덧글수가 왜 1 차이 나는지는 잘 모르겠어요;;; 일일히 확인할수도 없고...)



ncc_002.png

결과물(.csv)는 탭으로 구분해서 열면 되요. (콤마, 세미콜론등 다 빼고 으로만 나누세요! 섞이면 본문하고 충돌나요.)

5000개급 댓글 수집 잘 됬으니까 만개도 충분할거에요.

이벤트 운영같은 선의의 목적(꼬릿말 참고)으로만 참고하세요~



_.png


* 꼬릿말이 기니까 짤려보여서 본문에도 옮겨요.

1.
VBA가 웹페이지 접속이나 JSON 다룰수 있다면 컨버팅도 가능할거에요.

2.
질문글 올리셨던 분은 몇일간 기다려도 접속않고... 드디어 접속수 1늘긴했는데 답이없고...
이러려고 코드짰나 자괴감 들어...

3.
조금 충격적인데... 네이버 카페 댓글 API에 보안장치가 없어요;;;
다시 말하면, 비밀글(회원 전용, 특정 등급 전용)의 댓글을 아무나 열람할수 있어요.
막말로 파폭, 크롬, IE(인터넷 익스플로러)의 기본 개발자도구만 있어도 확인할수 있더만요... 그래도 나름 네이버인데 댓글API에 세션검사같은거 전혀없고... API주소 + 카페번호 + 글번호면 본문은 못보더라도 댓글은 확인할수 있었다니...
운영게시판 있거나 회원제로 운영하는 카페에게는 상당히 예민할수 있는 보안문제입니다.

글 올린 이후에 권한이 필요한 댓글 수집은 막혔어요. 공개글 댓글만 수집 가능해요.

4.
지나친 자동화는 누군가의 일자리를 빼앗습니다. 그게 당신일수도 있구요.
상사에게 들키지 마세요. :D



꼬릿말 보기
전체 추천리스트 보기
새로운 댓글이 없습니다.
새로운 댓글 확인하기
◀뒤로가기
PC버전
맨위로▲
공지 운영 자료창고 청소년보호