게시판 즐겨찾기
편집
드래그 앤 드롭으로
즐겨찾기 아이콘 위치 수정이 가능합니다.
[질문]스크래피 UTF-8 처리, \n\r 연속기호 처리방법
게시물ID : programmer_12879짧은주소 복사하기
작성자 : 푸우!
추천 : 0
조회수 : 568회
댓글수 : 2개
등록시간 : 2015/08/21 10:37:18
옵션
  • 본인삭제금지
파이썬을 이용한 스크래피로 웹 데이터를 크롤링 해오고 있습니다.

스파이더에서 xpath를 사용해 데이터를 가져오는 것 까지는 했는데,
\ubc34\ub4dc \ucef4\ubc31 등과 같이 유니코드로 가져오네요.

자바와 같이 유니코드 캐릭터셋을 지정해줘야 하는 건 알겠는데, 어느 부분에서 명시를 해야 하는지 모르겠습니다.
가져온 json 파일을 다시 한번 UTF-8로 가공해서 새로운 파일을 만들어 해결하긴 했지만... 스크래피 내에서 처리가 가능했으면 좋겠어요.



또, 데이터 중간에 사진 등의 기타 요소가 있는 경우에는 \n, \r 등의 요소가 다소 첨부됩니다.
ex)가나다라마. \r\r\r\n\n\n\n\t\t\t\t 그러므로 ....

이 경우에 xpath의 re 메소드로 해결을 할 수 있는 것 같기는 한데, dirbot 상의 예제에서는

site.xpath('text()').re('-\s[^\n]*\\r')

라고 씌여 있기는 하지만 예제가 아닌 다른 사이트에서 위 코드를 사용하면 먹통이더군요..
위와 같은 표현식의 사용법을 익힐 수 있는 곳이 있을까요?
전체 추천리스트 보기
새로운 댓글이 없습니다.
새로운 댓글 확인하기
글쓰기
◀뒤로가기
PC버전
맨위로▲
공지 운영 자료창고 청소년보호