파이썬을 이용한 스크래피로 웹 데이터를 크롤링 해오고 있습니다.
스파이더에서 xpath를 사용해 데이터를 가져오는 것 까지는 했는데,
\ubc34\ub4dc \ucef4\ubc31 등과 같이 유니코드로 가져오네요.
자바와 같이 유니코드 캐릭터셋을 지정해줘야 하는 건 알겠는데, 어느 부분에서 명시를 해야 하는지 모르겠습니다.
가져온 json 파일을 다시 한번 UTF-8로 가공해서 새로운 파일을 만들어 해결하긴 했지만... 스크래피 내에서 처리가 가능했으면 좋겠어요.
또, 데이터 중간에 사진 등의 기타 요소가 있는 경우에는 \n, \r 등의 요소가 다소 첨부됩니다.
ex)가나다라마. \r\r\r\n\n\n\n\t\t\t\t 그러므로 ....
이 경우에 xpath의 re 메소드로 해결을 할 수 있는 것 같기는 한데, dirbot 상의 예제에서는
site.xpath('text()').re('-\s[^\n]*\\r')
라고 씌여 있기는 하지만 예제가 아닌 다른 사이트에서 위 코드를 사용하면 먹통이더군요..
위와 같은 표현식의 사용법을 익힐 수 있는 곳이 있을까요?