게시판 즐겨찾기
편집
드래그 앤 드롭으로
즐겨찾기 아이콘 위치 수정이 가능합니다.
(본삭금) youtube 크롤링 관련 질문입니다. 고수님들!
게시물ID : programmer_22551짧은주소 복사하기
작성자 : 서성이는곰
추천 : 0
조회수 : 3910회
댓글수 : 9개
등록시간 : 2018/08/13 16:14:39
옵션
  • 본인삭제금지
안녕하세요.

프로그래밍에 ㅍ자도 모르는 제가 관련데이터를 수집하고자

파이썬을 공부하고 이리저리 짜집기해서 크롤링에 입문을 하려......고 발버둥 치는 학생입니다.

제가 원하는 데이타는 해당 keyword에 맞는 youtube 동영상 정보를 크롤링 하는 것입니다.(날짜와 조회수 정도입니다.)

그런데 2가지 문제점이 생겨 이러지도.. 못해.. 저리지도.. 못해... 무지한 저를 탓할뿐입니다...

우선 제가 구글링하고 독학으로 진도를 나간 코드부터 올릴게요..



from bs4 import BeautifulSoup
import lxml
import requests

eminem_video_info = {
    'title':'',
    'video_link':'',
    'img_link':'',
    'play_time':'',
    'hits' : '',
    'updated_time':''
}

def get_eminem_video_link(target_url):
    response = requests.get(target_url)
    soup = BeautifulSoup(response.text, "lxml")
    lis = soup.find_all('li', {'class' : 'channels-content-item yt-shelf-grid-item'})
    for li in lis :
      
        title = li.find('a', {'title' : True})['title']
        video_link = 'https://www.youtube.com' + li.find('a', {'href' : True})['href']
        img_link = li.find('img', {'src' : True})['src']
        
        play_time = li.find('span', {'class' : 'video-time'}).text
        

        hits = li.find_all('li')[2].text
        updated_time = li.find_all('li')[3].text
        eminem_video_info = {
            'title' : title,
            'video_link' : video_link,
            'img_link' : img_link,
            'play_time' : play_time,
            'hits' : hits,
            'updated_time' : updated_time
            }
        print(eminem_video_info)
    return eminem_video_info

target_url = 'https://www.youtube.com/user/Autodesk/videos'
get_eminem_video_link(target_url)






---------------------------

제가 짠 코드는 1도 없지만 그나마 이해하고 긁어와 실행까지 한 코드입니다...ㅜㅜ

위 코드는 채널에 들어가서 그 채널에 있는 동영상 data를 수집합니다.

제 문제점은 

1. youtube 특성상 동영상이 페이지를 넘겨서 재생성을 하지 않고 끝영상까지 내리면(Reload?) 하위 동영상이 나타난다는 점입니다.

그래서 Target URL을 입력하면 해당 URL 마지막 동영상 까지 Reload(?) 되기 전까지만 data를 수집하고 멈춘다는 것입니다.

2. youtuvbe 검색엔진에서 검색하는 동영상 data를 따오기위한.. 코드를 만드는 것이 너무 어렵습니다.... 코딩은.. 정말.. 딴 세상 얘기더라고요..ㅜ

프로그래밍에 1도 모르는 제가 구글링과 유튜브 고수님들 영상을 보고 파이썬 설치만 반나절을 날린... 코드를 긁어와서..   실행까지 2일이 걸린..

물어볼 사람이 없어 조언을 구하고자 글을 올립니다...ㅜ

사실 크롤링을 꼭 이용해야하는 것은 아니지만 해당 keyword에 대한 관심도(?)의 변화 추이를 그래프화 시키고 싶어 찾아본 방법중 가장 좋은거 같아

열심히... 노력... 중.. 입니다..ㅎ

구글 트렌드도 건드려봤지만.. 원하는 데이타가 나오지 않았습니다...ㅜ

감사합니다.

무더운 여름 물 많이 드시고 건강유의하세요..

P.S - 사례 꼭 하겠습니다!! 고수님들 조언 부탁드립니다.


전체 추천리스트 보기
새로운 댓글이 없습니다.
새로운 댓글 확인하기
글쓰기
◀뒤로가기
PC버전
맨위로▲
공지 운영 자료창고 청소년보호