[Python] BeautifulSoup 활용한 음악 순위 크롤링하기

최대 1 분 소요

오늘의 실습은 파이썬의 BeautifulSoup을 활용하여

한 사이트의 음악 순위를 크롤링 해보려고 합니다!

먼저 BeautifulSoup 라이브러리란 무엇일까요?

BeautifulSoup : 인터넷 문서 (HTML 등) 구조에서 정확한 데이터를 추출하고 처리하는 라이브러리

설치방법 : pip install bs4

  • 설치에 앞서 pillow 라이브러리가 설치되어 있어야 합니다!
  • BeautifulSoup은 기본적으로 request라는 모듈과 함께 사용해요.
from urllib.request import urlopen # url 여는 모듈
from bs4 import BeautifulSoup

a = urlopen("https://music.bugs.co.kr/chart?wl_ref=M_left_02_01") # 음악 순위 사이트
# HTML 문서는 오른쪽 마우스 클릭 후 페이지 소스 보기를 클릭하면 확인 가능
soup = BeautifulSoup(a.read(), "html.parser") # a를 호출해 html을 parser

music = soup.find_all('p','title') # 반복되는 구조를 확인하고 p 태그에 title 클래스를 전부 찾음

i = 1

for a in music:
    print("%d위 : %s " % (i, a.find('a').text)) # a 태그에 text를 불러와 음악 제목 출력
    i += 1

결과

Disqus_4

업데이트:

댓글남기기