본문 바로가기

파이썬 프로그래밍/파이썬 크롤링

[Python] 크롤링 예제. Lv1 단순 HTML 크롤링 풀이

본 게시글은 nomade.kr에서 제공하는 크롤링 예제를 가지고 풀이한 게시글 입니다.


문제주소

https://askdjango.github.io/lv1/



1. 페이지 탐색

이 페이지의 리스트들을 크롤링 하려고 합니다.

먼저 탐색하기 위하여 마우스 [오른쪽클릭] - [페이지소스보기]를 열어봅니다.



너무나도 크롤링하기에 감사한 쉬운난이도의 페이지 입니다.

이럴경우 개발자도구 필요없이 바로 코드를 사용하겠습니다.


코드

1
2
3
4
5
6
7
8
import requests
from bs4 import BeautifulSoup
 
response = requests.get('https://askdjango.github.io/lv1/')
 
print(response)
print(response.text)
 
cs
일단 요청을 보내봅니다.
제가 페이지로 요청을 보냈을때 응답을 잘 해주는지,
응답을 어떤 text로 응답을 해주는지 확인해 보겠습니다.

실행

200 응답과 html코드가 잘나오고 있습니다.


2. 원하는 부분 긁어내기

설명코드
1
2
3
4
5
6
7
8
9
10
11
12
13
14
import requests
from bs4 import BeautifulSoup
 
response = requests.get('https://askdjango.github.io/lv1/')
 
#응답 html코드를 text로 변환
html = response.text
 
#응답받은 html코드를 BeautifulSoup에 사용하기 위하여 인스턴스 지정
soup = BeautifulSoup(html, 'html.parser')
 
#원하는 태그 지정해서 출력
for tag in soup.select('li[class=course]'):
    print(tag.text)
cs


그냥코드
1
2
3
4
5
6
7
8
9
10
11
import requests
from bs4 import BeautifulSoup
 
response = requests.get('https://askdjango.github.io/lv1/')
 
html = response.text
 
soup = BeautifulSoup(html, 'html.parser')
 
for tag in soup.select('li[class=course]'):
    print(tag.text)
cs

실행화면

레벨 1은 너무 쉽네요