본문 바로가기

[Python] 크롤링 예제. Lv2 Ajax 렌더링 크롤링 풀이 본 게시글은 nomade.kr의 문제를 보고 풀이한 게시글입니다. 문제 주소https://askdjango.github.io/lv2/ 1. 페이지 탐색크롤링할 페이지 입니다. Lv1과 디자인은 똑같네요 [마우스 오른쪽 클릭] - [페이지 소스보기] 로 건질것이 없는지 찾아봅니다.블록이 보이시나요? HTML단에서는 안나오네요 이럴땐 개발자 도구모드를 사용합니다. 이렇게 파트의 블록을 보며 따라가줍니다 벌써 찾아버렸네요. 여기 숨어있었습니다.우리는 여기에 있는 이녀석을 크롤링해 보겠습니다. 먼저 이 페이지의 특징은 html에 보여지지 않고 숨어있기 때문에 이것을 꺼내서 확인해보겠습니다.우측에 네트워크 탭을 선택하고 새로고침을 누르면 우측 하단처럼 시간초 별로 서버에서 응답하는 목록을 확인할 수 있습니다. 우.. 더보기
[Python] 크롤링 예제. Lv1 단순 HTML 크롤링 풀이 본 게시글은 nomade.kr에서 제공하는 크롤링 예제를 가지고 풀이한 게시글 입니다. 문제주소https://askdjango.github.io/lv1/ 1. 페이지 탐색이 페이지의 리스트들을 크롤링 하려고 합니다.먼저 탐색하기 위하여 마우스 [오른쪽클릭] - [페이지소스보기]를 열어봅니다. 너무나도 크롤링하기에 감사한 쉬운난이도의 페이지 입니다. 이럴경우 개발자도구 필요없이 바로 코드를 사용하겠습니다. 코드12345678import requestsfrom bs4 import BeautifulSoup response = requests.get('https://askdjango.github.io/lv1/') print(response)print(response.text) Colored by Color Sc.. 더보기
[Python] Pillow 이미지 붙이기 예제. 웹툰 전부 붙이기 본 게시글은 먼저 이미지 붙이기를 선행학습 하셔야 이해하기 수월합니다. [Python] Pillow를 활용한 이미지 썸네일/다운로드 처리 크롤링 [Python] requests 기초와 beautiful soup를 활용한 크롤링, [크롤링 준비] 풀이1. 다운로드가 잘되었나 확인해보기코드1Image(filename='20170529163407_0ed8a697d896451fee4bc3642fb46db8_IMAG01_1.jpg')cs 확인잘 나오네요. 따로 파일이름을 지정해주지 않았기 때문에 원본의 이미지이름 그대로 다운받아 왔습니다. 그럼 이미지 이름은 제가 어떻게 알았을까요? 개발자도구 모드에서 따라가서 찾아냈습니다. 혹은이렇게 열어보면 가장 마지막에 다운된 사진을 확인할 수 있습니다. 2. 다운받은 이미.. 더보기
[Python] Pillow를 활용한 이미지 썸네일/다운로드 처리 크롤링 들어가기전크롤링할 대상- HTML문서 + JSON- 이미지 (이번 포스트에서 다룰 파트)- PDF, EXCEL등 여러가지 정적 파일 웹에서 자주 쓰이는 이미지 포맷- jpg: 주로 이미지 저장할 때이미지 품질 옵션이 있으며 0~100 까지 있음- gif: 움직이는 이미지. 저품질 (저품질인 이유는 gif에서 지원하는 팔레트가 적기 때문에)- png: 투명지원되는 이미지 포맷 이미지 크롤링 순서(크게보기)1. 이미지 다운받기2. 고화질 이미지를 다운받더라도, 경우에 따라 작은 용량으로 줄일 필요가 있음-> 이것을 썸네일 처리라고 함3. 대개 여러개의 파일로 나뉘어져있음-> 이럴경우 이미지 합치기Ex) 웹툰 (웹툰의 이미지가 하나의 파일일 경우, 로딩에 긴 시간이 필요하므로 나뉘어서 올려짐)4. 이미지를 다.. 더보기
[Python] 크롤링 연습문제. reddit 크롤링 풀이 이번 포스트에서는 html.Parser로 파싱한 후에 BeautifulSoup4를 사용하여 www.reddit.com 을 크롤링 해보겠습니다. 실습환경 버전Python 3.6.0BeautifulSoup(4.5.3)requests(2.12.4) 탐색오늘 제가 크롤링 해볼 www.reddit.com의 모습입니다. 오늘 저는 저기서 타이틀만 가져와서 목록에 뿌려주려고 합니다.제가 생각해놓은 순서는 이렇습니다.1. 단순 GET요청2. html화면에서 쪼개줄 타이틀 찾기3. html.parser를 통하여 파싱후 타이틀부분 select 일단 해보겠습니다. 1. requests를 사용하여 서버의 응답확인requests가 무엇인지 궁금하신분 requests 설치부터 라이브러리 사용 바로가기 : p의 title의 직계중.. 더보기