본문 바로가기

파이썬 프로그래밍/파이썬 크롤링

[Python] 크롤링 기초 개념과 requests를 이용한 기초실습(설치부터) 크롤링(Crawling)1. 특정 페이지에 있는 정보들을 내가 원하는 포맷으로 가져오는것2. WebScrapping을 자동으로 돌아다니며 분석 및 저장등을 하는 행위 정도로 저장할수 있습니다. 쉽게 생각하는 크롤링(Crawling)- 사람들이 웹페이지에 직접 접속해서 정보를 읽어드리는 것과 유사- 인터넷상에 흩어져 있는 자료들을 사람 대신에 프로그램을 통하여 서핑하며 수집과 가공을 하는것- 이때 프로그램 구성에 따라 서핑능력의 차이가 발생하게 되는데 대표적으로 자바스크립트의 처리를 하는지 못하는지의 여부가 있습니다. 크롤링을 하기전 알아야하는 지식HTTP 매서드- GET: 리소스 요청 (크롤링에 주로 사용) => 받아드리는 녀석- POST: 대기 리소스 추가 요청이나 수정/삭제 목적으로 사용(크롤링에 주.. 더보기
[Python] 파이썬의 Beautiful Soup를 이용한 파싱 파싱이란 가공되지 않은 데이터에서 원하는 특정한 문자열을 빼내는 작업 이전글과는 같은 작업이지만 다르다는 점은 Beautiful Soup모듈을 사용하여 간편하게 작업한다는 점입니다. 먼저 파이썬에서 Beatiful Soup를 다운받습니다. cmd창에서 해당 명령어를 통해 beautifulsoup4버전이 설치되어 있는지 확인합니다.없으시다면pip install beautifulsoup 를 입력하셔서 설치해주면 됩니다 설치가 완료되셨다고 가정한 후에 시작하겠습니다 지금 우리는 네이버 영화랭킹 타이틀만을 파싱하려고 합니다.먼저, 하시기전에 HTML을 어느정도 보실줄 아셔야 도움이 되십니다. ctrl+u를 누르시면 페이지 소스보기가 됩니다 페이지 소스를 살펴봅시다 내려보시다 보면 눈치 채신분들도 있을겁니다. 순.. 더보기
[Python] 파이썬을 이용한 크롤링 크롤링 이란?크롤링[crawling] : 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술. 어느 부류의 기술을 얼마나 빨리 검색 대상에 포함시키냐 하는 것이 우위를 결정하는 요서로서 최근 웹 검색의 중요성에 따라 발전되고 있다. 웹 크롤링 : 웹 크롤링은 콘텐츠를 수집하기 위해 자동으로 웹사이트를 방문하는 프로세스다. 웹 크롤러 : 자동으로 웹 페이지를 방문해 콘텐츠를 가져오고 URL을 추출해 낸다. 웹 크롤러의 다른 이름은 웹 스파이더, 봇 또는 자동화 색인기 이다. 드래그용 코드#홈페이지 전체를 긁어오기import urllib2 url="http://news.naver.com/"temp=urllib2.urlopen(url)f=open("news.txt",.. 더보기