크롤링 이란?
크롤링[crawling] : 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술. 어느 부류의 기술을 얼마나 빨리 검색 대상에 포함시키냐 하는 것이 우위를 결정하는 요서로서 최근 웹 검색의 중요성에 따라 발전되고 있다.
웹 크롤링 : 웹 크롤링은 콘텐츠를 수집하기 위해 자동으로 웹사이트를 방문하는 프로세스다.
웹 크롤러 : 자동으로 웹 페이지를 방문해 콘텐츠를 가져오고 URL을 추출해 낸다. 웹 크롤러의 다른 이름은 웹 스파이더, 봇 또는 자동화 색인기 이다.
드래그용 코드
#홈페이지 전체를 긁어오기
import urllib2
url="http://news.naver.com/"
temp=urllib2.urlopen(url)
f=open("news.txt","w")
f.write(temp.read())
f.close()
temp.close()
----------------------------------------------따로입니다--------------------------------------
#내가 원하는 부분만 긁어서 보기
f=open("news.txt",'r')
text=f.read()
temp=text[text.find("<div class=\"lnb_today\">"):text.find("<ul class=\"lnb_side\" tabindex=\"0\">")].split("<li>")
f.close()
#print temp
for i in temp:
print i[i.find("title"):i.find("</a>")]
가독성을 높이기 위한 코드
홈페이지 전체를 긁어오기
전체중 내가 원하는 부분만 긁어오기
실행 화면
해당 경로에 html태그들이 txt파일로 생성된 것을 확인 할 수 있다
html로 해주면 바로 페이지를 열어 볼 수 있다
이런식으로 지정한 타이틀만 쭉쭉 뽑아오게 된다
파일은 읽기형식으로 열어줬기 때문에 변화없고 출력만 나오게 됩니다
코드 설명
'파이썬 프로그래밍 > 파이썬 크롤링' 카테고리의 다른 글
[Python] 크롤링 연습문제. reddit 크롤링 풀이 (0) | 2017.07.18 |
---|---|
[Python] BeautifulSoup4 라이브러리와 기초 (멜론차트 크롤링) (3) | 2017.07.17 |
[Python] requests 기초와 beautiful soup를 활용한 크롤링, [크롤링 준비] (1) | 2017.07.15 |
[Python] 크롤링 기초 개념과 requests를 이용한 기초실습(설치부터) (1) | 2017.07.15 |
[Python] 파이썬의 Beautiful Soup를 이용한 파싱 (9) | 2016.05.19 |