활용3. 웹스크래핑(0825-0829)/urllib3 urllib.request 와 requests 1 2 3 4 5 6 7 8 9 10 11 12 # common module import requests import urllib.request # BeautifulSoup from bs4 import BeautifulSoup as bs # Selenium from selenium import webdriver from scrapy.selector import Selector from selenium.webdriver.common.by import By from selenium.common.exceptions import NoSuchElementException cs 1. requests 먼저 requests는 데이터를 전송할 때 딕셔너리 형태로 보낸다. 만약 존재하지 않는 페이지를 요청해도, 500, .. 활용3. 웹스크래핑(0825-0829)/urllib 2022. 9. 10. 스크래핑: urllib 필수 기초 파이썬에서는 웹과 관련된 데이터를 쉽게 다룰 수 있도록 urllib모듈을 제공한다. python2 버전에서의 urlparse가 python3에서는 urllib.parse로 변경됐다. docs.python.org/3/library/urllib.html#module-urllib urllib — URL handling modules — Python 3.9.1 documentation docs.python.org urllib.request urllib.request 모듈은 다이제스트 인증, 리디렉션, 쿠키등과 같은 URL이나 HTTP를 여는 데 도움이 되는 함수와 클래스를 정의한다. 즉, urlib.request를 사용하면 간단하게 웹 페이지 요청 및 데이터를 가져오는 것이 가능하다. 중요내용 위주로 정리해 보.. 활용3. 웹스크래핑(0825-0829)/urllib 2022. 9. 10. 스크래핑: urllib, BeautifulSoup 뷰티풀 수프는 크롤링 프로젝트에서 scrapy와 같이 가장 많이 사용되는 도구중 하나다. HTML 문서에서 필요한 부분만 출력해서, 크롤링의 속도를 올려주는 모듈이다. # BeautifulSoup 추가하기 1 2 3 4 5 6 7 from bs4 import BeautifulSoup as bs from urllib import request url = 'https://www.example.com' html = request.urlopen(url) soup = bs(html, 'html.parser') Colored by Color Scripter cs # 정갈하게 출력하기 prettyfy() 사용 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 .. 활용3. 웹스크래핑(0825-0829)/urllib 2022. 9. 8. 이전 1 다음