BeautifulSoup
BeautifulSoup는 html 코드 내부를 검색할 수 있게 도와주는 패키지이다.
https://www.crummy.com/software/BeautifulSoup/bs4/doc/#quick-start
requests.get으로 원하는 홈페이지에 접속을 하고
200 을 응답받으면 접속성공.
import requests
from bs4 import BeautifulSoup
url = "https://weworkremotely.com/categories/remote-full-stack-programming-jobs#job-listings"
response = requests.get(url)
# print(response.status_code) : 해당 페이지의 접속상태를 알려줌
# print(response.content) #html source
soup = BeautifulSoup(response.content,"html.parser",)
print(soup.prettify())
#class를 찾을 때는 언더 바 (_) 사용. 왜냐하면 파이썬에서 class는 예약어 역할을 하기 때문이다.
jobs = soup.find("section",class_ = "jobs").find_all("li")
requests 활용 방법
#response.request
: 내가 보낸 request 객체에 접근이 가능하다.
#reponse.status_code
: 응답코드를 받을 수 있다.
#response.raise_for_status()
: 200 (OK 코드) 이 아닌 경우 에러 발생시킴.
#response.json()
: json response 일 경우 딕셔너리 타입으로 바로 변환
#reponse.content
: content 속성을 통해 바이너리 타입으로 데이터를 받을 수 있다.
#reponse.text
: text 속성을 통해 UTF-8로 인코딩된 문자열을 받을 수 있다.
#encoding 정보확인
: reponse.encoding
[Python] 스크래핑 배우기 2 (1) | 2024.01.22 |
---|---|
[Python] classes (2) | 2024.01.19 |
[Python] requests (0) | 2024.01.16 |
[Python] 딕셔너리(dictionary) (0) | 2024.01.16 |
[Python] data structure ( 데이터 구조 ) (2) | 2024.01.16 |