PinkWink / DataScience

책) 파이썬으로 데이터 주무르기 - 소스코드 및 데이터 공개
http://pinkwink.kr/1070
246 stars 503 forks source link

3장 HTTPError: HTTP Error 403: Forbidden #97

Open JulieOnIsland opened 1 year ago

JulieOnIsland commented 1 year ago

안녕하세요.

뷰티풀수프 사용해서 https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/ 사이트 url open하려고 하는데 HTTPError: HTTP Error 403: Forbidden 라는 에러가 뜹니다ㅠㅠ (교재 141쪽. 30번 코드입니다)

스크린샷 2023-03-12 오후 10 08 36
2cy0718 commented 9 months ago

저도 이와 같은 문제가 뜹니다. ㅠㅠ 알기로는 더 이상 저 사이트에서 스크래이핑을 허용하지 않아서 이런 이슈가 일어나는 것 같은데, 혹시 해결하셨나요?

jjjjunn commented 5 months ago

이렇게 넣어보세요

from bs4 import BeautifulSoup from urllib.request import urlopen

url_base = "http://www.chicagomag.com" url_sub = '/chicago-magazine/november-2012/best-sandwiches-chicago/' url = url_base + url_sub

headers={'User-Agent': "Mozilla/5.0"} -> 크롤링 방지로 인한 봇이 아니에요

url = Request(url_base + url_sub, headers={'User-Agent': "Mozilla/5.0"}) html = urlopen(url)

soup = BeautifulSoup(html, 'html.parser') soup