INVESTAR / StockAnalysisInPython

456 stars 413 forks source link

4장 웹스크레핑 - 셀트리온 페이지 값 불러오기 #93

Open ChloeCYJ opened 3 years ago

ChloeCYJ commented 3 years ago

네이버에서 일별 시세를불러오는 부분 스크랩핑을 막아둔듯합니다. 셀트리온 일별 시세 및 페이지 값에 대한 class가 없어서 p188에 대한 예제는 실습이 불가합니다.

image

INVESTAR commented 3 years ago

올해 초에 네이버에서 브라우저 정보가 없는 웹 스크레이핑은 차단했기 때문에 차단을 피하기 위해서는 Request 대신 requests를 사용하셔야 합니다.

from bs4 import BeautifulSoup
import requests

url = 'https://finance.naver.com/item/sise_day.nhn?code=068270&page=1'
html = BeautifulSoup(requests.get(url, headers={'User-agent': 'Mozilla/5.0'}).text, "lxml")
pgrr = html.find('td', class_='pgRR') 
print(pgrr.a['href']) 

requests

자세한 내용은 깃헙의 첫 페이지에 공지된 내용을 참고하시기 바랍니다. https://github.com/INVESTAR/StockAnalysisInPython

ChloeCYJ commented 3 years ago

감사합니다. 잘동작합니다. 사소한거긴 한데 다른분들도 참고하면 좋을 것 같아서 댓글 추가합니다.

  1. import requests 사용.
  2. url 체크 필요. 보고있는 네이버 화면의 url을 그냥 복붙하면 에러납니다. https://finance.naver.com/item/sise.nhn?code=068270

책 예제의 url을 사용해야 에러나지 않고 정상동작합니다. https://finance.naver.com/item/sise_day.nhn?code=068270&page=1