DAU-BigDataTeams / Comments

Comments
0 stars 0 forks source link

2023/02/12/web-crawling #22

Open utterances-bot opened 1 year ago

utterances-bot commented 1 year ago

웹 크롤링 | DAU-BigDataTeam

 웹 페이지의 데이터를 수집해보자 !

https://dau-bigdatateams.github.io/2023/02/12/web-crawling.html

jhparkland commented 1 year ago

크롤링에 대해 간단명료한 포스트 잘 보았습니다. 글을 보다가 궁금한 것이 생겼는데 selelinum이 비교적 메모리도 많이 차지하며, 복잡한 크롤링에 적합한가요?

dhfgoeofh commented 1 year ago

굿잡

qpwery commented 1 year ago

👍👍😊

zbiniz commented 1 year ago

복잡한 로그인이 곧 복잡한 크롤링이라고 생각되기에 selenium이 적합하다고 생각됩니다 ! 참고로 beautifulsoup로 동아대 수강신청 표를 크롤링 하고자 했었을 때, 로그인이 만료되었다고 뜨고 로그인 페이지 통과를 못하더라고요 .. 그리고 beautifulsoup는 javascript가 실행되면서 dataTable을 그려주는 경우에는 데이터 수집( 확인 )이 안되는 단점이 있기에 필요에 맞게 사용하면 될 거 같습니다 !

jhparkland commented 1 year ago

@zbiniz 유익한 정보 감사합니다.

Su1226 commented 1 year ago

안녕하세요! 웹 크롤링에 대해 처음 공부를 시작합니다. selenium이 메모리를 많이 차지한다고 했는데, 정확하게 selenium과 beatifulsoup의 예시를 알고 싶습니다! (각각의 장단점도 설명 해주시면 감사히 공부하겠습니다. 🙏)

zbiniz commented 1 year ago

@Su1226 장단점이라고 표현하기는 좀 그런데 위 언급한대로 메모리 문제가 가장 큰 이슈인거라서 requetes로 수집되면 beautifulsoup로 하면 되고, selenium으로는 수집 안되는 게 없으니 필요에 맞게 사용하시면 될 거 같아요! 예시는 구글링하면 코드랑 아주 잘나옵니다 !