jijijig / Albeobsa-Backend

알(뜰마)법사
https://albeobsa-front.vercel.app
MIT License
0 stars 1 forks source link

크롤링 #5

Closed chaiminwoo0223 closed 3 months ago

chaiminwoo0223 commented 5 months ago

크롤링 대상

chaiminwoo0223 commented 5 months ago

엔티티와 DTO의 값을 모두 String으로 저장했습니다. 엔티티와 DTO의 값을 이용하여, 추가적인 연산이 필요하다면 형변환을 이용해서 사용할 예정입니다.

chaiminwoo0223 commented 5 months ago
스크린샷 2024-03-31 오전 1 00 36
chaiminwoo0223 commented 5 months ago

최대한 빨리 Bug 수정하겠습니다.

chaiminwoo0223 commented 5 months ago

제가 크롤링을 계속 해봤는데, 현재까지 제대로 DB에 저장이 되지 않고 있습니다.ㅠㅠ 계속 버그를 수정하고 있는데, 전혀 크롤링이 되지 않습니다. 다음주 화요일에 프론트와 이야기해서 해결해야 할 것 같습니다.

chaiminwoo0223 commented 5 months ago

크롤링이 정상적으로 되는지 확인하기 위하여, 네이버에서 body 부분만 DB에 저장하겠습니다.

chaiminwoo0223 commented 5 months ago

네이버에서 body 부분을 조회하고, DB에 조회한 정보를 저장하는데 성공했습니다.

chaiminwoo0223 commented 5 months ago
스크린샷 2024-04-05 오후 10 19 40
chaiminwoo0223 commented 5 months ago

1.6개 사이트의 body 내용을 모두 크롤링하는데 성공했습니다. 2.크롤링한 데이터를 DB에 차곡차곡 저장했습니다.

chaiminwoo0223 commented 5 months ago

1.크롤링 범위를 수정하여, 정보가 담겨 있는 리스트만 가져옵니다. 2.대상: 뽐뿌(국내게시판), 뽐뿌(해외게시판), 루리웹, 쿨엔조이, 퀘사이존

chaiminwoo0223 commented 5 months ago

1.crawlingWebSite 메소드: 공통 크롤링 부분을 관리합니다. 2.이제 URL과 cssSelector만 전달하면, 크롤링을 수행할 수 있습니다.

chaiminwoo0223 commented 5 months ago
스크린샷 2024-04-13 오후 7 12 04
chaiminwoo0223 commented 5 months ago

1.뽐뿌(국내게시판)에서는 사이트에서 얻어올 수 있는 정보를 크롤링합니다. 2.뽐뿌(해외게시판)에서는 상세 정보 사이트로 이동하여, 필요한 정보를 크롤링합니다.

chaiminwoo0223 commented 5 months ago

2가지 크롤링 방법을 합쳐서, 겉과 속에 있는 정보를 적절하게 크롤링할 계획입니다.

chaiminwoo0223 commented 5 months ago
스크린샷 2024-04-14 오후 8 55 43
chaiminwoo0223 commented 5 months ago

뽐뿌(국내게시판), 뽐뿌(해외게시판)에서 원하는 정보만 크롤링하는데 성공했습니다.

chaiminwoo0223 commented 5 months ago

뽐뿌(국내게시판), 뽐뿌(해외게시판)에서 크롤링한 결과를 DB에 저장하고 조회하는 메소드를 완성하겠습니다.

chaiminwoo0223 commented 5 months ago

1.모든 크롤링이 완료되면, Crawling 엔티티에서 text를 삭제해야 합니다. 2.그리고 String label을 정의하여, 크롤링한 정보의 출처를 표시해야 합니다.

chaiminwoo0223 commented 4 months ago

쿨엔조이에서 블라인드된 게시물은 제외하고 크롤링했습니다.

chaiminwoo0223 commented 4 months ago

1.현재의 웹 크롤링 방식은 동기적 크롤링(Synchronous Crawling)을 사용하고 있습니다. 하지만 최신 크롤링 방식은 대부분 비동기적 크롤링(Asynchronous Crawling)을 사용합니다. 2.비동기적 크롤링이 데이터 수집을 더 빠르고 효율적으로 만들고, 특히 대규모 데이터를 처리하는데 적합합니다.

chaiminwoo0223 commented 4 months ago

자동 크롤링 문제점

1.중복된 내용을 DB에 저장합니다. 2.시간 순서대로 저장하지 못합니다. 3.사용이 완료된 ChromeDriver를 중지하지 못합니다.

chaiminwoo0223 commented 4 months ago

크롤링은 해오지만, 전부를 긁어오지 못하고 있습니다. 빨리 해결해보겠습니다.

chaiminwoo0223 commented 4 months ago

1.어미새 크롤링에서 datetime을 처리하는 부분을 수정해야 할 것 같습니다. 2.parseDateTime 메소드를 수정해야 합니다.