Closed chaiminwoo0223 closed 3 months ago
엔티티와 DTO의 값을 모두 String으로 저장했습니다. 엔티티와 DTO의 값을 이용하여, 추가적인 연산이 필요하다면 형변환을 이용해서 사용할 예정입니다.
최대한 빨리 Bug 수정하겠습니다.
제가 크롤링을 계속 해봤는데, 현재까지 제대로 DB에 저장이 되지 않고 있습니다.ㅠㅠ 계속 버그를 수정하고 있는데, 전혀 크롤링이 되지 않습니다. 다음주 화요일에 프론트와 이야기해서 해결해야 할 것 같습니다.
크롤링이 정상적으로 되는지 확인하기 위하여, 네이버에서 body 부분만 DB에 저장하겠습니다.
네이버에서 body 부분을 조회하고, DB에 조회한 정보를 저장하는데 성공했습니다.
1.6개 사이트의 body 내용을 모두 크롤링하는데 성공했습니다. 2.크롤링한 데이터를 DB에 차곡차곡 저장했습니다.
1.크롤링 범위를 수정하여, 정보가 담겨 있는 리스트만 가져옵니다. 2.대상: 뽐뿌(국내게시판), 뽐뿌(해외게시판), 루리웹, 쿨엔조이, 퀘사이존
1.crawlingWebSite 메소드: 공통 크롤링 부분을 관리합니다. 2.이제 URL과 cssSelector만 전달하면, 크롤링을 수행할 수 있습니다.
1.뽐뿌(국내게시판)에서는 사이트에서 얻어올 수 있는 정보를 크롤링합니다. 2.뽐뿌(해외게시판)에서는 상세 정보 사이트로 이동하여, 필요한 정보를 크롤링합니다.
2가지 크롤링 방법을 합쳐서, 겉과 속에 있는 정보를 적절하게 크롤링할 계획입니다.
뽐뿌(국내게시판), 뽐뿌(해외게시판)에서 원하는 정보만 크롤링하는데 성공했습니다.
뽐뿌(국내게시판), 뽐뿌(해외게시판)에서 크롤링한 결과를 DB에 저장하고 조회하는 메소드를 완성하겠습니다.
1.모든 크롤링이 완료되면, Crawling 엔티티에서 text를 삭제해야 합니다. 2.그리고 String label을 정의하여, 크롤링한 정보의 출처를 표시해야 합니다.
쿨엔조이에서 블라인드된 게시물은 제외하고 크롤링했습니다.
1.현재의 웹 크롤링 방식은 동기적 크롤링(Synchronous Crawling)을 사용하고 있습니다. 하지만 최신 크롤링 방식은 대부분 비동기적 크롤링(Asynchronous Crawling)을 사용합니다. 2.비동기적 크롤링이 데이터 수집을 더 빠르고 효율적으로 만들고, 특히 대규모 데이터를 처리하는데 적합합니다.
1.중복된 내용을 DB에 저장합니다. 2.시간 순서대로 저장하지 못합니다. 3.사용이 완료된 ChromeDriver를 중지하지 못합니다.
크롤링은 해오지만, 전부를 긁어오지 못하고 있습니다. 빨리 해결해보겠습니다.
1.어미새 크롤링에서 datetime을 처리하는 부분을 수정해야 할 것 같습니다. 2.parseDateTime 메소드를 수정해야 합니다.
크롤링 대상