Makeshiftshelter01 / Mater

0 stars 1 forks source link

Document is empty 오류 #8

Open ul8ksgdmy opened 5 years ago

ul8ksgdmy commented 5 years ago

error log

Traceback (most recent call last): File "d:/py/Mater/ruri_main.py", line 22, in cd.insertone(cr.crawling('ilbe', 1000)) #ruriweb, 2page까지 File "d:\py\Mater\ruri_service.py", line 30, in crawling result = wc.crawlingposts(lastpage, ctargetdata) File "d:\py\Mater\ruri_crawler.py", line 107, in crawlingposts inner_root = lxml.html.fromstring(inner_html) File "C:\Java\Python 36\lib\site-packages\lxml\html__init__.py", line 876, in fromstring doc = document_fromstring(html, parser=parser, base_url=base_url, **kw) File "C:\Java\Python 36\lib\site-packages\lxml\html__init__.py", line 765, in document_fromstring "Document is empty") lxml.etree.ParserError: Document is empty (edited)

해결책 : 다른 에러의 해결책과 동일

ul8ksgdmy commented 5 years ago

error log

Document is empty 오류로 다음 페이지에서 재접속 오류가 일어난 페이지 처리 Traceback (most recent call last): File "ruri_main.py", line 49, in cd.insertone(cr.crawling('ilbe', 1000)) #저장할 컬렉션은 ini 파일에서 변경해야 함 File "/home/centos/tmp/ruri_service.py", line 29, in crawling result = wc.crawlingposts(lastpage, ctargetdata) #크롤링 실행 및 결과를 변수에 담음 File "/home/centos/tmp/ruri_crawler.py", line 244, in crawlingposts contents_part_list = self.cr_lowerpages(headers, upper_page_list, keykeys, keyvalues) File "/home/centos/tmp/ruri_crawler.py", line 205, in cr_lowerpages content_dict[keykeys[j+2]] = list(Dict_completed_chk)[1] IndexError: list index out of range

동일한 오류 재발생 예외처리는 성공하였으나 코드에 문제가 있었음 (수정중)

ul8ksgdmy commented 5 years ago

log

(중략)

크롤링 진행사항 : 3501 / 21998 크롤링 진행사항 : 3502 / 21998 Document is empty 오류로 다음 페이지에서 재접속 오류가 일어난 페이지 처리 크롤링 진행사항 : 3503 / 21998 크롤링 진행사항 : 3504 / 21998

(중략)

=> 아마도 해결된 듯? (조금만 더 지켜볼 것)