josw123 / dart-fss

한국 금융감독원에서 운영하는 다트(Dart) 시스템 크롤링을 위한 라이브러리
https://github.com/josw123/dart-fss
MIT License
322 stars 110 forks source link

하나금융지주 데이터 크롤링중 오류 #54

Closed rami0205 closed 3 years ago

rami0205 commented 3 years ago

좋은 모듈 잘 이용중입니다.

8월달에 삼성에스디에스 관련 오류 문의했던 사람인데 이번에는 하나금융지주 검색 중 문제가 발생하네요

아래와 같은 문제가 발생합니다.

image

사실 이외에도 오류가 발생하는 종목들을 예전에 몇 개 더 모아 놓기는 했는데 같은 이유로 발생하는건지는 잘 모르겠네요..

josw123 commented 3 years ago

안녕하세요.

올려주신 오류를 확인해보니 2011년 사업보고서에 첨부된 연결감사보고서 상에 첨부된 연결재무상태표에 문제가 있는것으로 확인됩니다.

아래 첨부된 캡쳐 그림을 보면 아무런 문제가 없습니다. (붉은색으로 표시된 부분)

image

그러나 아래의 HTML을 보시면 보라색으로 표시된 것과 같이 하얀색으로 숨겨진 문자 2개가 있습니다. 즉 숨겨진 문자로 인해 TEXT 파일만 추출하는 경우 제 6 기초 2010년 11월 31일 현재와 같은 데이터가 추출되게 됩니다.

image

또는 드래그 해서보면 아래와 같이 보이게 됩니다.

image

이로 인해 크롤링시 datetime 라이브러리에서 있을 수 없는 값으로 인식하여 day is out of range for month 오류를 발생시키게 됩니다. (이는 11월달에 31일이 없기 때문에 발생하는 오류입니다)

이 문제는 공시 작성시 빈 공백을 쉽게 처리하기 위해서 1을 추가후 흰색으로 안보이게 한것으로 생각되며, 아마 다른 종목들에서 발생하는 오류와는 다를 것으로 생각되며, 매우 특수한 경우로 생각됩니다.

rami0205 commented 3 years ago

답변해주셔서 감사합니다.

네이버 메일 앱에서 보냈습니다. -----Original Message----- 보낸사람: "Sungwoo Jo" notifications@github.com 받는사람: "josw123/dart-fss" dart-fss@noreply.github.com 참조: "rami0205" chlgkfka205@naver.com,"Author" author@noreply.github.com 날짜: 2020.11.04 오전 11:17:27 (GMT+09:00) 제목: Re: [josw123/dart-fss] 하나금융지주 데이터 크롤링중 오류 (#54)

안녕하세요. 올려주신 오류를 확인해보니 2011년 사업보고서에 첨부된 연결감사보고서 상에 첨부된 연결재무상태표에 문제가 있는것으로 확인됩니다. 아래 첨부된 캡쳐 그림을 보면 아무런 문제가 없습니다. (붉은색으로 표시된 부분) 그러나 아래의 HTML을 보시면 보라색으로 표시된 것과 같이 하얀색으로 숨겨진 문자 2개가 있습니다. 즉 숨겨진 문자로 인해 TEXT 파일만 추출하는 경우 제 6 기초 2010년 11월 31일 현재와 같은 데이터가 추출되게 됩니다. 또는 드래그 해서보면 아래와 같이 보이게 됩니다. 이로 인해 크롤링시 datetime 라이브러리에서 있을 수 없는 값으로 인식하여 day is out of range for month 오류를 발생시키게 됩니다. (이는 11월달에 31일이 없기 때문에 발생하는 오류입니다) 이 문제는 공시 작성시 빈 공백을 쉽게 처리하기 위해서 1을 추가후 흰색으로 안보이게 한것으로 생각되며, 아마 다른 종목들에서 발생하는 오류와는 다를 것으로 생각되며, 매우 특수한 경우로 생각됩니다. — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

shineby commented 3 years ago

좋은 라이브러리 공유에 친절한 답변까지 저도 덩달아 감사합니다. :-)

rami0205 commented 3 years ago

day is out of range for 가 발생할 경우 예외처리를 하여 날짜의 day부분을 하나씩 낮추는 방법으로 오류를 해결해보는 것은 어떨까요??

네이버 메일 앱에서 보냈습니다. -----Original Message----- 보낸사람: "최하람" chlgkfka205@naver.com 받는사람: "josw123/dart-fss" reply@reply.github.com 날짜: 2020.11.04 오후 00:06:16 (GMT+09:00) 제목: RE: Re: [josw123/dart-fss] 하나금융지주 데이터 크롤링중 오류 (#54)

그렇다면 이에 대한 오류수정이 가능할까요??

제 짧은 생각으로는 정규표현식을 이용해서 날짜 정보를 추출한다면 오류발생을 막을 수 있지 않을까 하는 생각이 드네요

답변해주셔서 감사합니다.

네이버 메일 앱에서 보냈습니다.

보낸사람: "Sungwoo Jo" notifications@github.com 받는사람: "josw123/dart-fss" dart-fss@noreply.github.com 참조: "rami0205" chlgkfka205@naver.com,"Author" author@noreply.github.com 날짜: 2020.11.04 오전 11:17:27 (GMT+09:00) 제목: Re: [josw123/dart-fss] 하나금융지주 데이터 크롤링중 오류 (#54)

안녕하세요. 올려주신 오류를 확인해보니 2011년 사업보고서에 첨부된 연결감사보고서 상에 첨부된 연결재무상태표에 문제가 있는것으로 확인됩니다. 아래 첨부된 캡쳐 그림을 보면 아무런 문제가 없습니다. (붉은색으로 표시된 부분) 그러나 아래의 HTML을 보시면 보라색으로 표시된 것과 같이 하얀색으로 숨겨진 문자 2개가 있습니다. 즉 숨겨진 문자로 인해 TEXT 파일만 추출하는 경우 제 6 기초 2010년 11월 31일 현재와 같은 데이터가 추출되게 됩니다. 또는 드래그 해서보면 아래와 같이 보이게 됩니다. 이로 인해 크롤링시 datetime 라이브러리에서 있을 수 없는 값으로 인식하여 day is out of range for month 오류를 발생시키게 됩니다. (이는 11월달에 31일이 없기 때문에 발생하는 오류입니다) 이 문제는 공시 작성시 빈 공백을 쉽게 처리하기 위해서 1을 추가후 흰색으로 안보이게 한것으로 생각되며, 아마 다른 종목들에서 발생하는 오류와는 다를 것으로 생각되며, 매우 특수한 경우로 생각됩니다. — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

josw123 commented 3 years ago

좋은 의견 주셔서 감사합니다.

단순히 day를 낮추게 되면 라이브러리 사용하시는 분들이 착각하실수도 있기 때문에,

Warning을 발생시키면서 낮추는 방법을 고려해보겠습니다.

또는 White 색상으로 작성된 텍스트는 무시하는 방법도 한번 고려해보도록 하겠습니다.