josw123 / dart-fss

한국 금융감독원에서 운영하는 다트(Dart) 시스템 크롤링을 위한 라이브러리
https://github.com/josw123/dart-fss
MIT License
321 stars 110 forks source link

음수 처리 및 항목 누락 이슈 #93

Closed an14700 closed 2 years ago

an14700 commented 2 years ago

44 와 유사한 이슈입니다.

  1. 음수 처리 이슈 몇몇 항목의 음수값이 양수로 표시되고 있습니다.

케이아이엔엑스의 2021년 2분기 현금흐름표 중 '유동당기손익인식금융자산의 취득' 항목은 아래의 이미지와 같이 음수입니다. image

아래는 추출된 결과 데이터입니다. 양수로 표시되고 있습니다. 반면 '리스부채의 지급' 등 일부 데이터는 정상적으로 음수로 표시됩니다.

image

아래와 같이 추출했습니다. extract_fs(bgn_de='20210101', end_de='20211231', report_tp=['annual', 'half', 'quarter'], separate=False)

dataset을 web으로 설정하는 경우 정상 동작합니다.

  1. 항목 누락 이슈

1번과 같이 케이아이엔엑스 재무 정보를 추출했습니다. extract_fs(bgn_de='20210101', end_de='20211231', report_tp=['annual', 'half', 'quarter'], separate=False)

2021년 2분기 현금흐름표 중 '유형자산의 취득', '유형자산의 처분' 항목이 누락됩니다. (xbrl, web 동일) 2021년 1분기 현금흐름표에 있는 '기타유형자산의 취득' '기타유형자산의 처분'과 연관이 있는지 모르겠습니다.

추출한 엑셀파일 공유해드립니다. 00603348_['annual', 'half', 'quarter'].xlsx

an14700 commented 2 years ago

음수처리 이슈의 경우 확인해보니 xbrl의 데이터와 web 페이지의 데이터가 달라서 그러네요. ㅠ 항목이 누락되는 경우도 확인 중입니다. 확인되면 알려드리겠습니다.

josw123 commented 2 years ago

안녕하세요. 답변이 많이 늦은점 죄송합니다. 요즘 본업 및 개인적인 사정으로 인해 시간이 부족하여 답변이 늦었습니다.

(2. 항목 누락 이슈)는 추측하신바와 같이 DART 공시 내용 부족으로 인해 추출되지 못한것으로 생각됩니다.

본 라이브러리의 추출방식은 다음과 같습니다.

  1. 기존의 데이터와 새로추출된 데이터 값에서 중복되는 열(중복되는 년도 혹은 회계분기)을 기준으로 회계계정과목명을 추정하여 데이터를 추출하게 됩니다.
  2. 만약 1의 결과가 없는 경우 회계계정과목명을 직접 비교하여 데이터를 추출하게 됩니다. (완전히 동일한 명칭인 경우만 처리하도록 강제하였습니다. 이는 비슷한 명칭의 여러 계정이 존재하는 경우가 있어 일부로 강제하였습니다.)

이러한 방식을 통해 일부 회계계정과목명에 차이가 있더라도 추출이 가능하도록 하였습니다. (이는 DART 작성자 마다 명칭에 약간씩 차이가 있기 때문입니다)

케이아이엔엑스 재무제표에서 추출되지 않는 정보의 경우 1번의 데이터가 blank이므로 1번방식으로는 추출이 불가능합니다. 2번방식의 경우 명칭에 약간의 차이가 있어 추출되지 않습니다.

이로 인해 데이터가 추출되지 않은것으로 생각됩니다.

an14700 commented 2 years ago

답변 감사드립니다. 이번에 이슈를 확인하면서 dart 자료의 이상한 부분들을 알게되었습니다. 만드신 코드가 정말 다양한 케이스를 고려해서 만들어졌다는 사실도 알게되었습니다. 이렇게 좋은 코드를 공유해주셔서 감사합니다.