ko-nlp / Korpora

Korean corpus repository
Creative Commons Attribution 4.0 International
693 stars 80 forks source link

namuwikitext 파싱 오류 #202

Open jeongukjae opened 3 years ago

jeongukjae commented 3 years ago

현재 namuwikitext는 \n =를 기준으로 문서를 나누고 있는데, 본문 중에 \n =로 행이 시작하지만 =로 끝나지 않는 행이 존재하는 것을 확인했습니다. Korpora.utils::load_wikitext의 주석을 확인해볼 때 heading을 기준으로 split하는 것이 의도된 동작으로 보여 이슈를 남깁니다.

정규식 ^ =.*[^=]$ 으로 검색해보시면 알 수 있고, 자세한 내용은 https://github.com/jeongukjae/tfds-korean/issues/12#issuecomment-826358469 에 적어놓았습니다.

https://github.com/ko-nlp/Korpora/blob/a2c1ba8489890020467f3d9608c7d103d65ec646/Korpora/utils.py#L64-L91

관련 이슈: https://github.com/lovit/namuwikitext/issues/10, https://github.com/jeongukjae/tfds-korean/issues/12