Open jeongukjae opened 3 years ago
현재 namuwikitext는 \n =를 기준으로 문서를 나누고 있는데, 본문 중에 \n =로 행이 시작하지만 =로 끝나지 않는 행이 존재하는 것을 확인했습니다. Korpora.utils::load_wikitext의 주석을 확인해볼 때 heading을 기준으로 split하는 것이 의도된 동작으로 보여 이슈를 남깁니다.
\n =
=
Korpora.utils::load_wikitext
정규식 ^ =.*[^=]$ 으로 검색해보시면 알 수 있고, 자세한 내용은 https://github.com/jeongukjae/tfds-korean/issues/12#issuecomment-826358469 에 적어놓았습니다.
^ =.*[^=]$
https://github.com/ko-nlp/Korpora/blob/a2c1ba8489890020467f3d9608c7d103d65ec646/Korpora/utils.py#L64-L91
관련 이슈: https://github.com/lovit/namuwikitext/issues/10, https://github.com/jeongukjae/tfds-korean/issues/12
현재 namuwikitext는
\n =
를 기준으로 문서를 나누고 있는데, 본문 중에\n =
로 행이 시작하지만=
로 끝나지 않는 행이 존재하는 것을 확인했습니다.Korpora.utils::load_wikitext
의 주석을 확인해볼 때 heading을 기준으로 split하는 것이 의도된 동작으로 보여 이슈를 남깁니다.정규식
^ =.*[^=]$
으로 검색해보시면 알 수 있고, 자세한 내용은 https://github.com/jeongukjae/tfds-korean/issues/12#issuecomment-826358469 에 적어놓았습니다.https://github.com/ko-nlp/Korpora/blob/a2c1ba8489890020467f3d9608c7d103d65ec646/Korpora/utils.py#L64-L91
관련 이슈: https://github.com/lovit/namuwikitext/issues/10, https://github.com/jeongukjae/tfds-korean/issues/12