jeongukjae / tfds-korean

A collection of Korean Text Datasets ready to use using Tensorflow-Datasets.
https://jeongukjae.github.io/tfds-korean/
Apache License 2.0
20 stars 3 forks source link

[Dataset Request] kowikitext #14

Closed jeongukjae closed 3 years ago

jeongukjae commented 3 years ago

Dataset Information

Additional Context

이것도 #12 와 같은 문제점이 존재하는 것으로 보이는데, 일단은 Korpora 방식을 따라감. 이 데이터셋도 heading을 기준으로 split할 경우 = 분류~~~ =같은 행들이 존재하여 정확히 문서 단위로 복구가 불가능함.