jeongukjae / tfds-korean

A collection of Korean Text Datasets ready to use using Tensorflow-Datasets.
https://jeongukjae.github.io/tfds-korean/
Apache License 2.0
20 stars 3 forks source link

데이터셋 카탈로그 빌더 특정 데이터셋 스킵가능하게 수정 #26

Open jeongukjae opened 3 years ago

jeongukjae commented 3 years ago

현재 모든 데이터셋이 로컬에 존재해야 카탈로그를 빌드할 수 있는데, 이게 너무 부담이 된다. 현재 develop 기준만 해도 대략 30GB를 로컬에 들고 있어야 한다.

데이터셋 버전이 바뀌지 않는다면 카탈로그를 다시 빌드해야하는 때는 build_catalog.py 스크립트가 변경될 때 뿐이라서 특정 데이터셋 페이지 & index 페이지만 빌드해도 되도록 수정해두자. 물론 전체 데이터셋에 대한 카탈로그 빌드도 가능하게 유지.