IndoNLP / nusa-crowd

A collaborative project to collect datasets in Indonesian languages.

Apache License 2.0

261 stars 61 forks source link

Create dataset loader for indo wiki paralel corpora #228

Closed SamuelCahyawijaya closed 2 years ago

SamuelCahyawijaya commented 2 years ago

NusaCatalogue: https://indonlp.github.io/nusa-catalogue/card.html?id_wiki_parallel

Dataset	id_wiki_parallel
Description	Manually aligned parallel corpora from Wikipedia
License	Unknown

jensan-1 commented 2 years ago

self-assign

jensan-1 commented 2 years ago

I would like to report: NusaCatalogue card for this dataset shows the languages as ind, sun, jav, min, mad, bbc, bug, msa, dyk, khek, tiociu while the Dataset Link shows only ind, sun, jav, min. Please clarify.