bigscience-workshop / data_tooling

Tools for managing datasets for governance and training.
Apache License 2.0
77 stars 48 forks source link

Create dataset ksucca_king_saud_university_corpus_of_classical_arabic #229

Closed albertvillanova closed 2 years ago

albertvillanova commented 2 years ago
cakiki commented 2 years ago

self-assign

cakiki commented 2 years ago

@albertvillanova done: https://huggingface.co/datasets/bigscience-catalogue-data/ksucca_king_saud_university_corpus_of_classical_arabic

.docx file explains the directory structure

albertvillanova commented 2 years ago

Please note that for LM we are only interested in the non-annotated data.

albertvillanova commented 2 years ago

DONE: https://huggingface.co/datasets/bigscience-catalogue-lm-data/lm_ar_ksucca

Sample:


{
  'text': '\ufeffبسم الله الرحمن الرحيم\nقال أبو عبيدة معمر بن المثنى التيمى، تيم قريش، مولى لهم.\nكان العرب العكاظيون لا يعدون من الشيء إلا ثلاثة ثم يكفون ولا يزيدون عليها شيئا، وإن لحق بعد شيء مثل الثلاثة التي عدوا قبل ذلك لم يعدوه معه...',
  'meta': "{'filename': 'da1.txt'}"
}