Closed albertvillanova closed 2 years ago
@albertvillanova done: https://huggingface.co/datasets/bigscience-catalogue-data/ksucca_king_saud_university_corpus_of_classical_arabic
.docx file explains the directory structure
Please note that for LM we are only interested in the non-annotated data.
DONE: https://huggingface.co/datasets/bigscience-catalogue-lm-data/lm_ar_ksucca
Sample:
{
'text': '\ufeffبسم الله الرحمن الرحيم\nقال أبو عبيدة معمر بن المثنى التيمى، تيم قريش، مولى لهم.\nكان العرب العكاظيون لا يعدون من الشيء إلا ثلاثة ثم يكفون ولا يزيدون عليها شيئا، وإن لحق بعد شيء مثل الثلاثة التي عدوا قبل ذلك لم يعدوه معه...',
'meta': "{'filename': 'da1.txt'}"
}