Caucasus-Rosetta / Lingua-Corpus

Caucasus languages focused multilingual and monolingual corpuses for Natural Language Processing(NLP)
Apache License 2.0
33 stars 6 forks source link

Аҳәоуқәа реизгара Common Voice азы - 100k #63

Closed danielinux7 closed 3 years ago

danielinux7 commented 3 years ago

Ахҳәаа Common Voice адыррақәа реизга иахьынӡауа ихәарҭаны аҟаҵаразы, ҳара иҳаӡбеит илицензиарку Creative Commons (CC0) алагарҭатә текстқәа ҳхы иаҳархәаларц. СС0 астандарт иақәшәо атекстқәа рхархәара иаанагоит алагарҭатә атекстқәа рыԥшаареи реидкылареи ахьынӡауадаҩу, аха абри аамҭазы дарбанызаалак азин инаҭоит Mozilla аҟнытә урҭ рхархәаразы азин мгақәа дарбанызаалак абжьытә дыррақәа зегьы ԥымкрада рхархәара. Ҳара иаҳҭахуп бызшәа рацәала еилоу адыррақәа реизга, аҵыхәтәаны иахьынӡауа зегьы рзы ихәарҭаны, аҭҵааҩцәеи, ауниверситетқәеи астартапқәеи, аиҳабырақәеи, асоциалтә еилазаарақәеи рхы иадырхәо иҟаларц.

Ауадаҩрақәа 1.1 Атекст СС0 алиценӡиа имазароуп.

  1. Атекст ҳәоула ишатәуп.(быжь-жәак еиҳамзар 80%, Жәиԥшь-жәак еиҳамзар 20%,)
  2. Атекст ирласна игәаҭатәуп. Аҳәоуқәа < 95% иашоуп: а. Атекст агәаҭареи ариашареи хаз-хазоуп. б. Аҳәоуқәа Common voice ахь ақәыргылара. Аҳәоуқәа > 95% иашоуп: а. 100-шәнызк аҳәоуқәа еизгароуп. б. 4-нызк аҳәоуқәа игәаҭатәуп.(>95%) в. Common voice ахь ақәыргылара.

Аӡбара

  1. Атекст СС0 алиценӡиа имазароуп. (Азхь. 5)
  2. Аҳәоуқәа 95% иашаны иҟлароуп. (Азхь. 4)

Адҵақәа:

Азхьарԥшқәа:

  1. https://github.com/common-voice/common-voice/pull/3189
  2. https://discourse.mozilla.org/t/weekly-update-12th-august-cc0-waiver-process-save-the-dates-accent-workflow/84435
  3. https://github.com/common-voice/common-voice/blob/main/docs/SENTENCES.md#bulk-submission