Closed new5558 closed 1 year ago
Myanmar Language:
Name Include other language
หาภาษาเพื่อบ้าน Myanmar cc100 Total Rows = 2,207,994 Tokens counting Tokenize with pyidaungsu Total Token = 56,252,263 Tokenize with mT5 Total Token = 63,199,648 mc4 Total Rows = 813,530 pyidaungsu tokenize Total Token=839,688,440 mT5 tokenize Total Token = 929,930,190 ***OSCAR Total Rows = 136,639 pyidaungsu tokenize Total Token = 115,363,000 mT5 tokenize Total Token = 125,316,900
ตัวอย่างภาษาพม่า
['အပိုင်း ၁ သင်ခန်းစာ ၃ ကုဒ်လျှော့ရေးပါ\n', '“အနည်းဆုံးသုံးစွဲခြင်းဖြင့် အရာရာပြည့်စုံလုံလောက်ပါစေ” – Jules Verne\n', 'ဒီခေတ်ကြီးမှာ ကုဒ်တွေအရမ်းများလွန်းနေတယ် ဒါဟာ ၀မ်းနည်းစရာကောင်းပေမဲ့ မှန်ကန်တဲ့အကြောင်းအချက်ပါ။\n', 'ကျုပ်ကားအင်ဂျင်ကို ကွန်ပျူတာနဲ့ထိန်းချုပ်ထားတယ်ဆိုတဲ့အချက်ကို ကျုပ်လက်ခံနိုင်တယ်။\n', 'မိုက်ခရိုဝေ့မီးဖိုထဲမှာ ဆော့ဝဲက ချက်တဲ့အလုပ်လုပ်တယ်ဆိုတာလည်း သိသာပါတယ်။\n']
for Some language corpus that isn't made training time longer. How many languages should be infused into the model?