pndaza / tesseract-myanmar

Tesseract OCR - Myanmar
21 stars 4 forks source link

Possible to improve the model accuracy? #2

Open nchanko opened 1 week ago

nchanko commented 1 week ago

Ashinphayar,

I'm looking for the OCR solution for Myanmar language. I noticed Google OCR quality is improving a lot lately, but Tessseract quality is still left behind. I found your tesseract myanmar model which is way better than original model. But there is still a room for improvement . I'd like to know how we could improve this model to get Google OCR like accuracy.

Thank you so much for releasing the model. It's a tremendous help for the community.

pndaza commented 1 week ago

နားလည်တတ်ကျွမ်းလို့ မဟုတ်ဘဲ စမ်းတဝါးဝါးနဲ့ train ထားတာကြောင့် error rate က များနေသေးတယ်။

training လုပ်တုန်းက fine tuning နည်းနဲ့ အရင်လုပ်ပြီး ရလာဒ်မကောင်းတာကြောင့် layer replacing နည်းနဲ့ training လုပ်ထားပါ။ ​training လုပ်ရင်း မျှော်မှန်းတဲ့ ​accuracy မရောက်ခင် overfitting ဖြစ်လာတဲ့အခါ ဘာဆက်လုပ်ရမှန်းမသိတာမို့ ပြီးသလောက်နဲ့ဘဲ ရပ်လိုက်ရတယ်။

အခု Claude ကို ပြန်မေးတော့မှ training လုပ်တုန်းက အမှားတွေ များခဲ့မှန်း ပြန်သိတော့တယ်

LSTM အကြောင်း မလေ့လာနိုင်တာကြောင့် နောက်ထပ် training လုပ်ဖြစ်တော့မယ် မထင်။

ခုတော့ ဦးဇင်းကိုယ်တိုင် OCR လုပ်စရာရှိရင် Google Sheet ထဲမှာ AppScript သုံးပြီး လုပ်တော့တယ်။