Open khaleeljageer opened 2 years ago
மேலும் தகவல்கள் பகிர முடியுமா.
தற்சமயம் பயன்படுத்தபட்டுள்ள 23 Fonts-இன் துல்லியத்தன்மை தோராயமாக 80-93 விழுக்காடு உள்ளது. உதாரணமாக, Noto Sans Tamil fonts கொண்ட படம் அல்லது PDF கோப்பை OCR செய்தால் நமக்கு 80-93 விழுக்காடு துல்லியமான உரை வெளியீடு கிடைக்கும். ஆனால் மேலே குறிப்பிட்டுள்ள பட்டியலில் இல்லாத Font-ஐ OCR செய்தால் அதன் துல்லியத்தன்மை 70விழுக்காட்டிற்கும் குறைவாகவே உள்ளது. ஆகவே நாம் இன்னும் அதிகப்படியான Fonts பட்டியலை உருவாக்கி Tesseract-ஐ பயிற்றுவிப்பதன் மூலம் அதன் துல்லியத்தன்மையை அதிகரிக்கலாம்.
ஏற்கனவே Tesseract பயிற்சிக்குப் பயன்படுத்தப்பட்டுள்ள training text(Link) கொண்டு ஒரு படியலை தயாரித்து நான் முயற்சித்து பார்த்ததில், ஒன்று அல்லது இரண்டு Fonts எனில் பயிற்சி வேகமாக அதாவது, 5-10 நிமிடங்களில் முடிந்தது. பின்னர் 4 fonts கொண்டு பயிற்சிவிக்க முயற்சிக்கையில் அது 2 நாட்கள் எடுத்துக்கொண்டது.(Mac Book Pro i7 processor) ஆக, பட்டியல் நீளும் பட்சத்தில் இன்னும் நேரம் கூடும் என்பது புலனாகிறது.
திட்டம்: நண்பர் ஒருவர் Oliyan Studios என்னும் பெயரில் முழுநேர புகைப்பட கலைஞராக இருக்கிறார். அவரின் அலுவலக கணினி இன்னும் கூடுதல் செயல்திறன் கொண்டது எனவும். இந்த Tesseract பயிற்சிக்குப் பயன்படுத்திக் கொள்ளலாம் எனவும், அதற்கான வேண்டிய உதவிகளைச் செய்யவும் முன்வந்துள்ளார்.
இந்த வார இறுதியில் அவருடைய அலுவகத்திற்கு சென்று ஒருமுறை Tesseract பயிற்சி மேற்கொண்டு இது குறித்தான மேலும் தகவல்களை இங்கே பகிர்கின்றேன்.
தற்பொழுதுள்ள Tesseract trained data கொண்டு கையெழுத்து பிரதிகளை OCR செய்வதில் சிக்கல் உள்ளது. அதன் துல்லியத்தன்மை 50விழுக்காட்டிற்கும் குறைவாகவே உள்ளது.
கையெழுத்து பிரதிகளையும் OCR செய்யும் வகையில் Tesseract-ஐ மேம்படுத்துவது நமக்குப் பலனளிக்கும். ஆனால் அதற்கான கையெழுத்து மாதிரிகளைத் திரட்டுவது முதற்கட்ட பணியாகும்.
இதுகுறித்து @tshrinivasan, @manimaran96 மற்றும் VGLUG குழுவினருடன் உரையாடி மேற்கொள்ளப்பட்டுள்ள திட்டங்கள்:
வணக்கம் கலீல்,
இதற்கு இரண்டு வகைகளில் tamil.digital.utsc.utoronto.ca ஊடாக மற்றும் பிற வழிகளில் தேவைப்படின் உதவ முடியும் என்று கருதுகிறேன்.
1) கையெழுத்துப் பிரதிகளை திரட்டுவதில் 2) training தேவைப்படும் computing resources களுக்கு
எப்படி training data வினை உருவாக்குகிறீர்கள்? Preprocessing தொடர்பாக என்ன பணிகள் உள்ளன என்று அறியத் தந்தால் உதவியாக அமையும்.
நன்றி, நற்கீரன்
We need a well-trained Tesseract OCR model for Tamil. The Tesseract repo already has two different trained models (Best and Fast) for Tamil. But that was five years old, and it has trained with limited number of fonts(~22).
Fonts used for Training: