Open balajijagadesh opened 5 years ago
Update from Shreeshri
Nice. Please train with old Tamil fonts using the other variation of லை றா etc. That is creating more issue with books before 1975
On Sun, Nov 3, 2019, 6:43 PM Shrinivasan T notifications@github.com wrote:
Update from Shreeshri
I had done a couple of test trainings earlier in response to various issues posted in Github.
I reran the PLUS training, adding additional trainingtext to add some missing characters in the unicharset, for 120000 iterations. Currently, the best CER is 0.251 with the synthetic images. The fonts used were:
Arial Unicode MS Arima Madurai FreeSerif Karla Tamil Inclined Italic Karla Tamil Upright Lohit Tamil Lohit Tamil Classical Nirmala UI Noto Sans Tamil TAMu_Kadambri TAMu_Kalyani TAMu_Maduram TSCu_Comic TSCu_Paranar TSCu_Times e-Grantamil
I am attaching the traineddata file so that you can test with scanned images and compare accuracy to tam.traineddata and script/Tamil.traineddata.
You can also try with multiple languages and see if that gives better results. eg. -l tamPLUS+tam+script/Tamil
I selected the fonts base on what's listed in ok-fonts.txt in langdata_lstm repo. I can also train with a subset of more commonly used ones out of these.
Ravi Annasamy is testing the new training data.
The new training data are shared here. https://github.com/Shreeshrii/tessdata_tamil
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/KaniyamFoundation/ProjectIdeas/issues/71?email_source=notifications&email_token=AESGXRG2PPOAHJQCI2ZHSS3QR3E6FA5CNFSM4IPOWI32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEC5SIYY#issuecomment-549135459, or unsubscribe https://github.com/notifications/unsubscribe-auth/AESGXREUZJAI3JRSGHRSFYTQR3E6FANCNFSM4IPOWI3Q .
Team,
In order to evaluate the performance of various tesseract tamil models: (tam - from default install, scripts/Tamil - from scripts, tamplus - from Shree and tamplus_oldnew from Shree) I am putting together a good dataset with pdfs from different publishing dates across last century.
I installed Tesseract v5.0 on my Windows 10 laptop using https://github.com/UB-Mannheim/tesseract/wiki installer.
I took following pdfs of scanned tamil books from these years: Sivamaniyam 2014 Ariviyalin Tamilin Munnodi 2003 Ellam Ondre 1988 America Noolagangal 1961 Annavin Vazhkkai puyal 1952 (relatively lower scan quality) Ramana Vijayam 1942 Ellam Ondre 1937 Panchalatchanam 1918
The bottom four have lot of old style fonts as well as sanskrit granthams also which is typical of these old books.
I installed Shree's models by placing them into the trained data folder of tesseract.
I created a notebook which I will share on my github shortly to do the following (giving an outline here before throwing code :)
take a pdf from books/pdf folder extract a few pages from it using fitz into images and place in test_images folder randomly take a image (or you can set it) display the image run tesseract on this page using 4 different models using pytesseract save extract texts show each line's four recognitions one below the other to see which one is better.
Findings will be placed in separate threads.
Thanks Ravi
2014 publication high quality 600 dpi scan: (Sivamaniam-2014) Summary: All four models are accurate (tam, scr, plus, pluson refer to tam, scripts, shree's plus and shree's update from 11/2 using old and new)
Source image:
tam : பத்க் scr : od plus: >) plon: 2
tam : சீ scr : ‘A plus: ‘ plon: '
tam : திருவாசகத்திலே சொல்றார். scr : திருவாசகத்திலே சொல்றார். plus: திருவாசகத்திலே சொல்றார். plon: திருவாசகத்திலே சொல்றார்.
tam : “நாயிற் கடையாம் நாயேனை scr : “நாயிற் கடையாம் நாயேனை plus: “நாயிற் கடையாம் நாயேனை plon: “நாயிற் கடையாம் நாயேனை
tam : நயந்து நீயே ஆட்கொண்டாய் scr : நயந்து நீயே ஆட்கொண்டாய் plus: நயந்து நீயே ஆட்கொண்டாய் plon: நயந்து நீயே ஆட்கொண்டாய்
tam : மாயப் பிறவி உன்வசமே scr : மாயப் பிறவி உன்வசமே plus: மாயப் பிறவி உன்வசமே plon: மாயப் பிறவி உன்வசமே
tam : வைத்திட் டிருக்கும் அதுவன்றி scr : வைத்திட் டிருக்கும் அதுவன்றி plus: வைத்திட் டிருக்கும் அதுவன்றி plon: வைத்திட் டிருக்கும் அதுவன்றி
tam : ஆயக் கடவேன் நானோதான் scr : ஆயக் கடவேன் நானோதான் plus: ஆயக் கடவேன் நானோதான் plon: ஆயக் கடவேன் நானோதான்
tam : என்னதோ இங்கு அதிகாரம் scr : என்னதோ இங்கு அதிகாரம் plus: என்னதோ இங்கு அதிகாரம் plon: என்னதோ இங்கு அதிகாரம்
tam : காயத் திடுவாய் உன்னுடைய scr : காயத் திடுவாய் உன்னுடைய plus: காயத் திடுவாய் உன்னுடைய plon: காயத் திடுவாய் உன்னுடைய
tam : கழல்கீழ் வைப்பாய் கண்ணுதலே." scr : கழல்கீழ் வைப்பாய் கண்ணுதலே. ” plus: கழல்கீழ் வைப்பாய் கண்ணுதலே. ” plon: கழல்கீழ் வைப்பாய் கண்ணுதலே. "
tam : அதனாலே... இறைவன் மேலே இருக்கற நம்பிக்கையே scr : அதனாலே... இறைவன் மேலே இருக்கற நம்பிக்கையே plus: அதனாலே... இறைவன் மேலே இருக்கற நம்பிக்கையே plon: அதனாலே... இறைவன் மேலே இருக்கற நம்பிக்கையே
tam : போதும். scr : போதும். plus: போதும். plon: போதும்.
tam : அது காப்பாத்தும். scr : அது காப்பாத்தும். plus: அது காப்பாத்தும். plon: அது காப்பாத்தும்.
tam : கே: எனக்கு நம்பிக்கை இருக்கு. ஆனா சோர்வும், மயக்கமும் scr : கே: எனக்கு நம்பிக்கை இருக்கு. ஆனா சோர்வும், மயக்கமும் plus: கே: எனக்கு நம்பிக்கை இருக்கு. ஆனா சோர்வும், மயக்கமும் plon: கே: எனக்கு நம்பிக்கை இருக்கு. ஆனா சோர்வும், மயக்கமும்
tam : அடிக்கடி வந்து தியானம் பண்ண முடியலே! scr : அடிக்கடி வந்து தியானம் பண்ண முடியலே! plus: அடிக்கடி வந்து தியானம் பண்ண முடியலே! plon: அடிக்கடி வந்து தியானம் பண்ண முடியலே!
tam : ப: சரியா தியானம் பண்ணா பலம் ஏற்படும். scr : ப: சரியா தியானம் பண்ணா பலம் ஏற்படும். plus: ப: சரியா தியானம் பண்ணா பலம் ஏற்படும். plon: ப: சரியா தியானம் பண்ணா பலம் ஏற்படும்.
tam : கே: எனக்கு அலுவலகத்திலே வேலை நிறைய இருக்கு; ஆனா scr : கே: எனக்கு அலுவலகத்திலே வேலை நிறைய இருக்கு; ஆனா plus: கே: எனக்கு அலுவலகத்திலே வேலை நிறைய இருக்கு; ஆனா plon: கே: எனக்கு அலுவலகத்திலே வேலை நிறைய இருக்கு; ஆனா
tam : தியானத்திலே முழுமை அடையணும்னு விரும்புறேன். scr : தியானத்திலே முழுமை அடையணும்னு விரும்புறேன். plus: தியானத்திலே முழுமை அடையணும்னு விரும்புறேன். plon: தியானத்திலே முழுமை அடையணும்னு விரும்புறேன்.
tam : சூழ்நிலை முரண்பாடா இருக்கு. என்ன செய்யறது ? scr : சூழ்நிலை முரண்பாடா இருக்கு. என்ன செய்யறது ? plus: சூழ்நிலை முரண்பாடா இருக்கு. என்ன செய்யறது ? plon: சூழ்நிலை முரண்பாடா இருக்கு. என்ன செய்யறது ?
tam : ப: ஒரு முரணும் இல்லே. scr : ப: ஒரு முரணும் இல்லே. plus: ப: ஒரு முரணும் இல்லே. plon: ப: ஒரு முரணும் இல்லே.
tam : பயிற்சியோட முதிர்ச்சியாலே... இரண்டையும் சரிவர scr : பயிற்சியோட முதிர்ச்சியாலே... இரண்டையும் சரிவர plus: பயிற்சியோட முதிர்ச்சியாலே... இரண்டையும் சரிவர plon: பயிற்சியோட முதிர்ச்சியாலே... இரண்டையும் சரிவர
tam : செய்ய முடியும். scr : செய்ய முடியும். plus: செய்ய முடியும். plon: செய்ய முடியும்.
tam : வேலையை ஒரு ஸ்வப்னம் மாதிரி பாக்க ஆரம்பிச்சுடுவேள். scr : வேலையை ஒரு ஸ்வப்னம் மாதிரி பாக்க ஆரம்பிச்சுடுவேள். plus: வேலையை ஒரு ஸ்வப்னம் மாதிரி பாக்க ஆரம்பிச்சுடுவேள். plon: வேலையை ஒரு ஸ்வப்னம் மாதிரி பாக்க ஆரம்பிச்சுடுவேள்.
tam : (31) பகவானைத் தரிசனம் பண்ண வந்தவர் கேட்டார். scr : (31) பகவானைத் தரிசனம் பண்ண வந்தவர் கேட்டார். plus: (31 பகவானைத் தரிசனம் பண்ண வந்தவர் கேட்டார். plon: (30 பகவானைத் தரிசனம் பண்ண வந்தவர் கேட்டார்.
tam : கே: மோட்சமடைய என்ன செய்யணும் ? scr : கே: மோட்சமடைய என்ன செய்யணும் ? plus: கே: மோட்சமடைய என்ன செய்யணும் ? plon: கே: மோட்சமடைய என்ன செய்யணும் ?
tam : ப: மோட்சம்ன்னா என்னன்னு தெரிஞ்சுக்கணும். scr : ப: மோட்சம்ன்னா என்னன்னு தெரிஞ்சுக்கணும். plus: ப: மோட்சம்ன்னா என்னன்னு தெரிஞ்சுக்கணும். plon: ப: மோட்சம்ன்னா என்னன்னு தெரிஞ்சுக்கணும்.
tam : கே: உபாசனை பண்ணணுமா? scr : கே: உபாசனை பண்ணணுமா? plus: கே: உபாசனை பண்ணணுமா? plon: கே: உபாசனை பண்ணணுமா ?
tam : ப: உபாசனை சித்த நிரோதத்துக்காகத்தான். scr : ப: உபாசனை சித்த நிரோதத்துக்காகத்தான். plus: ப: உபாசனை சித்த நிரோதத்துக்காகத்தான். plon: ப: உபாசனை சித்த நிரோதத்துக்காகத்தான்.
Test 2: Page from 2003 publication
This turned out to be an english page!
Summary: Script tamil is good, but not perfect Plus is also getting there. Others are not good at all. Since this page turns out to be black background, I assume tam training fails badly.
tam : 111 ச scr : ARIVIAL plus: E plon: 1
tam : ம்பிப் scr : UPL plus: S plon: TAMILIN
tam : ட்ப 80) scr : VIDIVELLI plus: L plon: VIDIVELLI
tam : 1- தப்பி இப இவ scr : a CI) plus: (The Morning Star of plon: __ 3
tam : 15:11) அர.11 11) scr : Scientific Tamil) plus: Scientific Tamil) plon: Scientific Tamil)
tam : (௦1/௪ scr : Compiler : plus: Compiler : plon: @
tam : மண பபப பிப scr : R. RAMASAMY plus: R. RAMASAMY plon: __
tam : டார௦6ீ : ₹5,50/- scr : Price : Rs.50/- plus: S plon: __
tam : ப19101 9-8 201070) (6:90 (61) scr : MEERAA PUBLICATION plus: MEERAA PUBLICATION plon: MEERAA PUBLICATION
tam : அ ப). 111: [11-12 scr : AE-5 (103), Anna Nagar, plus: AE-5 (103), Anna Nagar, plon: AE-5 (103), Anna Nagar,
tam : 11111 டமி scr : Chennai - 600 040. plus: Chennai - 600 040. plon: @
Third test is page from 2003 book relatively good quality scan
Summary: Scr and PlusON are both very good. Though Scr misses one line. The header line is missed by both of these but tam catches it right. Overall, this page is recognized well.
tam : தோகுபபாசிரியா 6 scr : TCT 13 plus: W <} plon: __ —
tam :
scr :
plus:
plon:
tam : கதிர்' உட்பட வேறு எந்தத் தமிழ் இதழும் அறிவியல் தமி scr : கதிர்' உட்பட வேறு எந்தத் தமிழ் இதழும் அறிவியல் தமி plus: கதிர்§ உட்பட வேறு எந்தத் தமிழ் இதழும் அறிவியல் தமி plon: கதிர்' உட்பட வேறு எந்தத் தமிழ் இதழும் அறிவியல் தமி
tam : முக்குச் செய்திருக்காத சேவையைச் செய்து வருகிறது '* scr : ழுக்குச் செய்திருக்காத சேவையைச் செய்து வருதிறது'' plus: ழுக்குச் செய்திருக்காத சேவையைச் செய்து வருகிறது plon: ழுக்குச் செய்திருக்காத சேவையைச் செய்து வருகிறது ''
tam : என 'தாய்' வார இதழில் வெளிவந்த தலையங்கம், மணவை scr : என 'தாய்' வார இதழில் வெளிவந்த தலையங்கம், மணவை plus: ப plon: என 'தாய்' வார இதழில் வெளிவந்த தலையங்கம், மணவை
tam : யாரே ஓர் இயக்கமாக இயங்கி அறிவியல் தமிழை வளர்த்து scr : யாரே ஓர் இயக்கமாக இயங்கி அறிவியல் தமிழை வளர்த்து plus: யாரே ஓர் இயக்கமாக இயங்கி அறிவியல் தமிழை வளர்த்து plon: யாரே ஓர் இயக்கமாக இயங்கி அறிவியல் தமிழை வளர்த்து
tam : வருவதைப் பாராட்டுகிறது. scr : வருவதைப் பாராட்டுறெது. plus: வருவதைப் பாராட்டுகிறது. plon: __
tam : தமிழ் வளர்ச்சியில் அதிலும் அறிவியல் தமிழ் வளர்ச் scr : தமிழ் வளர்ச்சியில் அதிலும் அறிவியல் தமிழ் வளர்ச் plus: தமிழ் வளர்ச்சியில் அதிலும் அறிவியல் தமிழ் வளர்ச் plon: தமிழ் வளர்ச்சியில் அதிலும் அறிவியல் தமிழ் வளர்ச்
tam : சியில் தனி வழி கண்டு, அதை வலுவான ராஜபாட்டை scr : C11 (P17 OV OU TELM plus: ப plon: சியில் தனி வழி கண்டு, அதை வலுவான ராஜபாட்டை
tam : யாக்கி, ஆற்றல்மிகு அறிவியல் மொழியாகத் தமிழை ஆக்கி scr : யாக்கி, ஆற்றல்மிகு அறிவியல் மொழியாகத் தமிழை ஆக்கி plus: ி plon: யாக்கி, ஆற்றல்மிகு அறிவியல் மொழியாகத் தமிழை ஆக்கி
tam : வரும் பாங்கை, பாட்டுக்கொரு புலவன் பாரதி இன்றி scr : வரும் பாங்கை, பாட்டுக்கொரு புலவன் பாரதி இன்றி plus: பங plon: வரும் பாங்கை, பாட்டுக்கொரு புலவன் பாரதி இன்றி
tam : ருந்தால் மணவையாரின் தமிழ்ப் பணி பற்றி என்ன பாடியி scr : ருந்தால் மணவையாரின் தமிழ்ப் பணி பற்றி என்ன பாடியி plus: ருந்தால் மணவையாரின் தமிழ்ப் பணி பற்றி என்ன பாடியி plon: ருந்தால் மணவையாரின் தமிழ்ப் பணி பற்றி என்ன பாடியி
tam : ருப்பான் என்பதை நினைத்துப் பார்க்கும் கவிஞர் தெசிணி, scr : ருப்பான் என்பதை நினைத்துப் பார்க்கும் கவிஞர் தெசிணி, plus: 3 plon: ருப்பான் என்பதை நினைத்துப் பார்க்கும் கவிஞர் தெசிணி,
tam : இடப த படத ப 62] scr : “சென்றிடுவீர் திக்கெங்கும் திரட்டிவந்தே plus: O plon: ‘“'சென்றிடுவீர் திக்கெங்கும் திரட்டிவந்தே
tam : செந்தமிழை செழிக்க வைப்பீர் என்று சொன்னோன் scr : செந்தமிழை செழிக்க வைப்பீர் என்று சொன்னோன் plus: செந்தமிழை செழிக்க வைப்பீர் என்று சொன்னோன் plon: செந்தமிழை செழிக்க வைப்பீர் என்று சொன்னோன்
tam : இன்றிருநீதால் எங்கள் மணவை முஸ்தாபா scr : இன்றிருந்தால் எங்கள் மணவை முஸ்தாபா plus: இன்றிருந்தால் எங்கள் மணவை முஸ்தாபா plon: [
tam : இயற்றிவரும் புது ஆக்கம் கண்டு போற்றி scr : இயற்றிவரும் புது ஆக்கம் கண்டு போற்றி plus: இயற்றிவரும் புது ஆக்கம் கண்டு போற்றி plon: இயற்றிவரும் புது ஆக்கம் கண்டு போற்றி
tam : வெற்றிகொண்டே புதுஇயல்கள் அனைத்தையுந்தான் scr : வெற்றிகொண்டே புதுஇயல்கள் அனைத்தையுந்தான் plus: வெற்றிகொண்டே புதுஇயல்கள் அனைத்தையுந்தான் plon: வெற்றிகொண்டே புதுஇயல்கள் அனைத்தையுந்தான்
tam : வேகமுடன் தமிழ் வளரும் நின்னால்! என்றே scr : வேகமுடன் தமிழ் வளரும் நின்னால்! என்றே plus: 3 plon: வேகமுடன் தமிழ் வளரும் நின்னால்| என்றே
tam : மன்றினிலே உயர்த்தி வைத்துப் பாடி நிற்பான் scr : மன்றினிலே உயர்த்தி வைத்துப் பாடி நிற்பான் plus: ப plon: __
tam : வரகவிஞன் பாரதியும் இன்றில்லையே/' scr : வரகவிஞன் பாரதியும் இன்றில்லையே!'' plus: ய plon: வரகவிஞன் பாரதியும் இன்றில்லையே!''
tam : என்று தன் ஏக்க உணர்வை வெளிப்படுத்துகிறார். இவ்வாறு scr : என்று தன் ஏக்க உணர்வை வெளிப்படுத்துறொர். இவ்வாறு plus: G plon: என்று தன் ஏக்க உணர்வை வெளிப்படுத்துகிறார். இவ்வாறு
tam : பலதரப்பட்டவர்களாலும் ஏற்றிப் போற்றும் வகையில் scr : பலதரப்பட்டவர்களாலும் ஏற்றிப் போற்றும் வகையில் plus: ப plon: பலதரப்பட்டவர்களாலும் ஏற்றிப் போற்றும் வகையில்
tam : ஆக்கப்பணி செய்து தமிழின் ஆற்றலை அனைத்து வகை scr : ஆக்கப்பணி செய்து தமிழின் ஆற்றலை அனைத்து வகை plus: G plon: ஆக்கப்பணி செய்து தமிழின் ஆற்றலை அனைத்து வகை
tam : யிலும் வெளிப்படுத்தி வரும் மணவையாரின் முயற்சி scr : மயிலும் வெளிப்படுத்தி வரும் மணவையாரின் முயற்சி plus: களை, அவரது அறிவியல் மற்றும் சமூக, இலக்கியப் பணி plon: யிலும் வெளிப்படுத்தி வரும் மணவையாரின் முயற்சி
Test 4: another page from 2003 tam and plon are good but scr misses certain lines as english! I will write some code that retrieves confidence from each recognizer and also list that.
Results of Shree's new recognizer (old and new)
28 தமிழ வளாச்சியில் மணவைபா£ செயத பூ£பி'
பெரிதும் விரும்புகிறேன். உன்னால் சில தமிழ்ப் பணிகளை
தமிழில் சில சாதனைகளைச் செய்ய முடியும் என்பது என் திடமான நம்பிக்கை. நீயும் அப்படிப்பட்ட இலட்சிய வெறி யோடு இருப்பதை நான் நன்கறிவேன். பிற்காலத்தில் உலகம் உன்னை இனங்காணவும், இஸ்லாமியப் பெயரின் மூலம் உன் இஸ்லாமியச் சமுதாயத்தின் பெருமை உயரவும் வாய்ப்பாக இருக்கும்'' என்று கூறி முஸ்தபாவை ஊக்கு வித்தார். தன் குருநாதர் தெ.பொ.மீ அவர்களின் கருத்துக்கு எப்போதும் முக்கியத்துவம் தந்து அக்கருத்தை அப்படியே பின்பற்றும் முஸ்தபா, எப்போதும் தன்பெயரோடு தன் ஊரான 'மணப்பாறை?'யின் சுருக்கமான ‘'மணவை'யை இணைத்துக் கொள்வது வழக்கம். அவ்வூரின் மீது அவருக்கு எப்போதும் அலாதிப் பிரியம். தான் இளமையில் திறம்பட உருவாகக் காரணமாக இருந்த ஊர் என்ற நன்றியுணர்வால் தன் பெயரை ‘மணவை முஸ்தபா' என அமைத்துக் கொண் டார். அதுவும் கூட இன்று ‘மணவையார்’ எனச் சுருங்கி விட் டது. தமிழார்வமும் தமிழறிவும் இவருள் பொங்கிப் பொழி யவே தமிழை வளர்க்க, வளப்படுத்த இவர் உள்ளம் அவாவி யதில் வியப்பொன்றும் இல்லை.
%
இவர் பள்ளியில் படிக்கும் காலத்தில் திராவிட இயக்கச் செயல்பாடுகள் தமிழார்வலர்களிடையே ஒருவித மலர்ச்சியை - மனக்கிளர்ச்சியை உருவாக்கிக் கொண்டிருந் தற்கொப்ப, இவரும் அவ்வுணர்வுகட்கு ஆட்பட்டவராக இருந்தார். இந்தி எநிர்ப்புணர்வும் தனித்தமிழார்வமும் போட்டி போட்டுக் கொண்டு தமிழ்ப் பற்றை வளர்க்கலா யின. பேச்சுப் போட்டிகளிலும் கட்டுரைப் போட்டிகளிலும் தொடர்ந்து பள்ளி அளவில், மாவட்ட அளவில், மாநில
Tournament result display:
tam : 29 தமிழ வளாச்சியில் மணவையரா சேயத புரட்சி! scr : 28 தமிழ வளாச்சியில் மணவையரா செயத புரடசி! plus: 28 E plon: 28 தமிழ வளாச்சியில் மணவைபா£ செயத பூ£பி'
tam : பெரிதும் விரும்புகிறேன். உன்னால் சில தமிழ்ப் பணிகளை scr : பெரிதும் விரும்புகிறேன். உன்னால் சில தமிழ்ப் பணிகளை plus: ப plon: பெரிதும் விரும்புகிறேன். உன்னால் சில தமிழ்ப் பணிகளை
tam : தமிழில் சல சாதனைகளைச் செய்ய முடியும் என்பது என் scr : தமிழில் சில சாதனைகளைச் செய்ய முடியும் என்பது என் plus: தமிழில் சில சாதனைகளைச் செய்ய முடியும் என்பது என் plon: தமிழில் சில சாதனைகளைச் செய்ய முடியும் என்பது என்
tam : திடமான நம்பிக்கை. நீயும் அப்படிப்பட்ட இலட்சிய வெறி scr : திடமான நம்பிக்கை. நீயும் அப்படிப்பட்ட இலட்சிய வெறி plus: ந plon: திடமான நம்பிக்கை. நீயும் அப்படிப்பட்ட இலட்சிய வெறி
tam : யோடு இருப்பதை நான் நன்கறிவேன். பிற்காலத்தில் scr : யோடு இருப்பதை நான் நன்கறிவேன். பிற்காலத்தில் plus: ழு plon: யோடு இருப்பதை நான் நன்கறிவேன். பிற்காலத்தில்
tam : உலகம் உன்னை இனங்காணவும், இஸ்லாமியப் பெயரின் scr : உலகம் உன்னை இனங்காணவும், இஸ்லாமியப் பெயரின் plus: S plon: உலகம் உன்னை இனங்காணவும், இஸ்லாமியப் பெயரின்
tam : மூலம் உன் இஸ்லாமியச் சமுதாயத்தின் பெருமை உயரவும் scr : மூலம் உன் இஸ்லாமியச் சமுதாயத்தின் பெருமை உயரவும் plus: ந plon: மூலம் உன் இஸ்லாமியச் சமுதாயத்தின் பெருமை உயரவும்
tam : வாய்ப்பாக இருக்கும்'” என்று கூறி முஸ்தபாவை ஊக்கு scr : வாய்ப்பாக இருக்கும்'' என்று கூறி முஸ்தபாவை ஊக்கு plus: ந plon: வாய்ப்பாக இருக்கும்'' என்று கூறி முஸ்தபாவை ஊக்கு
tam : வித்தார். தன் குருநாதர் தெ.பொ.மீ அவர்களின் கருத்துக்கு scr : OVE ACUI UO ROUTAN OTE TUG TUE TIE IC) plus: ந plon: வித்தார். தன் குருநாதர் தெ.பொ.மீ அவர்களின் கருத்துக்கு
tam : எப்போதும் முக்கியத்துவம் தந்து அக்கருத்தை அப்படியே scr : எப்போதும் முக்கெத்துவம் தந்து அக்கருத்தை அப்படியே plus: | plon: எப்போதும் முக்கியத்துவம் தந்து அக்கருத்தை அப்படியே
tam : பின்பற்றும் முஸ்தபா, எப்போதும் தன்பெயரோடு தன் scr : பின்பற்றும் முஸ்தபா, எப்போதும் தன்பெயரோடு தன் plus: S plon: பின்பற்றும் முஸ்தபா, எப்போதும் தன்பெயரோடு தன்
tam : ஊரான 'மணப்பாறை'யின் சுருக்கமான 'மணவை'யை scr : dy (1 18 LT TT 111 IOC plus: ப ிங plon: ஊரான 'மணப்பாறை?'யின் சுருக்கமான ‘'மணவை'யை
tam : இணைத்துக் கொள்வது வழக்கம். அவ்வூரின் மீது அவருக்கு scr : இணைத்துக் கொள்வது வழக்கம். அவ்வூரின் மீது அவருக்கு plus: [ஆக plon: இணைத்துக் கொள்வது வழக்கம். அவ்வூரின் மீது அவருக்கு
tam : எப்போதும் அலாதிப் பிரியம். தான் இளமையில் திறம்பட scr : எப்போதும் அலாதிப் பிரியம். தான் இளமையில் திறம்பட plus: 2 plon: எப்போதும் அலாதிப் பிரியம். தான் இளமையில் திறம்பட
tam : உருவாகக் காரணமாக இருந்த ஊர் என்ற நன்றியுணர்வால் scr : உருவாகக் காரணமாக இருந்த ஊர் என்ற நன்றியுணர்வால் plus: உருவாகக் காரணமாக இருந்த ஊர் என்ற நன்றியுணர்வால் plon: உருவாகக் காரணமாக இருந்த ஊர் என்ற நன்றியுணர்வால்
tam : தன் பெயரை 'மணவை முஸ்தபா' என அமைத்துக் கொண் scr : தன் பெயரை 'மணவை முஸ்தபா' என அமைத்துக் கொண் plus: ப plon: தன் பெயரை ‘மணவை முஸ்தபா' என அமைத்துக் கொண்
tam : டார். அதுவும் கூட இன்று 'மணவையார்: எனச் சுருங்கி விட் scr : OTE ECOL LEEEEUILTEIM plus: டார். அதுவும் கூட இன்று ‘மணவையார்’ எனச் சுருங்கி விட் plon: டார். அதுவும் கூட இன்று ‘மணவையார்’ எனச் சுருங்கி விட்
tam : டது. தமிழார்வமும் தமிழறிவும் இவருள் பொங்கிப் பொழி scr : டது. தமிழார்வமும் தமிழறிவும் இவருள் பொங்கிப் பொழி plus: S plon: டது. தமிழார்வமும் தமிழறிவும் இவருள் பொங்கிப் பொழி
tam : யவே தமிழை வளர்க்க, வளப்படுத்த இவர் உள்ளம் அவாவி scr : யவே தமிழை வளர்க்க, வளப்படுத்த இவர் உள்ளம் அவாவி plus: ய plon: யவே தமிழை வளர்க்க, வளப்படுத்த இவர் உள்ளம் அவாவி
tam : யதில் வியப்பொன்றும் இல்லை. scr : யதில் வியப்பொன்றும் இல்லை. plus: S plon: யதில் வியப்பொன்றும் இல்லை.
tam : தொடர்ந்து பரிசுகள் scr : தொடர்ந்து பரிசுகள் plus: தொடர்ந்து பரிசுகள் plon: %
tam :
scr :
plus: ய
plon:
tam : இவர் பள்ளியில் படிக்கும் காலத்தில் திராவிட scr : [CY VIE 111 LL 1310 (LO plus: ந plon: இவர் பள்ளியில் படிக்கும் காலத்தில் திராவிட
tam : இயக்கச் செயல்பாடுகள் தமிழார்வலர்களிடையே ஒருவித scr : இயக்கச் செயல்பாடுகள் தமிழார்வலர்களிடையே ஒருவித plus: ய்ய plon: இயக்கச் செயல்பாடுகள் தமிழார்வலர்களிடையே ஒருவித
tam : மலர்ச்சியை - மனக்கிளர்ச்சியை உருவாக்கிக் கொண்டிருந் scr : மலர்ச்சியை - மனக்கிளர்ச்சியை உருவாக்கிக் கொண்டிருந் plus: ் plon: மலர்ச்சியை - மனக்கிளர்ச்சியை உருவாக்கிக் கொண்டிருந்
tam : தற்கொப்ப, இவரும் அவ்வுணர்வுகட்கு ஆட்பட்டவராக scr : தற்கொப்ப, இவரும் அவ்வுணர்வுகட்கு ஆட்பட்டவராக plus: ழக யய plon: தற்கொப்ப, இவரும் அவ்வுணர்வுகட்கு ஆட்பட்டவராக
tam : இருந்தார். இந்தி எதிர்ப்புணர்வும் தனித்தமிழார்வமும் scr : OULU CE LTT CUE TTPO plus: போட்டி போட்டுக் கொண்டு தமிழ்ப் பற்றை வளர்க்கலா plon: இருந்தார். இந்தி எநிர்ப்புணர்வும் தனித்தமிழார்வமும்
tam : போட்டி போட்டுக் கொண்டு தமிழ்ப் பற்றை வளர்க்கலா scr : போட்டி போட்டுக் கொண்டு தமிழ்ப் பற்றை வளர்க்கலா plus: S plon: போட்டி போட்டுக் கொண்டு தமிழ்ப் பற்றை வளர்க்கலா
tam : யின. பேச்சுப் போட்டிகளிலும் கட்டுரைப் போட்டிகளிலும் scr : யின. பேச்சுப் போட்டிகளிலும் கட்டுரைப் போட்டிகளிலும் plus: ப plon: யின. பேச்சுப் போட்டிகளிலும் கட்டுரைப் போட்டிகளிலும்
Test 5: from 1988 good quality scan but with noise pixels on the page. This page has 'Ra, nai' using old forms. Script seems to catch the Ra and Nai correctly. PlusON is second best, but has many mistakes.
This is probably the starting point for improving tesseract for Tamil.
tam : க் scr : A plus: ‘ plon: ™
tam : 7 scr : 7 plus: 7 plon: 7
tam : 7. இவ்வுலகத்தில் பொருள்களெல்லாம் scr : 7. இவ்வுலகத்தில் பொருள்களெல்லாம் plus: 7. இவ்வுலகத்தில் பொருள்களெல்லாம் plon: 7. இவ்வுலகத்தில் பொருள்களெல்லாம்
tam : வேறுவேரறாகத் தோன்றுகின்றனவே, ஒன்று scr : வேறுவேறோகத் தோன்றுகின்றனவே, ஒன்று plus: வேறுவேறாகத் தோன்றுகின்றனவே, ஒன்று plon: வேறுவேறராகத் தோன்றுகின்றனவே, ஒன்று
tam : என்று எப்படி எண்ணுவேன், அதற்கு ஒரு scr : என்று எப்படி எண்ணுவேன், அதற்கு ஒரு plus: என்று எப்படி எண்ணுவேன், அதற்கு ஒரு plon: என்று எப்படி எண்ணுவேன், அதற்கு ஒரு
tam : “வழி உண்டா? என்று கேள்; சொல்லு scr : வழி உண்டா? என்று கேள்; சொல்லு plus: வழி உண்டா ? என்று கேள்; சொல்லு plon: வழி உண்டா? என்று கேள்; சொல்லு
tam : கிறேன் : 'ஒரு மரத்தில் இலை வேறு, பூவேறு, scr : கிறேன் : ஒரு மரத்தில் இலை வேறு, பூவேறு, plus: கிறேன் : ‘ஒரு மரத்தில் இலை வேறு, பூவேறு, plon: கிறேன் : ‘ஒரு மரத்தில் இலை வேறு, பூவேறு,
tam : காய் வேறு, களை வேறு--இப்படிக் காண் scr : காய் வேறு, கிளை வேறு இப்படிக் காண் plus: காய் வேறு, கிளை வேறு—இப்படிக் காண் plon: காய் வேறு, கிளை வேறு—இப்படிக் காண்
tam : கிறோமே. ஆனாலும் அவையெல்லாம் ஒன்றே . scr : கிறோமே. அனாலும் அவையெல்லாம் ஒன்றே . plus: கிறோமே. ஆனாலும் அவையெல்லாம் ஒன்றே . plon: கிறோமே. ஆனாலும் அவையெல்லாம் ஒன்றே . .
tam : மரம் என்ற சொல்லில் அவ்வளவும் அடங் scr : மரம் என்ற சொல்லில் அவ்வளவும் அடங் plus: மரம் என்ற சொல்லில் அவ்வளவும் அடங் plon: மரம் என்ற சொல்லில் அவ்வளவும் அடங்
tam : கியதே. அவ்வளவுக்கும் மூலம் ஒன்று, scr : கியகே. அவ்வளவுக்கும் மூலம் ஒன்று, plus: தியதே. அவ்வளவுச்கும் மூலம் ஒன்று, plon: கியதே. அவ்வளவுச்கும் மூலம் ஒன்று,
tam : உயிர் ஒன்று; அதுபோலவே, இவ்வுலகில் scr : உயிர் ஒன்று ; அதுபோலவே, இவ்வுலகில் , plus: உயிர் ஒன்று ; அதுபோலவே, இவ்வுலகில் . plon: உயிர் ஒன்று ; அதுபோலவே, இவ்வுலகில் .
tam : 'வேறு வேறாகக் காணப்படும்--எல்லாப் scr : (வேறு வேறாகக் காணப்படும்_—எல்லாப் plus: 'வேறு வேறாகக் காணப்படும்_எல்லாப் plon: வேறு வேருகக் காணப்படும்—எல்லாப்
tam : பொருள், எல்லா உட. ல், எல்லா உயிருக் scr : யொருள், எல்லா உட. ல், எல்லா உயிருக் plus: பொருள், எல்லா உட. ல், எல்லா உயிருக் plon: பொருள் , எல்லா உட. ல், எல்லா உயிருக்
tam : கும்--மூலம் ஒன்றே, உயிர் ஒன்றே. ஆகை ' scr : கும் மூலம் ஒன்றே, உயிர் ஒன்றே. ஆகை' plus: கும்—மூலம் ஒன்றே, உயிர் உன்ேே- ஆகை ‘ plon: கும்_மூலம் ஒன்றே, உயிர் ஊ்சே. ஆசை ‘
tam : யால் எல்லாம் ஒன்றே. scr : யால் எல்லாம் ஒன்றே. plus: யால் எல்லாம் ஒன்றே. plon: யால் எல்லாம் ஒன்றே .
tam : 8. ஓ! நல்லவனே [ எல்லாம் ஒன்றென் scr : 8. ஓ! நல்லவனே ! எல்லாம் ஒன்றென் plus: 8. ஓ ! நல௯வை 1 எல்லாம் ஒன்றென் plon: 8. ௐ ! ஃஃஃ 1 எல்லாம் ஒன்றென்
tam : பது நன்மைக்கோ, இமைக்கோ, நீயே scr : பது நன்மைக்கோ, திமைக்கோ, நீயே plus: பது நன்மைக்கோ, தீமைக்கோ, நீயே plon: பது நன்மைக்கோ, தீமைக்கோ, நீயே
tam : கவனி, தன்னைப்போல பிறரையும் பிறரைப் scr : கவனி, தன்னைப்போல பிறரையும் பிறரைப் plus: கவனி, தன்னைப்போல பிறரையும் பிறரைப் plon: கவனி, கன்னைப்போல பிறரையும் பிறரைப்
tam : போலத் தன்னையும் பார்க்கிறவனே scr : போலத் தன்னையும் பார்க்கிறவனே plus: போலத் த் ன் னை யும் பார்க்கிறவனே plon: போலத் த் ன் னை யு ம் பார்க்கிறவனே
Test 6 another page from 1988 Scr is best but has a few mistakes.
tam : ர scr : A plus: \{ plon: \’
tam : 37 ! scr : 37 ! plus: 37 : plon: 37 [
tam : என்னும் வரம் பை மீருதகாயிருக்கும். scr : என்னும் வரம்பை மீரறாததாயிருக்கும். plus: என்னும் வ ர ம் ை ப மீராதகாயிருக்கும். plon: என்னும் வ ர ம் பை மீராதகாயிருக்கும்.
tam : அனால், . சாந்தம் அடையாதவனுடைய scr : அனால், . சாந்தம் அடையா தவனுடைய plus: ஆனால், . சா ந் த ம் அடையாதவனுடைய plon: னால், . ச £ ந் க ம் அடையாதவனுடைய
tam : செய்கையில் உண்டாகும் மாறுதல்களோ, scr : செய்கையில் உண்டாகும் மாறுதல்களோ, plus: செய்கையில் உண்டாகும் மாறுதல்களோ; plon: செய்கை்யில் உண்டாகும் மாறுதல்களோ;
tam : வரம்பை மீறினவைசளாயிருக்கும். ஆத scr : வரம்பை மீறினவைகளாயிருக்கும். ஆத plus: வரம்பை மீறினனலவகளாயிருக்கும். ஆத plon: வரம்பை மீறினனவகளாயிருக்கும். ஆ5
tam : லால் மனக் குளிர்ச்சியானது இவனுக்கே scr : லால் மனக் குளிர்ச்சியானது இவனுக்கே plus: லால் மனக் குளிர்ச்சியானது இவனுக்சே plon: லால் மனக் குளிர்ச்சியான்து இவனுக்சே
tam : யன்றி உலகத்துக்கும் பெரிய நன்மையை scr : யன்றி உலகத்துக்கும் பெரிய நன்மையை plus: யன்றி உலகத்துக்கும் பெரிய் நன்மையை plon: யன்றி உலகத்துக்கும் பெரிய் நன்மையை
tam : உண்டு பண்ணுகிறது. உண்மையாய் நடக்க scr : உண்டு பண்ணுதிெது. உண்மையாய் நடக்க plus: உண்டு பண்ணுகிறது. உண்மையாய் நடக்க plon: உண்டு பண்ணுகிறது. உண்மையாய் நடக்க
tam : வேண்டிய வழியைக் காண்பிப்பது சாந்தம். scr : வேண்டிய வழியைக் காண்பிப்பது சாந்தம். plus: வேண்டிய வழினயைக் காண்பிப்பது சாந்தம். plon: வேண்டிய வழிலைக் காண்பிப்பது சாந்தம்.
tam : த, ஒருவன், கையில் விளக்கு. வைத்துக் scr : 5, ஓருவன், கையில் விளக்கு. வைத்துக் plus: ‘5. ஒருவன், கையில் விளக்கு: வைத்துக் plon: ¢5. ஒருவன், கையில் விளக்கு: வைத்துக்
tam : கொண்டு நடக்கிறான். அந்த விளக்குக்கும் scr : கொண்டு நடக்கிறான். அந்த விளக்குக்கும் plus: கொண்டு நடக்கிறான். அந்த விளச்குச்கும் plon: கொண்டு நடக்கிருன். அந்த விளச்கக்கும்
tam : இவ்வுலகிலுள்ள மேடு பள்ளங்களுக்கும் scr : இவ்வுலகிலுள்ள மேடு பள்ளங்களுக்கும் plus: இவ்வுலகிலுள்ள § மடு பள்ளங்களுக்கும் plon: இவ்வுலகிலுள்ள § ம டு பள்ளங்களுக்கும்
tam : ஏதாவது பகை உண்டா? இல்லை. ஆனால், scr : ஏதாவ்து பகை உண்டா ? இல்லை. ஆனால், plus: ஏதாவது பகை உண்டா ? இல்லை. ஆனால்,; plon: தாவது பகை உண்டா ? இல்லை. ஆனால்;
tam : விளக்குக்கும் இருட்டுக்குேமே பகை. scr : விளச்குக்கும் இருட்டுக்கு மே பகை. plus: விளச்குக்கும் இ ரு ட் டு க் சு மே பகை: plon: வளச்குக்கும் இ ரு ட் டு க் கு «மே பசை:
tam : விளக்கு, இருட்டை ஓட்டி, மேடுபள்ளங் : scr : விளக்கு, இருட்டை ஓட்டி, மேடுபள்ளங் plus: விளக்கு, - இருட்ஶ்டை ஓட்டி, மேடுபள்ளங் plon: வளச்சு, 7 இருட்ல்ட ஓட்டி, மேடுபள்ளங்
tam : சளின் நிலைமையை அறிவித்து, விளக் scr : களின் நிலைமையை அறிவிதீன், விளக் plus: ஏஎளின்§ நிலைமையை அறிவித்ச் ¢ ஞவிளக் plon: எஉளின்§ நிலீலிமயை அறிவித்ச் ¢ ஞிளக்
tam : குக்கு உடையவனை ஏறியும், இறங்கியும், scr : குக்கு உடையவனை ஏறியும், இறங்கியும். plus: குக்கு உடையவனை ஏறியும், இறங்கியும்• plon: குக்கு உடையவனை எஏறியும். இறங்கியும்•
tam : ஒதுங்கியும் ஜாக்கரதையாய்ப் பபோக்ச் scr : ஒதுங்கியும் ஜாக்கிரதையாய்ப். போகச் plus: ஒதுங்கியும் ஜாச்கிரதையாய்ப் போ க்ச் plon: ஒதுங்கியும் ஜாச்கிரதையாய்ப் « போ க் ச்
tam : செய்கிறது; மேடு என்- காலை இ. . scr : செய்கிறது; *மேடு என், காலை இட . plus: செய்கிறது; • மேடு என்,- க் £ லை இட . plon: செய்கிறது; " • மேடு என், க் £ லை இட .
tam : றிற்று£* என்றும், *பள்ளம் என்னைக் கீழே scr : றிற்று” என்றும், “பள்ளம் என்னைக் கீழே plus: றிற்றுʼ¢§ என்றும், ‘பள்ளம் என்னைக் தீழே plon: றிற்று”§ என்றும், ‘¢*பள்ளம் என்னைக் கீழே
tam : ் தள்ளிற்று”” என்றும் வீணாய் அவைகள் மீது scr : ' தள்ளிற்று?” என்றும் வீணாய் அவைகள் மீது plus: ‘ 'தள்ளிற்றுʼ¢§ என்றும் வீணாய் அவைகள் மீது plon: ’ 'ள்ளிற்று’’§ ச்ன்றும் வீணாய் அவைகள் மீது
tam : ர் scr : i plus: } plon: /
Test 7 is a book from 1961 (on american libraries)
Scan quality is medium or low. Script/Tamil is better than tam and pluson too. (I know pluson training is still proceeding)
--
tam : 11 scr : 11 plus: 41 plon: 11
tam : தல் அமெரிக்க நாலகம் scr : முதல் அமெரிக்க நூலகம் plus: ஶமுதல் அமெரிக்க நூலகம் plon: «ுதல் அமெரிக்க நூலகம்
tam : பாதன் முதலில் வர்சீனியாவில் (௫ம்) என்- scr : பறற முதலில் வர்சீனியாவில் (Vரஜ்றiக) என் plus: புூன்முதலில் வர்சீனியாவில் (Virginia) என் plon: பூன் முதலில் வர்சீனியாவில் (Virginia) என்_
tam : பிகோ னார்௦) என்னுமிடத்தில் தொடங்கப்பட்ட scr : பிகோ (Henrico) என்னுமிடத்தில் தொடங்கப்பட்ட plus: ஶ்~ஃஈ£ (Henரபico) என்னுமிடத்தில் தொடங்கப்பட்ட plon: . (ஈர்) என்னுமிடத்தில் தொடங்கப்பட்ட
tam : ரி நாலகம்தான் முதல் அமெரிக்க நூலகமாகும்- scr : ரி நரலகம்தான் முதல் அமெரிக்க நூலகமாகும்* plus: ஶாரி நாலகம்தான் முதல் அமெரிக்க நூலகமாகும்: plon: மாரி நாலகம்தான் முதல் அமெரிக்க நூலகமாகும்:
tam : ஒர்லைலூரி கி.பி. 1622-இல் தொடங்கப்பட்டது. scr : க்கல்லூமி கிபி. 1622-இல் தொடங்கப்பட்டது. plus: ஜஶ்ஃ்லாரி கி.பி. 1622-இல் தொடங்கப்பட்டது. plon: ழூர்ஶஃலஶ்லாஶி கி.பி. 16228-இல் தொடங்கப்பட்டது.
tam : ஏல் அதே ஆண்டில் ஏற்பட்ட உள்நாட்டுக் கலகத் scr : நனுல் அதே ஆண்டில் ஏற்பட்ட உள்நாட்டுக் கலகத் plus: ஶூஶல்ை அதே ஆண்டில் ஏற்பட்ட உள்நாட்டுக் கலகத் plon: ஶூஶல் அதே ஆண்டில் ஏற்பட்ட உள்நாட்டுக் கலகத்
tam : ிடைகாரணமாக இந்நூலகம் நீர்மேற் குமிழி போலா scr : ரிம் காரணமாக இந்நூலகம் நீர்மேற் குமிழி போலா plus: ஶன் காரணமாக இந்நூலகம் நீர்மேற் குமிழி போலா plon: ன் காரணமாக இந்நூலகம் நீர்மேற் குமிழி போலா
tam : யிற்று. scr : மிஹ்று. plus: ஶிற்று- plon: ஶரிற்று-
tam :
scr :
plus:
plon:
tam :
scr :
plus:
plon:
tam :
scr :
plus:
plon:
tam : முதல் பல்கலைக் கழக நூலகம் scr : முதல் பல்கலைக் கழக நூலகம் plus: முதல் பல்கலைக் கழக நூலகம் plon: முதல் பல்கலைக் கழக நூலகம்
tam : அமெரிக்க நாட்டு முதற் பல்கலைக் கழக நூலகம் scr : அமெரிக்க நாட்டு முதற் பல்கலைக் கழக நூலகம் plus: அமெரிக்க நாட்டு முதற் பல்கலைக் கழக நூலகம் plon: அமெரிக்க நாட்டு முதற் பல்கலைக் கழக நூலகம்
tam : நர் வார்டு பல்கலைக் கழக நூலகமாகும். (காலாக scr : நர்வார்டு பல்கலைக் கழக நுூலகமாஞும். (Harward plus: ஶபூர்வார்டு பல்கலைக் கழக நூலகமாகும். (Harwara plon: ஶூர்வார்டு பல்கலைக் கழக நூலகமாகும். (Harward
tam : 11 ஈரமல்டு 11௧௫) கி.பி. 1689-இல் ரெவரண்ட் சான் scr : University Library) கி.ப9. 1628-இில் ரெவரண்ட் சான் plus: ₹niversity Library) கி.பி. 1688_இல் ரெவரண்ட் சான் plon: +niversity Library) கி.பி. 1688-இல் ரெவரண்ட் சான்
tam : ஒர்வர்ர்டு என்ற பெரியாரது பெயரால் ஆரம்பிக்கப் scr : அர்ர்ர்டு என்ற பெரியாரது பெயரால் ஆரம்பிக்கப் plus: ஆர்ர்ர்டு என்ற பெரியாரது பெயரால் ஆரம்பிக்கப் plon: ஶூர்ஃர்ர்டு என்ற பெரியாரது பெயரால் ஆரம்பிக்கப்
tam : ட்... இப்பல்கலைக் கழக நூலகத்திற்கு, அப்பெரியார் scr : ப். இப்பல்கலைக் கழக நூலகத்திற்கு, அப்பெரியார் plus: பட்ட இப்பல்கலைக் கழக நூலகத்திற்கு, அப்பெரியார் plon: பட்ட இப்பல்கலைக் கழக நூலகத்திற்கு, அப்பெரியார்
tam : அங்ரிடமிருந்த கிடைத்தற்கரிய நானூறு நூல்களை நன் scr : அங்ரிடமிருத்த கிடைத்தற்கரிய நானூறு நூல்களை நன் plus: அம்மிடமிருந்த கிடைத்தற்கரிய நானூறு நால்களை நன் plon: .ம்ரிடமிருந்த கிடைத்தற்கரிய நானூறு நால்க௭ நன்
tam : வொடையாகக் கொடுத்துதனினார். scr : பிொடையாகக் கொடுத்துதவினார். plus: ஃாடையாகக் கொடுத்துதவினர். plon: :ஃடையாகக் கொடுத்துதவினார்.
tam : சிற்றூர் நூலகங்கள் scr : சிற்றூர் நூலகங்கள் plus: சிற்றூர் நூலகங்கள் plon: சிற்றூர் நூலகங்கள்
tam : பதினேழாம் நூற்றாண்டின் இறுதியில்தான் scr : பதினேழாம் நூற்றாண்டின் இறுதியில்தான் plus: பதினேழாம் நூற்றுண்டின் இறுதியில்தான் plon: பதினேழாம் நூற்றாண்டின் இறுதியில்தான்
tam : ஏமெரிக்க நாட்டுப் பொது நூலக வரலாறு தொடங்கு scr : அமெரிக்க நாட்டுப் பொது நலக வரலாறு தொடங்கு plus: அமெரிக்க நாட்டுப் பொது நூலக வரலாறு தொடங்கு plon: ஔ)மெரிக்க நாட்டுப் பொது நாலக வரலாறு தொடங்கு
tam : றது என்னலாம். ரெவரண்ட் தாமசு ப்ரே (௩. 1%௦- scr : பிறது என்னலாம். ரெவரண்ட் தாமசு ப்ரே (Rev. Tho- plus: றது என்னலாம். ரெவரண்ட் தாமசு ப்ரே (Re. Tho- plon: றது என்னலாம். ரெவரண்ட் தாமச ப்ரே (Rன. Th-
tam : மடி 808) என்ற பெரியாரது பெரு முயற்சியால் சிற்றூர் scr : ப Bray) என்ற பெரியாரது பெரு முயற்சியால் சிற்றூர் plus: ஶஷs Bray) என்ற பெரியாரது பெரு முயற்சியால் சிற்றூர் plon: ஶு Bray) என்ற பெரியாரது பெரு முயற்சியால் சிற்றூர்
tam : றில் நூலகங்கள் பல பொது மக்களுக்காகத் திறக்கப் scr : ணில் நூலகங்கள் பல பொது மக்களுக்காகத் திறக்கப் plus: ஶஃில் நூலகங்கள் பல பொது மஃ்களுக்காகத் திறக்கப் plon: ,பரில் நூலகங்கள் பல பொது மக்களுக்காகத் திறக்கப்
tam : பட்டன. scr : ப்ட்ன. plus: பட்டன. plon: பட்டன.
tam : பொது நூலகங்கள் scr : பொது நூலகங்கள் plus: பொது நூலகங்கள் plon: பொது நூலகங்கள்
tam : மாளடைவில் பொது வரிப்பணத்திலிருந்து நகர் scr : நாளடைவில் பொது வரிப்பணத்திலிருந்து நகர் plus: ஶாளடைவில் பொது வரிப்பணத்திலிருந்து நகர் plon: ,மாளடைவில் பொது வரிப்பணத்திலிருந்து நகர்
tam : னிறக்கினரால் மக்களின் உபயோகத்திற்காக நூல் scr : பன் றஞ்தினரால் மக்களின் உபயோகத்திற்காக நூல் plus: ஶன்றத்தினரால் மக்களின் உபயோகத்திற்காக நூல் plon: |பன்ற,ந்,கினரால் மக்களின் உபயோகத்திற்காக நூல்
tam : ர் வாங்கி வைக்கப்பட்டன. டாக்டர் கிப் என்பவர் scr : நள் ாம்கி வைக்கப்பட்டன. டாக்டர் கீப் என்பவர் plus: ஈ் பாங்கி வைக்கப்பட்டன. டாக்டர் கீப் என்பவர் plon: ள் எாங்கி வைக்கப்பட்டன. டாக்டர் கீப் என்பவர்
tam : 19. 1072-இல் பாச்டன் நகரில் பொது நூலக scr : (பி. 1675-இல் பாச்டன் நகரில் பொது நூலக plus: பி. _1675-இல் பாச்டன் நகரில் பொது நூலக plon: |!.|ரி. 1675-இல் பாச்டன் நகரில் பொது நூலக
tam : பொன்று திறக்கப்பட்டது என்று எழுதியுள்ளார். சிலர் scr : பொறு திறக்கப்பட்டது என்று எழுதியுள்ளார். சிலர் plus: ஶ்பன்றடகிறக்கப்பட்டது என்று எழுதியுள்ளார். சிலர் plon: ஶபான்றூ ,கிறக்கப்பட்டது என்று எழுதியுள்ளார். சிலர்
Test 8 is the publication details page of 1961 book and has wide variety of fonts. Script Tamil is best and pluson is getting there.
tam : சாந்தி வெளியீடு: எண்-.29 scr : சாந்தி வெளியீடு : எண்-29 plus: சாக வௌமடடு: எ-29 plon: காஜ வௌடயடு: எண-29
tam : முதற்பதிப்பு: ஆகஸ்ட், 1967 scr : முதற்பதிப்பு: ஆகஸ்ட், 1961 plus: முதற்பதிப்பு: ஆகஸ்ட், 1961 plon: முதற்பதிப்பு: ஆகஸ்ட், 1961
tam : பதிப்புரிமை நாலகத்திற்கே scr : பதிப்புரிமை நாலகத்திற்கே plus: பத்ப்புர்ைை ஈஃகதந்ேே plon: ஏத்ப்புர்வ எ இந்
tam : சாதா பதுப்பு ரூ. 125 scr : சாதா பதிப்பு ரூ. 1-25 plus: சாதா பதிப்பு ஙூ. 125 plon: சாதா பதிப்பு ங. 125
tam : வரிசுப்பதப்பு சூ, 200 scr : வரிசுப்பதிப்பு சூ. 2-00 plus: உஈசுபபஜடபு கு. 2_00 plon: உரஈசுடபஜடபு க. ௨-௦௦
tam : அச்சடப்பெற்றது scr : அசடப்பெற்றது . plus: அச௫டபபெற்றது. plon: அச௫டபபெறநகு .
tam : பாரதி பிரிண்டர்ஸ், 119, பிராட்வே சென்னை... scr : பாரதி பிரிண்டர்ஸ், 119, பிராட்வே சென்னை !. plus: பாரதி பிரிண்டர்ஸ், 119, பீராட்வே சென்னை - 1. plon: பாரத் பிரிண்டர்ஸ், 119, பீராடடவே சென்னை:.
I have only found the following fonts with old style glyphs. Please check if these are ok to train on.
I have found many Tamil Unicode fonts, but all others seem to be modern style.
Thanks for clarification
Yes these are good
Sent from my iPhone
On Nov 3, 2019, at 10:34 AM, Shreeshrii notifications@github.com wrote:
I have only found the following fonts with old style glyphs. Please check if these are ok to train on.
I have found many Tamil Unicode fonts, but all others seem to be modern style.
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
tam - from default install, scripts/Tamil - from scripts, tamplus - from Shree and tamplus_oldnew from Shree
There are three github repos with traineddata files from Google, tessdata, tessdata_fast, and tessdata_best. So there will be tam and scripts/Tamil in each. Please compare all for speed and accuracy.
tamPlus.traineddata and tamplus_oldnew are from the same training (still continuing). tamplus (sent on email) had CER of 0.251 and the one uploaded in repo had CER of 0.135.
tesseract-ocr/langdata/tam has the training data for the models for tesseract's legacy engine. langdata_lstm/tam has the training data used for LSTM models, the training text in that is 36mb, and okfonts.txt has a list of fonts used for generating synthetic training data.
I have used a much smaller training text. Training has been running since Oct 28th.
Shree
For comparison I tried to add tessdata_best/script/Tamil, but after placing it under script directory with a modified name it failed to load. Here is the error:
TesseractError: (1, 'Error opening data file C:\Program Files\Tesseract-OCR/tessdata/script/BestTamil.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'script/BestTamil\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')
On Sun, Nov 3, 2019 at 5:40 PM Shreeshrii notifications@github.com wrote:
tesseract-ocr/langdata/tam has the training data for the models for tesseract's legacy engine. langdata_lstm/tam has the training data used for LSTM models, the training text in that is 36mb, and okfonts.txt has a list of fonts used for generating synthetic training data.
I have used only 3-4mb of training text. Training has been running since Oct 28th.
— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/KaniyamFoundation/ProjectIdeas/issues/71?email_source=notifications&email_token=AGMNHP52CTBIGUM5BP5BHPLQR54SLA5CNFSM4IPOWI32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEC6CWDI#issuecomment-549202701, or unsubscribe https://github.com/notifications/unsubscribe-auth/AGMNHP2QCOTDNIE4XBB4PPDQR54SLANCNFSM4IPOWI3Q .
Please check that file was downloaded correctly. Check the file size.
Since you are renaming, you can keep in tessdata directory itself, no need for subdirectory.
It should work, similar to the trainedata from my repo.
If you can create a ground truth text file for a couple of test pages, I would like to run some OCR evaluation tools to get objective error rates for comparison.
Ok shree
I will look at filesize
I had initially put it on the route directory but did not know if script drained Data has additional glyphs or formatting
That is why I placed it in the Script folder
I will check now using your suggestions
Sent from my iPhone
On Nov 5, 2019, at 10:29 AM, Shreeshrii notifications@github.com wrote:
Please check that file was downloaded correctly. Check the file size.
Since you are renaming, you can keep in tessdata directory itself, no need for subdirectory.
It should work, similar to the trainedata from my repo.
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
Sure I can create some across years and fonts How do I go about it and what form does tesseract need it? Any article link appreciated Shree
I have some ground truth files that I had prepared for ocropus training Scan lines and corresponding .txt files
Sent from my iPhone
On Nov 5, 2019, at 11:03 AM, Shreeshrii notifications@github.com wrote:
If you can create a ground truth text file for a couple of test pages, I would like to run some OCR evaluation tools to get objective error rates for comparison.
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
The page mages and corresponding text files can be used by the evaluation tools.
It will be great if you can share the ocropus training data. That combined with synthetic data will give better results (I hope).
tesseract-ocr/tesstrain has makefile based training using lineimages and their transcription.
Shree
I have uploaded ground truth for 5 pages from a single book. The book is from 1950s and uses old style letterings and numerals from both Tamil and Hindu-arabic style.
https://github.com/ravi-annaswamy/tesseract-tamil/
The scan quality varies from clear to dull, but there is no noise.
I have added 5 page images as well as the line and transcribed text in a subfolder with page number. Please review and let me know.
I can add more books and pages later.
Thanks Ravi
Shree please hold off, let me do a proof reading and let you know when I have reviewed all of it.
So many pages of page by page scanned page proofread page is available in Tamil wikisource. If required they can be used.
J. Balaji
On Wed, Nov 6, 2019, 7:14 PM Ravi Annaswamy notifications@github.com wrote:
Shree please hold off, let me do a proof reading and let you know when I have reviewed all of it.
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/KaniyamFoundation/ProjectIdeas/issues/71?email_source=notifications&email_token=AESGXRDQXGSDZU65YPM2PILQSLC2VA5CNFSM4IPOWI32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEDGSD4Q#issuecomment-550314482, or unsubscribe https://github.com/notifications/unsubscribe-auth/AESGXRCHO5MNLBNTPKUVPC3QSLC2VANCNFSM4IPOWI3Q .
Thanks Balaji, that is a great idea.
I have really good news.
Shree, I was able to test with tessbest script Tamil (you were right, my download had failed and I was not having correct model file) your plus_on is comparable to this new best script model. they both have few mistakes only, and diff mistakes :)
and it seems to be very good also. Very few errors. I will share a few examples. Let me know if you have an updated old/new trained model, I can use that.
tam : க் scr : A plus: ‘ plon: ™ bestsc: [ந
tam : 7 scr : 7 plus: 7 plon: 7 bestsc: 7
tam : 7. இவ்வுலகத்தில் பொருள்களெல்லாம் scr : 7. இவ்வுலகத்தில் பொருள்களெல்லாம் plus: 7. இவ்வுலகத்தில் பொருள்களெல்லாம் plon: 7. இவ்வுலகத்தில் பொருள்களெல்லாம் bestsc: 7. இவ்வுலகத்தில் பொருள்களெல்லாம்
tam : வேறுவேரறாகத் தோன்றுகின்றனவே, ஒன்று scr : வேறுவேறோகத் தோன்றுகின்றனவே, ஒன்று plus: வேறுவேறாகத் தோன்றுகின்றனவே, ஒன்று plon: வேறுவேறராகத் தோன்றுகின்றனவே, ஒன்று bestsc: வேறுவேறாகத் தோன்றுகின்றனவே, ஒன்று
tam : என்று எப்படி எண்ணுவேன், அதற்கு ஒரு scr : என்று எப்படி எண்ணுவேன், அதற்கு ஒரு plus: என்று எப்படி எண்ணுவேன், அதற்கு ஒரு plon: என்று எப்படி எண்ணுவேன், அதற்கு ஒரு bestsc: என்று எப்படி எண்ணுவேன், அதற்கு ஒரு
tam : “வழி உண்டா? என்று கேள்; சொல்லு scr : வழி உண்டா? என்று கேள்; சொல்லு plus: வழி உண்டா ? என்று கேள்; சொல்லு plon: வழி உண்டா? என்று கேள்; சொல்லு bestsc: வழி உண்டா? என்று கேள்; சொல்லு
tam : கிறேன் : 'ஒரு மரத்தில் இலை வேறு, பூவேறு, scr : கிறேன் : ஒரு மரத்தில் இலை வேறு, பூவேறு, plus: கிறேன் : ‘ஒரு மரத்தில் இலை வேறு, பூவேறு, plon: கிறேன் : ‘ஒரு மரத்தில் இலை வேறு, பூவேறு, bestsc: கிறேன்: 'ஒரு மரத்தில் இலை வேறு, பூவேறு,
tam : காய் வேறு, களை வேறு--இப்படிக் காண் scr : காய் வேறு, கிளை வேறு இப்படிக் காண் plus: காய் வேறு, கிளை வேறு—இப்படிக் காண் plon: காய் வேறு, கிளை வேறு—இப்படிக் காண் bestsc: காய் வேறு, கிளை வேறு—இப்படிக் காண்
tam : கிறோமே. ஆனாலும் அவையெல்லாம் ஒன்றே . scr : கிறோமே. அனாலும் அவையெல்லாம் ஒன்றே . plus: கிறோமே. ஆனாலும் அவையெல்லாம் ஒன்றே . plon: கிறோமே. ஆனாலும் அவையெல்லாம் ஒன்றே . . bestsc: கிறோமே. ஆனாலும் அவையெல்லாம் ஒன்றே .
tam : மரம் என்ற சொல்லில் அவ்வளவும் அடங் scr : மரம் என்ற சொல்லில் அவ்வளவும் அடங் plus: மரம் என்ற சொல்லில் அவ்வளவும் அடங் plon: மரம் என்ற சொல்லில் அவ்வளவும் அடங் bestsc: மரம் என்ற சொல்லில் அவ்வளவும் அடங்
tam : கியதே. அவ்வளவுக்கும் மூலம் ஒன்று, scr : கியகே. அவ்வளவுக்கும் மூலம் ஒன்று, plus: தியதே. அவ்வளவுச்கும் மூலம் ஒன்று, plon: கியதே. அவ்வளவுச்கும் மூலம் ஒன்று, bestsc: கியதே. அவ்வளவுக்கும் மூலம் ஒன்று,
tam : உயிர் ஒன்று; அதுபோலவே, இவ்வுலகில் scr : உயிர் ஒன்று ; அதுபோலவே, இவ்வுலகில் , plus: உயிர் ஒன்று ; அதுபோலவே, இவ்வுலகில் . plon: உயிர் ஒன்று ; அதுபோலவே, இவ்வுலகில் . bestsc: உயிர் ஒன்று ; அதுபோலவே, இவ்வுலகில்
tam : 'வேறு வேறாகக் காணப்படும்--எல்லாப் scr : (வேறு வேறாகக் காணப்படும்_—எல்லாப் plus: 'வேறு வேறாகக் காணப்படும்_எல்லாப் plon: வேறு வேருகக் காணப்படும்—எல்லாப் bestsc: வேறு வேருகக் காணப்படும்—எல்லாப்
tam : பொருள், எல்லா உட. ல், எல்லா உயிருக் scr : யொருள், எல்லா உட. ல், எல்லா உயிருக் plus: பொருள், எல்லா உட. ல், எல்லா உயிருக் plon: பொருள் , எல்லா உட. ல், எல்லா உயிருக் bestsc: பொருள், எல்லா உட. ல், எல்லா உயிருக்
tam : கும்--மூலம் ஒன்றே, உயிர் ஒன்றே. ஆகை ' scr : கும் மூலம் ஒன்றே, உயிர் ஒன்றே. ஆகை' plus: கும்—மூலம் ஒன்றே, உயிர் உன்ேே- ஆகை ‘ plon: கும்_மூலம் ஒன்றே, உயிர் ஊ்சே. ஆசை ‘ bestsc: கும்_மூலம் ஒன்றே, உயிர் ஒன்றே. ஆகை:
tam : யால் எல்லாம் ஒன்றே. scr : யால் எல்லாம் ஒன்றே. plus: யால் எல்லாம் ஒன்றே. plon: யால் எல்லாம் ஒன்றே . bestsc: யால் எல்லாம் ஒன்றே.
tam : 8. ஓ! நல்லவனே [ எல்லாம் ஒன்றென் scr : 8. ஓ! நல்லவனே ! எல்லாம் ஒன்றென் plus: 8. ஓ ! நல௯வை 1 எல்லாம் ஒன்றென் plon: 8. ௐ ! ஃஃஃ 1 எல்லாம் ஒன்றென் bestsc: 8. ஒ! நல்லவனே ! எல்லாம் ஒன்றென்
tam : பது நன்மைக்கோ, இமைக்கோ, நீயே scr : பது நன்மைக்கோ, திமைக்கோ, நீயே plus: பது நன்மைக்கோ, தீமைக்கோ, நீயே plon: பது நன்மைக்கோ, தீமைக்கோ, நீயே bestsc: பது நன்மைக்கோ, தமைக்கோ, நீயே
tam : கவனி, தன்னைப்போல பிறரையும் பிறரைப் scr : கவனி, தன்னைப்போல பிறரையும் பிறரைப் plus: கவனி, தன்னைப்போல பிறரையும் பிறரைப் plon: கவனி, கன்னைப்போல பிறரையும் பிறரைப் bestsc: கவனி, தன்னைப்போல பிறரையும் பிறரைப்
tam : போலத் தன்னையும் பார்க்கிறவனே scr : போலத் தன்னையும் பார்க்கிறவனே plus: போலத் த் ன் னை யும் பார்க்கிறவனே plon: போலத் த் ன் னை யு ம் பார்க்கிறவனே bestsc: போலத் தன்னையும் பார்க்கிறவனே
Test 9: book from 1952.
Verdict: Best script is the best so far, but has errors. Also the book scan quality is bad, so I probably need to do some preprocessing to remove noise, (blur and normalize etc).
Image filename: test_images\TVA_BOK_0010276_anna_vazhkkai_puyal_p30.png
tam : *தைதிகள் ப ப 31 scr : கைதிகள் ol plus: கைதிகள் 31 plon: கைநிகள் - - | 31 bestsc: கைதிகள் | | o1
tam :
scr :
plus:
plon:
bestsc:
tam : சமையற்காரலுக்குத் தானே ெபெண் பார்த்தா, தானே scr : சமையற்காமனுக்குத் தானே பெண் பார்த்னு; தானே plus: சமையற்காரனுக்குத் தானே பெ ப ண் பார்த்து, தானே plon: சமையற்காரனுச்குத் தானே « ப ண் பார்த்ல, தானே bestsc: சமையற்காரனுக்குத் தானே பெண் பார்த்து, தானே
tam : பணம் செலவுசெய்து சலியாணம் செய்துவைக் கார்-ஏவ்வ scr : பணம் செலவுசெய் ௮ கலியாணம் செய்தவைத்தார்-எவ்வ plus: பணம் செலவுசெய்து கலியாணம் செய்துவைத்தார்-எவ்வ plon: பணம் செலவுசெய்த கலியாணம் செய்,தவைத்தார்—எவ்வ bestsc: பணம் செலவுசெய்து கலியாணம் செய்துவைத்தார்-எவ்வ
tam : “சாவு கல்ல மனம் இருக்கவேண்டும். : இப்படிப்பட்டவர்கள் scr : வு ஈல்ல மனம் இருக்கவேண்டும். இப்படிப்பட்டவர்கள் plus: வு உல்ல மனம் இருக்சலேண்டும். இப்படிப்பட்டவர்கள் plon: ளவு ௩ல்ல மனம் இருக்கவேண்டும். இப்படிப்பட்டவர்கள் bestsc: ளவு நல்ல மனம் இருக்கவேண்டும். இப்படிப்பட்டவர்கள்
tam : -செளக்யமாக நானு யுகம் வாழ வேண்டும்” எண்று. பேக: scr : 'செளக்யமாக நானு யுகம் வாழகே வேண்டும்” என் பேசிக். plus: _செளக்யமாக தூ.ௐ யுகம் வாழலே வேண்டும்” என் -டேசிக் plon: செளச்யமாக ன.அ௮ யுகம் வாழலே வேண்டும்” என்௮ -பேசிக் bestsc: செளக்யமாக நானு யுகம் வாழலே வேண்டும்” என்று பேசிக்
tam : கொ ண்டனர். scr : கொ ண்டனர். plus: கொ ண்டனர். plon: ஶௌ ண்டனர். bestsc: கொ ண்டனர்.
tam : பல். - விளக்கிக்கொண்டே, கலியாணப் பெண்ணின் scr : பல். விளக்கிக்கொண்டே, கலியாணப் பெண்ணின் plus: பல் _அஷஃகொண்டே, கலியாணப் பெண்ணின் plon: பல் ஷன, கலியாணப் பெண்ணின் bestsc: பல் விளக்கிக்கொண்டே, கலியாணப் பெண்ணின்
tam : தாயாரிடம் வவத்தினிவார் பரிகாசம் பேசிக்கொண்டிருக்கி scr : தாயாரிடம் வைத்தீஸ்வரர் பரிகாசம் பேசிக்கொண்டிருக்கி plus: தாயாரிடம் உச்சீஸஉர் பரிகாசம் பேசிக்கொண்டிருக்கி plon: ஞ£யாரிடம் ங் பரிகாசம் பேசிக்கொண்டிருக்கி bestsc: தாயாரிடம் வைத்தீஸ்வரர் பரிகாசம் பேசிக்கொண்டிருக்கி
tam : மூர், ஏன் பார்வதி! நான்மட்டும் எப்போ௫ம். னே scr : மூர், ஜேன் பார்வதி! நான்மட்டும் எப்போதும்: னே plus: றுர், *““ஏன் பார்வதி! நான்மட்டும் எப்போதம் சினேசி plon: றூர், “என் பார்வதி! கான்மட்டும் எப்போஅம் சினேகி bestsc: மூர், “ஏன் பார்வதி! நான்மட்டும் எப்போதும் கனேக்
tam : தத்தை மறக்கமாட்டேன் என்ற விஷபம் இப்பவாவது scr : தத்தை மறக்கமாட்டேன் என்கற விஷயம் இப்பவாவது plus: தத்தை மறக்கமாட்டேன் என்கிற விஷயம் இப்பவாவது plon: தத்த மறக்கமாட்டேன் என்கிற விஷயம் ஜிப்பவாவத bestsc: தத்ல்த மறக்கமாட்டேன் என்ற விஷயம் இப்பவாவது
tam : புரிஞ்சுதா? பார் உன் மகளுக்கு. எல்லாச் ரும் இறப்பும் scr : புரிஞ்சுதா? பார் உன் மகரூக்கு. எல்லாச் சீரும் சிறப்பும் plus: புரிஞ்சதா? பார் உன் மகளுக்கு எல்லாச் சீரும் இழப்பும் plon: புரிஞ்சசா? பார் உன் மகளுக்கு எல்லாச் சீரும் இறப்பும் bestsc: புரிஞ்சுதா! பார் உன் மகளுக்கு. எல்லாச் சீரும் இறப்பும்
tam : சான் இட்ட இருந்து செய்கிறேன் .நீ. சவலைப்படாே தன்னு scr : நான் திட்ட இருர்அ செய்கிறேன் நீ் கவலைப்படாே தன்னு plus: நான் கிட்ட இருர் செய்கிறேன்-நீ கவலைப்படா§ தன்னு plon: நான் கிட்ட. இருர்.௫ செய்கிறேன்-நீ கவலைப்படா§ தன்னு bestsc: நான் இட்ட. இருந்து செய்கிறேன் நீ கவலைப்படாே தன்னு
tam : அன்று சொன்னதை. நிறை! வேற்றி வைத்தேனு இல்லையா, scr : அன்று சொன்னதை. நிறை வேற்றி ஸவைத்தேனா இல்லையா, plus: அன்ற சொன்னதை நிறை' ்« ப ்் கயா, plon: அன்௪௫ சொன்னதை நிறை' ்~ =~ஈூஉ இ்யா, bestsc: அன்று சொன்னதை நிறை' வேற்றி வைத்தே இல்லையா,
tam : பசர்” என்னார். ட scr : பார்” என்றார். £ plus: -பஈர்” என்றார். . plon: பார்” என்றார். . bestsc: யார்” என்றார். |
tam : ் இல்லாத scr : i இல்லாத plus: ‘ _இஶஉாச plon: ‘ _இாச bestsc: i இல்லாத
tam : அக்கரை, வே. யாருக்கு இருக்கமுடி.. 1 மனக. ் கிக்க சத்ய scr : அக்கமை, வேறே யாருக்கு இருக்கமுடி. uy மெனிக. கீங்க ௪ த்ய plus: அக்கை, வேதே யாருக்கு இருக்கமுடி. யு; ஏச்§ த சீங்க சத்ய plon: அக்கமை, வேரே யாருக்கு இருக்கமுடி. ய ச்௪ ’ சத்ய bestsc: அக்கரை, வேனே யாருக்கு இருக்குடி. ய; மங்க. : நீங்க சத்ய
tam : பன்ர ் கரு-சொன்ன வாக்யெ த், க்க சாப்பா ச் திணிக ங்க. ஏன் இ scr : 1] ்தறுசொன்ன வாக்யெ ஜீலை சக் காப்பா கீ தினிக நக் என் த் plus: -சந் ¢தரு-சொன்ன வாக்கிய ச்® கக் சாப்பா ச் தனி ங்க” _என் .ஔு plon: -சந் ‘ ரு-சொன்ன வாச்ஙிய ச்® கக் சாப்பா ச் கீ ங்க” என் ஜு bestsc: ] தரு -சொன்ன வாக்ய த்லை, சக் காப்பா ச் இண ங்க” என் LB
tam : ன்றி கூதிஞள். ள் ப பட்ட க scr : ஈன்றி கூதினள். A plus: ஈ்ச் ௭௪. _ -=***: plon: ச் கூ. . ": bestsc: ன்றி கூறினூள்.. | OE,
tam : “அதா சரிங்க. அவ விஷயமாக உக கஞுச்டு' scr : “அஅ சரிங்க. அவ விஷயமாக உங்க களுக் plus: “௮௮ சரிங்க. அல விஷயமாக உஜ்ஃ 5 plon: “அன சரிங்க. அவ விஷயமாசு உ்ஃ ஆ bestsc: அனு சரிங்க. அவ விஷயமாக உங்க களுக்
tam :
scr :
plus:
plon:
bestsc:
tam : ஆ பந்த கடட. ப பழத் பாம. ழ் scr : + வர்ற வ 1 ப plus: ஃ உ 7": ஜ் plon: ஃ - ஔ ூ bestsc: I ey EST
tam : “ஏழுற்திருடா மாயலசம்! ஏன்: ட இசாத்தரி,. scr : “ளமுக்திருடா மாயலரம்! என் தேத்த. இராத் தரி, plus: “எழுந்திருடா _மாயலசம்! =எஜ்: சேத்ச ஞாத்தா, plon: “எழுந்திருடா மாயவராம்! ‘எத் கேச் ஞூத்தா, bestsc: ளமுந்திருடா மாயலரம்! னு நேத்து இராத்திரி,
tam : சத்யசர்தன் கசாலட்சேபததைச்செய்து பது! ச்துப்போச்சி. scr : அத்யசுர்தன் சாலட்சேபத்கைச்செய்து ௮! 'ச்அப்போச்கி. plus: -சத்யசர்தன் சாலட்சேபத்தைச்செய்து ட ௐு ஈச்துப்போசசி plon: -சத்யசர்தன் சாலட்சேபத்தைச்செய்து . ச்ுப்போசசி bestsc: அத்யசந்தன் சாலட். சேபத்தைச்செய்து லு! க்துப்போச் ௫
tam : போலிருக்கு... எழுர் இரு, எழுக்திரு--எமர்க்தவன். ஜெயி : scr : போலிருக்கு. எழுக்திறா, எழுர்திறா]எமர்ச்தவன் ஜெயி plus: போலிருக்கு. எழுந்திரு, எழுக்திறு_எமாக்சலன் ஜெடி. plon: போலிருக்கு. எழுந்திரு, எழுக்கிரு_எமாச்தவன் வெடி . bestsc: போலிருக்கு. எழுந்திரு, எழுந்திரு -ஏமர்க்தவன் தஜெயி
tam : விலே, ஏய்த்அவிட்டவன் . வெளியிலே” என்று கூறினான்) scr : விலே, எய் த்அவிட்டவன் . வெளியிலே” என்று கூறினான்; plus: லிலே, ஏய்த்தகிட்டவன் . வெளியிலே” என்று உழினான்; plon: லிலே, எய்த்அவிட்டவன் . வெளியிலே” என்று ஃழினான்; bestsc: விலே, ஏய்த்துவிட்டவன் வெளியிலே” என்று கூறினன்;
tam : முத்த... ம் ம scr : முத்த . A i plus: மச்ச . “ _< plon: முத்ச• . ‘ ‘¢¢¢« ’ bestsc: முத்து, . EE LO
Test 10: book from 1937 /script and Best/Script are tad better than the best of others.
Image filename: test_images\Acc.No.8540-Ellam Ondre-1935_p10.png
tam : 6 எல்லாம் ஒன்றே scr : 6 எல்லாம் ஒன்றே plus: 8 எல்லாம் ஒன்றே plon: 8 எல்லாம் ஒன்ழே bestsc: 6 எல்லாம் ஒன்மே
tam : உடலில் புண் உண்டானால் சிகிச்சை செய்கிறோம்; அதில் scr : உடலில் புண் உண்டானால் சிச்சை செய்கிறோம்; அதில் plus: உடலில் புண் உண்டானால் சிகிச்சை செய்குறோம்; அதில் plon: உடலில் புண் உண்டானால் சிகிச்சை செய்க&றோம்; அதில் bestsc: உடலில் புண் உண்டானால் இர்சை செய்கிறோம்; அதில்
tam : உடலுக்குச் றிது துன்பம் உண்டாயினும் ௮து நன்மை scr : உடலுக்குச் திது தன்பம் உண்டாயினும் ௮௮ நன்மை plus: உடலுக்குச் சிறிது ௐன்பம் உண்டாயினும் ௮௫ ௩ஈன்மை plon: உடலுக்குச் சிறிது துன்பம் உண்டாயினும் ௮௮ ஈன்மை bestsc: உடலுக்குச் இறிது துன்பம் உண்டாயினும் அது ஈன்மை
tam : யின் பொருட்டே, அவ்வாறே நீ செய்கிற சில செய்கை scr : யின் பொருட்டே. அவ்வாறே நீ செய்ற லெ செய்கை plus: யின் பொருட்டே. அவ்வாறே நீ செய்கிற சில செய்கை plon: யின் பொருட்டே. அவ்வாறே நீ செய்கிற சில செய்கை bestsc: யின் பொருட்டே. அவ்வாறே நீ செய்ற இல செய்கை
tam : “களும் இருக்கும்; ௮ துவும் உலக ஈன்மைபின் பொருட் 2௨. scr : களும் இருக்கும்; அதவும் உலக நன்மையின் பொருட் ட. plus: :சளும் இரச்கும்; அதவும் உலக ஈன்மையின் பொருட் ட. plon: : களூம் இரச்சும்; ௮அவும் உலக ௩ன்மையின் 5பொருட் _—ே. bestsc: களும் இருக்கும்; அதுவும் உலக நன்மையின் பொருட் CE.
tam : ௮ கனால் நீ பேதபுத்தியுடையவ னாகமாட்டாய், ௭ருக்க scr : அ கனால் நீ பேதபுத்நியுடையவ னாகமாட்டாய், ௭ருக்க plus: ௮ #ீ பெதபுத்தியுடையவ னாகமாட்டாய். எருக்க plon: அ ௫னால் # பேதபுக்கிபுடைபவ னாகமாட்டாய். ௪ருக்ச bestsc: ௮ சனால் நீ பேதபுக்இியுடையவ னாகமாட்டாய், சுருக்க
tam : மாய்ச் சொல்லுகிறேன்: எக ஒன்று என்று உணர்ந்தவன், scr : மாய்ச் சொல்லுடன்: — ஒன்று என்று உணர்ந்தவன், plus: மாய்ச் சொல்லுகறேன்: ___ ஒன்று என்._று உணர்ந்தவன், plon: மாய்ச் சொல்லுகிறேன்: ---- ஒன் ௮ என்.று உணர்ந்தவன், bestsc: மாய்ச் சொல்லுகிறேன்: — ஒன்று என்று உணர்ந்தவன்,
tam : எப்படி. கடக்கவேண்டு2 மா அப்படி நடப்பான், ஓன்று scr : எப்படி கடக்கவேண்டு? மா அப்படி நடப்பான், ஓன்னு plus: எப்படி கடக்கவேண்டு? மோ அப்படி நடப்பான். ஒன்ல plon: எப்படி ௩டக்கவேண்டு?§ மோ .அப்படி நடப்பான். ஒன்ல - bestsc: எப்படி ௩டக்கவேண்டு? சமா அப்படி நடப்பான், ஒன்று
tam : என்ற உணர்ச்சி, ௮வனை உண் ைமையில் ஈடத்.துற.௫. scr : என்ற உணர்ச், அவனை உண்மையில் கடத்த. plus: என்ற உணர்ச்சி, அவனை உ ண் லைம யி ல் ஈடத்தகிறத- plon: என்ற உணர்ச்சி, அவனை உ ண் ம ம பி ல் கடத்தகிஉ௫- bestsc: என்ற உணர்ச், அவனை உண்மையில் நடத்துறது.
tam : அவனுக்குத் தவறுதல் என்பது இடையாது. அவன் தான் scr : அவனுக்குத் தவறுதல் என்பத நடையா அ. அவன் தான் plus: அவனுக்குத் தவறுதல் என்பது கிடையாது. அவன்தான் plon: அவனுக்£குத் தவறுதல் என்பது கிடையாஅ. அவன்தான் bestsc: அவனுக்குத் தவறுதல் என்பது இடையாது. அவன்தான்
tam : உலகத்தில் கண்காணவக்ச தெய்வம்... எல்லாம் ஒன்றே. scr : உலகத்தில் கண்காணவர்க தெய்வம். எல்லாம் ஒன்றே. plus: உலகத்தில் கண்காணவந்த தெய்வம். எல்லாம் ஒன்ஶே. plon: உலகத்தில் கண்காணவரந்க தெய்வம். எல்லாம் ஒன்றே. bestsc: உலகத்தில் கண்காணவர்க தெய்வம். எல்லாம் ஒன்றே.
tam :
scr :
plus:
plon:
bestsc:
tam : 1. நீ.யார்? இந்த உடல் நீயா? இர்.த உடல் நீயாயின்: scr : 1. நீ யார்? இந்த உடல் நீயா! இந்த உடல் கீயாயின் : plus: 1. £ யார்§ இந்த உடல் நீயா? இக்க உடல் கீயாயின்: plon: 1. ஈ யார்§ ஒந்த உடல் நீயா? இஶ்.ஈச உடல் நீயாபின் : bestsc: 1. நீ யார்? இந்த உடல் நீயா? இந்த உடல் நீயாயின்:
tam : நீ தங்கும்பொழு னு இவ்வுடலில் ஒரு பாம்பு ஊர்ற்தா லும் scr : கீ தங்கும்பொழு அ இவ்வுடலில் ஒரு பர்ம்பு ஊர்ந்தா லும் plus: கீ ,அங்கும்பொழு து இவ்வுடலில் ஒரு பர்ம்பு ஊர்ந்தா லும் plon: கீ ,அஶங்கும்பொழு __ இவ்வுடலில் ஒரு பர்ம்பு ஊர்ந்தா லும் bestsc: E அூங்கும்பொழு து இவ்வுடலில் ஒரு பர்ம்பு ஊர்ந்தா லும்
tam : நீ அ.தியமாட்டாயே, அப்படியிருக்க / நீ இவ்வுடம்பு scr : நீ அதியமாட்டாயே. அப்படியிருக்க நீ இவ்வுடம்பு plus: கீ அஇியமாட்டாயே. அப்படியருச்ச ! நீ இ வ் வு ட ம்பு plon: கீ அியமாட்டாயே. அப்படியிருச்ச ! நீ ஔ வ் வு ட ம் பு bestsc: நீ அறியமாட்டாயே. அப்படியிருக்க / நீ டுவ்வுடம்பு
tam : ஆவாயா? ஒருநாளும் நீ இவ்வுடம்பு ஆகாய். ஆகையால் scr : ஆவாயா? ஒருநாளும் நீ இவ்வுட.ம்பு ஆசாய். ஆகையால் plus: ஆவாயா? ஒருநாளும் ரீ ஒவ்வுடம்பு ஆசாய். ஆகையால் plon: ஆவாயா? ஒருஈளூம் ரீ இவ்வுடம்பு ஆசாய். ஆகையால் . bestsc: ஆவாயார?் ஒருநாளும் நீ இவ்வுடம்பு ஆகாய். ஆகையால்
tam : , இவவுடம்புக்கு (8 வருயுள் ளவன் நி. scr : இவ்வுடம்புக்கு (வேறாயுள் ளவன் நி. plus: இவ்வுடம்புக்கு வேறுயுள் ளவன் நீ. plon: இவ்வுடம்புக்கு வேறுயுள் ளவன் நி. bestsc: இவ்வுடம்புக்கு வேறுயுள் ளவன் நீ.
tam : உ. நி தூங்கும்போது கனாக் காண்இர/யே; அந்தக் scr : ஓ. நி தூங்கும்போது கனாச் காண்கரொயே; அந்தக் plus: 2. தீ தூங்கும்போது கனாக் காண்கிடுயே; அந்தக் plon: 8. நி தூங்கும்போது கனாச் காண்கிறாயே; அந்தக் bestsc: 9. நீ தூங்கும்போது கனாக் காண்டிமுயே; அந்தக்
tam : கனாவில் ₹ உன்னை ஏூதா ஒருவனாக எண்ணிக்கொள் கிருயே; scr : கனாவில் ஐ உன்னை ஏதோ ஒருவனாக எண்ணிக்கொள்றொயே; plus: கனாவில் : உன்னை ஏதோ ஒருவனா எண்ணிக்கொள்கிறுயே; plon: கனாவில் : உன்னை எதோ ஒருலனஈ எண்ணிக்கொள்கிறாயே; bestsc: கனாவில் உன்னை ஏதா ஒருவனாக எண்ணிக்கொள்கிறுயே;
tam : அவ் வொருவன் நீயா? அல்ல, அவ் வொருவன் நீயா scr : அவ் வொருவன் நீயா? அல்ல, அவ் வொருவன் நீயா plus: அவ் வொருவன் ரீய® அல்ல. அவ் லொருவன் நீயா plon: வ் வொருவள் ரீபா அல்ல. அவ் வொருவன் கீயா bestsc: அவ் வொருவன் நீயா? அல்ல, அவ் வொருவன் நீயா
tam : யிருந்தால், 8 விழித் துக்கொண்டவுடன் அவ் இஜுரருவன் scr : யிருந்தால்; # விழித் துக்கொண்டவுடன் அவ் வரராவன் plus: மருர்தால், ஙீ ஔஃஃண்டவுட்ன் அவ் த்ய plon: யருர்சால், நீ ஔ ணட அவ் இௐவூ£ருவன் bestsc: யிருந்தால், நீ கிழித்துக்கொண்டவுடன் அவ் இவுரறுவன்
tam : எங்கே? அவ் வொருவன் நீ அசாமற்போனதோடு அவ். scr : எங்கே? ' அவ் வொருவன் தீ அசாமற்போனசதோடி அவ். plus: எங்கே? அவ் வொருவன் கீ aாஶ்டோஎரசாு அவ் plon: எங்கே? அவ் வொருவன் கீ கஈாடச்ோஎரசாூ அவ் bestsc: எங்கே? ' அவ் வொருவன் நீ ஆகாமந்போன தடு அல்
tam : ப் scr : 7 plus: * plon: }§ bestsc: ர்
Shree, so two questions for you: 1. For ground truth can you use page image and page of text (line aligned)
Yes . Page level images with aligned groundtruth can be used, very easily for testing and ocr evaluation. For training, it will require generation of box files, the Wordstr format can be used, which aligns bounding box coordinates at a line level with its transcription.
With 2 models used with plus, based on debug info, tesseract compares the models for each word and chooses one. I will look up the option and share the output with you.
On Thu, Nov 7, 2019, 06:41 Ravi Annaswamy notifications@github.com wrote:
Shree, so two questions for you: 1. For ground truth can you use page image and page of text (line aligned)
- If I give two models with a plus (eg script+bestscript) how does Tesseract use them, does it send through both models and use their confidence to derive a mix or choose the better of the two?
— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/KaniyamFoundation/ProjectIdeas/issues/71?email_source=notifications&email_token=ABG37I64QPBVCKX3FTSVA33QSNTMHA5CNFSM4IPOWI32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEDIRN5I#issuecomment-550573813, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABG37I7TMCVDCPJCRC2DLULQSNTMHANCNFSM4IPOWI3Q .
I had updated shreeshrii/tessdata_tamil with newer models from training. I will check whether lower CER is reached in training and update more.
I think for further testing, you can eliminate the tam models if script ones are better.
Secondly, tessdata repo has the fast/integer version of tessdata_best/float model, while tessdata_fast has a different smaller int model.
So, all three of these can be compared for accuracy and speed.
https://github.com/tesseract-ocr/tesseract/issues/633#issuecomment-275348678
This is an old post regarding use of multiple models. I will try with different Tamil models and get back.
Thank you so much Shree
Sent from my iPhone
On Nov 6, 2019, at 8:55 PM, Shreeshrii notifications@github.com wrote:
tesseract-ocr/tesseract#633 (comment)
This is an old post regarding use of multiple models. I will try with different Tamil models and get back.
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
wordstrbox
config from image files - Uses Wordstr
and text for whole line
WordStr 114 4640 1907 4692 0 #Information Groups for public OPTIONAL, jaundice Proterozoic Have LOCATION
1908 4640 1912 4692 0
WordStr 112 4544 2015 4592 0 #mixed, Male By TEXT Cove... ¥ INSTABILITY About WERE Crimson THAT HOPKINS
2016 4544 2020 4592 0
@balajijagadesh
After adding this code, we can see an Tesseract OCR button in Page namespace (பக்கம் பெயர்வெளி) edit mode in Tamil wikisource. Example is shown in the image below.
Do you know which traineddata file it uses? Can it be changed?
Have you tried the GoogleOCR in ta.wikisource? I tested just now and it seems much faster than the tesseract OCR on the one page I tried.
https://ta.wikisource.org/wiki/%E0%AE%AA%E0%AE%AF%E0%AE%A9%E0%AE%B0%E0%AF%8D:Shree/common.js
//Tesseract OCR
mw.loader.load( '//wikisource.org/w/index.php?title=User:Putnik/TesseractOCR.js&action=raw&ctype=text/javascript' );
//Google OCR
mw.loader.load('//wikisource.org/w/index.php?title=MediaWiki:GoogleOCR.js&action=raw&ctype=text/javascript');
Let me know if you have an updated old/new trained model, I can use that.
Use the download link.
Shree I see you have updated new models. with as low as 4% error rate, so exciting. I will try to test them today.
Test 11.
Shree's plus old/new has become better, but still the tess best script tamil is better.
Image filename: test_images\Ellam_Ondre_1988_p40.png
scr : A pl007 ’ pl0041 - \ bestsc: \
scr : 37 ! pl007 37 ' ’ pl0041 37 ’ bestsc: 37 | :
scr : என்னும் வரம்பை மீரறாததாயிருக்கும். pl007 என்னும் வ ர ம் பை ப மீராதகாயிருக்கும்- pl0041 என்னும் வ ர ம் பை மீறாத காயிருக்கும். bestsc: என்னும் வரம்பை மீருததாயிருக்கும்.
scr : அனால், . சாந்தம் அடையா தவனுடைய pl007 . னால், . ச £ஈ ந் க ம் அடையாதவனுடைய pl0041 ஆனால், . ச £ ந் க ம் அடையாதவனுடைய bestsc: அனால், . சாந்தம் அடையா தவ்னுடைய
scr : செய்கையில் உண்டாகும் மாறுதல்களோ, pl007 செய்கையில் உண்டாகும் மாறுதல்களோ; pl0041 கெய்கையில் உண்டாகும் மாறுகதல்களோ; bestsc: செய்கையில் உண்டாகும் மாறுதல்களோ,
scr : வரம்பை மீறினவைகளாயிருக்கும். ஆத pl007 வரம்பை மீறினனவகரளாமயிருக்கும். ஆக pl0041 வரம்பை மீறினனவகளாயிருக்கும். ஆக bestsc: வரம்பை மீறினவைக்ளாயிருக்கும். ஆத
scr : லால் மனக் குளிர்ச்சியானது இவனுக்கே pl007 லால் மனக் குளிர்ச்சியான்து இவனுக்சே pl0041 லால் மனக்' குளிர்ச்சியானது இவனுக்சே bestsc: லால் மனக் குளிர்ச்சியானது இவனுக்கே
scr : யன்றி உலகத்துக்கும் பெரிய நன்மையை pl007 யன்றி உலகத்துக்கும் பெரிய் நன்மையை pl0041 யன்றி உலகத்துக்கும் பெரிய நன்மையை bestsc: யன்றி உலகத்துக்கும் பெரிய நன்மையை
scr : உண்டு பண்ணுதிெது. உண்மையாய் நடக்க pl007 உண்டு பண்ணுகிறது. உண்மையாய் நடக்க pl0041 உண்டு பண்ணுகிறது. உண்மையாய் நடக்க bestsc: உண்டு பண்ணுகிறது. உண்மையாய் நடக்க
scr : வேண்டிய வழியைக் காண்பிப்பது சாந்தம். pl007 வேண்டிய வழியைக் காண்பிப்பது சாந்தம்.. pl0041 வேண்டிய வழிவங்க் காண்பிப்பது சாந்தம். bestsc: வேண்டிய வழிங்யக் காண்பிப்பது சாந்தம்.
scr : 5, ஓருவன், கையில் விளக்கு. வைத்துக் pl007 '. ஒருவன், சையில் விளக்கு வைத்துக் pl0041 ’ 5. ஔருவன், கையில் விளக்கு: வைத்துக் bestsc: £5. ஒருவன், கையில் விளக்கு. வைத்துக்
scr : கொண்டு நடக்கிறான். அந்த விளக்குக்கும் pl007 கொண்டு நடக்கிருள். அந்த விளச்சக்கசுஶ் pl0041 கொண்டு நடக்கிறான். அந்த விளச்கக்சம bestsc: கொண்டு நடக்கிறான். அந்த விளக்குக்கும்
scr : இவ்வுலகிலுள்ள மேடு பள்ளங்களுக்கும் pl007 இவ்வுலகிலுள்ள «§ ம டு பள்ளங்களுக்கும் pl0041 இவ்வுலகிலுள்ள « ம டு பள்ளங்களுக்கும் bestsc: இவ்வுலகிலுள்ள மேடு பள்ளங்களுக்கும்
scr : ஏதாவ்து பகை உண்டா ? இல்லை. ஆனால், pl007 தாவது பகை உண்டா ? இல்லை. ஆனால்’ pl0041 தாவது பகை உண்டா ? இல்லை. ஆல் bestsc: ஏதாவ்து பகை உண்டா? இல்லை. ஆனால்,
scr : விளச்குக்கும் இருட்டுக்கு மே பகை. pl007 ஊளச்குக்கும் இ ரு ட் டு ச் கு ₹¥மே <ூ£: pl0041 வளகச்குக்கும் இ ரு ட் டு க் க் ¢ ம ப$: bestsc: விளக்குக்கும் இருட்டுக்குமே பகை.
scr : விளக்கு, இருட்டை ஓட்டி, மேடுபள்ளங் pl007 ச்சு, "இருட்ல்ட ஓட்டி, மேடுபள்ளங் pl0041 வளச்சு, § இருட்ல்ட ஒட்டி, மேடுபள்ளங் bestsc: விளக்கு, இருட்டை ஓட்டி, மேடுபள்ளங்
scr : களின் நிலைமையை அறிவிதீன், விளக் pl007 ளி § நிலீஃமயை அ றிவித்ச் ¢ ஹிளக் pl0041 _ளன்§ நிலீலீமயை அறி வித்ச் , ஞிளக் bestsc: களின் நிலைமையை அறிவித்த, விளக்
scr : குக்கு உடையவனை ஏறியும், இறங்கியும். pl007 குக்கு உடையவனை எறியும், இறங்கியும்• pl0041 குக்கு உடையவனை ஏறியும், இறங்கியும்- bestsc: குக்கு உடையவனை ஏறியும், இறங்கியும்.
scr : ஒதுங்கியும் ஜாக்கிரதையாய்ப். போகச் pl007 ஒதுங்கியும் ஜாக்கிரதையாய்ப் « ப க் ச் pl0041 ஒதுங்கியும் ஜாக்கிரதையாய்ப் « போ க் ச் bestsc: ஒதுங்கியும் ஜாக்கிரதையாய்ப் போகச்
scr : செய்கிறது; *மேடு என், காலை இட . pl007 செய்கிறது; • மேடு என்; க் £ லை இட . pl0041 செய்சிறது; *¢§ மேடு என்; க் £ லை இட . bestsc: செய்கிறது; “மேடு என்- காலை இட .
scr : றிற்று” என்றும், “பள்ளம் என்னைக் கீழே pl007 றிற்று*§ என்றும், ‘“பள்ளம் என்னைக் கீழே pl0041 றிற்று£§ என்றும், ‘‘பள்ளம் என்னைக் கீழே bestsc: றிற்று”” என்றும், “பள்ளம் என்னைக் கீழே
scr : ' தள்ளிற்று?” என்றும் வீணாய் அவைகள் மீது pl007 ’ $ள்ளிற்று’ʼ§ என்றும் வீணாய் அவைசள் மீது pl0041 ’ தள்ளிற்றுʼ§ ன்றும் வீணாய் அவைகள் மீது bestsc: ் தள்ளிற்று*” என்றும் வீணாய் அவைகள் மீது
scr : i pl007 / pl0041 / bestsc: /
I suggest that you compare the output of tessdata_best/script/Tamil to the output of //Google OCR mw.loader.load('//wikisource.org/w/index.php?title=MediaWiki:GoogleOCR.js&action=raw&ctype=text/javascript');
Shree/Balaji
How do I use the google ocr js to ocr a page image Please point if the procedure is written somewhere or give me short few sentences
Sent from my iPhone
On Nov 11, 2019, at 11:01 PM, Shreeshrii notifications@github.com wrote:
I suggest that you compare the output of tessdata_best/script/Tamil to the output of //Google OCR mw.loader.load('//wikisource.org/w/index.php?title=MediaWiki:GoogleOCR.js&action=raw&ctype=text/javascript');
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
Please see https://m.wikisource.org/wiki/Wikisource:Google_OCR
This will work for books, images uploaded to wikiCommons. There are many existing books that are already uploaded and can be used.
I have found accuracy of goggle Oct to be better than tesseract. Tesseract can be trained but it will take months of training to better Google's results.
If fine tuning is done for a narrow target, eg. one particular font, it might work better.
You can also test by uploading any image to http://ocr.sanskritdictionary.com
Thanks Shree
Sent from my iPhone
On Nov 12, 2019, at 3:22 AM, Shreeshrii notifications@github.com wrote:
You can also test by uploading any image to http://ocr.sanskritdictionary.com
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
@balajijagadesh
Moreover, the google OCR is not good for old tamil scripts such as றை, னை, றா, ணா etc. So if we can train such old scripts in this tesseract ocr then it would be useful to proofread old Tamil scripts in Tamil wikisource.
Can you share an example of a page with old tamil scripts for testing?
I tried some random pages in ta.wikisource but didn't find one with old style glyphs.
I could see three different OCR options, IndicOCR, Tesseract and Google OCR. I found tesseract to be very slow. IndicOCR and GoogleOCR seem quite fast and comparable in output. IndicOCR seems to output at paragraph level while GoogleOCR at line level. I am assuming that original OCR was done using Google drive.
Since I don't know Tamil I can't identify which is better.
some of the old books https://ta.wikisource.org/s/94rw - 1869 https://ta.wikisource.org/s/94rx - 1869 https://ta.wikisource.org/s/94ry - 1930 https://ta.wikisource.org/s/94rz -1931 https://ta.wikisource.org/s/94s0 - 1865
https://ta.wikisource.org/s/1jz9
https://ta.wikisource.org/s/qxl
On Wed, Nov 13, 2019 at 9:55 AM Shreeshrii notifications@github.com wrote:
@balajijagadesh https://github.com/balajijagadesh
Moreover, the google OCR is not good for old tamil scripts such as றை, னை, றா, ணா etc. So if we can train such old scripts in this tesseract ocr then it would be useful to proofread old Tamil scripts in Tamil wikisource.
Can you share an example of a page with old tamil scripts for testing?
I tried some random pages in ta.wikisource but didn't find one with old style glyphs.
I could see three different OCR options, IndicOCR, Tesseract and Google OCR. I found tesseract to be very slow. IndicOCR and GoogleOCR seem quite fast and comparable in output. IndicOCR seems to output at paragraph level while GoogleOCR at line level. I am assuming that original OCR was done using Google drive.
Since I don't know Tamil I can't identify which is better.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/KaniyamFoundation/ProjectIdeas/issues/71?email_source=notifications&email_token=AESGXRFJ3PHX32JFZTKUGKDQTN6VBA5CNFSM4IPOWI32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOED42W5Y#issuecomment-553233271, or unsubscribe https://github.com/notifications/unsubscribe-auth/AESGXRBGL2VWXNRK4H3YFJLQTN6VBANCNFSM4IPOWI3Q .
I think Indic OCR now recognizer old fonts well.
Here is a page from the last but one link from Balaji (Neela Mala by valliappa - the writer is from my home town karaikudi :)
Old OCR on that wikipage:
覆盘 கலெக்டர் கம்பீரமாக எழுந்து கின்றர். ஒலி பெருக்கியின் முன்பு உற்சாகமாகப் பேசினர்: காந்தி மகான் பெயரை இந்தப் பள்ளிக்கு வைத்திருக்கிறீர்கள். பெயருக்கு ஏற்றபடி இந்தப் பள்ளி கன்முறையில் நடந்து வருவதை கா ன் கன்ருக அறிவேன். குழந்தைகள் க ட த் திய காடகம், காட்டியம் எல்லாம் எவ்வளவு சிறப்பாக இருந்தன ! .பெரிய பட்டணங்களில்கூட இப்படி கான் கண்டதில்லை. இவை எல்லாவற்றையும்விட கான் மிக உயர்வாக கினைப்பது எது தெரியுமா? ஒரே சிறுமி ஏழு பரிசுகளைப் பெற்ருளே, அதுதான்! அந்தச் சிறுமியைப் பற்றிய விவரங் களைத் தலைமை ஆசிரியரிடம் கேட்டுத் தெரிந்து கொண்டேன். ஏழையாக இருந்தாலும் எல்லாத் துறைகளிலும் அவள் கெட்டிக்காரியாக இருப்பது மிகவும் பாராட்டத்தக்கது. இச் சிறு மி க் கு. ஊக்கம் அளித்து, உதவியும் செய்தால், எதிர் காலத்தில் இவள் மிகவும் சிறந்தவளாக, நாடு போற்றும் நல்லவளாக, ஒரு தலைவியாக விளங்கி குலும் விளங்கலாம். இந்தப் பள்ளியில் ஐந்து வகுப்பு வரையில்தான் இருக்கிறது. இந்த ஆண் டுடன் இவளது படிப்புக்கு முற்றுப் புள்ளி வைத்துவிட வேண்டியதுதான ? இங்கிருந்து நான்கு மைல் தூரத்தில் உயர்நிலைப் பள்ளி இருக் கிறது. அங்கு அனுப்பி இவளைப் படிக்க வைக்க வேண்டும். இந்த நல்ல காரியத்தைச் செய்ய இந்த ஊரில் உள் ள பணக்காரர்களில் யாரேனும் முன்வந்தால் நல்லது. அப்படி யாருமே முன் வராது.
===
கலெக்டர் கம்பீரமாக எழுந்து நின்றார். ஒலி பெருக்கியின் முன்பு உற்சாகமாகப் பேசினார் : காந்தி மகான் பெயரை இந்தப் பள்ளிக்கு வைத்திருக்கிறீர்கள். பெயருக்கு ஏற்றபடி இந்தப் பள்ளி நன்முறையில் நடந்து வருவதை நான் ஈன்றாக அறிவேன். குழந்தைகள் நடத்திய நாடகம், நாட்டியம் எல்லாம் எவ்வளவு சிறப்பாக இருந்தன . பெரிய பட்டணங்களில்கூட இப்படி நான் கண்டதில்லை. இவை எல்லாவற்றையும்விட கான் மிக உயர்வாக நினைப்பது எது தெரியுமா? ஒரே சிறுமி ஏழு பரிசுகளைப் பெற்றாளே, அது நான்! அந்தச் சிறுமியைப் பற்றிய விவரங் களைத் தலைமை ஆசிரியரிடம் கேட்டுத் தெரிந்து கொண்டேன். ஏழையாக இருந்தாலும் எல்லாத் துறைகளிலும் அவள் கெட்டிக்காரியாக இருப்பது மிகவும் பாராட்டத்தக்கது. இச்சிறுமிக்கு. உக்கப் அளித்து, உதவியும் செய்தால், எதிர் காலத்தில் இவள் மிகவும் சிறந்தவளாக, நாடு போற்றும் நல்லவளாக, ஒரு தலைவியாக விளங்கி னாலும் விளங்கலாம். இந்தப் பள்ளியில் ஐந்து வகுப்பு வரையில்தான் இருக்கிறது. இந்த ஆண் குடன் இவளது படிப்புக்கு முற்றுப் புள்ளி வைத்துவிட வேண்டியதுதானா? இங்கிருந்து நான்கு மைல் தூரத்தில் உயர்நிலைப் பள்ளி இருக்க கிறது. அங்கு அனுப்பி இவளைப் படிக்க வைக்க வேண்டும். இந்த நல்ல காரியத்தைச் செய்ய இந்த ளில் உள்ள பணக்காரர்களில் யாரேனும் முன்வந்தால் நல்லது. அப்படி யாருமே முன் வராது
===
You can see the first sentence has old glyphs correctly read in the IndicOCR
Previous OCR: 覆盘 கலெக்டர் கம்பீரமாக எழுந்து கின்றர். ஒலி பெருக்கியின் முன்பு உற்சாகமாகப் பேசினர்: காந்தி மகான் பெயரை இந்தப் பள்ளிக்கு வைத்திருக்கிறீர்கள். பெயருக்கு ஏற்றபடி இந்தப் பள்ளி கன்முறையில் நடந்து வருவதை கா ன் கன்ருக அறிவேன்.
New OCR: கலெக்டர் கம்பீரமாக எழுந்து நின்றார். ஒலி பெருக்கியின் முன்பு உற்சாகமாகப் பேசினார் : காந்தி மகான் பெயரை இந்தப் பள்ளிக்கு வைத்திருக்கிறீர்கள். பெயருக்கு ஏற்றபடி இந்தப் பள்ளி நன்முறையில் நடந்து வருவதை நான் ஈன்றாக அறிவேன்.
There is still error on the நான் ஈன்றாக அறிவேன் due to scan quality, but it is vastly better than before.
Can someone try google ocr on that? I can also try google ocr on entire book using my cloud vision account and share the result here.
Bottomline: IndicOCR recognizes old glyphs well.
I OCRed this page using google cloud text api and found no errors. So my guess is if we switch to google ocr, we should be good even now. I think google OCR has improved since this page was OCRed last time.
~*~
கலெக்டர் கம்பீரமாக எழுந்து நின்றார். ஒலி பெருக்கியின் முன்பு உற்சாகமாகப் பேசினார்: "காந்தி மகான் பெயரை இந்தப் பள்ளிக்கு வைத்திருக்கிறீர்கள். பெயருக்கு ஏற்றபடி இந்தப் பள்ளி நன்முறையில் நடந்து வருவதை நான் நன்றாக அறிவேன். குழந்தைகள் நடத்திய நாடகம், நாட்டியம் எல்லாம் எவ்வளவு சிறப்பாக இருந்தன ! :பெரிய பட்டணங்களில் கூட இப்படி நான் கண்டதில்லை. இவை எல்லாவற்றையும்விட நான் மிக உயர்வாக நினைப்பது எது தெரியுமா? ஒரே சிறுமி ஏழு பரிசுகளைப் பெற்றாளே, அதுதான்! அந்தச் சிறுமியைப் பற்றிய விவரங் களைத் தலைமை ஆசிரியரிடம் கேட்டுத் தெரிந்து கொண்டேன். ஏழையாக இருந்தாலும் எல்லாத், துறைகளிலும் அவள் கெட்டிக்காரியாக இருப்பது மிகவும் பாராட்டத்தக்கது. இச் சிறுமிக்கு ஊக்கம் அளித்து, உதவியும் செய்தால், எதிர் காலத்தில் இவள் மிகவும் சிறந்தவளாக, நாடு போற்றும் நல்லவளாக, ஒரு தலைவியாக விளங்கி னாலும் விளங்கலாம். இந்தப் பள்ளியில் ஐந்து வகுப்பு வரையில் தான் இருக்கிறது. இந்த ஆண் டுடன் இவளது படிப்புக்கு முற்றுப் புள்ளி வைத்துவிட வேண்டியதுதானா? இங்கிருந்து நான்கு மைல் தூரத்தில் உயர்நிலைப் பள்ளி இருக் கிறது. அங்கு அனுப்பி இவளைப் படிக்க வைக்க வேண்டும். இந்த நல்ல காரியத்தைச் செய்ய இந்த ஊரில் உள்ள பணக்காரர்களில் யாரேனும் முன்வந்தால் நல்லது. அப்படி யாருமே முன் வராது
https://github.com/tesseract-ocr/tesseract Tesseract is an open source ocr which is used by wikisource in different languages such as english, polish, french, Bengali etc.
Recently Tesseract OCR is tested for Tamil language in Tamil wikisource. Any one can test Tesseract OCR by adding the following code to the their common.js page in Tamil wikisource.
mw.loader.load( '//wikisource.org/w/index.php?title=User:Putnik/TesseractOCR.js&action=raw&ctype=text/javascript' );
Example to add this code is shown here https://ta.wikisource.org/w/index.php?title=%E0%AE%AA%E0%AE%AF%E0%AE%A9%E0%AE%B0%E0%AF%8D:Balajijagadesh/common.js&oldid=1013534
After adding this code, we can see an Tesseract OCR button in Page namespace (பக்கம் பெயர்வெளி) edit mode in Tamil wikisource. Example is shown in the image below.
An initial test has shown below satisfactory results of the ocr when compared to the google OCR output.
But the good news is that the OCR is opensource and can be trained. The training of OCR can be done at https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00
It would be useful to train this ocr with lot more data.
Moreover, the google OCR is not good for old tamil scripts such as றை, னை, றா, ணா etc. So if we can train such old scripts in this tesseract ocr then it would be useful to proofread old Tamil scripts in Tamil wikisource.
Also once the ocr is enriched then it can be used by anyone and build application on top of this.