KaniyamFoundation / ProjectIdeas

A Place to write down the project ideas and to plan them
40 stars 3 forks source link

Training Opensource Tesseract OCR for Tamil #71

Open balajijagadesh opened 5 years ago

balajijagadesh commented 5 years ago

https://github.com/tesseract-ocr/tesseract Tesseract is an open source ocr which is used by wikisource in different languages such as english, polish, french, Bengali etc.

Recently Tesseract OCR is tested for Tamil language in Tamil wikisource. Any one can test Tesseract OCR by adding the following code to the their common.js page in Tamil wikisource.

mw.loader.load( '//wikisource.org/w/index.php?title=User:Putnik/TesseractOCR.js&action=raw&ctype=text/javascript' );

Example to add this code is shown here https://ta.wikisource.org/w/index.php?title=%E0%AE%AA%E0%AE%AF%E0%AE%A9%E0%AE%B0%E0%AF%8D:Balajijagadesh/common.js&oldid=1013534

After adding this code, we can see an Tesseract OCR button in Page namespace (பக்கம் பெயர்வெளி) edit mode in Tamil wikisource. Example is shown in the image below.

image

An initial test has shown below satisfactory results of the ocr when compared to the google OCR output.

But the good news is that the OCR is opensource and can be trained. The training of OCR can be done at https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00

It would be useful to train this ocr with lot more data.

Moreover, the google OCR is not good for old tamil scripts such as றை, னை, றா, ணா etc. So if we can train such old scripts in this tesseract ocr then it would be useful to proofread old Tamil scripts in Tamil wikisource.

Also once the ocr is enriched then it can be used by anyone and build application on top of this.

tshrinivasan commented 5 years ago

Update from Shreeshri

I had done a couple of test trainings earlier in response to various issues posted in Github. I reran the PLUS training, adding additional trainingtext to add some missing characters in the unicharset, for 120000 iterations. Currently, the best CER is 0.251 with the synthetic images. The fonts used were: Arial Unicode MS Arima Madurai FreeSerif Karla Tamil Inclined Italic Karla Tamil Upright Lohit Tamil Lohit Tamil Classical Nirmala UI Noto Sans Tamil TAMu_Kadambri TAMu_Kalyani TAMu_Maduram TSCu_Comic TSCu_Paranar TSCu_Times e-Grantamil I am attaching the traineddata file so that you can test with scanned images and compare accuracy to tam.traineddata and script/Tamil.traineddata. You can also try with multiple languages and see if that gives better results. eg. -l tamPLUS+tam+script/Tamil I selected the fonts base on what's listed in ok-fonts.txt in langdata_lstm repo. I can also train with a subset of more commonly used ones out of these. Ravi Annasamy is testing the new training data. The new training data are shared here. https://github.com/Shreeshrii/tessdata_tamil
balajijagadesh commented 5 years ago

Nice. Please train with old Tamil fonts using the other variation of லை றா etc. That is creating more issue with books before 1975

On Sun, Nov 3, 2019, 6:43 PM Shrinivasan T notifications@github.com wrote:

Update from Shreeshri

I had done a couple of test trainings earlier in response to various issues posted in Github.

I reran the PLUS training, adding additional trainingtext to add some missing characters in the unicharset, for 120000 iterations. Currently, the best CER is 0.251 with the synthetic images. The fonts used were:

Arial Unicode MS Arima Madurai FreeSerif Karla Tamil Inclined Italic Karla Tamil Upright Lohit Tamil Lohit Tamil Classical Nirmala UI Noto Sans Tamil TAMu_Kadambri TAMu_Kalyani TAMu_Maduram TSCu_Comic TSCu_Paranar TSCu_Times e-Grantamil

I am attaching the traineddata file so that you can test with scanned images and compare accuracy to tam.traineddata and script/Tamil.traineddata.

You can also try with multiple languages and see if that gives better results. eg. -l tamPLUS+tam+script/Tamil

I selected the fonts base on what's listed in ok-fonts.txt in langdata_lstm repo. I can also train with a subset of more commonly used ones out of these.

Ravi Annasamy is testing the new training data.

The new training data are shared here. https://github.com/Shreeshrii/tessdata_tamil

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/KaniyamFoundation/ProjectIdeas/issues/71?email_source=notifications&email_token=AESGXRG2PPOAHJQCI2ZHSS3QR3E6FA5CNFSM4IPOWI32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEC5SIYY#issuecomment-549135459, or unsubscribe https://github.com/notifications/unsubscribe-auth/AESGXREUZJAI3JRSGHRSFYTQR3E6FANCNFSM4IPOWI3Q .

ravi-annaswamy commented 5 years ago

Team,

In order to evaluate the performance of various tesseract tamil models: (tam - from default install, scripts/Tamil - from scripts, tamplus - from Shree and tamplus_oldnew from Shree) I am putting together a good dataset with pdfs from different publishing dates across last century.

  1. I installed Tesseract v5.0 on my Windows 10 laptop using https://github.com/UB-Mannheim/tesseract/wiki installer.

  2. I took following pdfs of scanned tamil books from these years: Sivamaniyam 2014 Ariviyalin Tamilin Munnodi 2003 Ellam Ondre 1988 America Noolagangal 1961 Annavin Vazhkkai puyal 1952 (relatively lower scan quality) Ramana Vijayam 1942 Ellam Ondre 1937 Panchalatchanam 1918

The bottom four have lot of old style fonts as well as sanskrit granthams also which is typical of these old books.

  1. I installed Shree's models by placing them into the trained data folder of tesseract.

  2. I created a notebook which I will share on my github shortly to do the following (giving an outline here before throwing code :)

    take a pdf from books/pdf folder extract a few pages from it using fitz into images and place in test_images folder randomly take a image (or you can set it) display the image run tesseract on this page using 4 different models using pytesseract save extract texts show each line's four recognitions one below the other to see which one is better.

Findings will be placed in separate threads.

Thanks Ravi

ravi-annaswamy commented 5 years ago

2014 publication high quality 600 dpi scan: (Sivamaniam-2014) Summary: All four models are accurate (tam, scr, plus, pluson refer to tam, scripts, shree's plus and shree's update from 11/2 using old and new)

Source image: image

tam : பத்க்‌ scr : od plus: >) plon: 2

tam : சீ scr : ‘A plus: ‘ plon: '

tam : திருவாசகத்திலே சொல்றார்‌. scr : திருவாசகத்திலே சொல்றார்‌. plus: திருவாசகத்திலே சொல்றார். plon: திருவாசகத்திலே சொல்றார்.

tam : “நாயிற்‌ கடையாம்‌ நாயேனை scr : “நாயிற்‌ கடையாம்‌ நாயேனை plus: “நாயிற் கடையாம் நாயேனை plon: “நாயிற் கடையாம் நாயேனை

tam : நயந்து நீயே ஆட்கொண்டாய்‌ scr : நயந்து நீயே ஆட்கொண்டாய்‌ plus: நயந்து நீயே ஆட்கொண்டாய் plon: நயந்து நீயே ஆட்கொண்டாய்

tam : மாயப்‌ பிறவி உன்வசமே scr : மாயப்‌ பிறவி உன்வசமே plus: மாயப் பிறவி உன்வசமே plon: மாயப் பிறவி உன்வசமே

tam : வைத்திட்‌ டிருக்கும்‌ அதுவன்றி scr : வைத்திட்‌ டிருக்கும்‌ அதுவன்றி plus: வைத்திட் டிருக்கும் அதுவன்றி plon: வைத்திட் டிருக்கும் அதுவன்றி

tam : ஆயக்‌ கடவேன்‌ நானோதான்‌ scr : ஆயக்‌ கடவேன்‌ நானோதான்‌ plus: ஆயக் கடவேன் நானோதான் plon: ஆயக் கடவேன் நானோதான்

tam : என்னதோ இங்கு அதிகாரம்‌ scr : என்னதோ இங்கு அதிகாரம்‌ plus: என்னதோ இங்கு அதிகாரம் plon: என்னதோ இங்கு அதிகாரம்

tam : காயத்‌ திடுவாய்‌ உன்னுடைய scr : காயத்‌ திடுவாய்‌ உன்னுடைய plus: காயத் திடுவாய் உன்னுடைய plon: காயத் திடுவாய் உன்னுடைய

tam : கழல்கீழ்‌ வைப்பாய்‌ கண்ணுதலே." scr : கழல்கீழ்‌ வைப்பாய்‌ கண்ணுதலே. ” plus: கழல்கீழ் வைப்பாய் கண்ணுதலே. ” plon: கழல்கீழ் வைப்பாய் கண்ணுதலே. "

tam : அதனாலே... இறைவன்‌ மேலே இருக்கற நம்பிக்கையே scr : அதனாலே... இறைவன்‌ மேலே இருக்கற நம்பிக்கையே plus: அதனாலே... இறைவன் மேலே இருக்கற நம்பிக்கையே plon: அதனாலே... இறைவன் மேலே இருக்கற நம்பிக்கையே

tam : போதும்‌. scr : போதும்‌. plus: போதும். plon: போதும்.

tam : அது காப்பாத்தும்‌. scr : அது காப்பாத்தும்‌. plus: அது காப்பாத்தும். plon: அது காப்பாத்தும்.

tam : கே: எனக்கு நம்பிக்கை இருக்கு. ஆனா சோர்வும்‌, மயக்கமும்‌ scr : கே: எனக்கு நம்பிக்கை இருக்கு. ஆனா சோர்வும்‌, மயக்கமும்‌ plus: கே: எனக்கு நம்பிக்கை இருக்கு. ஆனா சோர்வும், மயக்கமும் plon: கே: எனக்கு நம்பிக்கை இருக்கு. ஆனா சோர்வும், மயக்கமும்

tam : அடிக்கடி வந்து தியானம்‌ பண்ண முடியலே! scr : அடிக்கடி வந்து தியானம்‌ பண்ண முடியலே! plus: அடிக்கடி வந்து தியானம் பண்ண முடியலே! plon: அடிக்கடி வந்து தியானம் பண்ண முடியலே!

tam : ப: சரியா தியானம்‌ பண்ணா பலம்‌ ஏற்படும்‌. scr : ப: சரியா தியானம்‌ பண்ணா பலம்‌ ஏற்படும்‌. plus: ப: சரியா தியானம் பண்ணா பலம் ஏற்படும். plon: ப: சரியா தியானம் பண்ணா பலம் ஏற்படும்.

tam : கே: எனக்கு அலுவலகத்திலே வேலை நிறைய இருக்கு; ஆனா scr : கே: எனக்கு அலுவலகத்திலே வேலை நிறைய இருக்கு; ஆனா plus: கே: எனக்கு அலுவலகத்திலே வேலை நிறைய இருக்கு; ஆனா plon: கே: எனக்கு அலுவலகத்திலே வேலை நிறைய இருக்கு; ஆனா

tam : தியானத்திலே முழுமை அடையணும்னு விரும்புறேன்‌. scr : தியானத்திலே முழுமை அடையணும்னு விரும்புறேன்‌. plus: தியானத்திலே முழுமை அடையணும்னு விரும்புறேன். plon: தியானத்திலே முழுமை அடையணும்னு விரும்புறேன்.

tam : சூழ்நிலை முரண்பாடா இருக்கு. என்ன செய்யறது ? scr : சூழ்நிலை முரண்பாடா இருக்கு. என்ன செய்யறது ? plus: சூழ்நிலை முரண்பாடா இருக்கு. என்ன செய்யறது ? plon: சூழ்நிலை முரண்பாடா இருக்கு. என்ன செய்யறது ?

tam : ப: ஒரு முரணும்‌ இல்லே. scr : ப: ஒரு முரணும்‌ இல்லே. plus: ப: ஒரு முரணும் இல்லே. plon: ப: ஒரு முரணும் இல்லே.

tam : பயிற்சியோட முதிர்ச்சியாலே... இரண்டையும்‌ சரிவர scr : பயிற்சியோட முதிர்ச்சியாலே... இரண்டையும்‌ சரிவர plus: பயிற்சியோட முதிர்ச்சியாலே... இரண்டையும் சரிவர plon: பயிற்சியோட முதிர்ச்சியாலே... இரண்டையும் சரிவர

tam : செய்ய முடியும்‌. scr : செய்ய முடியும்‌. plus: செய்ய முடியும். plon: செய்ய முடியும்.

tam : வேலையை ஒரு ஸ்வப்னம்‌ மாதிரி பாக்க ஆரம்பிச்சுடுவேள்‌. scr : வேலையை ஒரு ஸ்வப்னம்‌ மாதிரி பாக்க ஆரம்பிச்சுடுவேள்‌. plus: வேலையை ஒரு ஸ்வப்னம் மாதிரி பாக்க ஆரம்பிச்சுடுவேள். plon: வேலையை ஒரு ஸ்வப்னம் மாதிரி பாக்க ஆரம்பிச்சுடுவேள்.

tam : (31) பகவானைத்‌ தரிசனம்‌ பண்ண வந்தவர்‌ கேட்டார்‌. scr : (31) பகவானைத்‌ தரிசனம்‌ பண்ண வந்தவர்‌ கேட்டார்‌. plus: (31 பகவானைத் தரிசனம் பண்ண வந்தவர் கேட்டார். plon: (30 பகவானைத் தரிசனம் பண்ண வந்தவர் கேட்டார்.

tam : கே: மோட்சமடைய என்ன செய்யணும்‌ ? scr : கே: மோட்சமடைய என்ன செய்யணும்‌ ? plus: கே: மோட்சமடைய என்ன செய்யணும் ? plon: கே: மோட்சமடைய என்ன செய்யணும் ?

tam : ப: மோட்சம்ன்னா என்னன்னு தெரிஞ்சுக்கணும்‌. scr : ப: மோட்சம்ன்னா என்னன்னு தெரிஞ்சுக்கணும்‌. plus: ப: மோட்சம்ன்னா என்னன்னு தெரிஞ்சுக்கணும். plon: ப: மோட்சம்ன்னா என்னன்னு தெரிஞ்சுக்கணும்.

tam : கே: உபாசனை பண்ணணுமா? scr : கே: உபாசனை பண்ணணுமா? plus: கே: உபாசனை பண்ணணுமா? plon: கே: உபாசனை பண்ணணுமா ?

tam : ப: உபாசனை சித்த நிரோதத்துக்காகத்தான்‌. scr : ப: உபாசனை சித்த நிரோதத்துக்காகத்தான்‌. plus: ப: உபாசனை சித்த நிரோதத்துக்காகத்தான். plon: ப: உபாசனை சித்த நிரோதத்துக்காகத்தான்.

ravi-annaswamy commented 5 years ago

Test 2: Page from 2003 publication

This turned out to be an english page!

image

Summary: Script tamil is good, but not perfect Plus is also getting there. Others are not good at all. Since this page turns out to be black background, I assume tam training fails badly.

tam : 111 ச scr : ARIVIAL plus: E plon: 1

tam : ம்பிப்‌ scr : UPL plus: S plon: TAMILIN

tam : ட்ப 80) scr : VIDIVELLI plus: L plon: VIDIVELLI

tam : 1- தப்பி இப இவ scr : a CI) plus: (The Morning Star of plon: __ 3

tam : 15:11) அர.11 11) scr : Scientific Tamil) plus: Scientific Tamil) plon: Scientific Tamil)

tam : (௦1/௪ scr : Compiler : plus: Compiler : plon: @

tam : மண பபப பிப scr : R. RAMASAMY plus: R. RAMASAMY plon: __

tam : டார௦6ீ : ₹5,50/- scr : Price : Rs.50/- plus: S plon: __

tam : ப19101 9-8 201070) (6:90 (61) scr : MEERAA PUBLICATION plus: MEERAA PUBLICATION plon: MEERAA PUBLICATION

tam : அ ப). 111: [11-12 scr : AE-5 (103), Anna Nagar, plus: AE-5 (103), Anna Nagar, plon: AE-5 (103), Anna Nagar,

tam : 11111 டமி scr : Chennai - 600 040. plus: Chennai - 600 040. plon: @

ravi-annaswamy commented 5 years ago

Third test is page from 2003 book relatively good quality scan image

Summary: Scr and PlusON are both very good. Though Scr misses one line. The header line is missed by both of these but tam catches it right. Overall, this page is recognized well.

tam : தோகுபபாசிரியா 6 scr : TCT 13 plus: W <} plon: __ —

tam :
scr :
plus:
plon:

tam : கதிர்‌' உட்பட வேறு எந்தத்‌ தமிழ்‌ இதழும்‌ அறிவியல்‌ தமி scr : கதிர்‌' உட்பட வேறு எந்தத்‌ தமிழ்‌ இதழும்‌ அறிவியல்‌ தமி plus: கதிர்§ உட்பட வேறு எந்தத் தமிழ் இதழும் அறிவியல் தமி plon: கதிர்' உட்பட வேறு எந்தத் தமிழ் இதழும் அறிவியல் தமி

tam : முக்குச்‌ செய்திருக்காத சேவையைச்‌ செய்து வருகிறது '* scr : ழுக்குச்‌ செய்திருக்காத சேவையைச்‌ செய்து வருதிறது'' plus: ழுக்குச் செய்திருக்காத சேவையைச் செய்து வருகிறது plon: ழுக்குச் செய்திருக்காத சேவையைச் செய்து வருகிறது ''

tam : என 'தாய்‌' வார இதழில்‌ வெளிவந்த தலையங்கம்‌, மணவை scr : என 'தாய்‌' வார இதழில்‌ வெளிவந்த தலையங்கம்‌, மணவை plus: ப plon: என 'தாய்' வார இதழில் வெளிவந்த தலையங்கம், மணவை

tam : யாரே ஓர்‌ இயக்கமாக இயங்கி அறிவியல்‌ தமிழை வளர்த்து scr : யாரே ஓர்‌ இயக்கமாக இயங்கி அறிவியல்‌ தமிழை வளர்த்து plus: யாரே ஓர் இயக்கமாக இயங்கி அறிவியல் தமிழை வளர்த்து plon: யாரே ஓர் இயக்கமாக இயங்கி அறிவியல் தமிழை வளர்த்து

tam : வருவதைப்‌ பாராட்டுகிறது. scr : வருவதைப்‌ பாராட்டுறெது. plus: வருவதைப் பாராட்டுகிறது. plon: __

tam : தமிழ்‌ வளர்ச்சியில்‌ அதிலும்‌ அறிவியல்‌ தமிழ்‌ வளர்ச்‌ scr : தமிழ்‌ வளர்ச்சியில்‌ அதிலும்‌ அறிவியல்‌ தமிழ்‌ வளர்ச்‌ plus: தமிழ் வளர்ச்சியில் அதிலும் அறிவியல் தமிழ் வளர்ச் plon: தமிழ் வளர்ச்சியில் அதிலும் அறிவியல் தமிழ் வளர்ச்

tam : சியில்‌ தனி வழி கண்டு, அதை வலுவான ராஜபாட்டை scr : C11 (P17 OV OU TELM plus: ப plon: சியில் தனி வழி கண்டு, அதை வலுவான ராஜபாட்டை

tam : யாக்கி, ஆற்றல்மிகு அறிவியல்‌ மொழியாகத்‌ தமிழை ஆக்கி scr : யாக்கி, ஆற்றல்மிகு அறிவியல்‌ மொழியாகத்‌ தமிழை ஆக்கி plus: ி plon: யாக்கி, ஆற்றல்மிகு அறிவியல் மொழியாகத் தமிழை ஆக்கி

tam : வரும்‌ பாங்கை, பாட்டுக்கொரு புலவன்‌ பாரதி இன்றி scr : வரும்‌ பாங்கை, பாட்டுக்கொரு புலவன்‌ பாரதி இன்றி plus: பங plon: வரும் பாங்கை, பாட்டுக்கொரு புலவன் பாரதி இன்றி

tam : ருந்தால்‌ மணவையாரின்‌ தமிழ்ப்‌ பணி பற்றி என்ன பாடியி scr : ருந்தால்‌ மணவையாரின்‌ தமிழ்ப்‌ பணி பற்றி என்ன பாடியி plus: ருந்தால் மணவையாரின் தமிழ்ப் பணி பற்றி என்ன பாடியி plon: ருந்தால் மணவையாரின் தமிழ்ப் பணி பற்றி என்ன பாடியி

tam : ருப்பான்‌ என்பதை நினைத்துப்‌ பார்க்கும்‌ கவிஞர்‌ தெசிணி, scr : ருப்பான்‌ என்பதை நினைத்துப்‌ பார்க்கும்‌ கவிஞர்‌ தெசிணி, plus: 3 plon: ருப்பான் என்பதை நினைத்துப் பார்க்கும் கவிஞர் தெசிணி,

tam : இடப த படத ப 62] scr : “சென்றிடுவீர்‌ திக்கெங்கும்‌ திரட்டிவந்தே plus: O plon: ‘“'சென்றிடுவீர் திக்கெங்கும் திரட்டிவந்தே

tam : செந்தமிழை செழிக்க வைப்பீர்‌ என்று சொன்னோன்‌ scr : செந்தமிழை செழிக்க வைப்பீர்‌ என்று சொன்னோன்‌ plus: செந்தமிழை செழிக்க வைப்பீர் என்று சொன்னோன் plon: செந்தமிழை செழிக்க வைப்பீர் என்று சொன்னோன்

tam : இன்றிருநீதால்‌ எங்கள்‌ மணவை முஸ்தாபா scr : இன்றிருந்தால்‌ எங்கள்‌ மணவை முஸ்தாபா plus: இன்றிருந்தால் எங்கள் மணவை முஸ்தாபா plon: [

tam : இயற்றிவரும்‌ புது ஆக்கம்‌ கண்டு போற்றி scr : இயற்றிவரும்‌ புது ஆக்கம்‌ கண்டு போற்றி plus: இயற்றிவரும் புது ஆக்கம் கண்டு போற்றி plon: இயற்றிவரும் புது ஆக்கம் கண்டு போற்றி

tam : வெற்றிகொண்டே புதுஇயல்கள்‌ அனைத்தையுந்தான்‌ scr : வெற்றிகொண்டே புதுஇயல்கள்‌ அனைத்தையுந்தான்‌ plus: வெற்றிகொண்டே புதுஇயல்கள் அனைத்தையுந்தான் plon: வெற்றிகொண்டே புதுஇயல்கள் அனைத்தையுந்தான்

tam : வேகமுடன்‌ தமிழ்‌ வளரும்‌ நின்னால்‌! என்றே scr : வேகமுடன்‌ தமிழ்‌ வளரும்‌ நின்னால்‌! என்றே plus: 3 plon: வேகமுடன் தமிழ் வளரும் நின்னால்| என்றே

tam : மன்றினிலே உயர்த்தி வைத்துப்‌ பாடி நிற்பான்‌ scr : மன்றினிலே உயர்த்தி வைத்துப்‌ பாடி நிற்பான்‌ plus: ப plon: __

tam : வரகவிஞன்‌ பாரதியும்‌ இன்றில்லையே/' scr : வரகவிஞன்‌ பாரதியும்‌ இன்றில்லையே!'' plus: ய plon: வரகவிஞன் பாரதியும் இன்றில்லையே!''

tam : என்று தன்‌ ஏக்க உணர்வை வெளிப்படுத்துகிறார்‌. இவ்வாறு scr : என்று தன்‌ ஏக்க உணர்வை வெளிப்படுத்துறொர்‌. இவ்வாறு plus: G plon: என்று தன் ஏக்க உணர்வை வெளிப்படுத்துகிறார். இவ்வாறு

tam : பலதரப்பட்டவர்களாலும்‌ ஏற்றிப்‌ போற்றும்‌ வகையில்‌ scr : பலதரப்பட்டவர்களாலும்‌ ஏற்றிப்‌ போற்றும்‌ வகையில்‌ plus: ப plon: பலதரப்பட்டவர்களாலும் ஏற்றிப் போற்றும் வகையில்

tam : ஆக்கப்பணி செய்து தமிழின்‌ ஆற்றலை அனைத்து வகை scr : ஆக்கப்பணி செய்து தமிழின்‌ ஆற்றலை அனைத்து வகை plus: G plon: ஆக்கப்பணி செய்து தமிழின் ஆற்றலை அனைத்து வகை

tam : யிலும்‌ வெளிப்படுத்தி வரும்‌ மணவையாரின்‌ முயற்சி scr : மயிலும்‌ வெளிப்படுத்தி வரும்‌ மணவையாரின்‌ முயற்சி plus: களை, அவரது அறிவியல் மற்றும் சமூக, இலக்கியப் பணி plon: யிலும் வெளிப்படுத்தி வரும் மணவையாரின் முயற்சி

ravi-annaswamy commented 5 years ago

Test 4: another page from 2003 tam and plon are good but scr misses certain lines as english! I will write some code that retrieves confidence from each recognizer and also list that.

image

Results of Shree's new recognizer (old and new)

28 தமிழ வளாச்சியில் மணவைபா£ செயத பூ£பி'

பெரிதும் விரும்புகிறேன். உன்னால் சில தமிழ்ப் பணிகளை

தமிழில் சில சாதனைகளைச் செய்ய முடியும் என்பது என் திடமான நம்பிக்கை. நீயும் அப்படிப்பட்ட இலட்சிய வெறி யோடு இருப்பதை நான் நன்கறிவேன். பிற்காலத்தில் உலகம் உன்னை இனங்காணவும், இஸ்லாமியப் பெயரின் மூலம் உன் இஸ்லாமியச் சமுதாயத்தின் பெருமை உயரவும் வாய்ப்பாக இருக்கும்'' என்று கூறி முஸ்தபாவை ஊக்கு வித்தார். தன் குருநாதர் தெ.பொ.மீ அவர்களின் கருத்துக்கு எப்போதும் முக்கியத்துவம் தந்து அக்கருத்தை அப்படியே பின்பற்றும் முஸ்தபா, எப்போதும் தன்பெயரோடு தன் ஊரான 'மணப்பாறை?'யின் சுருக்கமான ‘'மணவை'யை இணைத்துக் கொள்வது வழக்கம். அவ்வூரின் மீது அவருக்கு எப்போதும் அலாதிப் பிரியம். தான் இளமையில் திறம்பட உருவாகக் காரணமாக இருந்த ஊர் என்ற நன்றியுணர்வால் தன் பெயரை ‘மணவை முஸ்தபா' என அமைத்துக் கொண் டார். அதுவும் கூட இன்று ‘மணவையார்’ எனச் சுருங்கி விட் டது. தமிழார்வமும் தமிழறிவும் இவருள் பொங்கிப் பொழி யவே தமிழை வளர்க்க, வளப்படுத்த இவர் உள்ளம் அவாவி யதில் வியப்பொன்றும் இல்லை.

%

இவர் பள்ளியில் படிக்கும் காலத்தில் திராவிட இயக்கச் செயல்பாடுகள் தமிழார்வலர்களிடையே ஒருவித மலர்ச்சியை - மனக்கிளர்ச்சியை உருவாக்கிக் கொண்டிருந் தற்கொப்ப, இவரும் அவ்வுணர்வுகட்கு ஆட்பட்டவராக இருந்தார். இந்தி எநிர்ப்புணர்வும் தனித்தமிழார்வமும் போட்டி போட்டுக் கொண்டு தமிழ்ப் பற்றை வளர்க்கலா யின. பேச்சுப் போட்டிகளிலும் கட்டுரைப் போட்டிகளிலும் தொடர்ந்து பள்ளி அளவில், மாவட்ட அளவில், மாநில

Tournament result display:

tam : 29 தமிழ வளாச்சியில்‌ மணவையரா சேயத புரட்சி! scr : 28 தமிழ வளாச்சியில்‌ மணவையரா செயத புரடசி! plus: 28 E plon: 28 தமிழ வளாச்சியில் மணவைபா£ செயத பூ£பி'

tam : பெரிதும்‌ விரும்புகிறேன்‌. உன்னால்‌ சில தமிழ்ப்‌ பணிகளை scr : பெரிதும்‌ விரும்புகிறேன்‌. உன்னால்‌ சில தமிழ்ப்‌ பணிகளை plus: ப plon: பெரிதும் விரும்புகிறேன். உன்னால் சில தமிழ்ப் பணிகளை

tam : தமிழில்‌ சல சாதனைகளைச்‌ செய்ய முடியும்‌ என்பது என்‌ scr : தமிழில்‌ சில சாதனைகளைச்‌ செய்ய முடியும்‌ என்பது என்‌ plus: தமிழில் சில சாதனைகளைச் செய்ய முடியும் என்பது என் plon: தமிழில் சில சாதனைகளைச் செய்ய முடியும் என்பது என்

tam : திடமான நம்பிக்கை. நீயும்‌ அப்படிப்பட்ட இலட்சிய வெறி scr : திடமான நம்பிக்கை. நீயும்‌ அப்படிப்பட்ட இலட்சிய வெறி plus: ந plon: திடமான நம்பிக்கை. நீயும் அப்படிப்பட்ட இலட்சிய வெறி

tam : யோடு இருப்பதை நான்‌ நன்கறிவேன்‌. பிற்காலத்தில்‌ scr : யோடு இருப்பதை நான்‌ நன்கறிவேன்‌. பிற்காலத்தில்‌ plus: ழு plon: யோடு இருப்பதை நான் நன்கறிவேன். பிற்காலத்தில்

tam : உலகம்‌ உன்னை இனங்காணவும்‌, இஸ்லாமியப்‌ பெயரின்‌ scr : உலகம்‌ உன்னை இனங்காணவும்‌, இஸ்லாமியப்‌ பெயரின்‌ plus: S plon: உலகம் உன்னை இனங்காணவும், இஸ்லாமியப் பெயரின்

tam : மூலம்‌ உன்‌ இஸ்லாமியச்‌ சமுதாயத்தின்‌ பெருமை உயரவும்‌ scr : மூலம்‌ உன்‌ இஸ்லாமியச்‌ சமுதாயத்தின்‌ பெருமை உயரவும்‌ plus: ந plon: மூலம் உன் இஸ்லாமியச் சமுதாயத்தின் பெருமை உயரவும்

tam : வாய்ப்பாக இருக்கும்‌'” என்று கூறி முஸ்தபாவை ஊக்கு scr : வாய்ப்பாக இருக்கும்‌'' என்று கூறி முஸ்தபாவை ஊக்கு plus: ந plon: வாய்ப்பாக இருக்கும்'' என்று கூறி முஸ்தபாவை ஊக்கு

tam : வித்தார்‌. தன்‌ குருநாதர்‌ தெ.பொ.மீ அவர்களின்‌ கருத்துக்கு scr : OVE ACUI UO ROUTAN OTE TUG TUE TIE IC) plus: ந plon: வித்தார். தன் குருநாதர் தெ.பொ.மீ அவர்களின் கருத்துக்கு

tam : எப்போதும்‌ முக்கியத்துவம்‌ தந்து அக்கருத்தை அப்படியே scr : எப்போதும்‌ முக்கெத்துவம்‌ தந்து அக்கருத்தை அப்படியே plus: | plon: எப்போதும் முக்கியத்துவம் தந்து அக்கருத்தை அப்படியே

tam : பின்பற்றும்‌ முஸ்தபா, எப்போதும்‌ தன்பெயரோடு தன்‌ scr : பின்பற்றும்‌ முஸ்தபா, எப்போதும்‌ தன்பெயரோடு தன்‌ plus: S plon: பின்பற்றும் முஸ்தபா, எப்போதும் தன்பெயரோடு தன்

tam : ஊரான 'மணப்பாறை'யின்‌ சுருக்கமான 'மணவை'யை scr : dy (1 18 LT TT 111 IOC plus: ப ிங plon: ஊரான 'மணப்பாறை?'யின் சுருக்கமான ‘'மணவை'யை

tam : இணைத்துக்‌ கொள்வது வழக்கம்‌. அவ்வூரின்‌ மீது அவருக்கு scr : இணைத்துக்‌ கொள்வது வழக்கம்‌. அவ்வூரின்‌ மீது அவருக்கு plus: [ஆக plon: இணைத்துக் கொள்வது வழக்கம். அவ்வூரின் மீது அவருக்கு

tam : எப்போதும்‌ அலாதிப்‌ பிரியம்‌. தான்‌ இளமையில்‌ திறம்பட scr : எப்போதும்‌ அலாதிப்‌ பிரியம்‌. தான்‌ இளமையில்‌ திறம்பட plus: 2 plon: எப்போதும் அலாதிப் பிரியம். தான் இளமையில் திறம்பட

tam : உருவாகக்‌ காரணமாக இருந்த ஊர்‌ என்ற நன்றியுணர்வால்‌ scr : உருவாகக்‌ காரணமாக இருந்த ஊர்‌ என்ற நன்றியுணர்வால்‌ plus: உருவாகக் காரணமாக இருந்த ஊர் என்ற நன்றியுணர்வால் plon: உருவாகக் காரணமாக இருந்த ஊர் என்ற நன்றியுணர்வால்

tam : தன்‌ பெயரை 'மணவை முஸ்தபா' என அமைத்துக்‌ கொண்‌ scr : தன்‌ பெயரை 'மணவை முஸ்தபா' என அமைத்துக்‌ கொண்‌ plus: ப plon: தன் பெயரை ‘மணவை முஸ்தபா' என அமைத்துக் கொண்

tam : டார்‌. அதுவும்‌ கூட இன்று 'மணவையார்‌: எனச்‌ சுருங்கி விட்‌ scr : OTE ECOL LEEEEUILTEIM plus: டார். அதுவும் கூட இன்று ‘மணவையார்’ எனச் சுருங்கி விட் plon: டார். அதுவும் கூட இன்று ‘மணவையார்’ எனச் சுருங்கி விட்

tam : டது. தமிழார்வமும்‌ தமிழறிவும்‌ இவருள்‌ பொங்கிப்‌ பொழி scr : டது. தமிழார்வமும்‌ தமிழறிவும்‌ இவருள்‌ பொங்கிப்‌ பொழி plus: S plon: டது. தமிழார்வமும் தமிழறிவும் இவருள் பொங்கிப் பொழி

tam : யவே தமிழை வளர்க்க, வளப்படுத்த இவர்‌ உள்ளம்‌ அவாவி scr : யவே தமிழை வளர்க்க, வளப்படுத்த இவர்‌ உள்ளம்‌ அவாவி plus: ய plon: யவே தமிழை வளர்க்க, வளப்படுத்த இவர் உள்ளம் அவாவி

tam : யதில்‌ வியப்பொன்றும்‌ இல்லை. scr : யதில்‌ வியப்பொன்றும்‌ இல்லை. plus: S plon: யதில் வியப்பொன்றும் இல்லை.

tam : தொடர்ந்து பரிசுகள்‌ scr : தொடர்ந்து பரிசுகள்‌ plus: தொடர்ந்து பரிசுகள் plon: %

tam :
scr :
plus: ய plon:

tam : இவர்‌ பள்ளியில்‌ படிக்கும்‌ காலத்தில்‌ திராவிட scr : [CY VIE 111 LL 1310 (LO plus: ந plon: இவர் பள்ளியில் படிக்கும் காலத்தில் திராவிட

tam : இயக்கச்‌ செயல்பாடுகள்‌ தமிழார்வலர்களிடையே ஒருவித scr : இயக்கச்‌ செயல்பாடுகள்‌ தமிழார்வலர்களிடையே ஒருவித plus: ய்ய plon: இயக்கச் செயல்பாடுகள் தமிழார்வலர்களிடையே ஒருவித

tam : மலர்ச்சியை - மனக்கிளர்ச்சியை உருவாக்கிக்‌ கொண்டிருந்‌ scr : மலர்ச்சியை - மனக்கிளர்ச்சியை உருவாக்கிக்‌ கொண்டிருந்‌ plus: ் plon: மலர்ச்சியை - மனக்கிளர்ச்சியை உருவாக்கிக் கொண்டிருந்

tam : தற்கொப்ப, இவரும்‌ அவ்வுணர்வுகட்கு ஆட்பட்டவராக scr : தற்கொப்ப, இவரும்‌ அவ்வுணர்வுகட்கு ஆட்பட்டவராக plus: ழக யய plon: தற்கொப்ப, இவரும் அவ்வுணர்வுகட்கு ஆட்பட்டவராக

tam : இருந்தார்‌. இந்தி எதிர்ப்புணர்வும்‌ தனித்தமிழார்வமும்‌ scr : OULU CE LTT CUE TTPO plus: போட்டி போட்டுக் கொண்டு தமிழ்ப் பற்றை வளர்க்கலா plon: இருந்தார். இந்தி எநிர்ப்புணர்வும் தனித்தமிழார்வமும்

tam : போட்டி போட்டுக்‌ கொண்டு தமிழ்ப்‌ பற்றை வளர்க்கலா scr : போட்டி போட்டுக்‌ கொண்டு தமிழ்ப்‌ பற்றை வளர்க்கலா plus: S plon: போட்டி போட்டுக் கொண்டு தமிழ்ப் பற்றை வளர்க்கலா

tam : யின. பேச்சுப்‌ போட்டிகளிலும்‌ கட்டுரைப்‌ போட்டிகளிலும்‌ scr : யின. பேச்சுப்‌ போட்டிகளிலும்‌ கட்டுரைப்‌ போட்டிகளிலும்‌ plus: ப plon: யின. பேச்சுப் போட்டிகளிலும் கட்டுரைப் போட்டிகளிலும்

ravi-annaswamy commented 5 years ago

Test 5: from 1988 good quality scan but with noise pixels on the page. This page has 'Ra, nai' using old forms. Script seems to catch the Ra and Nai correctly. PlusON is second best, but has many mistakes.

This is probably the starting point for improving tesseract for Tamil.

image

tam : க்‌ scr : A plus: ‘ plon: ™

tam : 7 scr : 7 plus: 7 plon: 7

tam : 7. இவ்வுலகத்தில்‌ பொருள்களெல்லாம்‌ scr : 7. இவ்வுலகத்தில்‌ பொருள்களெல்லாம்‌ plus: 7. இவ்வுலகத்தில் பொருள்களெல்லாம் plon: 7. இவ்வுலகத்தில் பொருள்களெல்லாம்

tam : வேறுவேரறாகத்‌ தோன்றுகின்றனவே, ஒன்று scr : வேறுவேறோகத்‌ தோன்றுகின்றனவே, ஒன்று plus: வேறுவேறாகத் தோன்றுகின்றனவே, ஒன்று plon: வேறுவேறராகத் தோன்றுகின்றனவே, ஒன்று

tam : என்று எப்படி எண்ணுவேன்‌, அதற்கு ஒரு scr : என்று எப்படி எண்ணுவேன்‌, அதற்கு ஒரு plus: என்று எப்படி எண்ணுவேன், அதற்கு ஒரு plon: என்று எப்படி எண்ணுவேன், அதற்கு ஒரு

tam : “வழி உண்டா? என்று கேள்‌; சொல்லு scr : வழி உண்டா? என்று கேள்‌; சொல்லு plus: வழி உண்டா ? என்று கேள்; சொல்லு plon: வழி உண்டா? என்று கேள்; சொல்லு

tam : கிறேன்‌ : 'ஒரு மரத்தில்‌ இலை வேறு, பூவேறு, scr : கிறேன்‌ : ஒரு மரத்தில்‌ இலை வேறு, பூவேறு, plus: கிறேன் : ‘ஒரு மரத்தில் இலை வேறு, பூவேறு, plon: கிறேன் : ‘ஒரு மரத்தில் இலை வேறு, பூவேறு,

tam : காய்‌ வேறு, களை வேறு--இப்படிக்‌ காண்‌ scr : காய்‌ வேறு, கிளை வேறு இப்படிக்‌ காண்‌ plus: காய் வேறு, கிளை வேறு—இப்படிக் காண் plon: காய் வேறு, கிளை வேறு—இப்படிக் காண்

tam : கிறோமே. ஆனாலும்‌ அவையெல்லாம்‌ ஒன்றே . scr : கிறோமே. அனாலும்‌ அவையெல்லாம்‌ ஒன்றே . plus: கிறோமே. ஆனாலும் அவையெல்லாம் ஒன்றே . plon: கிறோமே. ஆனாலும் அவையெல்லாம் ஒன்றே . .

tam : மரம்‌ என்ற சொல்லில்‌ அவ்வளவும்‌ அடங்‌ scr : மரம்‌ என்ற சொல்லில்‌ அவ்வளவும்‌ அடங்‌ plus: மரம் என்ற சொல்லில் அவ்வளவும் அடங் plon: மரம் என்ற சொல்லில் அவ்வளவும் அடங்

tam : கியதே. அவ்வளவுக்கும்‌ மூலம்‌ ஒன்று, scr : கியகே. அவ்வளவுக்கும்‌ மூலம்‌ ஒன்று, plus: தியதே. அவ்வளவுச்கும் மூலம் ஒன்று, plon: கியதே. அவ்வளவுச்கும் மூலம் ஒன்று,

tam : உயிர்‌ ஒன்று; அதுபோலவே, இவ்வுலகில்‌ scr : உயிர்‌ ஒன்று ; அதுபோலவே, இவ்வுலகில்‌ , plus: உயிர் ஒன்று ; அதுபோலவே, இவ்வுலகில் . plon: உயிர் ஒன்று ; அதுபோலவே, இவ்வுலகில் .

tam : 'வேறு வேறாகக்‌ காணப்படும்‌--எல்லாப்‌ scr : (வேறு வேறாகக்‌ காணப்படும்‌_—எல்லாப்‌ plus: 'வேறு வேறாகக் காணப்படும்_எல்லாப் plon: வேறு வேருகக் காணப்படும்—எல்லாப்

tam : பொருள்‌, எல்லா உட. ல்‌, எல்லா உயிருக்‌ scr : யொருள்‌, எல்லா உட. ல்‌, எல்லா உயிருக்‌ plus: பொருள், எல்லா உட. ல், எல்லா உயிருக் plon: பொருள் , எல்லா உட. ல், எல்லா உயிருக்

tam : கும்‌--மூலம்‌ ஒன்றே, உயிர்‌ ஒன்றே. ஆகை ' scr : கும்‌ மூலம்‌ ஒன்றே, உயிர்‌ ஒன்றே. ஆகை' plus: கும்—மூலம் ஒன்றே, உயிர் உன்ேே- ஆகை ‘ plon: கும்_மூலம் ஒன்றே, உயிர் ஊ்சே. ஆசை ‘

tam : யால்‌ எல்லாம்‌ ஒன்றே. scr : யால்‌ எல்லாம்‌ ஒன்றே. plus: யால் எல்லாம் ஒன்றே. plon: யால் எல்லாம் ஒன்றே .

tam : 8. ஓ! நல்லவனே [ எல்லாம்‌ ஒன்றென்‌ scr : 8. ஓ! நல்லவனே ! எல்லாம்‌ ஒன்றென்‌ plus: 8. ஓ ! நல௯வை 1 எல்லாம் ஒன்றென் plon: 8. ௐ ! ஃஃஃ 1 எல்லாம் ஒன்றென்

tam : பது நன்மைக்கோ, இமைக்கோ, நீயே scr : பது நன்மைக்கோ, திமைக்கோ, நீயே plus: பது நன்மைக்கோ, தீமைக்கோ, நீயே plon: பது நன்மைக்கோ, தீமைக்கோ, நீயே

tam : கவனி, தன்னைப்போல பிறரையும்‌ பிறரைப்‌ scr : கவனி, தன்னைப்போல பிறரையும்‌ பிறரைப்‌ plus: கவனி, தன்னைப்போல பிறரையும் பிறரைப் plon: கவனி, கன்னைப்போல பிறரையும் பிறரைப்

tam : போலத்‌ தன்னையும்‌ பார்க்கிறவனே scr : போலத்‌ தன்னையும்‌ பார்க்கிறவனே plus: போலத் த் ன் னை யும் பார்க்கிறவனே plon: போலத் த் ன் னை யு ம் பார்க்கிறவனே

ravi-annaswamy commented 5 years ago

Test 6 another page from 1988 Scr is best but has a few mistakes.

image

tam : ர scr : A plus: \{ plon: \’

tam : 37 ! scr : 37 ! plus: 37 : plon: 37 [

tam : என்னும்‌ வரம்‌ பை மீருதகாயிருக்கும்‌. scr : என்னும்‌ வரம்பை மீரறாததாயிருக்கும்‌. plus: என்னும் வ ர ம் ை ப மீராதகாயிருக்கும். plon: என்னும் வ ர ம் பை மீராதகாயிருக்கும்.

tam : அனால்‌, . சாந்தம்‌ அடையாதவனுடைய scr : அனால்‌, . சாந்தம்‌ அடையா தவனுடைய plus: ஆனால், . சா ந் த ம் அடையாதவனுடைய plon: னால், . ச £ ந் க ம் அடையாதவனுடைய

tam : செய்கையில்‌ உண்டாகும்‌ மாறுதல்களோ, scr : செய்கையில்‌ உண்டாகும்‌ மாறுதல்களோ, plus: செய்கையில் உண்டாகும் மாறுதல்களோ; plon: செய்கை்யில் உண்டாகும் மாறுதல்களோ;

tam : வரம்பை மீறினவைசளாயிருக்கும்‌. ஆத scr : வரம்பை மீறினவைகளாயிருக்கும்‌. ஆத plus: வரம்பை மீறினனலவகளாயிருக்கும். ஆத plon: வரம்பை மீறினனவகளாயிருக்கும். ஆ5

tam : லால்‌ மனக்‌ குளிர்ச்சியானது இவனுக்கே scr : லால்‌ மனக்‌ குளிர்ச்சியானது இவனுக்கே plus: லால் மனக் குளிர்ச்சியானது இவனுக்சே plon: லால் மனக் குளிர்ச்சியான்து இவனுக்சே

tam : யன்றி உலகத்துக்கும்‌ பெரிய நன்மையை scr : யன்றி உலகத்துக்கும்‌ பெரிய நன்மையை plus: யன்றி உலகத்துக்கும் பெரிய் நன்மையை plon: யன்றி உலகத்துக்கும் பெரிய் நன்மையை

tam : உண்டு பண்ணுகிறது. உண்மையாய்‌ நடக்க scr : உண்டு பண்ணுதிெது. உண்மையாய்‌ நடக்க plus: உண்டு பண்ணுகிறது. உண்மையாய் நடக்க plon: உண்டு பண்ணுகிறது. உண்மையாய் நடக்க

tam : வேண்டிய வழியைக்‌ காண்பிப்பது சாந்தம்‌. scr : வேண்டிய வழியைக்‌ காண்பிப்பது சாந்தம்‌. plus: வேண்டிய வழினயைக் காண்பிப்பது சாந்தம். plon: வேண்டிய வழிலைக் காண்பிப்பது சாந்தம்.

tam : த, ஒருவன்‌, கையில்‌ விளக்கு. வைத்துக்‌ scr : 5, ஓருவன்‌, கையில்‌ விளக்கு. வைத்துக்‌ plus: ‘5. ஒருவன், கையில் விளக்கு: வைத்துக் plon: ¢5. ஒருவன், கையில் விளக்கு: வைத்துக்

tam : கொண்டு நடக்கிறான்‌. அந்த விளக்குக்கும்‌ scr : கொண்டு நடக்கிறான்‌. அந்த விளக்குக்கும்‌ plus: கொண்டு நடக்கிறான். அந்த விளச்குச்கும் plon: கொண்டு நடக்கிருன். அந்த விளச்கக்கும்

tam : இவ்வுலகிலுள்ள மேடு பள்ளங்களுக்கும்‌ scr : இவ்வுலகிலுள்ள மேடு பள்ளங்களுக்கும்‌ plus: இவ்வுலகிலுள்ள § மடு பள்ளங்களுக்கும் plon: இவ்வுலகிலுள்ள § ம டு பள்ளங்களுக்கும்

tam : ஏதாவது பகை உண்டா? இல்லை. ஆனால்‌, scr : ஏதாவ்து பகை உண்டா ? இல்லை. ஆனால்‌, plus: ஏதாவது பகை உண்டா ? இல்லை. ஆனால்,; plon: தாவது பகை உண்டா ? இல்லை. ஆனால்;

tam : விளக்குக்கும்‌ இருட்டுக்குேமே பகை. scr : விளச்குக்கும்‌ இருட்டுக்கு மே பகை. plus: விளச்குக்கும் இ ரு ட் டு க் சு மே பகை: plon: வளச்குக்கும் இ ரு ட் டு க் கு «மே பசை:

tam : விளக்கு, இருட்டை ஓட்டி, மேடுபள்ளங்‌ : scr : விளக்கு, இருட்டை ஓட்டி, மேடுபள்ளங்‌ plus: விளக்கு, - இருட்ஶ்டை ஓட்டி, மேடுபள்ளங் plon: வளச்சு, 7 இருட்ல்ட ஓட்டி, மேடுபள்ளங்

tam : சளின்‌ நிலைமையை அறிவித்து, விளக்‌ scr : களின்‌ நிலைமையை அறிவிதீன்‌, விளக்‌ plus: ஏஎளின்§ நிலைமையை அறிவித்ச் ¢ ஞவிளக் plon: எஉளின்§ நிலீலிமயை அறிவித்ச் ¢ ஞிளக்

tam : குக்கு உடையவனை ஏறியும்‌, இறங்கியும்‌, scr : குக்கு உடையவனை ஏறியும்‌, இறங்கியும்‌. plus: குக்கு உடையவனை ஏறியும், இறங்கியும்• plon: குக்கு உடையவனை எஏறியும். இறங்கியும்•

tam : ஒதுங்கியும்‌ ஜாக்கரதையாய்ப்‌ பபோக்ச்‌ scr : ஒதுங்கியும்‌ ஜாக்கிரதையாய்ப்‌. போகச்‌ plus: ஒதுங்கியும் ஜாச்கிரதையாய்ப் போ க்ச் plon: ஒதுங்கியும் ஜாச்கிரதையாய்ப் « போ க் ச்

tam : செய்கிறது; மேடு என்‌- காலை இ. . scr : செய்கிறது; *மேடு என்‌, காலை இட . plus: செய்கிறது; • மேடு என்,- க் £ லை இட . plon: செய்கிறது; " • மேடு என், க் £ லை இட .

tam : றிற்று£* என்றும்‌, *பள்ளம்‌ என்னைக்‌ கீழே scr : றிற்று” என்றும்‌, “பள்ளம்‌ என்னைக்‌ கீழே plus: றிற்றுʼ¢§ என்றும், ‘பள்ளம் என்னைக் தீழே plon: றிற்று”§ என்றும், ‘¢*பள்ளம் என்னைக் கீழே

tam : ்‌ தள்ளிற்று”” என்றும்‌ வீணாய்‌ அவைகள்‌ மீது scr : ' தள்ளிற்று?” என்றும்‌ வீணாய்‌ அவைகள்‌ மீது plus: ‘ 'தள்ளிற்றுʼ¢§ என்றும் வீணாய் அவைகள் மீது plon: ’ 'ள்ளிற்று’’§ ச்ன்றும் வீணாய் அவைகள் மீது

tam : ர்‌ scr : i plus: } plon: /

ravi-annaswamy commented 5 years ago

Test 7 is a book from 1961 (on american libraries)

Scan quality is medium or low. Script/Tamil is better than tam and pluson too. (I know pluson training is still proceeding)

--

image

tam : 11 scr : 11 plus: 41 plon: 11

tam : தல்‌ அமெரிக்க நாலகம்‌ scr : முதல்‌ அமெரிக்க நூலகம்‌ plus: ஶமுதல் அமெரிக்க நூலகம் plon: «ுதல் அமெரிக்க நூலகம்

tam : பாதன்‌ முதலில்‌ வர்சீனியாவில்‌ (௫ம்‌) என்‌- scr : பறற முதலில்‌ வர்சீனியாவில்‌ (Vரஜ்றiக) என்‌ plus: புூன்முதலில் வர்சீனியாவில் (Virginia) என் plon: பூன் முதலில் வர்சீனியாவில் (Virginia) என்_

tam : பிகோ னார்‌௦) என்னுமிடத்தில்‌ தொடங்கப்பட்ட scr : பிகோ (Henrico) என்னுமிடத்தில்‌ தொடங்கப்பட்ட plus: ஶ்~ஃஈ£ (Henரபico) என்னுமிடத்தில் தொடங்கப்பட்ட plon: . (ஈர்) என்னுமிடத்தில் தொடங்கப்பட்ட

tam : ரி நாலகம்தான்‌ முதல்‌ அமெரிக்க நூலகமாகும்‌- scr : ரி நரலகம்தான்‌ முதல்‌ அமெரிக்க நூலகமாகும்‌* plus: ஶாரி நாலகம்தான் முதல் அமெரிக்க நூலகமாகும்: plon: மாரி நாலகம்தான் முதல் அமெரிக்க நூலகமாகும்:

tam : ஒர்லைலூரி கி.பி. 1622-இல்‌ தொடங்கப்பட்டது. scr : க்கல்லூமி கிபி. 1622-இல்‌ தொடங்கப்பட்டது. plus: ஜஶ்ஃ்லாரி கி.பி. 1622-இல் தொடங்கப்பட்டது. plon: ழூர்ஶஃலஶ்லாஶி கி.பி. 16228-இல் தொடங்கப்பட்டது.

tam : ஏல்‌ அதே ஆண்டில்‌ ஏற்பட்ட உள்நாட்டுக்‌ கலகத்‌ scr : நனுல்‌ அதே ஆண்டில்‌ ஏற்பட்ட உள்நாட்டுக்‌ கலகத்‌ plus: ஶூஶல்ை அதே ஆண்டில் ஏற்பட்ட உள்நாட்டுக் கலகத் plon: ஶூஶல் அதே ஆண்டில் ஏற்பட்ட உள்நாட்டுக் கலகத்

tam : ிடைகாரணமாக இந்நூலகம்‌ நீர்மேற்‌ குமிழி போலா scr : ரிம்‌ காரணமாக இந்நூலகம்‌ நீர்மேற்‌ குமிழி போலா plus: ஶன் காரணமாக இந்நூலகம் நீர்மேற் குமிழி போலா plon: ன் காரணமாக இந்நூலகம் நீர்மேற் குமிழி போலா

tam : யிற்று. scr : மிஹ்று. plus: ஶிற்று- plon: ஶரிற்று-

tam :
scr :
plus:
plon:

tam :
scr :
plus:
plon:

tam :
scr :
plus:
plon:

tam : முதல்‌ பல்கலைக்‌ கழக நூலகம்‌ scr : முதல்‌ பல்கலைக்‌ கழக நூலகம்‌ plus: முதல் பல்கலைக் கழக நூலகம் plon: முதல் பல்கலைக் கழக நூலகம்

tam : அமெரிக்க நாட்டு முதற்‌ பல்கலைக்‌ கழக நூலகம்‌ scr : அமெரிக்க நாட்டு முதற்‌ பல்கலைக்‌ கழக நூலகம்‌ plus: அமெரிக்க நாட்டு முதற் பல்கலைக் கழக நூலகம் plon: அமெரிக்க நாட்டு முதற் பல்கலைக் கழக நூலகம்

tam : நர்‌ வார்டு பல்கலைக்‌ கழக நூலகமாகும்‌. (காலாக scr : நர்வார்டு பல்கலைக்‌ கழக நுூலகமாஞும்‌. (Harward plus: ஶபூர்வார்டு பல்கலைக் கழக நூலகமாகும். (Harwara plon: ஶூர்வார்டு பல்கலைக் கழக நூலகமாகும். (Harward

tam : 11 ஈரமல்டு 11௧௫) கி.பி. 1689-இல்‌ ரெவரண்ட்‌ சான்‌ scr : University Library) கி.ப9. 1628-இில்‌ ரெவரண்ட்‌ சான்‌ plus: ₹niversity Library) கி.பி. 1688_இல் ரெவரண்ட் சான் plon: +niversity Library) கி.பி. 1688-இல் ரெவரண்ட் சான்

tam : ஒர்வர்ர்டு என்ற பெரியாரது பெயரால்‌ ஆரம்பிக்கப்‌ scr : அர்ர்ர்டு என்ற பெரியாரது பெயரால்‌ ஆரம்பிக்கப்‌ plus: ஆர்ர்ர்டு என்ற பெரியாரது பெயரால் ஆரம்பிக்கப் plon: ஶூர்ஃர்ர்டு என்ற பெரியாரது பெயரால் ஆரம்பிக்கப்

tam : ட்‌... இப்பல்கலைக்‌ கழக நூலகத்திற்கு, அப்பெரியார்‌ scr : ப்‌. இப்பல்கலைக்‌ கழக நூலகத்திற்கு, அப்பெரியார்‌ plus: பட்ட இப்பல்கலைக் கழக நூலகத்திற்கு, அப்பெரியார் plon: பட்ட இப்பல்கலைக் கழக நூலகத்திற்கு, அப்பெரியார்

tam : அங்ரிடமிருந்த கிடைத்தற்கரிய நானூறு நூல்களை நன்‌ scr : அங்ரிடமிருத்த கிடைத்தற்கரிய நானூறு நூல்களை நன்‌ plus: அம்மிடமிருந்த கிடைத்தற்கரிய நானூறு நால்களை நன் plon: .ம்ரிடமிருந்த கிடைத்தற்கரிய நானூறு நால்க௭ நன்

tam : வொடையாகக்‌ கொடுத்துதனினார்‌. scr : பிொடையாகக்‌ கொடுத்துதவினார்‌. plus: ஃாடையாகக் கொடுத்துதவினர். plon: :ஃடையாகக் கொடுத்துதவினார்.

tam : சிற்றூர்‌ நூலகங்கள்‌ scr : சிற்றூர்‌ நூலகங்கள்‌ plus: சிற்றூர் நூலகங்கள் plon: சிற்றூர் நூலகங்கள்

tam : பதினேழாம்‌ நூற்றாண்டின்‌ இறுதியில்தான்‌ scr : பதினேழாம்‌ நூற்றாண்டின்‌ இறுதியில்தான்‌ plus: பதினேழாம் நூற்றுண்டின் இறுதியில்தான் plon: பதினேழாம் நூற்றாண்டின் இறுதியில்தான்

tam : ஏமெரிக்க நாட்டுப்‌ பொது நூலக வரலாறு தொடங்கு scr : அமெரிக்க நாட்டுப்‌ பொது நலக வரலாறு தொடங்கு plus: அமெரிக்க நாட்டுப் பொது நூலக வரலாறு தொடங்கு plon: ஔ)மெரிக்க நாட்டுப் பொது நாலக வரலாறு தொடங்கு

tam : றது என்னலாம்‌. ரெவரண்ட்‌ தாமசு ப்ரே (௩. 1%௦- scr : பிறது என்னலாம்‌. ரெவரண்ட்‌ தாமசு ப்ரே (Rev. Tho- plus: றது என்னலாம். ரெவரண்ட் தாமசு ப்ரே (Re. Tho- plon: றது என்னலாம். ரெவரண்ட் தாமச ப்ரே (Rன. Th-

tam : மடி 808) என்ற பெரியாரது பெரு முயற்சியால்‌ சிற்றூர்‌ scr : ப Bray) என்ற பெரியாரது பெரு முயற்சியால்‌ சிற்றூர்‌ plus: ஶஷs Bray) என்ற பெரியாரது பெரு முயற்சியால் சிற்றூர் plon: ஶு Bray) என்ற பெரியாரது பெரு முயற்சியால் சிற்றூர்

tam : றில்‌ நூலகங்கள்‌ பல பொது மக்களுக்காகத்‌ திறக்கப்‌ scr : ணில்‌ நூலகங்கள்‌ பல பொது மக்களுக்காகத்‌ திறக்கப்‌ plus: ஶஃில் நூலகங்கள் பல பொது மஃ்களுக்காகத் திறக்கப் plon: ,பரில் நூலகங்கள் பல பொது மக்களுக்காகத் திறக்கப்

tam : பட்டன. scr : ப்ட்ன. plus: பட்டன. plon: பட்டன.

tam : பொது நூலகங்கள்‌ scr : பொது நூலகங்கள்‌ plus: பொது நூலகங்கள் plon: பொது நூலகங்கள்

tam : மாளடைவில்‌ பொது வரிப்பணத்திலிருந்து நகர்‌ scr : நாளடைவில்‌ பொது வரிப்பணத்திலிருந்து நகர்‌ plus: ஶாளடைவில் பொது வரிப்பணத்திலிருந்து நகர் plon: ,மாளடைவில் பொது வரிப்பணத்திலிருந்து நகர்

tam : னிறக்கினரால்‌ மக்களின்‌ உபயோகத்திற்காக நூல்‌ scr : பன்‌ றஞ்தினரால்‌ மக்களின்‌ உபயோகத்திற்காக நூல்‌ plus: ஶன்றத்தினரால் மக்களின் உபயோகத்திற்காக நூல் plon: |பன்ற,ந்,கினரால் மக்களின் உபயோகத்திற்காக நூல்

tam : ர்‌ வாங்கி வைக்கப்பட்டன. டாக்டர்‌ கிப்‌ என்பவர்‌ scr : நள்‌ ாம்கி வைக்கப்பட்டன. டாக்டர்‌ கீப்‌ என்பவர்‌ plus: ஈ் பாங்கி வைக்கப்பட்டன. டாக்டர் கீப் என்பவர் plon: ள் எாங்கி வைக்கப்பட்டன. டாக்டர் கீப் என்பவர்

tam : 19. 1072-இல்‌ பாச்டன்‌ நகரில்‌ பொது நூலக scr : (பி. 1675-இல்‌ பாச்டன்‌ நகரில்‌ பொது நூலக plus: பி. _1675-இல் பாச்டன் நகரில் பொது நூலக plon: |!.|ரி. 1675-இல் பாச்டன் நகரில் பொது நூலக

tam : பொன்று திறக்கப்பட்டது என்று எழுதியுள்ளார்‌. சிலர்‌ scr : பொறு திறக்கப்பட்டது என்று எழுதியுள்ளார்‌. சிலர்‌ plus: ஶ்பன்றடகிறக்கப்பட்டது என்று எழுதியுள்ளார். சிலர் plon: ஶபான்றூ ,கிறக்கப்பட்டது என்று எழுதியுள்ளார். சிலர்

ravi-annaswamy commented 5 years ago

Test 8 is the publication details page of 1961 book and has wide variety of fonts. Script Tamil is best and pluson is getting there.

image

tam : சாந்தி வெளியீடு: எண்‌-.29 scr : சாந்தி வெளியீடு : எண்‌-29 plus: சாக வௌமடடு: எ-29 plon: காஜ வௌடயடு: எண-29

tam : முதற்பதிப்பு: ஆகஸ்ட்‌, 1967 scr : முதற்பதிப்பு: ஆகஸ்ட்‌, 1961 plus: முதற்பதிப்பு: ஆகஸ்ட், 1961 plon: முதற்பதிப்பு: ஆகஸ்ட், 1961

tam : பதிப்புரிமை நாலகத்திற்கே scr : பதிப்புரிமை நாலகத்திற்கே plus: பத்ப்புர்ைை ஈஃகதந்ேே plon: ஏத்ப்புர்வ எ இந்

tam : சாதா பதுப்பு ரூ. 125 scr : சாதா பதிப்பு ரூ. 1-25 plus: சாதா பதிப்பு ஙூ. 125 plon: சாதா பதிப்பு ங. 125

tam : வரிசுப்பதப்பு சூ, 200 scr : வரிசுப்பதிப்பு சூ. 2-00 plus: உஈசுபபஜடபு கு. 2_00 plon: உரஈசுடபஜடபு க. ௨-௦௦

tam : அச்சடப்பெற்றது scr : அசடப்பெற்றது . plus: அச௫டபபெற்றது. plon: அச௫டபபெறநகு .

tam : பாரதி பிரிண்டர்ஸ்‌, 119, பிராட்வே சென்னை... scr : பாரதி பிரிண்டர்ஸ்‌, 119, பிராட்வே சென்னை !. plus: பாரதி பிரிண்டர்ஸ், 119, பீராட்வே சென்னை - 1. plon: பாரத் பிரிண்டர்ஸ், 119, பீராடடவே சென்னை:.

Shreeshrii commented 5 years ago

I have only found the following fonts with old style glyphs. Please check if these are ok to train on.

I have found many Tamil Unicode fonts, but all others seem to be modern style.

tmp Karla_Tamil_Upright tmp Karla_Tamil_Upright_Bold tmp Lohit_Tamil_Classical tmp Karla_Tamil_Inclined_Italic tmp Karla_Tamil_Inclined_Bold_Italic tmp e-Grantamil tmp FreeSans tmp FreeSerif tmp FreeSerif_Bold

ravi-annaswamy commented 5 years ago

Thanks for clarification

Yes these are good

Sent from my iPhone

On Nov 3, 2019, at 10:34 AM, Shreeshrii notifications@github.com wrote:

I have only found the following fonts with old style glyphs. Please check if these are ok to train on.

I have found many Tamil Unicode fonts, but all others seem to be modern style.

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

Shreeshrii commented 5 years ago

tam - from default install, scripts/Tamil - from scripts, tamplus - from Shree and tamplus_oldnew from Shree

There are three github repos with traineddata files from Google, tessdata, tessdata_fast, and tessdata_best. So there will be tam and scripts/Tamil in each. Please compare all for speed and accuracy.

tamPlus.traineddata and tamplus_oldnew are from the same training (still continuing). tamplus (sent on email) had CER of 0.251 and the one uploaded in repo had CER of 0.135.

Shreeshrii commented 5 years ago

tesseract-ocr/langdata/tam has the training data for the models for tesseract's legacy engine. langdata_lstm/tam has the training data used for LSTM models, the training text in that is 36mb, and okfonts.txt has a list of fonts used for generating synthetic training data.

I have used a much smaller training text. Training has been running since Oct 28th.

ravi-annaswamy commented 5 years ago

Shree

For comparison I tried to add tessdata_best/script/Tamil, but after placing it under script directory with a modified name it failed to load. Here is the error:

TesseractError: (1, 'Error opening data file C:\Program Files\Tesseract-OCR/tessdata/script/BestTamil.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'script/BestTamil\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')

On Sun, Nov 3, 2019 at 5:40 PM Shreeshrii notifications@github.com wrote:

tesseract-ocr/langdata/tam has the training data for the models for tesseract's legacy engine. langdata_lstm/tam has the training data used for LSTM models, the training text in that is 36mb, and okfonts.txt has a list of fonts used for generating synthetic training data.

I have used only 3-4mb of training text. Training has been running since Oct 28th.

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/KaniyamFoundation/ProjectIdeas/issues/71?email_source=notifications&email_token=AGMNHP52CTBIGUM5BP5BHPLQR54SLA5CNFSM4IPOWI32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEC6CWDI#issuecomment-549202701, or unsubscribe https://github.com/notifications/unsubscribe-auth/AGMNHP2QCOTDNIE4XBB4PPDQR54SLANCNFSM4IPOWI3Q .

Shreeshrii commented 5 years ago

Please check that file was downloaded correctly. Check the file size.

Since you are renaming, you can keep in tessdata directory itself, no need for subdirectory.

It should work, similar to the trainedata from my repo.

Shreeshrii commented 5 years ago

If you can create a ground truth text file for a couple of test pages, I would like to run some OCR evaluation tools to get objective error rates for comparison.

ravi-annaswamy commented 5 years ago

Ok shree

I will look at filesize

I had initially put it on the route directory but did not know if script drained Data has additional glyphs or formatting

That is why I placed it in the Script folder

I will check now using your suggestions

Sent from my iPhone

On Nov 5, 2019, at 10:29 AM, Shreeshrii notifications@github.com wrote:

Please check that file was downloaded correctly. Check the file size.

Since you are renaming, you can keep in tessdata directory itself, no need for subdirectory.

It should work, similar to the trainedata from my repo.

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

ravi-annaswamy commented 5 years ago

Sure I can create some across years and fonts How do I go about it and what form does tesseract need it? Any article link appreciated Shree

I have some ground truth files that I had prepared for ocropus training Scan lines and corresponding .txt files

Sent from my iPhone

On Nov 5, 2019, at 11:03 AM, Shreeshrii notifications@github.com wrote:

If you can create a ground truth text file for a couple of test pages, I would like to run some OCR evaluation tools to get objective error rates for comparison.

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

Shreeshrii commented 5 years ago

The page mages and corresponding text files can be used by the evaluation tools.

It will be great if you can share the ocropus training data. That combined with synthetic data will give better results (I hope).

tesseract-ocr/tesstrain has makefile based training using lineimages and their transcription.

Shreeshrii commented 5 years ago

https://github.com/impactcentre/ocrevalUAtion

Shreeshrii commented 5 years ago

https://github.com/Shreeshrii/ocr-evaluation-tools

ravi-annaswamy commented 5 years ago

Shree

I have uploaded ground truth for 5 pages from a single book. The book is from 1950s and uses old style letterings and numerals from both Tamil and Hindu-arabic style.

https://github.com/ravi-annaswamy/tesseract-tamil/

The scan quality varies from clear to dull, but there is no noise.

I have added 5 page images as well as the line and transcribed text in a subfolder with page number. Please review and let me know.

I can add more books and pages later.

Thanks Ravi

ravi-annaswamy commented 5 years ago

Shree please hold off, let me do a proof reading and let you know when I have reviewed all of it.

balajijagadesh commented 5 years ago

So many pages of page by page scanned page proofread page is available in Tamil wikisource. If required they can be used.

J. Balaji

On Wed, Nov 6, 2019, 7:14 PM Ravi Annaswamy notifications@github.com wrote:

Shree please hold off, let me do a proof reading and let you know when I have reviewed all of it.

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/KaniyamFoundation/ProjectIdeas/issues/71?email_source=notifications&email_token=AESGXRDQXGSDZU65YPM2PILQSLC2VA5CNFSM4IPOWI32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEDGSD4Q#issuecomment-550314482, or unsubscribe https://github.com/notifications/unsubscribe-auth/AESGXRCHO5MNLBNTPKUVPC3QSLC2VANCNFSM4IPOWI3Q .

ravi-annaswamy commented 5 years ago

Thanks Balaji, that is a great idea.

  1. Shree, for ground truth do you need line images and corresponding line text OR can you use page images and entire page text (with line breaks on text lines but 'aligned'
ravi-annaswamy commented 5 years ago

I have really good news.

Shree, I was able to test with tessbest script Tamil (you were right, my download had failed and I was not having correct model file) your plus_on is comparable to this new best script model. they both have few mistakes only, and diff mistakes :)

and it seems to be very good also. Very few errors. I will share a few examples. Let me know if you have an updated old/new trained model, I can use that.

image

tam : க்‌ scr : A plus: ‘ plon: ™ bestsc: [ந

tam : 7 scr : 7 plus: 7 plon: 7 bestsc: 7

tam : 7. இவ்வுலகத்தில்‌ பொருள்களெல்லாம்‌ scr : 7. இவ்வுலகத்தில்‌ பொருள்களெல்லாம்‌ plus: 7. இவ்வுலகத்தில் பொருள்களெல்லாம் plon: 7. இவ்வுலகத்தில் பொருள்களெல்லாம் bestsc: 7. இவ்வுலகத்தில்‌ பொருள்களெல்லாம்‌

tam : வேறுவேரறாகத்‌ தோன்றுகின்றனவே, ஒன்று scr : வேறுவேறோகத்‌ தோன்றுகின்றனவே, ஒன்று plus: வேறுவேறாகத் தோன்றுகின்றனவே, ஒன்று plon: வேறுவேறராகத் தோன்றுகின்றனவே, ஒன்று bestsc: வேறுவேறாகத்‌ தோன்றுகின்றனவே, ஒன்று

tam : என்று எப்படி எண்ணுவேன்‌, அதற்கு ஒரு scr : என்று எப்படி எண்ணுவேன்‌, அதற்கு ஒரு plus: என்று எப்படி எண்ணுவேன், அதற்கு ஒரு plon: என்று எப்படி எண்ணுவேன், அதற்கு ஒரு bestsc: என்று எப்படி எண்ணுவேன்‌, அதற்கு ஒரு

tam : “வழி உண்டா? என்று கேள்‌; சொல்லு scr : வழி உண்டா? என்று கேள்‌; சொல்லு plus: வழி உண்டா ? என்று கேள்; சொல்லு plon: வழி உண்டா? என்று கேள்; சொல்லு bestsc: வழி உண்டா? என்று கேள்‌; சொல்லு

tam : கிறேன்‌ : 'ஒரு மரத்தில்‌ இலை வேறு, பூவேறு, scr : கிறேன்‌ : ஒரு மரத்தில்‌ இலை வேறு, பூவேறு, plus: கிறேன் : ‘ஒரு மரத்தில் இலை வேறு, பூவேறு, plon: கிறேன் : ‘ஒரு மரத்தில் இலை வேறு, பூவேறு, bestsc: கிறேன்‌: 'ஒரு மரத்தில்‌ இலை வேறு, பூவேறு,

tam : காய்‌ வேறு, களை வேறு--இப்படிக்‌ காண்‌ scr : காய்‌ வேறு, கிளை வேறு இப்படிக்‌ காண்‌ plus: காய் வேறு, கிளை வேறு—இப்படிக் காண் plon: காய் வேறு, கிளை வேறு—இப்படிக் காண் bestsc: காய்‌ வேறு, கிளை வேறு—இப்படிக்‌ காண்‌

tam : கிறோமே. ஆனாலும்‌ அவையெல்லாம்‌ ஒன்றே . scr : கிறோமே. அனாலும்‌ அவையெல்லாம்‌ ஒன்றே . plus: கிறோமே. ஆனாலும் அவையெல்லாம் ஒன்றே . plon: கிறோமே. ஆனாலும் அவையெல்லாம் ஒன்றே . . bestsc: கிறோமே. ஆனாலும்‌ அவையெல்லாம்‌ ஒன்றே .

tam : மரம்‌ என்ற சொல்லில்‌ அவ்வளவும்‌ அடங்‌ scr : மரம்‌ என்ற சொல்லில்‌ அவ்வளவும்‌ அடங்‌ plus: மரம் என்ற சொல்லில் அவ்வளவும் அடங் plon: மரம் என்ற சொல்லில் அவ்வளவும் அடங் bestsc: மரம்‌ என்ற சொல்லில்‌ அவ்வளவும்‌ அடங்‌

tam : கியதே. அவ்வளவுக்கும்‌ மூலம்‌ ஒன்று, scr : கியகே. அவ்வளவுக்கும்‌ மூலம்‌ ஒன்று, plus: தியதே. அவ்வளவுச்கும் மூலம் ஒன்று, plon: கியதே. அவ்வளவுச்கும் மூலம் ஒன்று, bestsc: கியதே. அவ்வளவுக்கும்‌ மூலம்‌ ஒன்று,

tam : உயிர்‌ ஒன்று; அதுபோலவே, இவ்வுலகில்‌ scr : உயிர்‌ ஒன்று ; அதுபோலவே, இவ்வுலகில்‌ , plus: உயிர் ஒன்று ; அதுபோலவே, இவ்வுலகில் . plon: உயிர் ஒன்று ; அதுபோலவே, இவ்வுலகில் . bestsc: உயிர்‌ ஒன்று ; அதுபோலவே, இவ்வுலகில்‌

tam : 'வேறு வேறாகக்‌ காணப்படும்‌--எல்லாப்‌ scr : (வேறு வேறாகக்‌ காணப்படும்‌_—எல்லாப்‌ plus: 'வேறு வேறாகக் காணப்படும்_எல்லாப் plon: வேறு வேருகக் காணப்படும்—எல்லாப் bestsc: வேறு வேருகக்‌ காணப்படும்‌—எல்லாப்‌

tam : பொருள்‌, எல்லா உட. ல்‌, எல்லா உயிருக்‌ scr : யொருள்‌, எல்லா உட. ல்‌, எல்லா உயிருக்‌ plus: பொருள், எல்லா உட. ல், எல்லா உயிருக் plon: பொருள் , எல்லா உட. ல், எல்லா உயிருக் bestsc: பொருள்‌, எல்லா உட. ல்‌, எல்லா உயிருக்‌

tam : கும்‌--மூலம்‌ ஒன்றே, உயிர்‌ ஒன்றே. ஆகை ' scr : கும்‌ மூலம்‌ ஒன்றே, உயிர்‌ ஒன்றே. ஆகை' plus: கும்—மூலம் ஒன்றே, உயிர் உன்ேே- ஆகை ‘ plon: கும்_மூலம் ஒன்றே, உயிர் ஊ்சே. ஆசை ‘ bestsc: கும்‌_மூலம்‌ ஒன்றே, உயிர்‌ ஒன்றே. ஆகை:

tam : யால்‌ எல்லாம்‌ ஒன்றே. scr : யால்‌ எல்லாம்‌ ஒன்றே. plus: யால் எல்லாம் ஒன்றே. plon: யால் எல்லாம் ஒன்றே . bestsc: யால்‌ எல்லாம்‌ ஒன்றே.

tam : 8. ஓ! நல்லவனே [ எல்லாம்‌ ஒன்றென்‌ scr : 8. ஓ! நல்லவனே ! எல்லாம்‌ ஒன்றென்‌ plus: 8. ஓ ! நல௯வை 1 எல்லாம் ஒன்றென் plon: 8. ௐ ! ஃஃஃ 1 எல்லாம் ஒன்றென் bestsc: 8. ஒ! நல்லவனே ! எல்லாம்‌ ஒன்றென்‌

tam : பது நன்மைக்கோ, இமைக்கோ, நீயே scr : பது நன்மைக்கோ, திமைக்கோ, நீயே plus: பது நன்மைக்கோ, தீமைக்கோ, நீயே plon: பது நன்மைக்கோ, தீமைக்கோ, நீயே bestsc: பது நன்மைக்கோ, தமைக்கோ, நீயே

tam : கவனி, தன்னைப்போல பிறரையும்‌ பிறரைப்‌ scr : கவனி, தன்னைப்போல பிறரையும்‌ பிறரைப்‌ plus: கவனி, தன்னைப்போல பிறரையும் பிறரைப் plon: கவனி, கன்னைப்போல பிறரையும் பிறரைப் bestsc: கவனி, தன்னைப்போல பிறரையும்‌ பிறரைப்‌

tam : போலத்‌ தன்னையும்‌ பார்க்கிறவனே scr : போலத்‌ தன்னையும்‌ பார்க்கிறவனே plus: போலத் த் ன் னை யும் பார்க்கிறவனே plon: போலத் த் ன் னை யு ம் பார்க்கிறவனே bestsc: போலத்‌ தன்னையும்‌ பார்க்கிறவனே

ravi-annaswamy commented 5 years ago

Test 9: book from 1952.

Verdict: Best script is the best so far, but has errors. Also the book scan quality is bad, so I probably need to do some preprocessing to remove noise, (blur and normalize etc).

image

Image filename: test_images\TVA_BOK_0010276_anna_vazhkkai_puyal_p30.png

tam : *தைதிகள்‌ ப ப 31 scr : கைதிகள்‌ ol plus: கைதிகள் 31 plon: கைநிகள் - - | 31 bestsc: கைதிகள்‌ | | o1

tam :
scr :
plus:
plon:
bestsc:

tam : சமையற்காரலுக்குத்‌ தானே ெபெண்‌ பார்த்தா, தானே scr : சமையற்காமனுக்குத்‌ தானே பெண்‌ பார்த்னு; தானே plus: சமையற்காரனுக்குத் தானே பெ ப ண் பார்த்து, தானே plon: சமையற்காரனுச்குத் தானே « ப ண் பார்த்ல, தானே bestsc: சமையற்காரனுக்குத்‌ தானே பெண்‌ பார்த்து, தானே

tam : பணம்‌ செலவுசெய்து சலியாணம்‌ செய்துவைக்‌ கார்‌-ஏவ்வ scr : பணம்‌ செலவுசெய்‌ ௮ கலியாணம்‌ செய்தவைத்தார்‌-எவ்வ plus: பணம் செலவுசெய்து கலியாணம் செய்துவைத்தார்-எவ்வ plon: பணம் செலவுசெய்த கலியாணம் செய்,தவைத்தார்—எவ்வ bestsc: பணம்‌ செலவுசெய்து கலியாணம்‌ செய்துவைத்தார்‌-எவ்வ

tam : “சாவு கல்ல மனம்‌ இருக்கவேண்டும்‌. : இப்படிப்பட்டவர்கள்‌ scr : வு ஈல்ல மனம்‌ இருக்கவேண்டும்‌. இப்படிப்பட்டவர்கள்‌ plus: வு உல்ல மனம் இருக்சலேண்டும். இப்படிப்பட்டவர்கள் plon: ளவு ௩ல்ல மனம் இருக்கவேண்டும். இப்படிப்பட்டவர்கள் bestsc: ளவு நல்ல மனம்‌ இருக்கவேண்டும்‌. இப்படிப்பட்டவர்கள்‌

tam : -செளக்யமாக நானு யுகம்‌ வாழ வேண்டும்‌” எண்று. பேக: scr : 'செளக்யமாக நானு யுகம்‌ வாழகே வேண்டும்‌” என்‌ பேசிக்‌. plus: _செளக்யமாக தூ.ௐ யுகம் வாழலே வேண்டும்” என் -டேசிக் plon: செளச்யமாக ன.அ௮ யுகம் வாழலே வேண்டும்” என்௮ -பேசிக் bestsc: செளக்யமாக நானு யுகம்‌ வாழலே வேண்டும்‌” என்று பேசிக்‌

tam : கொ ண்டனர்‌. scr : கொ ண்டனர்‌. plus: கொ ண்டனர். plon: ஶௌ ண்டனர். bestsc: கொ ண்டனர்‌.

tam : பல்‌. - விளக்கிக்கொண்டே, கலியாணப்‌ பெண்ணின்‌ scr : பல்‌. விளக்கிக்கொண்டே, கலியாணப்‌ பெண்ணின்‌ plus: பல் _அஷஃகொண்டே, கலியாணப் பெண்ணின் plon: பல் ஷன, கலியாணப் பெண்ணின் bestsc: பல்‌ விளக்கிக்கொண்டே, கலியாணப்‌ பெண்ணின்‌

tam : தாயாரிடம்‌ வவத்தினிவார்‌ பரிகாசம்‌ பேசிக்கொண்டிருக்கி scr : தாயாரிடம்‌ வைத்தீஸ்வரர்‌ பரிகாசம்‌ பேசிக்கொண்டிருக்கி plus: தாயாரிடம் உச்சீஸஉர் பரிகாசம் பேசிக்கொண்டிருக்கி plon: ஞ£யாரிடம் ங் பரிகாசம் பேசிக்கொண்டிருக்கி bestsc: தாயாரிடம்‌ வைத்தீஸ்வரர்‌ பரிகாசம்‌ பேசிக்கொண்டிருக்கி

tam : மூர்‌, ஏன்‌ பார்வதி! நான்மட்டும்‌ எப்போ௫ம்‌. னே scr : மூர்‌, ஜேன்‌ பார்வதி! நான்மட்டும்‌ எப்போதும்‌: னே plus: றுர், *““ஏன் பார்வதி! நான்மட்டும் எப்போதம் சினேசி plon: றூர், “என் பார்வதி! கான்மட்டும் எப்போஅம் சினேகி bestsc: மூர்‌, “ஏன்‌ பார்வதி! நான்மட்டும்‌ எப்போதும்‌ கனேக்‌

tam : தத்தை மறக்கமாட்டேன்‌ என்ற விஷபம்‌ இப்பவாவது scr : தத்தை மறக்கமாட்டேன்‌ என்கற விஷயம்‌ இப்பவாவது plus: தத்தை மறக்கமாட்டேன் என்கிற விஷயம் இப்பவாவது plon: தத்த மறக்கமாட்டேன் என்கிற விஷயம் ஜிப்பவாவத bestsc: தத்ல்த மறக்கமாட்டேன்‌ என்ற விஷயம்‌ இப்பவாவது

tam : புரிஞ்சுதா? பார்‌ உன்‌ மகளுக்கு. எல்லாச்‌ ரும்‌ இறப்பும்‌ scr : புரிஞ்சுதா? பார்‌ உன்‌ மகரூக்கு. எல்லாச்‌ சீரும்‌ சிறப்பும்‌ plus: புரிஞ்சதா? பார் உன் மகளுக்கு எல்லாச் சீரும் இழப்பும் plon: புரிஞ்சசா? பார் உன் மகளுக்கு எல்லாச் சீரும் இறப்பும் bestsc: புரிஞ்சுதா! பார்‌ உன்‌ மகளுக்கு. எல்லாச்‌ சீரும்‌ இறப்பும்‌

tam : சான்‌ இட்ட இருந்து செய்கிறேன்‌ .நீ. சவலைப்படாே தன்னு scr : நான்‌ திட்ட இருர்அ செய்கிறேன்‌ நீ்‌ கவலைப்படாே தன்னு plus: நான் கிட்ட இருர் செய்கிறேன்-நீ கவலைப்படா§ தன்னு plon: நான் கிட்ட. இருர்.௫ செய்கிறேன்-நீ கவலைப்படா§ தன்னு bestsc: நான்‌ இட்ட. இருந்து செய்கிறேன்‌ நீ கவலைப்படாே தன்னு

tam : அன்று சொன்னதை. நிறை! வேற்றி வைத்தேனு இல்லையா, scr : அன்று சொன்னதை. நிறை வேற்றி ஸவைத்தேனா இல்லையா, plus: அன்ற சொன்னதை நிறை' ்« ப ்் கயா, plon: அன்௪௫ சொன்னதை நிறை' ்~ =~ஈூஉ இ்யா, bestsc: அன்று சொன்னதை நிறை' வேற்றி வைத்தே இல்லையா,

tam : பசர்‌” என்னார்‌. ட scr : பார்‌” என்றார்‌. £ plus: -பஈர்” என்றார். . plon: பார்” என்றார். . bestsc: யார்‌” என்றார்‌. |

tam : ்‌ இல்லாத scr : i இல்லாத plus: ‘ _இஶஉாச plon: ‘ _இாச bestsc: i இல்லாத

tam : அக்கரை, வே. யாருக்கு இருக்கமுடி.. 1 மனக. ்‌ கிக்க சத்ய scr : அக்கமை, வேறே யாருக்கு இருக்கமுடி. uy மெனிக. கீங்க ௪ த்ய plus: அக்கை, வேதே யாருக்கு இருக்கமுடி. யு; ஏச்§ த சீங்க சத்ய plon: அக்கமை, வேரே யாருக்கு இருக்கமுடி. ய ச்௪ ’ சத்ய bestsc: அக்கரை, வேனே யாருக்கு இருக்குடி. ய; மங்க. : நீங்க சத்ய

tam : பன்ர ்‌ கரு-சொன்ன வாக்யெ த்‌, க்க சாப்பா ச்‌ திணிக ங்க. ஏன்‌ இ scr : 1] ்‌தறுசொன்ன வாக்யெ ஜீலை சக்‌ காப்பா கீ தினிக நக்‌ என்‌ த்‌ plus: -சந் ¢தரு-சொன்ன வாக்கிய ச்® கக் சாப்பா ச் தனி ங்க” _என் .ஔு plon: -சந் ‘ ரு-சொன்ன வாச்ஙிய ச்® கக் சாப்பா ச் கீ ங்க” என் ஜு bestsc: ] தரு -சொன்ன வாக்ய த்லை, சக்‌ காப்பா ச்‌ இண ங்க” என்‌ LB

tam : ன்றி கூதிஞள்‌. ள்‌ ப பட்ட க scr : ஈன்றி கூதினள்‌. A plus: ஈ்ச் ௭௪. _ -=***: plon: ச் கூ. . ": bestsc: ன்றி கூறினூள்‌.. | OE,

tam : “அதா சரிங்க. அவ விஷயமாக உக கஞுச்டு' scr : “அஅ சரிங்க. அவ விஷயமாக உங்க களுக்‌ plus: “௮௮ சரிங்க. அல விஷயமாக உஜ்ஃ 5 plon: “அன சரிங்க. அவ விஷயமாசு உ்ஃ ஆ bestsc: அனு சரிங்க. அவ விஷயமாக உங்க களுக்‌

tam :
scr :
plus:
plon:
bestsc:

tam : ஆ பந்த கடட. ப பழத்‌ பாம. ழ்‌ scr : + வர்ற வ 1 ப plus: ஃ உ 7": ஜ் plon: ஃ - ஔ ூ bestsc: I ey EST

tam : “ஏழுற்திருடா மாயலசம்‌! ஏன்‌: ட இசாத்‌தரி,. scr : “ளமுக்திருடா மாயலரம்‌! என்‌ தேத்த. இராத் தரி, plus: “எழுந்திருடா _மாயலசம்! =எஜ்: சேத்ச ஞாத்தா, plon: “எழுந்திருடா மாயவராம்! ‘எத் கேச் ஞூத்தா, bestsc: ளமுந்திருடா மாயலரம்‌! னு நேத்து இராத்திரி,

tam : சத்யசர்தன்‌ கசாலட்சேபததைச்செய்து பது! ச்துப்போச்சி. scr : அத்யசுர்தன்‌ சாலட்சேபத்கைச்செய்து ௮! 'ச்அப்போச்கி. plus: -சத்யசர்தன் சாலட்சேபத்தைச்செய்து ட ௐு ஈச்துப்போசசி plon: -சத்யசர்தன் சாலட்சேபத்தைச்செய்து . ச்ுப்போசசி bestsc: அத்யசந்தன்‌ சாலட்‌. சேபத்தைச்செய்து லு! க்துப்போச் ௫

tam : போலிருக்கு... எழுர் இரு, எழுக்திரு--எமர்க்தவன்‌. ஜெயி : scr : போலிருக்கு. எழுக்திறா, எழுர்திறா]எமர்ச்தவன்‌ ஜெயி plus: போலிருக்கு. எழுந்திரு, எழுக்திறு_எமாக்சலன் ஜெடி. plon: போலிருக்கு. எழுந்திரு, எழுக்கிரு_எமாச்தவன் வெடி . bestsc: போலிருக்கு. எழுந்திரு, எழுந்திரு -ஏமர்க்தவன்‌ தஜெயி

tam : விலே, ஏய்த்‌அவிட்டவன்‌ . வெளியிலே” என்று கூறினான்‌) scr : விலே, எய்‌ த்‌அவிட்டவன்‌ . வெளியிலே” என்று கூறினான்‌; plus: லிலே, ஏய்த்தகிட்டவன் . வெளியிலே” என்று உழினான்; plon: லிலே, எய்த்அவிட்டவன் . வெளியிலே” என்று ஃழினான்; bestsc: விலே, ஏய்த்துவிட்டவன்‌ வெளியிலே” என்று கூறினன்‌;

tam : முத்த... ம்‌ ம scr : முத்த . A i plus: மச்ச . “ _< plon: முத்ச• . ‘ ‘¢¢¢« ’ bestsc: முத்து, . EE LO

ravi-annaswamy commented 5 years ago

Test 10: book from 1937 /script and Best/Script are tad better than the best of others. image

Image filename: test_images\Acc.No.8540-Ellam Ondre-1935_p10.png

tam : 6 எல்லாம்‌ ஒன்றே scr : 6 எல்லாம்‌ ஒன்றே plus: 8 எல்லாம் ஒன்றே plon: 8 எல்லாம் ஒன்ழே bestsc: 6 எல்லாம்‌ ஒன்மே

tam : உடலில்‌ புண்‌ உண்டானால்‌ சிகிச்சை செய்கிறோம்‌; அதில்‌ scr : உடலில்‌ புண்‌ உண்டானால்‌ சிச்சை செய்கிறோம்‌; அதில்‌ plus: உடலில் புண் உண்டானால் சிகிச்சை செய்குறோம்; அதில் plon: உடலில் புண் உண்டானால் சிகிச்சை செய்க&றோம்; அதில் bestsc: உடலில்‌ புண்‌ உண்டானால்‌ இர்சை செய்கிறோம்‌; அதில்‌

tam : உடலுக்குச்‌ றிது துன்பம்‌ உண்டாயினும்‌ ௮து நன்மை scr : உடலுக்குச்‌ திது தன்பம்‌ உண்டாயினும்‌ ௮௮ நன்மை plus: உடலுக்குச் சிறிது ௐன்பம் உண்டாயினும் ௮௫ ௩ஈன்மை plon: உடலுக்குச் சிறிது துன்பம் உண்டாயினும் ௮௮ ஈன்மை bestsc: உடலுக்குச்‌ இறிது துன்பம்‌ உண்டாயினும்‌ அது ஈன்மை

tam : யின்‌ பொருட்டே, அவ்வாறே நீ செய்கிற சில செய்கை scr : யின்‌ பொருட்டே. அவ்வாறே நீ செய்ற லெ செய்கை plus: யின் பொருட்டே. அவ்வாறே நீ செய்கிற சில செய்கை plon: யின் பொருட்டே. அவ்வாறே நீ செய்கிற சில செய்கை bestsc: யின்‌ பொருட்டே. அவ்வாறே நீ செய்ற இல செய்கை

tam : “களும்‌ இருக்கும்‌; ௮ துவும்‌ உலக ஈன்மைபின்‌ பொருட்‌ 2௨. scr : களும்‌ இருக்கும்‌; அதவும்‌ உலக நன்மையின்‌ பொருட்‌ ட. plus: :சளும் இரச்கும்; அதவும் உலக ஈன்மையின் பொருட் ட. plon: : களூம் இரச்சும்; ௮அவும் உலக ௩ன்மையின் 5பொருட் _—ே. bestsc: களும்‌ இருக்கும்‌; அதுவும்‌ உலக நன்மையின்‌ பொருட்‌ CE.

tam : ௮ கனால்‌ நீ பேதபுத்தியுடையவ னாகமாட்டாய்‌, ௭ருக்க scr : அ கனால்‌ நீ பேதபுத்‌நியுடையவ னாகமாட்டாய்‌, ௭ருக்க plus: ௮ #ீ பெதபுத்தியுடையவ னாகமாட்டாய். எருக்க plon: அ ௫னால் # பேதபுக்கிபுடைபவ னாகமாட்டாய். ௪ருக்ச bestsc: ௮ சனால்‌ நீ பேதபுக்இியுடையவ னாகமாட்டாய்‌, சுருக்க

tam : மாய்ச்‌ சொல்லுகிறேன்‌: எக ஒன்று என்று உணர்ந்தவன்‌, scr : மாய்ச்‌ சொல்லுடன்‌: — ஒன்று என்று உணர்ந்தவன்‌, plus: மாய்ச் சொல்லுகறேன்: ___ ஒன்று என்._று உணர்ந்தவன், plon: மாய்ச் சொல்லுகிறேன்: ---- ஒன் ௮ என்.று உணர்ந்தவன், bestsc: மாய்ச்‌ சொல்லுகிறேன்‌: — ஒன்று என்று உணர்ந்தவன்‌,

tam : எப்படி. கடக்கவேண்டு2 மா அப்படி நடப்பான்‌, ஓன்று scr : எப்படி கடக்கவேண்டு? மா அப்படி நடப்பான்‌, ஓன்னு plus: எப்படி கடக்கவேண்டு? மோ அப்படி நடப்பான். ஒன்ல plon: எப்படி ௩டக்கவேண்டு?§ மோ .அப்படி நடப்பான். ஒன்ல - bestsc: எப்படி ௩டக்கவேண்டு? சமா அப்படி நடப்பான்‌, ஒன்று

tam : என்ற உணர்ச்சி, ௮வனை உண்‌ ைமையில்‌ ஈடத்‌.துற.௫. scr : என்ற உணர்ச்‌, அவனை உண்மையில்‌ கடத்த. plus: என்ற உணர்ச்சி, அவனை உ ண் லைம யி ல் ஈடத்தகிறத- plon: என்ற உணர்ச்சி, அவனை உ ண் ம ம பி ல் கடத்தகிஉ௫- bestsc: என்ற உணர்ச்‌, அவனை உண்மையில்‌ நடத்துறது.

tam : அவனுக்குத்‌ தவறுதல்‌ என்பது இடையாது. அவன்‌ தான்‌ scr : அவனுக்குத்‌ தவறுதல்‌ என்பத நடையா அ. அவன்‌ தான்‌ plus: அவனுக்குத் தவறுதல் என்பது கிடையாது. அவன்தான் plon: அவனுக்£குத் தவறுதல் என்பது கிடையாஅ. அவன்தான் bestsc: அவனுக்குத்‌ தவறுதல்‌ என்பது இடையாது. அவன்தான்‌

tam : உலகத்தில்‌ கண்காணவக்ச தெய்வம்‌... எல்லாம்‌ ஒன்றே. scr : உலகத்தில்‌ கண்காணவர்க தெய்வம்‌. எல்லாம்‌ ஒன்றே. plus: உலகத்தில் கண்காணவந்த தெய்வம். எல்லாம் ஒன்ஶே. plon: உலகத்தில் கண்காணவரந்க தெய்வம். எல்லாம் ஒன்றே. bestsc: உலகத்தில்‌ கண்காணவர்க தெய்வம்‌. எல்லாம்‌ ஒன்றே.

tam :
scr :
plus:
plon:
bestsc:

tam : 1. நீ.யார்‌? இந்த உடல்‌ நீயா? இர்‌.த உடல்‌ நீயாயின்‌: scr : 1. நீ யார்‌? இந்த உடல்‌ நீயா! இந்த உடல்‌ கீயாயின்‌ : plus: 1. £ யார்§ இந்த உடல் நீயா? இக்க உடல் கீயாயின்: plon: 1. ஈ யார்§ ஒந்த உடல் நீயா? இஶ்.ஈச உடல் நீயாபின் : bestsc: 1. நீ யார்‌? இந்த உடல்‌ நீயா? இந்த உடல்‌ நீயாயின்‌:

tam : நீ தங்கும்பொழு னு இவ்வுடலில்‌ ஒரு பாம்பு ஊர்ற்தா லும்‌ scr : கீ தங்கும்பொழு அ இவ்வுடலில்‌ ஒரு பர்ம்பு ஊர்ந்தா லும்‌ plus: கீ ,அங்கும்பொழு து இவ்வுடலில் ஒரு பர்ம்பு ஊர்ந்தா லும் plon: கீ ,அஶங்கும்பொழு __ இவ்வுடலில் ஒரு பர்ம்பு ஊர்ந்தா லும் bestsc: E அூங்கும்பொழு து இவ்வுடலில்‌ ஒரு பர்ம்பு ஊர்ந்தா லும்‌

tam : நீ அ.தியமாட்டாயே, அப்படியிருக்க / நீ இவ்வுடம்பு scr : நீ அதியமாட்டாயே. அப்படியிருக்க நீ இவ்வுடம்பு plus: கீ அஇியமாட்டாயே. அப்படியருச்ச ! நீ இ வ் வு ட ம்பு plon: கீ அியமாட்டாயே. அப்படியிருச்ச ! நீ ஔ வ் வு ட ம் பு bestsc: நீ அறியமாட்டாயே. அப்படியிருக்க / நீ டுவ்வுடம்பு

tam : ஆவாயா? ஒருநாளும்‌ நீ இவ்வுடம்பு ஆகாய்‌. ஆகையால்‌ scr : ஆவாயா? ஒருநாளும்‌ நீ இவ்வுட.ம்பு ஆசாய்‌. ஆகையால்‌ plus: ஆவாயா? ஒருநாளும் ரீ ஒவ்வுடம்பு ஆசாய். ஆகையால் plon: ஆவாயா? ஒருஈளூம் ரீ இவ்வுடம்பு ஆசாய். ஆகையால் . bestsc: ஆவாயார?்‌ ஒருநாளும்‌ நீ இவ்வுடம்பு ஆகாய்‌. ஆகையால்‌

tam : , இவவுடம்புக்கு (8 வருயுள்‌ ளவன்‌ நி. scr : இவ்வுடம்புக்கு (வேறாயுள்‌ ளவன்‌ நி. plus: இவ்வுடம்புக்கு வேறுயுள் ளவன் நீ. plon: இவ்வுடம்புக்கு வேறுயுள் ளவன் நி. bestsc: இவ்வுடம்புக்கு வேறுயுள்‌ ளவன்‌ நீ.

tam : உ. நி தூங்கும்போது கனாக்‌ காண்இர/யே; அந்தக்‌ scr : ஓ. நி தூங்கும்போது கனாச்‌ காண்கரொயே; அந்தக்‌ plus: 2. தீ தூங்கும்போது கனாக் காண்கிடுயே; அந்தக் plon: 8. நி தூங்கும்போது கனாச் காண்கிறாயே; அந்தக் bestsc: 9. நீ தூங்கும்போது கனாக்‌ காண்டிமுயே; அந்தக்‌

tam : கனாவில்‌ ₹ உன்னை ஏூதா ஒருவனாக எண்ணிக்கொள்‌ கிருயே; scr : கனாவில்‌ ஐ உன்னை ஏதோ ஒருவனாக எண்ணிக்கொள்றொயே; plus: கனாவில் : உன்னை ஏதோ ஒருவனா எண்ணிக்கொள்கிறுயே; plon: கனாவில் : உன்னை எதோ ஒருலனஈ எண்ணிக்கொள்கிறாயே; bestsc: கனாவில்‌ உன்னை ஏதா ஒருவனாக எண்ணிக்கொள்கிறுயே;

tam : அவ்‌ வொருவன்‌ நீயா? அல்ல, அவ்‌ வொருவன்‌ நீயா scr : அவ்‌ வொருவன்‌ நீயா? அல்ல, அவ்‌ வொருவன்‌ நீயா plus: அவ் வொருவன் ரீய® அல்ல. அவ் லொருவன் நீயா plon: வ் வொருவள் ரீபா அல்ல. அவ் வொருவன் கீயா bestsc: அவ்‌ வொருவன்‌ நீயா? அல்ல, அவ்‌ வொருவன்‌ நீயா

tam : யிருந்தால்‌, 8 விழித்‌ துக்கொண்டவுடன்‌ அவ்‌ இஜுரருவன்‌ scr : யிருந்தால்‌; # விழித்‌ துக்கொண்டவுடன்‌ அவ்‌ வரராவன்‌ plus: மருர்தால், ஙீ ஔஃஃண்டவுட்ன் அவ் த்ய plon: யருர்சால், நீ ஔ ணட அவ் இௐவூ£ருவன் bestsc: யிருந்தால்‌, நீ கிழித்துக்கொண்டவுடன்‌ அவ்‌ இவுரறுவன்‌

tam : எங்கே? அவ்‌ வொருவன்‌ நீ அசாமற்போனதோடு அவ்‌. scr : எங்கே? ' அவ்‌ வொருவன்‌ தீ அசாமற்போனசதோடி அவ்‌. plus: எங்கே? அவ் வொருவன் கீ aாஶ்டோஎரசாு அவ் plon: எங்கே? அவ் வொருவன் கீ கஈாடச்ோஎரசாூ அவ் bestsc: எங்கே? ' அவ்‌ வொருவன்‌ நீ ஆகாமந்போன தடு அல்‌

tam : ப்‌ scr : 7 plus: * plon: }§ bestsc: ர்‌

ravi-annaswamy commented 5 years ago

Shree, so two questions for you: 1. For ground truth can you use page image and page of text (line aligned)

  1. If I give two models with a plus (eg script+bestscript) how does Tesseract use them, does it send through both models and use their confidence to derive a mix or choose the better of the two?
Shreeshrii commented 5 years ago
  1. Yes . Page level images with aligned groundtruth can be used, very easily for testing and ocr evaluation. For training, it will require generation of box files, the Wordstr format can be used, which aligns bounding box coordinates at a line level with its transcription.

  2. With 2 models used with plus, based on debug info, tesseract compares the models for each word and chooses one. I will look up the option and share the output with you.

On Thu, Nov 7, 2019, 06:41 Ravi Annaswamy notifications@github.com wrote:

Shree, so two questions for you: 1. For ground truth can you use page image and page of text (line aligned)

  1. If I give two models with a plus (eg script+bestscript) how does Tesseract use them, does it send through both models and use their confidence to derive a mix or choose the better of the two?

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/KaniyamFoundation/ProjectIdeas/issues/71?email_source=notifications&email_token=ABG37I64QPBVCKX3FTSVA33QSNTMHA5CNFSM4IPOWI32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEDIRN5I#issuecomment-550573813, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABG37I7TMCVDCPJCRC2DLULQSNTMHANCNFSM4IPOWI3Q .

Shreeshrii commented 5 years ago

I had updated shreeshrii/tessdata_tamil with newer models from training. I will check whether lower CER is reached in training and update more.

I think for further testing, you can eliminate the tam models if script ones are better.

Secondly, tessdata repo has the fast/integer version of tessdata_best/float model, while tessdata_fast has a different smaller int model.

So, all three of these can be compared for accuracy and speed.

Shreeshrii commented 5 years ago

https://github.com/tesseract-ocr/tesseract/issues/633#issuecomment-275348678

This is an old post regarding use of multiple models. I will try with different Tamil models and get back.

ravi-annaswamy commented 5 years ago

Thank you so much Shree

Sent from my iPhone

On Nov 6, 2019, at 8:55 PM, Shreeshrii notifications@github.com wrote:

tesseract-ocr/tesseract#633 (comment)

This is an old post regarding use of multiple models. I will try with different Tamil models and get back.

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

Shreeshrii commented 5 years ago
Shreeshrii commented 5 years ago

@balajijagadesh

After adding this code, we can see an Tesseract OCR button in Page namespace (பக்கம் பெயர்வெளி) edit mode in Tamil wikisource. Example is shown in the image below.

Do you know which traineddata file it uses? Can it be changed?

Shreeshrii commented 5 years ago

Have you tried the GoogleOCR in ta.wikisource? I tested just now and it seems much faster than the tesseract OCR on the one page I tried.

https://ta.wikisource.org/wiki/%E0%AE%AA%E0%AE%AF%E0%AE%A9%E0%AE%B0%E0%AF%8D:Shree/common.js

//Tesseract OCR
mw.loader.load( '//wikisource.org/w/index.php?title=User:Putnik/TesseractOCR.js&action=raw&ctype=text/javascript' );

//Google OCR
mw.loader.load('//wikisource.org/w/index.php?title=MediaWiki:GoogleOCR.js&action=raw&ctype=text/javascript');
Shreeshrii commented 5 years ago

Let me know if you have an updated old/new trained model, I can use that.

https://github.com/Shreeshrii/tessdata_tamil/blob/master/tamPLUS/tessdata_best/tamPlus0.073_38480.traineddata

Use the download link.

ravi-annaswamy commented 5 years ago

Shree I see you have updated new models. with as low as 4% error rate, so exciting. I will try to test them today.

ravi-annaswamy commented 5 years ago

Test 11.

Shree's plus old/new has become better, but still the tess best script tamil is better.

image

Image filename: test_images\Ellam_Ondre_1988_p40.png

scr : A pl007 ’ pl0041 - \ bestsc: \

scr : 37 ! pl007 37 ' ’ pl0041 37 ’ bestsc: 37 | :

scr : என்னும்‌ வரம்பை மீரறாததாயிருக்கும்‌. pl007 என்னும் வ ர ம் பை ப மீராதகாயிருக்கும்- pl0041 என்னும் வ ர ம் பை மீறாத காயிருக்கும். bestsc: என்னும்‌ வரம்பை மீருததாயிருக்கும்‌.

scr : அனால்‌, . சாந்தம்‌ அடையா தவனுடைய pl007 . னால், . ச £ஈ ந் க ம் அடையாதவனுடைய pl0041 ஆனால், . ச £ ந் க ம் அடையாதவனுடைய bestsc: அனால்‌, . சாந்தம்‌ அடையா தவ்னுடைய

scr : செய்கையில்‌ உண்டாகும்‌ மாறுதல்களோ, pl007 செய்கையில் உண்டாகும் மாறுதல்களோ; pl0041 கெய்கையில் உண்டாகும் மாறுகதல்களோ; bestsc: செய்கையில்‌ உண்டாகும்‌ மாறுதல்களோ,

scr : வரம்பை மீறினவைகளாயிருக்கும்‌. ஆத pl007 வரம்பை மீறினனவகரளாமயிருக்கும். ஆக pl0041 வரம்பை மீறினனவகளாயிருக்கும். ஆக bestsc: வரம்பை மீறினவைக்ளாயிருக்கும்‌. ஆத

scr : லால்‌ மனக்‌ குளிர்ச்சியானது இவனுக்கே pl007 லால் மனக் குளிர்ச்சியான்து இவனுக்சே pl0041 லால் மனக்' குளிர்ச்சியானது இவனுக்சே bestsc: லால்‌ மனக்‌ குளிர்ச்சியானது இவனுக்கே

scr : யன்றி உலகத்துக்கும்‌ பெரிய நன்மையை pl007 யன்றி உலகத்துக்கும் பெரிய் நன்மையை pl0041 யன்றி உலகத்துக்கும் பெரிய நன்மையை bestsc: யன்றி உலகத்துக்கும்‌ பெரிய நன்மையை

scr : உண்டு பண்ணுதிெது. உண்மையாய்‌ நடக்க pl007 உண்டு பண்ணுகிறது. உண்மையாய் நடக்க pl0041 உண்டு பண்ணுகிறது. உண்மையாய் நடக்க bestsc: உண்டு பண்ணுகிறது. உண்மையாய்‌ நடக்க

scr : வேண்டிய வழியைக்‌ காண்பிப்பது சாந்தம்‌. pl007 வேண்டிய வழியைக் காண்பிப்பது சாந்தம்.. pl0041 வேண்டிய வழிவங்க் காண்பிப்பது சாந்தம். bestsc: வேண்டிய வழிங்யக்‌ காண்பிப்பது சாந்தம்‌.

scr : 5, ஓருவன்‌, கையில்‌ விளக்கு. வைத்துக்‌ pl007 '. ஒருவன், சையில் விளக்கு வைத்துக் pl0041 ’ 5. ஔருவன், கையில் விளக்கு: வைத்துக் bestsc: £5. ஒருவன்‌, கையில்‌ விளக்கு. வைத்துக்‌

scr : கொண்டு நடக்கிறான்‌. அந்த விளக்குக்கும்‌ pl007 கொண்டு நடக்கிருள். அந்த விளச்சக்கசுஶ் pl0041 கொண்டு நடக்கிறான். அந்த விளச்கக்சம bestsc: கொண்டு நடக்கிறான்‌. அந்த விளக்குக்கும்‌

scr : இவ்வுலகிலுள்ள மேடு பள்ளங்களுக்கும்‌ pl007 இவ்வுலகிலுள்ள «§ ம டு பள்ளங்களுக்கும் pl0041 இவ்வுலகிலுள்ள « ம டு பள்ளங்களுக்கும் bestsc: இவ்வுலகிலுள்ள மேடு பள்ளங்களுக்கும்‌

scr : ஏதாவ்து பகை உண்டா ? இல்லை. ஆனால்‌, pl007 தாவது பகை உண்டா ? இல்லை. ஆனால்’ pl0041 தாவது பகை உண்டா ? இல்லை. ஆல் bestsc: ஏதாவ்து பகை உண்டா? இல்லை. ஆனால்‌,

scr : விளச்குக்கும்‌ இருட்டுக்கு மே பகை. pl007 ஊளச்குக்கும் இ ரு ட் டு ச் கு ₹¥மே <ூ£: pl0041 வளகச்குக்கும் இ ரு ட் டு க் க் ¢ ம ப$: bestsc: விளக்குக்கும்‌ இருட்டுக்குமே பகை.

scr : விளக்கு, இருட்டை ஓட்டி, மேடுபள்ளங்‌ pl007 ச்சு, "இருட்ல்ட ஓட்டி, மேடுபள்ளங் pl0041 வளச்சு, § இருட்ல்ட ஒட்டி, மேடுபள்ளங் bestsc: விளக்கு, இருட்டை ஓட்டி, மேடுபள்ளங்‌

scr : களின்‌ நிலைமையை அறிவிதீன்‌, விளக்‌ pl007 ளி § நிலீஃமயை அ றிவித்ச் ¢ ஹிளக் pl0041 _ளன்§ நிலீலீமயை அறி வித்ச் , ஞிளக் bestsc: களின்‌ நிலைமையை அறிவித்த, விளக்‌

scr : குக்கு உடையவனை ஏறியும்‌, இறங்கியும்‌. pl007 குக்கு உடையவனை எறியும், இறங்கியும்• pl0041 குக்கு உடையவனை ஏறியும், இறங்கியும்- bestsc: குக்கு உடையவனை ஏறியும்‌, இறங்கியும்‌.

scr : ஒதுங்கியும்‌ ஜாக்கிரதையாய்ப்‌. போகச்‌ pl007 ஒதுங்கியும் ஜாக்கிரதையாய்ப் « ப க் ச் pl0041 ஒதுங்கியும் ஜாக்கிரதையாய்ப் « போ க் ச் bestsc: ஒதுங்கியும்‌ ஜாக்கிரதையாய்ப்‌ போகச்‌

scr : செய்கிறது; *மேடு என்‌, காலை இட . pl007 செய்கிறது; • மேடு என்; க் £ லை இட . pl0041 செய்சிறது; *¢§ மேடு என்; க் £ லை இட . bestsc: செய்கிறது; “மேடு என்‌- காலை இட .

scr : றிற்று” என்றும்‌, “பள்ளம்‌ என்னைக்‌ கீழே pl007 றிற்று*§ என்றும், ‘“பள்ளம் என்னைக் கீழே pl0041 றிற்று£§ என்றும், ‘‘பள்ளம் என்னைக் கீழே bestsc: றிற்று”” என்றும்‌, “பள்ளம்‌ என்னைக்‌ கீழே

scr : ' தள்ளிற்று?” என்றும்‌ வீணாய்‌ அவைகள்‌ மீது pl007 ’ $ள்ளிற்று’ʼ§ என்றும் வீணாய் அவைசள் மீது pl0041 ’ தள்ளிற்றுʼ§ ன்றும் வீணாய் அவைகள் மீது bestsc: ்‌ தள்ளிற்று*” என்றும்‌ வீணாய்‌ அவைகள்‌ மீது

scr : i pl007 / pl0041 / bestsc: /

Shreeshrii commented 5 years ago

I suggest that you compare the output of tessdata_best/script/Tamil to the output of //Google OCR mw.loader.load('//wikisource.org/w/index.php?title=MediaWiki:GoogleOCR.js&action=raw&ctype=text/javascript');

ravi-annaswamy commented 5 years ago

Shree/Balaji

How do I use the google ocr js to ocr a page image Please point if the procedure is written somewhere or give me short few sentences

Sent from my iPhone

On Nov 11, 2019, at 11:01 PM, Shreeshrii notifications@github.com wrote:

I suggest that you compare the output of tessdata_best/script/Tamil to the output of //Google OCR mw.loader.load('//wikisource.org/w/index.php?title=MediaWiki:GoogleOCR.js&action=raw&ctype=text/javascript');

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

Shreeshrii commented 5 years ago

Please see https://m.wikisource.org/wiki/Wikisource:Google_OCR

This will work for books, images uploaded to wikiCommons. There are many existing books that are already uploaded and can be used.

I have found accuracy of goggle Oct to be better than tesseract. Tesseract can be trained but it will take months of training to better Google's results.

If fine tuning is done for a narrow target, eg. one particular font, it might work better.

Shreeshrii commented 5 years ago

You can also test by uploading any image to http://ocr.sanskritdictionary.com

ravi-annaswamy commented 5 years ago

Thanks Shree

Sent from my iPhone

On Nov 12, 2019, at 3:22 AM, Shreeshrii notifications@github.com wrote:

You can also test by uploading any image to http://ocr.sanskritdictionary.com

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

Shreeshrii commented 5 years ago

@balajijagadesh

Moreover, the google OCR is not good for old tamil scripts such as றை, னை, றா, ணா etc. So if we can train such old scripts in this tesseract ocr then it would be useful to proofread old Tamil scripts in Tamil wikisource.

Can you share an example of a page with old tamil scripts for testing?

I tried some random pages in ta.wikisource but didn't find one with old style glyphs.

eg. https://ta.wikisource.org/wiki/%E0%AE%AA%E0%AE%95%E0%AF%8D%E0%AE%95%E0%AE%AE%E0%AF%8D:%E0%AE%85._%E0%AE%AE%E0%AE%B0%E0%AF%81%E0%AE%A4%E0%AE%95%E0%AE%BE%E0%AE%9A%E0%AE%BF-%E0%AE%AA%E0%AE%BE%E0%AE%9F%E0%AE%B2%E0%AF%8D%E0%AE%95%E0%AE%B3%E0%AF%8D.pdf/311

I could see three different OCR options, IndicOCR, Tesseract and Google OCR. I found tesseract to be very slow. IndicOCR and GoogleOCR seem quite fast and comparable in output. IndicOCR seems to output at paragraph level while GoogleOCR at line level. I am assuming that original OCR was done using Google drive.

Since I don't know Tamil I can't identify which is better.

balajijagadesh commented 5 years ago

some of the old books https://ta.wikisource.org/s/94rw - 1869 https://ta.wikisource.org/s/94rx - 1869 https://ta.wikisource.org/s/94ry - 1930 https://ta.wikisource.org/s/94rz -1931 https://ta.wikisource.org/s/94s0 - 1865

https://ta.wikisource.org/s/1jz9

https://ta.wikisource.org/s/qxl

On Wed, Nov 13, 2019 at 9:55 AM Shreeshrii notifications@github.com wrote:

@balajijagadesh https://github.com/balajijagadesh

Moreover, the google OCR is not good for old tamil scripts such as றை, னை, றா, ணா etc. So if we can train such old scripts in this tesseract ocr then it would be useful to proofread old Tamil scripts in Tamil wikisource.

Can you share an example of a page with old tamil scripts for testing?

I tried some random pages in ta.wikisource but didn't find one with old style glyphs.

eg. https://ta.wikisource.org/wiki/%E0%AE%AA%E0%AE%95%E0%AF%8D%E0%AE%95%E0%AE%AE%E0%AF%8D:%E0%AE%85._%E0%AE%AE%E0%AE%B0%E0%AF%81%E0%AE%A4%E0%AE%95%E0%AE%BE%E0%AE%9A%E0%AE%BF-%E0%AE%AA%E0%AE%BE%E0%AE%9F%E0%AE%B2%E0%AF%8D%E0%AE%95%E0%AE%B3%E0%AF%8D.pdf/311

I could see three different OCR options, IndicOCR, Tesseract and Google OCR. I found tesseract to be very slow. IndicOCR and GoogleOCR seem quite fast and comparable in output. IndicOCR seems to output at paragraph level while GoogleOCR at line level. I am assuming that original OCR was done using Google drive.

Since I don't know Tamil I can't identify which is better.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/KaniyamFoundation/ProjectIdeas/issues/71?email_source=notifications&email_token=AESGXRFJ3PHX32JFZTKUGKDQTN6VBA5CNFSM4IPOWI32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOED42W5Y#issuecomment-553233271, or unsubscribe https://github.com/notifications/unsubscribe-auth/AESGXRBGL2VWXNRK4H3YFJLQTN6VBANCNFSM4IPOWI3Q .

ravi-annaswamy commented 5 years ago

I think Indic OCR now recognizer old fonts well.

Here is a page from the last but one link from Balaji (Neela Mala by valliappa - the writer is from my home town karaikudi :)

Old OCR on that wikipage:

覆盘 கலெக்டர் கம்பீரமாக எழுந்து கின்றர். ஒலி பெருக்கியின் முன்பு உற்சாகமாகப் பேசினர்: காந்தி மகான் பெயரை இந்தப் பள்ளிக்கு வைத்திருக்கிறீர்கள். பெயருக்கு ஏற்றபடி இந்தப் பள்ளி கன்முறையில் நடந்து வருவதை கா ன் கன்ருக அறிவேன். குழந்தைகள் க ட த் திய காடகம், காட்டியம் எல்லாம் எவ்வளவு சிறப்பாக இருந்தன ! .பெரிய பட்டணங்களில்கூட இப்படி கான் கண்டதில்லை. இவை எல்லாவற்றையும்விட கான் மிக உயர்வாக கினைப்பது எது தெரியுமா? ஒரே சிறுமி ஏழு பரிசுகளைப் பெற்ருளே, அதுதான்! அந்தச் சிறுமியைப் பற்றிய விவரங் களைத் தலைமை ஆசிரியரிடம் கேட்டுத் தெரிந்து கொண்டேன். ஏழையாக இருந்தாலும் எல்லாத் துறைகளிலும் அவள் கெட்டிக்காரியாக இருப்பது மிகவும் பாராட்டத்தக்கது. இச் சிறு மி க் கு. ஊக்கம் அளித்து, உதவியும் செய்தால், எதிர் காலத்தில் இவள் மிகவும் சிறந்தவளாக, நாடு போற்றும் நல்லவளாக, ஒரு தலைவியாக விளங்கி குலும் விளங்கலாம். இந்தப் பள்ளியில் ஐந்து வகுப்பு வரையில்தான் இருக்கிறது. இந்த ஆண் டுடன் இவளது படிப்புக்கு முற்றுப் புள்ளி வைத்துவிட வேண்டியதுதான ? இங்கிருந்து நான்கு மைல் தூரத்தில் உயர்நிலைப் பள்ளி இருக் கிறது. அங்கு அனுப்பி இவளைப் படிக்க வைக்க வேண்டும். இந்த நல்ல காரியத்தைச் செய்ய இந்த ஊரில் உள் ள பணக்காரர்களில் யாரேனும் முன்வந்தால் நல்லது. அப்படி யாருமே முன் வராது.

===

கலெக்டர் கம்பீரமாக எழுந்து நின்றார். ஒலி பெருக்கியின் முன்பு உற்சாகமாகப் பேசினார் : காந்தி மகான் பெயரை இந்தப் பள்ளிக்கு வைத்திருக்கிறீர்கள். பெயருக்கு ஏற்றபடி இந்தப் பள்ளி நன்முறையில் நடந்து வருவதை நான் ஈன்றாக அறிவேன். குழந்தைகள் நடத்திய நாடகம், நாட்டியம் எல்லாம் எவ்வளவு சிறப்பாக இருந்தன . பெரிய பட்டணங்களில்கூட இப்படி நான் கண்டதில்லை. இவை எல்லாவற்றையும்விட கான் மிக உயர்வாக நினைப்பது எது தெரியுமா? ஒரே சிறுமி ஏழு பரிசுகளைப் பெற்றாளே, அது நான்! அந்தச் சிறுமியைப் பற்றிய விவரங் களைத் தலைமை ஆசிரியரிடம் கேட்டுத் தெரிந்து கொண்டேன். ஏழையாக இருந்தாலும் எல்லாத் துறைகளிலும் அவள் கெட்டிக்காரியாக இருப்பது மிகவும் பாராட்டத்தக்கது. இச்சிறுமிக்கு. உக்கப் அளித்து, உதவியும் செய்தால், எதிர் காலத்தில் இவள் மிகவும் சிறந்தவளாக, நாடு போற்றும் நல்லவளாக, ஒரு தலைவியாக விளங்கி னாலும் விளங்கலாம். இந்தப் பள்ளியில் ஐந்து வகுப்பு வரையில்தான் இருக்கிறது. இந்த ஆண் குடன் இவளது படிப்புக்கு முற்றுப் புள்ளி வைத்துவிட வேண்டியதுதானா? இங்கிருந்து நான்கு மைல் தூரத்தில் உயர்நிலைப் பள்ளி இருக்க கிறது. அங்கு அனுப்பி இவளைப் படிக்க வைக்க வேண்டும். இந்த நல்ல காரியத்தைச் செய்ய இந்த ளில் உள்ள பணக்காரர்களில் யாரேனும் முன்வந்தால் நல்லது. அப்படி யாருமே முன் வராது

===

You can see the first sentence has old glyphs correctly read in the IndicOCR

Previous OCR: 覆盘 கலெக்டர் கம்பீரமாக எழுந்து கின்றர். ஒலி பெருக்கியின் முன்பு உற்சாகமாகப் பேசினர்: காந்தி மகான் பெயரை இந்தப் பள்ளிக்கு வைத்திருக்கிறீர்கள். பெயருக்கு ஏற்றபடி இந்தப் பள்ளி கன்முறையில் நடந்து வருவதை கா ன் கன்ருக அறிவேன்.

New OCR: கலெக்டர் கம்பீரமாக எழுந்து நின்றார். ஒலி பெருக்கியின் முன்பு உற்சாகமாகப் பேசினார் : காந்தி மகான் பெயரை இந்தப் பள்ளிக்கு வைத்திருக்கிறீர்கள். பெயருக்கு ஏற்றபடி இந்தப் பள்ளி நன்முறையில் நடந்து வருவதை நான் ஈன்றாக அறிவேன்.

There is still error on the நான் ஈன்றாக அறிவேன் due to scan quality, but it is vastly better than before.

Can someone try google ocr on that? I can also try google ocr on entire book using my cloud vision account and share the result here.

Bottomline: IndicOCR recognizes old glyphs well.

ravi-annaswamy commented 5 years ago

I OCRed this page using google cloud text api and found no errors. So my guess is if we switch to google ocr, we should be good even now. I think google OCR has improved since this page was OCRed last time.

~*~

கலெக்டர் கம்பீரமாக எழுந்து நின்றார். ஒலி பெருக்கியின் முன்பு உற்சாகமாகப் பேசினார்: "காந்தி மகான் பெயரை இந்தப் பள்ளிக்கு வைத்திருக்கிறீர்கள். பெயருக்கு ஏற்றபடி இந்தப் பள்ளி நன்முறையில் நடந்து வருவதை நான் நன்றாக அறிவேன். குழந்தைகள் நடத்திய நாடகம், நாட்டியம் எல்லாம் எவ்வளவு சிறப்பாக இருந்தன ! :பெரிய பட்டணங்களில் கூட இப்படி நான் கண்டதில்லை. இவை எல்லாவற்றையும்விட நான் மிக உயர்வாக நினைப்பது எது தெரியுமா? ஒரே சிறுமி ஏழு பரிசுகளைப் பெற்றாளே, அதுதான்! அந்தச் சிறுமியைப் பற்றிய விவரங் களைத் தலைமை ஆசிரியரிடம் கேட்டுத் தெரிந்து கொண்டேன். ஏழையாக இருந்தாலும் எல்லாத், துறைகளிலும் அவள் கெட்டிக்காரியாக இருப்பது மிகவும் பாராட்டத்தக்கது. இச் சிறுமிக்கு ஊக்கம் அளித்து, உதவியும் செய்தால், எதிர் காலத்தில் இவள் மிகவும் சிறந்தவளாக, நாடு போற்றும் நல்லவளாக, ஒரு தலைவியாக விளங்கி னாலும் விளங்கலாம். இந்தப் பள்ளியில் ஐந்து வகுப்பு வரையில் தான் இருக்கிறது. இந்த ஆண் டுடன் இவளது படிப்புக்கு முற்றுப் புள்ளி வைத்துவிட வேண்டியதுதானா? இங்கிருந்து நான்கு மைல் தூரத்தில் உயர்நிலைப் பள்ளி இருக் கிறது. அங்கு அனுப்பி இவளைப் படிக்க வைக்க வேண்டும். இந்த நல்ல காரியத்தைச் செய்ய இந்த ஊரில் உள்ள பணக்காரர்களில் யாரேனும் முன்வந்தால் நல்லது. அப்படி யாருமே முன் வராது

book_page 16