tshrinivasan / OCR4wikisource

OCR for WikiSource using Google Drive OCR
GNU General Public License v2.0
33 stars 24 forks source link

Before upload the text file, double the space between the paragraphs in mediawiki_uploader.py #101

Open tha-uzhavan opened 6 years ago

tha-uzhavan commented 6 years ago

OCR4wikisource/mediawiki_uploader.py பத்திகள் விக்கிமூலத்தில் சரியாக அமைய, கிடைத்த கூகுள் உரைகளின் பத்திகளுக்கு இடையேயுள்ள இடைவெளிகளை, ஒரு வரி அதிகரித்த, பிறகே பதிவேற்ற வேண்டும். எனவே, அந்நுட்பத்தினையும் mediawiki_uploader.py (\n --> \n\n) என்பதில் தான் ஏற்படுத்த வேண்டும். doocr.py என்பதில் செய்ய வேண்டாம். ஏனெனில், விக்கியல்லாத மற்றவருக்கு அது தேவைப்படாது.[ நூலகம் இணையத்தளத்தை ](http://www.noolaham.org/wiki/index.php/%E0%AE%B5%E0%AE%BE%E0%AE%B0%E0%AF%8D%E0%AE%AA%E0%AF%8D%E0%AE%AA%E0%AF%81%E0%AE%B0%E0%AF%81:%E0%AE%A8%E0%AF%82%E0%AE%B2%E0%AE%95%E0%AE%A4%E0%AF%8D%E0%AE%A4%E0%AE%BF%E0%AE%9F%E0%AF%8D%E0%AE%9F_%E0%AE%AE%E0%AE%BF%E0%AE%A9%E0%AF%8D%E0%AE%A9%E0%AF%82%E0%AE%B2%E0%AF%8D%E0%AE%95%E0%AE%B3%E0%AF%8D)எடுத்துக் கொள்ளுங்கள்.

balajijagadesh commented 6 years ago

இந்த மாற்றம் மிகவும் உபயோகமாக இருக்கும்.

பாலாஜி

2018-05-16 11:25 GMT+05:30 தகவலுழவன் notifications@github.com:

OCR4wikisource/mediawiki_uploader.py பத்திகள் விக்கிமூலத்தில் சரியாக அமைய, கிடைத்த கூகுள் உரைகளின் பத்திகளுக்கு இடையேயுள்ள இடைவெளிகளை, ஒரு வரி அதிகரித்த, பிறகே பதிவேற்ற வேண்டும். எனவே, அந்நுட்பத்தினையும் mediawiki_uploader.py (\n --> \n\n) என்பதில் தான் ஏற்படுத்த வேண்டும். doocr.py என்பதில் செய்ய வேண்டாம். ஏனெனில், விக்கியல்லாத மற்றவருக்கு அது தேவைப்படாது. நூலகம் இணையத்தளத்தை <http://www.noolaham.org/wiki/index.php/%E0%AE%B5%E0%AE%BE%E0%AE%B0%E0%AF%8D%E0%AE%AA%E0%AF%8D%E0%AE%AA%E0%AF%81%E0%AE%B0%E0%AF%81:%E0%AE%A8%E0%AF%82%E0%AE%B2%E0%AE%95%E0%AE%A4%E0%AF%8D%E0%AE%A4%E0%AE%BF%E0%AE%9F%E0%AF%8D%E0%AE%9F_%E0%AE%AE%E0%AE%BF%E0%AE%A9%E0%AF%8D%E0%AE%A9%E0%AF%82%E0%AE%B2%E0%AF%8D%E0%AE%95%E0%AE%B3%E0%AF%8D>எடுத்துக் கொள்ளுங்கள்.

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/tshrinivasan/OCR4wikisource/issues/101, or mute the thread https://github.com/notifications/unsubscribe-auth/ASRrxMLtb1TTpWvXXAD7gKeFght621c8ks5ty79fgaJpZM4UAr8Z .

tshrinivasan commented 6 years ago

fill add this to media_wikiuploader once bengali team accepted the new do_ocr_jpg_v2.py provided at #99

tha-uzhavan commented 6 years ago

@tshrinivasan :I tested the do_ocrjpg.py from NF server. [It works fine](https://ta.wikisource.org/w/index.php?title=%E0%AE%AA%E0%AE%95%E0%AF%8D%E0%AE%95%E0%AE%AE%E0%AF%8D:%E0%AE%85%E0%AE%95%E0%AF%8D%E0%AE%9F%E0%AF%8B%E0%AE%AA%E0%AE%B0%E0%AF%8D%E0%AE%AA%E0%AF%81%E0%AE%B0%E0%AE%9F%E0%AF%8D%E0%AE%9A%E0%AE%BF%E0%AE%AF%E0%AF%81%E0%AE%AE%E0%AF%8D%E0%AE%A4%E0%AE%AE%E0%AE%BF%E0%AE%B4%E0%AF%8D%E0%AE%87%E0%AE%B2%E0%AE%95%E0%AF%8D%E0%AE%95%E0%AE%BF%E0%AE%AF%E0%AE%AE%E0%AF%81%E0%AE%AE%E0%AF%8D.pdf/10&action=history). But it needs small corrections (kindly see my mail.)