Open tshrinivasan opened 5 years ago
Singapore library used Adobe Acrobat Pro 9 and iTextSharp 5.2.1 to produce the PDF files.
Can any one connect with the singapore library team and know how they produced these PDF files?
It is possible to copy tamil text from pdfs produced by XeLatex with \XeTeXgenerateactualtext=1
See an example at https://sanskritdocuments.org/doc_devii/aShTalakShmIstutiH-ta.pdf
The copied text is not perfect.
Üஅðடலóமீñதுதி
This is the book name copied in the first page.
Great effort is going on libreoffice to fix this.
we have to explore how pandoc/latex are working on this issue.
Üஅðடலóமீñதுதி
Interesting, I get the following
ஶ்ரீஅஷ்டலக்ஷ்மீஸ்துதி:
Found the solution is to enable PDF/A on libreoffice writer when exporting to PDF.
Enable the option "Archive (PDF/A ISO19005) PDF/A2-b)
And export as PDF.
With this we can copy entire Tamil text from a PDF as we do in English.
Here is a sample PDF, done just now.
Manithargalum_Amaipugalum_A4.pdf
Have to do more tests on this.
Created a video demo on this https://youtu.be/Ug7UM_da7m8
Great news. Which version of Libre Office?
LibreOffice 6.4.5.2 Ubuntu 20.04
உலககேம உற்று கே ாக்கும் ஒரு அற்புதச் சுற்றுலாத் தலமாக அந்தமான் அழகு தீவுகள் உள்ளன . வாழ்க்கைகயில் ஒரு முகை(கே)னும் அந்தமான் அழகு தீவிற்குச் செ-ன் அழகுறு வர கேவண்டும் . பூமியின் அழகு செ-ார்க்கம் என அந்தமான் அழகு தீவுககைள சிலர் கூறுகின் அழகு(னர் . செ-ார்க்கம் என் அழகுபது எப்படிப்பட்டது என் அழகுபது )ாருக்கும் செதரி)ாது . ஆனால் அந்தமான் அழகு தீவுகள் இ)ற்கைக வளம் நிகை(ந்த தீவுககைளக் செகாண்டுள்ளது . மனிதச் சுரண்டலுக்கு ஆட்படாத பல தீவுகள் இருக்கின் அழகு(ன . எந்தப்பக்கம் செ-ன் அழகு(ாலும் கடலும் , தீவுகளுகேம செதரிகின் அழகு(ன . நீலக்கடலுக்கு இகைடகே) பச்கை- நி(ம் செகாண்ட தீவுகள் ரசிக்கும்படி)ாக இருக்கின் அழகு(ன . இங்கேக அகைமதி)ான மாசுபடாத , செவண்மணல் செகாண்ட கடற்ககைரகை)க் காணலாம் . அரி) தாவரங்கள் , விலங்குகள் , ப(கைவகள் என பல்லுயிர் வளம் மிக்க பகுதி)ாக அந்தமான் அழகு தீவுகள் விளங்குகின் அழகு(ன
உலகமே உற்று நோக்கும் ஒரு அற்புதச் சுற்றுலாத் தலமாக அந்தமான் தீவுகள் உள்ளன . வாழ்க்கையில் ஒரு முறையேனும் அந்தமான் தீவிற்குச் சென்று வர வேண்டும் . பூமியின் சொர்க்கம் என அந்தமான் தீவுகளை சிலர் கூறுகின்றனர் . சொர்க்கம் என்பது எப்படிப்பட்டது என்பது யாருக்கும் தெரியாது . ஆனால் அந்தமான் தீவுகள் இயற்கை வளம் நிறைந்த தீவுகளைக் கொண்டுள்ளது . மனிதச் சுரண்டலுக்கு ஆட்படாத பல தீவுகள் இருக்கின்றன . எந்தப்பக்கம் சென்றாலும் கடலும் , தீவுகளுமே தெரிகின்றன . நீலக்கடலுக்கு இடையே பச்சை நிறம் கொண்ட தீவுகள் ரசிக்கும்படியாக இருக்கின்றன . இங்கே அமைதியான மாசுபடாத , வெண்மணல் கொண்ட கடற்கரையைக் காணலாம் . அரிய தாவரங்கள் , விலங்குகள் , பறவைகள் என பல்லுயிர் வளம் மிக்க பகுதியாக அந்தமான் தீவுகள் விளங்குகின்றன . கடற்கரை ஓரத்திலேயே பல வண்ணம் கொண்ட பவளப் பாறைகளையும் , அதன் ஊடே நீந்திக் திரியும் பல வண்ண மீன்களையும் ரசிக்க ஏற்ற இடம் . இயற்கை அழகோடு வரலாற்றுச் சிறப்பு மிக்க பல இடங்களும் உள்ளன . அந்தமான் பயணத்தில் முழுக்க , முழுக்க சுற்றுலா அனுபவத்தைப் பெறலாம் .
Thanks @tshrinivasan, I shared this with my friends. This is a frequently asked question.
@tshrinivasan
libre-office-without-pdf-a.pdf html_to_pdf_using_chrome.pdf
These files are generated without pdf/A (pdf 1.6 and pdf 1.4) using libreoffice and google chrome. Both files are searchable.
Using Libreoffice writer, we can export the documents to PDF. We can copy the text from the PDF, if the language is english.
If it is Tamil, the copied text will be jumbled.
Explore on to make the Tamil PDF files to enable proper text copying.
1. Found that all the books in Singapore's NLB Tamil collection, supporting seamless (extremely low error) copy n paste of Tamil text out from PDF.
http://eresources.nlb.gov.sg/printheritage/browse/Tamil_Digital_Heritage_Collection.aspx
sample file - http://eresources.nlb.gov.sg/printheritage/download.aspx?id=31fcb1aa-349b-4a30-9f8f-bc5df3e87a41