JohnWang0512 / tesseract-ocr

Automatically exported from code.google.com/p/tesseract-ocr
Other
0 stars 0 forks source link

Error with simple test #1130

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
Hello.

I'm trying to use Tesseract 3.02.02 with the french language package.
I'm using this image as a test : 

http://www.google.fr/imgres?q=texte%20dans%20image&biw=1600&bih=737&tbm=isch&tbn
id=c71sK1lJgNXHCM%3A&imgrefurl=http%3A%2F%2Fwww.jules-verne.eu%2FGill.html&docid
=zPgy2zPrMzD_-M&imgurl=http%3A%2F%2Fwww.jules-verne.eu%2FHommes_aujourdhui_Gill%
2F2_Gill_Texte_1.jpg&w=870&h=1222&ei=1YQgU-OTBsTS0QX454DoCw&zoom=1&iact=rc&dur=1
36&page=1&start=0&ndsp=31&ved=0CIgBEK0DMBE

I don't really understand what's the problem. When i'm using Tesseract, i've 
got this text as output :

[

JULES VERNE

Si l'on se donnait la peine du chercher un peu, l’on ne tardcrait pas (le se 
conxaincre que
la littérature contemppraine no compte pas beaucoup «Pécrivains originaux. 
C'est surtout
parmi les auteurs dits populaires, qu‘il faut constater, hélas! la banalité 
la plus parfaite dans
les aventures les plus extraordinaires. Un homme, dont la lbrtune littéraire 
est aussi grande
que méritée, Jules Vcrne, a trouvé le moyen de satisfaire aux goûts de tous 
les amateurs d'a-
ventures, en inventant un genre nouveau, qui est bien à lui, et a lui scul.

Quelques écu ains, en possession de la faveur publique, ont eu la malheureuse 
idée de le
suivre dans la voie nouvelle qn’il a tracée ; ils ont échoué piteusemcnt, 
et cela devait être. Le
roman, tel que le comprend etztel que l’écrit Jules Verne, exige une foule 
de connaissances
qui ne sïmproviscnt pas. Il était tout naturel que le succès tentût des 
plumes tacites et que
Fou glanat dans lc sillon creuse’ par l'auteur des Voyages Eartrztordineircs. 
Le vrai, c’est
qu’on n'a fait qu’y glaner, et que les plus habiles et les plus experts n'y 
ontpas lié la moindre

erhe. Au reste, on n’imite jamais que les auteurs originaux, et s’il est un 
écrivain original,

c'est bien celui-ci.

Jules Vcrne est un Nantais (Forigine, assez vertet vigoureux encore, pour nous 
permettre
de compteiget beaucoup, sur son talent et sur son invention. A cinquante-trois 
ans, tout
justc. — Jules Yerne est né a Nantcs, le 8 février i828, — un homme est 
dans toute
la force de l'âge, surtout quand il sc l'ait une vie active, pondérée, 
adonnée tout entière au
tr‘ ml intellectuelct aux exercices du corps, combinés dans des proportions 
judicieuses.

Ce romancier est un marin. A bord de son yachtà vapeur de cent tonneaux, le 
Saint-illi-
c/tcl, l’un (les plus élégants du Yacht-Club de France, il a parcouru 
presque tout lelittoral
européen. Du reste, on sont quîlaime la mer, qui 1c lui rend, d’ailleurs, 
car elle n'a jamais
incommode. ne fut-cc qu’un instant, un des hommes qui l'ont le mieux 
chantée. Yen atteste
un des lirrcs les plus originaux qui aient jamais été écrits, Vingt Jlillc 
lieues sous les mers,
curieuse promenade faite par le mystérieux capitaine Nemo sur ct sous tous les 
Océans connus
et inconnus du globe.

Exposer la nomenclature des principales œuvres de Jules Verne, c’est donner 
la liste de ses
succès. Comme tous les hommes prédestinés, il manqua, s'il est permis de 
s'exprimer ainsi,
non sa vocation, mais celle qu’on voulait pour lui. Aussi, envoyé à Paris, 
après avoir fait son
]

But when i'm using this site http://www.free-ocr.com/, which is based on 
tesseract, i've got a much better output.

I'm using Tesseract 3.02.02 , with french language from 3.02 version.
I'm on Debian GNU Linux 6.0

is there any way to got a better output from my local tesseract, like the one 
the website is using?

Original issue reported on code.google.com by mascaret...@gmail.com on 12 Mar 2014 at 4:11

GoogleCodeExporter commented 9 years ago
Let's summarize it:
* You used tesseract
* http://www.free-ocr.com/ uses tesseract
So the question is: Did you use it the same way (the same version)?
Read the FAQ wiki and forum for hints how to get better results.

Original comment by zde...@gmail.com on 12 Mar 2014 at 9:16