ceskaexpedice / kramerius-googlecode-backup

Automatically exported from code.google.com/p/kramerius
0 stars 1 forks source link

Import/konverze formátu K3 - PDF dokumenty se chybně převádějí jako image/jpeg #603

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
Při importu formátu K3, když importní balíček obsahuje PDF dokumenty:

1. datastream IMG_FULL je vytvářen jako image/jpeg a ne jako application/pdf

2. v některých případech jsou generované thumbnail a preview 'černé' - 
viz přílohy (puvodni.pdf + thumbnail.jpg)

Original issue reported on code.google.com by filip.k...@gmail.com on 16 Sep 2013 at 2:18

Attachments:

GoogleCodeExporter commented 9 years ago
Můžete prosím ještě přiložit importní xml soubor ve formátu K3?

Original comment by vlah...@gmail.com on 16 Sep 2013 at 2:42

GoogleCodeExporter commented 9 years ago
Přikládám. Zajímavé je, že ve verzi 4.6 se IMG_FULL stream vytvoří jako 
application/pdf - ale zkoušel jsem to pouze jako encoded.

Original comment by filip.k...@gmail.com on 16 Sep 2013 at 2:57

Attachments:

GoogleCodeExporter commented 9 years ago
Vyzkoušel jsem zkonvertovat přiložený soubor, mime type pro IMG_FULL se 
nastavil správně na application/pdf. Mime type se určuje pouze podle 
koncovky názvu souboru v elementu <PageImage href="01_MED00111452_toc.PDF"/>, 
problém by tedy mohl být tam. A nemáte náhodou nastavenou property 
convert.originalToJPG=true?

Zčernalý thumbnail je způsoben tím, že si se vstupním pdf neporadí 
použitá konverzní knihovna apache pdfbox. Bohužel lepší pdf knihovnu pro 
Javu neznám. Toto jsou konkrétní problémy, které hlásí při načítání 
toho ukázkového pdf:

Sep 16, 2013 5:21:00 PM org.apache.pdfbox.pdfparser.XrefTrailerResolver 
setStartxref
WARNING: Did not found XRef object at specified startxref position 173
Sep 16, 2013 5:21:00 PM org.apache.pdfbox.util.PDFStreamEngine processOperator
INFO: unsupported/disabled operation: BDC
Sep 16, 2013 5:21:00 PM org.apache.pdfbox.pdmodel.font.PDTrueTypeFont getawtFont
INFO: Can't read the embedded font PQIVDX+GYSPNR+TimesNewRomanPS-BoldMT
Sep 16, 2013 5:21:01 PM org.apache.pdfbox.pdmodel.font.PDTrueTypeFont getawtFont
INFO: Using font ArialMT instead
Sep 16, 2013 5:21:01 PM org.apache.pdfbox.util.PDFStreamEngine processOperator
INFO: unsupported/disabled operation: EMC

Original comment by vlah...@gmail.com on 16 Sep 2013 at 3:37

GoogleCodeExporter commented 9 years ago
convert.originalToJPG=true nastavené bylo, po přepnutí už se datastream 
vytvoří správně.

OK, zkusím ty PDFka prohnat konvertorem, třeba to pomůže.

Original comment by filip.k...@gmail.com on 16 Sep 2013 at 4:04

GoogleCodeExporter commented 9 years ago
This issue was closed by revision r4818.

Original comment by vlah...@gmail.com on 19 Sep 2013 at 7:03