LIBCAS / DL4DH-Kramerius-plus

DL4DH Kramerius +
0 stars 1 forks source link

Encoding? #15

Closed valekfrantisek closed 1 year ago

valekfrantisek commented 2 years ago

V rámci řešení usecase jsem narazil na problém kódování. Ne vše v NKP je totiž (ve full textu!) v UTF-8. Většina těch co mám zrovna k dispozici je v UTF-8 s BOM, některé ale i v jiných.

Konkrétní příklady (v UTF-16 (LE)): uuid:587dec55-82d2-4c9b-a45c-da482e56d8e8 (Moravský hospodář 1. 1. 1937). uuid:639364fd-52c3-4dfc-82b2-1b7b2f278693 (Moravský hospodář 1. 8. 1937).

při pokusu o obohacení stav FAILED. Může to s kódováním souviset?

V rámci jiného projektu jsem narazil i na jiná kódování full textů (dokonce v rámci jedné publikace různé stánky v různém kódování, jenom teď nemohu dohledat ten konkrétní příklad... pokud je to ale vyřešeno, tak by to bylo jedno, pokud by to problém byl, dohledám to.)

daliboris commented 2 years ago

Problém s neúspěšným obohacením není v kódování textového obsahu, ale v nerozpoznaném typu publikace, viz LIBCAS/DL4DH-Kramerius-plus#18.

Chyba z logu:


JSON decoding error: Could not resolve type id 'supplement' as a subtype of
 `cz.inqool.dl4dh.krameriusplus.core.system.digitalobject.DigitalObject`: 
known type ids = [internalpart, monograph, monographunit, page, periodical, periodicalitem, periodicalvolume]; 
nested exception is com.fasterxml.jackson.databind.exc.InvalidTypeIdException: 
Could not resolve type id 'supplement' as a subtype of 
`cz.inqool.dl4dh.krameriusplus.core.system.digitalobject.DigitalObject`: 
known type ids = [internalpart, monograph, monographunit, page, periodical, periodicalitem, periodicalvolume] 
at [Source: (io.netty.buffer.ByteBufInputStream); line: 1, column: 4330] 
daliboris commented 1 year ago

Při zpracování textu Kramerius+ spoléhá na formát ALTO, nikoli na plný text, proto by různé kódování textu nemělo dělat při obohacování problémy.

Když uživatel exportuje prostý text, text se přebírá z formátu ALTO, takže ani tady nemůže nastat problém s kódováním.

daliboris commented 1 year ago

Problém není pro zpracování výstupů DL4DH relevantní.