Closed valekfrantisek closed 1 year ago
Problém s neúspěšným obohacením není v kódování textového obsahu, ale v nerozpoznaném typu publikace, viz LIBCAS/DL4DH-Kramerius-plus#18.
Chyba z logu:
JSON decoding error: Could not resolve type id 'supplement' as a subtype of
`cz.inqool.dl4dh.krameriusplus.core.system.digitalobject.DigitalObject`:
known type ids = [internalpart, monograph, monographunit, page, periodical, periodicalitem, periodicalvolume];
nested exception is com.fasterxml.jackson.databind.exc.InvalidTypeIdException:
Could not resolve type id 'supplement' as a subtype of
`cz.inqool.dl4dh.krameriusplus.core.system.digitalobject.DigitalObject`:
known type ids = [internalpart, monograph, monographunit, page, periodical, periodicalitem, periodicalvolume]
at [Source: (io.netty.buffer.ByteBufInputStream); line: 1, column: 4330]
Při zpracování textu Kramerius+ spoléhá na formát ALTO, nikoli na plný text, proto by různé kódování textu nemělo dělat při obohacování problémy.
Když uživatel exportuje prostý text, text se přebírá z formátu ALTO, takže ani tady nemůže nastat problém s kódováním.
Problém není pro zpracování výstupů DL4DH relevantní.
V rámci řešení usecase jsem narazil na problém kódování. Ne vše v NKP je totiž (ve full textu!) v UTF-8. Většina těch co mám zrovna k dispozici je v UTF-8 s BOM, některé ale i v jiných.
Konkrétní příklady (v UTF-16 (LE)): uuid:587dec55-82d2-4c9b-a45c-da482e56d8e8 (Moravský hospodář 1. 1. 1937). uuid:639364fd-52c3-4dfc-82b2-1b7b2f278693 (Moravský hospodář 1. 8. 1937).
při pokusu o obohacení stav FAILED. Může to s kódováním souviset?
V rámci jiného projektu jsem narazil i na jiná kódování full textů (dokonce v rámci jedné publikace různé stánky v různém kódování, jenom teď nemohu dohledat ten konkrétní příklad... pokud je to ale vyřešeno, tak by to bylo jedno, pokud by to problém byl, dohledám to.)