ARUP-CAS / aiscr-digiarchiv

Digitální archiv AMČR
https://digiarchiv.aiscr.cz/
GNU General Public License v3.0
3 stars 0 forks source link

Náhledy se generují jen černobíle #128

Closed motyc closed 4 years ago

motyc commented 5 years ago

Patrně souvisí s opravou #77, nicméně náhledy se i u barevných PDF nyní generují jen ve stupních šedi.

Příklad: https://digiarchiv.aiscr.cz/id/C-TX-195007083

pbartosova commented 5 years ago

Co bývá obsahem pdf? Dokumenty s převahou textu nebo i fotografie? Podívám se, jaké jsou další možnosti, ale upřednostnila bych to, že jsou náhledy čitelné, a zda jsou černobílé nebo barevné je asi vedlejší, pokud tedy mluvíme o dokumentech s textem a náčrty, jak je tomu u tohoto příkladu.

motyc commented 5 years ago

Existuje naprosto nepřeberné množství variant. Jsou dokumenty, kde jde hlavně o text (tištěný i psaný v ruce), jiné jsou zas čistě fotografické, jinde jde o kombinaci. Mohou tam být plány, mapy, vpisky tužkou i pastelkami. Drobné kresby, skeny pauzák... Prostě naprosto rozmanitý archivní materiál.

motyc commented 5 years ago

Ještě doplňuji, že před tou opravou byly barevné náhledy bez problémů, chyba se týkala černobílých.

pbartosova commented 5 years ago

Stále probíhá testování a nic nefunguje. Odhad max 3dny.

albertoh commented 4 years ago

Nasel jsem zmenu v kodu, ktera zpusobila generovani cernobilych obrazku. Tato zmena by mela rozslisit cernobile a barevni obrazky. Bohuzel casto bere vsechno jako cernobile. Abych mohl spravne opravit chovani, potreboval bych priklad cernobileho pdf, pro ktere se pred opravou generovalo nekvalitny nahled. V comment k issue #77 #issuecomment-503080771 je uveden dokument https://digiarchiv.aiscr.cz/id/C-TX-192000023. Pro testovani obrazku pouzivam http://digiarchiv.amapa.cz/id/M-FT-110598800 Jsou dalsi pdf, s kterymi byly problemy? Prosim o zaslani, at muzu to vsechno poradne testovat.

motyc commented 4 years ago

Vzhledem k tomu, že dosud se data kvůli problému s barvami negenerovala znovu, celkem snadno takové případy najdeš sám v aktuálních datech na produkci. Je to v podstatě generální problém pro vše, kde náhledy vznikly před červencem loňského roku. Velice názorný je ale třeba tento příklad: https://digiarchiv.aiscr.cz/id/C-TX-193700411 Projevovalo se to ale na většině dokumentů (černobílé či šedostupňové).

image

albertoh commented 4 years ago

Uvedeny priklad se mi ted generuje takto: 0

Potreboval bych spustit generovani vsech nahledu na testu, abych mohl videt vysledky tamnich obrazku. Muzu?

motyc commented 4 years ago

To je bezvadné!

Ohledně spuštění generování - obávám se, že jsme to negenerovali kvůli místu na test serveru. Bude třeba, aby se vyjádřil @MichalKminek. Asi mu raději prosím napiš či zavolej.

albertoh commented 4 years ago

Na testu uz byly vygenerovane nekolik nahledu. Nemalo. Regeneroval jsem je (to nezabral dalsi misto na disku, vidim tam 10GB volnych). Ted prochazim vysledky.

albertoh commented 4 years ago

Dobry priklad pro zrovnani vysledku je dokument M-TX-201200345: https://digiarchiv-test.aiscr.cz/id/M-TX-201200345 https://digiarchiv.aiscr.cz/id/M-TX-201200345

Tento pdf ma text, cernobile obrazky a barevne. Na testu ale pres rozhrani ma jenom jednu stranku. Je to zpusobeno testovacimi datami v tabulce "soubor". Muzeme prochazet vsechny nahledy stranek primo pres servlet:

https://digiarchiv-test.aiscr.cz/pdf?size=medium&id=1496238832823_MTX201200345.pdf&page=79 https://digiarchiv.aiscr.cz/pdf?size=medium&id=1496303690473_MTX201200345.pdf&page=79

Ted jeste musim doresit problem spravne detekce TIFF (a asi i PNG). Stava se, ze barevny obrazek muze mit informaci o barvach enkodovanou v palette, a to pusobi nespravnou detekci hloubky pixelu.

MichalKminek commented 4 years ago

V pripade potreby muzeme i na testu pridavat misto, prozatim tedy neni potrebne.

Dne 30.04.2020 v 11:28 Alberto Hernandez napsal(a):

Dobry priklad pro zrovnani vysledku je dokument M-TX-201200345: https://digiarchiv-test.aiscr.cz/id/M-TX-201200345 https://digiarchiv.aiscr.cz/id/M-TX-201200345

Tento pdf ma text, cernobile obrazky a barevne. Na testu ale pres rozhrani ma jenom jednu stranku. Je to zpusobeno testovacimi datami v tabulce "soubor". Muzeme prochazet vsechny nahledy stranek primo pres servlet:

https://digiarchiv-test.aiscr.cz/pdf?size=medium&id=1496238832823_MTX201200345.pdf&page=79 https://digiarchiv.aiscr.cz/pdf?size=medium&id=1496303690473_MTX201200345.pdf&page=79

Ted jeste musim doresit problem spravne detekce TIFF (a asi i PNG). Stava se, ze barevny obrazek muze mit informaci o barvach enkodovanou v palette, a to pusobi nespravnou detekci hloubky pixelu.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/ARUP-CAS/aiscr-digiarchiv/issues/128#issuecomment-621721276, or unsubscribe https://github.com/notifications/unsubscribe-auth/AHI5GGF4FQF2QKJDMDBNESDRPFAFDANCNFSM4IVA645A.Web Bug from https://github.com/notifications/beacon/AHI5GGG563LE2XFFNQ6AD3DRPFAFDA5CNFSM4IVA645KYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEUHLNPA.gif

[ { "@context": "http://schema.org", "@type": "EmailMessage", "potentialAction": { "@type": "ViewAction", "target": "https://github.com/ARUP-CAS/aiscr-digiarchiv/issues/128#issuecomment-621721276","url": "https://github.com/ARUP-CAS/aiscr-digiarchiv/issues/128#issuecomment-621721276", "name": "View Issue" }, "description": "View this Issue on GitHub", "publisher": { "@type": "Organization", "name": "GitHub", "url": "https://github.com" } } ]

albertoh commented 4 years ago

Regeneroval jsem nahledy na testovacim serveru. Prosim o kontrolu vysledku

motyc commented 4 years ago

Musel jsem to celé promáznout, protože se v tom vůbec nedalo vyznat, co je starý náhled a co nový. Počkám, až se to opět vygeneruje jako celek a potvrdím.

albertoh commented 4 years ago

Mam pustit proces generovani nahledu?

motyc commented 4 years ago

Ještě se to stále maže. Je tam toho spousta. Navíc se mi podle logu zdálo, že se to pouští samo každou hodinu (podobně jako na produkci), takže by to nemělo být potřeba.

motyc commented 4 years ago

Co jsem zatím prošel, tak vypadá dobře. Ještě to prokontroluji, ale myslím, že to můžeme považovat za vyřešené. Bohužel se to ale ukáže hlavně až na produkčních datech.

motyc commented 4 years ago

Tak nasazení na produkci bohužel ukazuje, že se to úplně vyřešit nepodařilo. Např. tento dokument se i nyní vygeneroval ve stupních šedi, přestože je barevný: https://digiarchiv.aiscr.cz/id/C-TX-201202784

motyc commented 4 years ago

Další příklad: https://digiarchiv.aiscr.cz/id/C-TX-192601320

(příkladů je obecně mnoho a jsou snadno k nalezení)

albertoh commented 4 years ago

Vidim stary jar soubor na serveru (20.6.2019). Asi toto nebylo nasazeno. Musi se buildovat novy jar, zkopirovat na server a regenerovat nahledy

motyc commented 4 years ago

@albertoh A můžeš to tam prosím dát? Hrozí ještě někde, že se to nasadilo neúplné? Je trošku škoda, že od pátku generujeme nové náhledy úplně zbytečně... Ach jo (vím, že to není na Tvé straně). Příště bys měl asi raději nasazovat Ty, nebo to musí být v koordinaci.

albertoh commented 4 years ago

Procistil jsem thumbs/ Nasadil novy jar. Uz to bezi. Kontroloval jsem ty dva dokumenty, a byly OK. Ted tam nejsou, jeste nedobehlo.

motyc commented 4 years ago

Skvěle, děkuji. Nechám issue otevřené a zavřu jej, až toho bude více a půjde to snadněji kontrolovat. Spustím teď reindex, Ať se správně nastaví dokumenty bez náhledů.