Closed motyc closed 4 years ago
Co bývá obsahem pdf? Dokumenty s převahou textu nebo i fotografie? Podívám se, jaké jsou další možnosti, ale upřednostnila bych to, že jsou náhledy čitelné, a zda jsou černobílé nebo barevné je asi vedlejší, pokud tedy mluvíme o dokumentech s textem a náčrty, jak je tomu u tohoto příkladu.
Existuje naprosto nepřeberné množství variant. Jsou dokumenty, kde jde hlavně o text (tištěný i psaný v ruce), jiné jsou zas čistě fotografické, jinde jde o kombinaci. Mohou tam být plány, mapy, vpisky tužkou i pastelkami. Drobné kresby, skeny pauzák... Prostě naprosto rozmanitý archivní materiál.
Ještě doplňuji, že před tou opravou byly barevné náhledy bez problémů, chyba se týkala černobílých.
Stále probíhá testování a nic nefunguje. Odhad max 3dny.
Nasel jsem zmenu v kodu, ktera zpusobila generovani cernobilych obrazku. Tato zmena by mela rozslisit cernobile a barevni obrazky. Bohuzel casto bere vsechno jako cernobile. Abych mohl spravne opravit chovani, potreboval bych priklad cernobileho pdf, pro ktere se pred opravou generovalo nekvalitny nahled. V comment k issue #77 #issuecomment-503080771 je uveden dokument https://digiarchiv.aiscr.cz/id/C-TX-192000023. Pro testovani obrazku pouzivam http://digiarchiv.amapa.cz/id/M-FT-110598800 Jsou dalsi pdf, s kterymi byly problemy? Prosim o zaslani, at muzu to vsechno poradne testovat.
Vzhledem k tomu, že dosud se data kvůli problému s barvami negenerovala znovu, celkem snadno takové případy najdeš sám v aktuálních datech na produkci. Je to v podstatě generální problém pro vše, kde náhledy vznikly před červencem loňského roku. Velice názorný je ale třeba tento příklad: https://digiarchiv.aiscr.cz/id/C-TX-193700411 Projevovalo se to ale na většině dokumentů (černobílé či šedostupňové).
Uvedeny priklad se mi ted generuje takto:
Potreboval bych spustit generovani vsech nahledu na testu, abych mohl videt vysledky tamnich obrazku. Muzu?
To je bezvadné!
Ohledně spuštění generování - obávám se, že jsme to negenerovali kvůli místu na test serveru. Bude třeba, aby se vyjádřil @MichalKminek. Asi mu raději prosím napiš či zavolej.
Na testu uz byly vygenerovane nekolik nahledu. Nemalo. Regeneroval jsem je (to nezabral dalsi misto na disku, vidim tam 10GB volnych). Ted prochazim vysledky.
Dobry priklad pro zrovnani vysledku je dokument M-TX-201200345: https://digiarchiv-test.aiscr.cz/id/M-TX-201200345 https://digiarchiv.aiscr.cz/id/M-TX-201200345
Tento pdf ma text, cernobile obrazky a barevne. Na testu ale pres rozhrani ma jenom jednu stranku. Je to zpusobeno testovacimi datami v tabulce "soubor". Muzeme prochazet vsechny nahledy stranek primo pres servlet:
https://digiarchiv-test.aiscr.cz/pdf?size=medium&id=1496238832823_MTX201200345.pdf&page=79 https://digiarchiv.aiscr.cz/pdf?size=medium&id=1496303690473_MTX201200345.pdf&page=79
Ted jeste musim doresit problem spravne detekce TIFF (a asi i PNG). Stava se, ze barevny obrazek muze mit informaci o barvach enkodovanou v palette, a to pusobi nespravnou detekci hloubky pixelu.
V pripade potreby muzeme i na testu pridavat misto, prozatim tedy neni potrebne.
Dne 30.04.2020 v 11:28 Alberto Hernandez napsal(a):
Dobry priklad pro zrovnani vysledku je dokument M-TX-201200345: https://digiarchiv-test.aiscr.cz/id/M-TX-201200345 https://digiarchiv.aiscr.cz/id/M-TX-201200345
Tento pdf ma text, cernobile obrazky a barevne. Na testu ale pres rozhrani ma jenom jednu stranku. Je to zpusobeno testovacimi datami v tabulce "soubor". Muzeme prochazet vsechny nahledy stranek primo pres servlet:
https://digiarchiv-test.aiscr.cz/pdf?size=medium&id=1496238832823_MTX201200345.pdf&page=79 https://digiarchiv.aiscr.cz/pdf?size=medium&id=1496303690473_MTX201200345.pdf&page=79
Ted jeste musim doresit problem spravne detekce TIFF (a asi i PNG). Stava se, ze barevny obrazek muze mit informaci o barvach enkodovanou v palette, a to pusobi nespravnou detekci hloubky pixelu.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/ARUP-CAS/aiscr-digiarchiv/issues/128#issuecomment-621721276, or unsubscribe https://github.com/notifications/unsubscribe-auth/AHI5GGF4FQF2QKJDMDBNESDRPFAFDANCNFSM4IVA645A.Web Bug from https://github.com/notifications/beacon/AHI5GGG563LE2XFFNQ6AD3DRPFAFDA5CNFSM4IVA645KYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEUHLNPA.gif
[ { "@context": "http://schema.org", "@type": "EmailMessage", "potentialAction": { "@type": "ViewAction", "target": "https://github.com/ARUP-CAS/aiscr-digiarchiv/issues/128#issuecomment-621721276","url": "https://github.com/ARUP-CAS/aiscr-digiarchiv/issues/128#issuecomment-621721276", "name": "View Issue" }, "description": "View this Issue on GitHub", "publisher": { "@type": "Organization", "name": "GitHub", "url": "https://github.com" } } ]
Regeneroval jsem nahledy na testovacim serveru. Prosim o kontrolu vysledku
Musel jsem to celé promáznout, protože se v tom vůbec nedalo vyznat, co je starý náhled a co nový. Počkám, až se to opět vygeneruje jako celek a potvrdím.
Mam pustit proces generovani nahledu?
Ještě se to stále maže. Je tam toho spousta. Navíc se mi podle logu zdálo, že se to pouští samo každou hodinu (podobně jako na produkci), takže by to nemělo být potřeba.
Co jsem zatím prošel, tak vypadá dobře. Ještě to prokontroluji, ale myslím, že to můžeme považovat za vyřešené. Bohužel se to ale ukáže hlavně až na produkčních datech.
Tak nasazení na produkci bohužel ukazuje, že se to úplně vyřešit nepodařilo. Např. tento dokument se i nyní vygeneroval ve stupních šedi, přestože je barevný: https://digiarchiv.aiscr.cz/id/C-TX-201202784
Další příklad: https://digiarchiv.aiscr.cz/id/C-TX-192601320
(příkladů je obecně mnoho a jsou snadno k nalezení)
Vidim stary jar soubor na serveru (20.6.2019). Asi toto nebylo nasazeno. Musi se buildovat novy jar, zkopirovat na server a regenerovat nahledy
@albertoh A můžeš to tam prosím dát? Hrozí ještě někde, že se to nasadilo neúplné? Je trošku škoda, že od pátku generujeme nové náhledy úplně zbytečně... Ach jo (vím, že to není na Tvé straně). Příště bys měl asi raději nasazovat Ty, nebo to musí být v koordinaci.
Procistil jsem thumbs/ Nasadil novy jar. Uz to bezi. Kontroloval jsem ty dva dokumenty, a byly OK. Ted tam nejsou, jeste nedobehlo.
Skvěle, děkuji. Nechám issue otevřené a zavřu jej, až toho bude více a půjde to snadněji kontrolovat. Spustím teď reindex, Ať se správně nastaví dokumenty bez náhledů.
Patrně souvisí s opravou #77, nicméně náhledy se i u barevných PDF nyní generují jen ve stupních šedi.
Příklad: https://digiarchiv.aiscr.cz/id/C-TX-195007083