Closed kazooo closed 3 years ago
Zkus u těch dvou stejných obrázků spočítat kontrolní součet (md5). Pokud jsou identické, mohl bys tímto způsobem najít všechny duplicitní obrázky.
Může souviset s #309. Pokud se jedná o duplicity, určitě smazat.
Zkontroloval jsem všechny stránky periodika aby měly obrázky a odhalil několik čísel, které ty obrázky nemají (chybí obrázky pro ~23 stránky). Seznam čísel dám do jiného issue.
Podle kontrolního součtu se podařilo najit originální obrázky k 12357 duplictam ze seznamu výše. Zbývající (1773) mají unikatní md5, nenapadá mě jakým způsobem by je ještě šlo zkontrolovat. Nemate-li k tomu další poznamky tak ty obrázky smažu.
@natal1H posbírala obrázky a předala je na reimport
Přesunuto na interní Gitlab MZK.
Složka /mnt/imageserver/meditor/rovnost obsahující obrázky periodika Rovnost obsahuje také obrázky, na které neodkazuje žadný FOXML periodika. Zkusil jsem vyhledat stejné obrázky stránek v periodiku, ale na obrázcích obyčejných stránek je vidět jen číslo, takže je těžkě říct jakým ročníkům patří. Podařilo se mi najit pár obrázků titulních stránek, jak jsem zjistil později, periodikum je už má, takže jde o duplicity.
Například: osiřelý obrázek (19fe412e-4b7f-4ad8-8997-bcf90d2cfcd0.jp2) je kopie obrázku titulní stránky čísla 88 ročníku 1917 (40b93054-9d00-4550-aede-97c64e367dda.jp2).
Celkem těch je 14130, automacky zkontrolovat každý z nich by asi nešlo. U periodiku ještě zkontroluju přitomnost všech obřázků stránek. Pokud nikdo k tomu nemá poznámky tak ty osiřelé smažu.
rovnost_obrazky.txt