hcts-hra / ecpo-annotator

Annotator for Page Segmentations in ECPO
https://ecpo.existsolutions.com/exist/apps/ecpo/
MIT License
2 stars 2 forks source link

integrate image server [REPLACEMENT ISSUE] #2

Closed duncdrum closed 4 years ago

duncdrum commented 4 years ago

The original issue

Id: 2
Title: integrate image server

could not be created. This is a dummy issue, replacing the original one. It contains everything but the original issue description. In case the gitlab repository is still existing, visit the following link to show the original issue:

TODO

duncdrum commented 4 years ago

In GitLab by @MatthiasArnold on Nov 21, 2018, 16:17

hier die infos von patrick zum iiif zugang. im anhang die pfade zu den ersten jahrgängen der jingbao, um die wir uns zunächst kümmern wollen.

„Das geht durch die entsprechenden IIIF calls an SV010. für ecpo http://kjc-sv010.kjc.uni-heidelberg.de:8080/fcgi-bin/iipsrv.fcgi?IIIF=imageStorage/ecpo_new/jingbao/1919/03/jb_0001_1919-03-03_0001%252B0004.tif/full/!1024,1024/0/default.jpg Der ecpo-call ist bischen tricky weil das "+" das in fast jedem Dateinamen vorkommt doubleencoded werden muss: https://iiif.io/api/image/2.1/#uri-encoding-and-decoding.So auch viele andere Charaketere. Zum Beispiel wird aus dem "+" --> %252B Was dazu gebraucht wird wäre eine Liste mit den Dateipfaden und Namen. Diese kann man dann alle entsprechend abrufen.”

JB_1919-22.txt

duncdrum commented 4 years ago

In GitLab by @line-o on Jan 9, 2019, 13:41

Wir würden gerne die info.json des IIIF-Servers nutzen. Damit werden anstatt eines statischen Bildes jeweils nur die Sichtbaren Teile in der entsprechenden Zoomstufe geladen. Ein request auf http://kjc-sv010.kjc.uni-heidelberg.de:8080/fcgi-bin/iipsrv.fcgi?IIIF=imageStorage/ecpo_new/jingbao/1919/03/jb_0001_1919-03-03_0001%252B0004.tif/info.json liefert aber leider nur unvollständiges JSON zurück.

duncdrum commented 4 years ago

In GitLab by @line-o on Jan 9, 2019, 13:59

Wir nehmen also erstmal statische Bilder aus einer statischen Liste. Richtig lesbar sind die Schriftzeichen erst in einer wesentlich höheren Auflösung (4096x4096 anstatt 1024x1024) wodurch die zu übertragende Datenmenge auch erheblich steigt.

duncdrum commented 4 years ago

In GitLab by @line-o on Jan 9, 2019, 14:26

Ich habe gerade einmal nachgesehen, selbst bei dieser Auflösung fallen für obiges Beispiel nur 1.7 MB an. Das kann man auf Desktops mit guter Internetanbindung problemlos laden.

duncdrum commented 4 years ago

In GitLab by @line-o on Jan 10, 2019, 12:36

Die angehängte Liste von vorhandenen Bildern habe ich mit

(jb_\d{4}_?z?\d{2}?_(\d{4})-(\d{2})-\d{2}_\d{4}\+\d{4}.tif)
<file name="$1" year="$2" month="$3"/>

in XML umgewandelt.

duncdrum commented 4 years ago

In GitLab by @line-o on Jan 10, 2019, 12:45

https://gitlab.existsolutions.com/uni-heidelberg/ecpo/blob/9f442636c422e2a564ad84bafb541d1a5a698e46/data/image-list.xml

duncdrum commented 4 years ago

In GitLab by @line-o on Jan 10, 2019, 18:22

mentioned in commit foss/web-annotation-protocol@adb58ed771185c1d5915cebd5c7477006d5eb746

duncdrum commented 4 years ago

In GitLab by @line-o on Jan 10, 2019, 18:24

mentioned in commit c2f99b4ca595929b38a2246464be64d1d607f871

duncdrum commented 4 years ago

In GitLab by @MatthiasArnold on Jan 23, 2019, 15:12

komplette Liste mit den Dateipfaden und Namen für jingbao hier angehängt.

JB_complete.txt

duncdrum commented 4 years ago

In GitLab by @line-o on Jan 23, 2019, 15:13

assigned to @line-o

duncdrum commented 4 years ago

In GitLab by @line-o on Jan 24, 2019, 13:27

Die kompletten Liste der Bilder ist aktuell in Arbeit

Regulärer Ausdruck: (jb_\d{4}_(\d{4})-(\d{2})-(\d{2})_\d{4}(\+\d{4})?.tif)

Ersetzen mit: <file name="$1" year="$2" month="$3" day="$4"/>

Folgende Sonderfälle von Dateinamen gibt es noch:

duncdrum commented 4 years ago

In GitLab by @line-o on Jan 24, 2019, 13:31

@MatthiasArnold Die Leerzeichen in Dateinamen können zu Problemen führen.

duncdrum commented 4 years ago

In GitLab by @MatthiasArnold on Jan 24, 2019, 14:33

korrekt, es gibt ach in der jingbao sonderausgaben, die mit _s01 oder _h01 oder _z01 markiert sind.

die dateinamen sollten eigentlich keine spaces enthalten, das wäre eher ein fehler. kannst du mir die bitte ausgeben?

es sollte keine dateinamen ohne abschliessende seitenzahl geben. wenn doch, würde ich dich auch um eine ausgabe der namen bitten.

duncdrum commented 4 years ago

In GitLab by @line-o on Jan 24, 2019, 15:32

Die komplette Liste der Bilder ohne Seitenzahlen

<file name="jb_1770_1933-03-21_02+03_no page number.tif" year="1933" month="03" day="21"/>
<file name="jb_1771_1933-03-22_02+03.tif" year="1933" month="03" day="22"/>
<file name="jb_1772_1933-03-23_02+03_no page number.tif" year="1933" month="03" day="23"/>
<file name="jb_1773_1933-03-24_02+03_no page number.tif" year="1933" month="03" day="24"/>
<file name="jb_1774_1933-03-25_02+03_no page number.tif" year="1933" month="03" day="25"/>
<file name="jb_1775_1933-03-26_02+03_no page number.tif" year="1933" month="03" day="26"/>
<file name="jb_1776_1933-03-27_02+03_no page number.tif" year="1933" month="03" day="27"/>
<file name="jb_1777_1933-03-28_02+03_no page number.tif" year="1933" month="03" day="28"/>
<file name="jb_1779_1933-03-30_02+03_no page number.tif" year="1933" month="03" day="30"/>
<file name="jb_1780_1933-03-31_02+03_no page number.tif" year="1933" month="03" day="31"/>
<file name="jb_1781_1933-04-01_02+03_no page number.tif" year="1933" month="04" day="01"/>
<file name="jb_1782_1933-04-02_02+03_no page number.tif" year="1933" month="04" day="02"/>
<file name="jb_1783_1933-04-03_02+03_no page number.tif" year="1933" month="04" day="03"/>
<file name="jb_1784_1933-04-04_02+03_no page number.tif" year="1933" month="04" day="04"/>
<file name="jb_1785_1933-04-05_02+03_no page number.tif" year="1933" month="04" day="05"/>
<file name="jb_1787_1933-04-07_02+03_no page number.tif" year="1933" month="04" day="07"/>
<file name="jb_1788_1933-04-08_02+03_no page number.tif" year="1933" month="04" day="08"/>
<file name="jb_1790_1933-04-10_02+03_no page number.tif" year="1933" month="04" day="10"/>
<file name="jb_1791_1933-04-11_02+03.tif" year="1933" month="04" day="11"/>
<file name="jb_1793_1933-04-13_02+03.tif" year="1933" month="04" day="13"/>
duncdrum commented 4 years ago

In GitLab by @line-o on Jan 24, 2019, 16:09

Wie erwartet öffnen die betreffenden Bilder nicht. Genauer Grund unbekannt. Möglich das sie im schon im IIIF-Server Probleme verursachen.

duncdrum commented 4 years ago

In GitLab by @line-o on Sep 16, 2019, 13:03

closed