ceskaexpedice / kramerius

System Kramerius
GNU General Public License v3.0
45 stars 26 forks source link

podporované verze ALTO #477

Closed rzeh4n closed 9 months ago

rzeh4n commented 7 years ago

Podle https://www.loc.gov/standards/alto/ a https://github.com/altoxml/documentation/wiki/Versions existují následující verze ALTO:

3.1: ns: http://www.loc.gov/standards/alto/ns-v3# xsd: https://www.loc.gov/standards/alto/v3/alto-3-1.xsd

3.0: ns: http://www.loc.gov/standards/alto/ns-v3# xsd: https://www.loc.gov/standards/alto/v3/alto-3-0.xsd

2.0: ns: http://www.loc.gov/standards/alto/ns-v2# xsd: https://www.loc.gov/standards/alto/v2/alto-2-0.xsd

2.1: ns: http://www.loc.gov/standards/alto/ns-v2# xsd: https://www.loc.gov/standards/alto/v2/alto-2-1.xsd

1.4 ns: prazdny xsd: https://www.loc.gov/standards/alto/v1/alto-1-4.xsd

1.3 ns: prazdny xsd: https://www.loc.gov/standards/alto/v1/alto-1-3.xsd

1.2 ns: prazdny xsd: https://www.loc.gov/standards/alto/v1/alto-1-2.xsd

1.1 ns: prazdny xsd: https://www.loc.gov/standards/alto/v1/alto-1-1.xsd

1.0 ns: prazdny xsd: https://www.loc.gov/standards/alto/v1/alto-1-0.xsd

Se kterými z nich umí Kramerius pracovat? Na wiki jsem našel akorát:

Issue 127 - Podpora ALTO 1.4 a 2.0 v konvertoru K3->K4, indexaci i zobrazování na stránce https://github.com/ceskaexpedice/kramerius/wiki/ChangelogK4 a Pokud k OCR existuje i dokument ALTO (verze 1 nebo 2), musí být uložen v tomtéž FOXML objektu v datastreamu ALTO (MIME type text/xml), rovněž v kódování UTF-8. na stránce https://github.com/ceskaexpedice/kramerius/wiki/Data

Nebylo by dobré to vyjasnit a napsat někam na wiki?

pavelkocourek commented 3 years ago

@rzeh4n Martine, ke K7 napsat a zavřít?

zabak commented 11 months ago

Domlouvá se, že bude podporována i nejnovější verze ALTO, dnes 4.4. mj. kvůli projektu Orbis Pictus.

pavel-stastny commented 9 months ago

ALTO se využívá na dvou místech, první je klient při zobrazení hledaného výrazu a druhé místo je generování textové vrstvy. Generování bude přepsáno a po přepisu doplníme i informace o ALTO. U klienta se domluvím s @honza-rychtar kam informaci dáme. Zda víc patří do wiki jádra nebo klienta.