swisstopo / swissgeol-assets-suite

1 stars 0 forks source link

Architekturentscheid: Neuer OCR Service #162

Open vej-ananas opened 3 weeks ago

vej-ananas commented 3 weeks ago

Beschreibung Für die Texterkennung gibt es einen neuen Python-Service, der PDF-Files von S3 lädt, mit AWS Textract den Text erkennen lässt, und schliesslich das PDF mit Text wieder in S3 speichert. Für den neuen Service müssen Repository, CI/CD und Hosting erstellt werden. Möglich ist auch die Integration in swissgeol-assets-suite.

Das Python-Script muss ausserdem in einen Web-Service umgewandelt werden.

Acceptance Criteria

Anhang Hier ein kurzes Fazit vom [Stijn's] Wissensstand:

traffic1000 commented 2 weeks ago

Mit @stijnvermeeren-swisstopo anschauen: EBP geht auf ihn zu

stijnvermeeren-swisstopo commented 1 week ago

Ergänzend zur Ticket-Beschreibung:

Ich denke, es wäre sinnvoll, wenn EBP mal eine Evaluierung machen könnte vom aktuellen Stand vom Quellcode, um eine Einschätzung geben zu können, was es noch alles braucht (API? Logging und Monitoring? Wie viel Rechenleistung? Konfiguration?), um die Texterkennung als Mikroservice deployen zu können, und in der Assets-Applikation integrieren zu können. @vej-ananas hat bereits einen Dump vom Quellcode von mir erhalten, und in ca. 2 Wochen ist der Code dann sowieso in einem public Repository.

stijnvermeeren-swisstopo commented 6 days ago

Das neue Repository wurde bereits erstellt, ist aber noch leer: https://github.com/swisstopo/swissgeol-ocr Die Migration vom Code mache ich, wie vorher schon erwähnt, nach meinen Ferien.

Eventuell könnt ihr bei Geowerkstatt und EBP schon mal prüfen, ob ihr auch die Maintainer-Berechtigungen habt für das neue Repository?