Open vej-ananas opened 3 weeks ago
Mit @stijnvermeeren-swisstopo anschauen: EBP geht auf ihn zu
Ergänzend zur Ticket-Beschreibung:
Ich denke, es wäre sinnvoll, wenn EBP mal eine Evaluierung machen könnte vom aktuellen Stand vom Quellcode, um eine Einschätzung geben zu können, was es noch alles braucht (API? Logging und Monitoring? Wie viel Rechenleistung? Konfiguration?), um die Texterkennung als Mikroservice deployen zu können, und in der Assets-Applikation integrieren zu können. @vej-ananas hat bereits einen Dump vom Quellcode von mir erhalten, und in ca. 2 Wochen ist der Code dann sowieso in einem public Repository.
Das neue Repository wurde bereits erstellt, ist aber noch leer: https://github.com/swisstopo/swissgeol-ocr Die Migration vom Code mache ich, wie vorher schon erwähnt, nach meinen Ferien.
Eventuell könnt ihr bei Geowerkstatt und EBP schon mal prüfen, ob ihr auch die Maintainer-Berechtigungen habt für das neue Repository?
Beschreibung Für die Texterkennung gibt es einen neuen Python-Service, der PDF-Files von S3 lädt, mit AWS Textract den Text erkennen lässt, und schliesslich das PDF mit Text wieder in S3 speichert. Für den neuen Service müssen Repository, CI/CD und Hosting erstellt werden. Möglich ist auch die Integration in
swissgeol-assets-suite
.Das Python-Script muss ausserdem in einen Web-Service umgewandelt werden.
Acceptance Criteria
Anhang Hier ein kurzes Fazit vom [Stijn's] Wissensstand: