knaw-huc / globalise-tools

tools for globalise tasks
Apache License 2.0
1 stars 1 forks source link

globalise: Add script to construct web annotations from per-page language detection #10

Closed brambg closed 1 month ago

brambg commented 2 months ago

zie https://github.com/knaw-huc/globalise-tools/issues/8

Het script is er, maar met de huidige versie van de annoreposerver is het updaten veel te traag. Met een nieuwe versie van de annorepo server zou het sneller moeten gaan, ik moet alleen nog checken dat deze nieuwe versie geen problemen geeft met de huidige globalise broccoli versie.

brambg commented 1 month ago

Via aan aparte job die rechtstreeks mongodb aanspreekt lukt het binnen 4 minuten om de 4486687 records uit pages.lang.tsv te verwerken in de corresponderende px:Page annotations. Zie bijv:

https://transcriptions.globalise.huygens.knaw.nl/detail/urn:globalise:NL-HaNA_1.04.02_9337_0679

(Show info: klik op de px:Page annorepo link)

https://annorepo.globalise.huygens.knaw.nl/w3c/globalise-2024-03-18/698bb2bd-2461-4008-a6b2-8928b7f76a0c

Hier zie je de toegevoegde metadata velden:

"lang": [
  "heb",
  "grc",
  "nld"
],
"langCorrected": true