Informasjonsforvaltning / fdk-issue-tracker

An issue tracking repository for data.norge.no
1 stars 0 forks source link

Endre database for fdk-reasoning service #787

Closed KjerstiSteien closed 1 month ago

KjerstiSteien commented 11 months ago

Beskrivelse av dagens situasjon:

Denne går direkte til databasen til høsterne, det er langt fra optimalt. Viktig fordi vi mest sannsynligvis må bytte ut de databasene.

NilsOveTen commented 11 months ago

Måten reasoning og høsterene gjennomfører lagringa er også et problem her.

For å overholde kravene mongodb om hvor stort hvert dokument kan være så blir alle jena-modeller som lagres først serialisert til turtle, og så zippa vha gzip. Dette blir veldig ressurskrevende for store kataloger som resulterer i flere tusen lagringer til mongodb.

Vi bør se på databaser som ikke krever serialisering og gzip, triplestore og graf-databaser er potensielle kandidater her.

Men for akkurat fdk-reasoning-service er kanskje beste løsningen å droppe den type persistering og la den gå over til event-basert kjøring via kafka. Dvs at den lytter til kafka-events for hver ressurs-type, feks datasett, og gjennomfører da sin jobb kun for det ene datasettet og produserer en ny event med ferdig ressonert datasett.

KjerstiSteien commented 2 months ago

@NilsOveTen @jeffreiffers @terjesyl er denne saken fortsatt gjeldende, eller ble dette løst som del av refaktorering av høsteløpet?

jeffreiffers commented 2 months ago

@KjerstiSteien den er fremdeles relevant

NilsOveTen commented 1 month ago

Vi har fjerna alt av databasetilgang fra reasoning, så jeg lukker denne som ikke relevant. Vi bør dog fortsatt gjøre noe med persisteringen til høsterene, som vi har issue på her: https://github.com/Informasjonsforvaltning/fdk-issue-tracker/issues/788