cphflacour / open-data-dk

4 stars 0 forks source link

Harvesteren fejler #6

Closed cphflacour closed 8 years ago

cphflacour commented 8 years ago

Problemer med at harvesteren ikke kører færdig

cphflacour commented 8 years ago

Birgitte Kjærgaard bikj@aarhus.dk to 12-05-2016 13:57 Indbakke Til: teknik@opendata.dk; Hej

Det lader ikke til, at harvesteren kører som den skal på portal.opendata.dk.

Vejle har 89 datasæt, ikke 80 Aarhus har 134 datasæt, ikke 131 Kbh. har 217 datasæt, ikke 218 Aalborg har 65 datasæt, ikke 49 Odense har 31 datasæt, ikke 32

Med venlig hilsen

Birgitte Kjærgaard Projektleder

cphflacour commented 8 years ago

I det tidligere teknik-team fandt vi ud af at årsagen til job fejler er at harvesteren ikke når at blive færdig med et job før den forsøger at køre det igen og så går det galt.

Min vurdering er at hovedparten af datasæt ikke opdateres dagligt. Så jeg vil foreslå vi prøver at kigge på en mere selektiv konfiguration.

ilver commented 8 years ago

Jeg kan stadig ikke se hvorfor vi har en harvester. Hele tanken bag www er source by reference og ikke redundans. Derfor mener jeg at opendata.dk kun skal præsentere links til diverse kommunale dataset. Eneste fysiske datasæt på opendata.dk skal være de som vi på et tidspunkt kan merge fra kommunale til nationale. Harvesteren er i tidsnød. Den kopierer blindt store statiske data mængder. Derfor fejler den. "Real-tids" data er helt historiske når de rammer opendata.dk. /Lars

cphflacour commented 8 years ago

Super pointe, Lars.

Det er et "open-ended" problem efterhånden som lokale sites for flere og flere data og mere dynamiske data.

Har du eller andre et overblik over om Harvesteren eller anden funktionalitet kan høste links og metadata og ikke data?

/Frans

NicolaiLolansen commented 8 years ago

Men som jeg ser Harvesteren, opretter den kun datasæt som en facade. Alle ressourcer skulle meget gerne bare pege over på original destinationen. Med hensyn til ikke at blive færdig, tager et normalt harvester job kun omkring 3-4 minutter, da den som oftest kun opdaterer sæt.

Der er en anden problematik. Harvesteren er sat til a tjekke sine queues hver 6. time, men jobs kører kun 2 gange i døgnet, kl 16:00 og kl 04:00.

De jobs der kører 04:00 bliver aldrig sat til finished, og det er sikkert der problemet ligger, at jobs kan komme i "Limbo", hvor jobs der ikke er færdige, spærrer for at nye jobs kan køre.

Jeg mener at disse problemer skulle være udbedret i en ny version af harvesteren, så jeg vil anbefale, at vi får opdateret harvesteren, opdateret vores end-points og så får lavet noget testing, evt. på site mirroren.

NicolaiLolansen commented 8 years ago

lukkede ved en fejl

cphflacour commented 8 years ago

Ændrede titlen fra "Harvesteren når ikke at blive færdig"

NicolaiLolansen commented 8 years ago

Har opdateret Harvesteren via GitHub til den nyeste version, og ændret opdateringsintervallet til 12 timer. Harvesteren har kørt fejlfrit siden i mandags, men holder lige et vågent øje med den. Lukker for nu