Klimatbyran / garbo

Klimatkollen's data pipeline, processing company sustainability reports
3 stars 6 forks source link

PDF parsing: Only process the interesting pages to save resources and get results faster #81

Open Greenheart opened 5 months ago

Greenheart commented 5 months ago

From Discord:

Lista ut vilka sidor som innehåller de viktiga datat som vi är ute efter och skapa ett jobb som skapar en ny pdf med just de viktigaste sidorna och sedan skickar vi dessa till /parse - då spar vi både pengar och beräkningskraft = energi - och även får det att gå snabbare. Inget vi prioriterar just nu men definitivt till att vi ska tolka tusentals sidor.