Informasjonsforvaltning / behov

Et repository der vi dokumenterer behov som vi utreder og dokumenterer
8 stars 0 forks source link

[BRUKERHISTORIE] forhåndsvisning av datasettet i datakatalogen ("show, don't tell") #580

Closed sskagemo closed 1 year ago

sskagemo commented 3 years ago

Som: konsument av datasett Ønsker jeg å: få en forhåndsvisning av datasettet i datakatalogen, à la hvordan datahotellet viser de første 100 linjene Slik at: jeg kan bruke eksempler fra datasettet til raskere å forstå hva datasettet består av

Kommentar: DCAT-AP-NO har en valgfri egenskap: "Datasett: eksempeldata (adms:sample)", som kanskje kan utnyttes. Men ideelt sett bør utdraget vises i katalogen, ettersom det er en så effektiv måte å gi et bilde av hva dataene betyr/består av.

Konklusjon: Funksjonaliteten skal ligge på distribusjoner. I første omgang skal det kun forhåndsvise datasett der hvor de finnes en nedlastningslenke (dcat:downloadURL) og hvor det er en CSV-fil i enden. Denne funksjonalitet skal også ligge på distribusjoner under eksempeldata (adms:sample).

Relatert til epos:

Lenke til design: https://eggedosis.github.io/fdk-design/redirects/portal/dataset/detail-open-distribution-expanded.html Lenke til løsningsarkitektur:

Forretningsverdi (Kritisk/Viktig/Mindre viktig/Kjekt å ha): Viktig

RogerSOlsen commented 3 years ago

lignende behov er også uttrykt i spørsmål i forbindelse med Open Data Maturity 2020; "Does the national portal offer a preview function for tabular data? "

livarb commented 2 years ago

Slik fungerte det på gamle data.norge.no. Dette var ein integrasjon frå gamle data.norge.no-plattformen (Drupal) som gav eit alternativ "Se data" på ein distribusjon som peikar til datasett på datahotellet. image Trykker ein på "Se data", så får ein opp ein pop-up-modal som viser data: image

ToHelland commented 2 years ago

I første omgang begrenser vi dette til å forhåndsvise distribusjoner som har en nedlastningslenke med en csv-fil i enden.

livarb commented 2 years ago

Ein idé til implementeringa, last kun ned første 1 megabyte av fila. Det bør vere nok til å vise eksempeldata - sjølv om linjene er veldig lange - og ein unngår då å laste ned heile datasettet. I tilfellet med teknisk kjøretøyinfo så er CSV-fila 3,3 GB, og det blir unødvendig mykje å laste ned for å berre vise deler av data. Når ein lastar ned berre deler av ei CSV-fil, bør ein droppe den siste ikkje-tomme linja sidan ein gjerne berre har fått deler av linja.

livarb commented 2 years ago

Kolonne-namna i CSV-filer har ofte eit kryptisk namn. Ofte lowercase og med underscore i staden for mellomrom. Foreslår litt lett prosessering for å gjere det penare når ein viser tabell:

Eksempel: kolonnenamnet "avreg_dato" blir då til "Avreg dato" som ser mykje penare ut.

PS! I designskissa er data frå teknisk kjøretøyinfo brukt, og ein har tatt dei menneskelesbare visningane av kolonnenamna. Dei kolonnenamna som ligg i CSV-fila er mykje meir kryptiske. Dei menneskelesbare variantane (e.g. "Understellsnr." i staden for "tekn_unr") kjem frå ekstra metadata som er på datasett i datahotellet i form av ei xml-fil som ligg i lag med kvart datasett. XML-fila for teknisk kjøretøyinfo ligg her: https://github.com/livarb/vehicledata/blob/master/kjoretoyinfo2020/fields.xml "shortName" er kolonnenamnet slik det er i CSV-fila, mens "name" er den menneskelesbare versjonen som vert vist i web-visninga på hotell.difi.no - https://hotell.difi.no/?dataset=vegvesen/kjoretoy . "content" i XML-fila er for å gje ei forklaring på data i kolonna.

shenluna commented 2 years ago

@livarb Det er nå lagt til støtte for forhåndsvisning av datasett. Det forutsettes at downloadURL er gyldig. Vi har lagt til støtte for csv og viser de første 100 radene. Det er også mulig å endre på størrelsene på kolonnene slik at man ser hele teksten.

livarb commented 2 years ago

Dette er supert! Trur brukarane set pris på fullskjermvisninga slik at ein får nytta heile bredda av skjermen.

Ser at alle kolonner som utgangspunkt har lik breidde. Er det mogeleg å gjere noko lurt for at standardvisninga er betre? Eksempel med ELMA - slik ser det ut i forhåndsvisninga no:image

Det samme datasettet, i visninga på hotell.difi.no - https://hotell.difi.no/?dataset=difi/elma/participants image

Her ser du at kolonner som Identifier, Organization name og Registration Date alle blir vist uavkorta som utgangspunkt. Det hadde vore fint om kolonner blir vist uavkorta inntil ein viss størrelse i FDK si førehandsvisning. Då slepp ein å endre størrelsen på veldig mange kolonner.

Nokre kolonner, til dømes Icd, kunne igjen blitt vist med smalare kolonne.

jeffreiffers commented 2 years ago

Denne er fikset.

Har lagt inn støtte for følgende:

  1. csv
  2. excel (csv)
  3. xlsx
  4. json
  5. xml

1 - 3 vises som tabell og resten som tekst.

eksempler: csv: https://data.norge.no/datasets/9bd91983-7855-408a-8997-3537ad3388e7 xlsx: https://data.norge.no/datasets/9d082918-e3d4-4ae2-8efd-e7d025dfd52d json/xml: https://data.norge.no/datasets/e2a0e52c-3fdf-4115-b66a-eb425dcd3d7c

livarb commented 2 years ago

Det ser ut til å fungere fint på ELMA-datasetta: https://data.norge.no/datasets/5a5374c3-c6a7-49f8-b9cc-0a9e48c1acd7

På ein anna distribusjon feiler forhåndsvisning: https://data.norge.no/datasets/a8533876-cca7-4417-90be-b368f7d9542c Velg distribusjonen "NY: Kjøretøyopplysninger" og velg "Se forhåndsvisning" Då får ein feilmelding: "Beklager, det ser ut at distribusjonen ikke finnes eller inneholder ugyldig data." Skal eg opprette ei ny sak på akkurat dette?

jeffreiffers commented 2 years ago

Opprettet issue https://github.com/Informasjonsforvaltning/fdk-dataset-preview-service/issues/7

shenluna commented 2 years ago

Jeg trykka på last ned knappen, og dette datasettet er på nesten 3,5 GB, trolig derfor forhåndsvisning ikke klarer å vise datasettet.

jeffreiffers commented 2 years ago

Forhåndsvisning laster ikke ned hele filen. Kun første 100 linjer. Forhåndsvisning håndterte ikke escape char som for eks denne teksten: ;;;"min tekst som \"er\" escaped";;;

Fikset og rullet ut i prod.

livarb commented 2 years ago

Supert! For eksempelet med xlsx-fil så fungerer ikkje førehandsvisninga. Stemmer at hotell.difi.no brukar slash som escape-char. https://hotell.difi.no/api

livarb commented 2 years ago

Tenker denne er i orden. Det einaste som gjenstår er å skrive ein post i Datalandsbyen om denne (relativt) nye funksjonaliteten som neppe alle er klar over. Her må ny underkategori i Datalandsbyen på plass. Kjem snart.

oystein-asnes commented 1 year ago

Lukkar denne @livarb