Split collections into separate entries #589

Open infokujur opened 4 years ago

infokujur commented 4 years ago

All existing datasets should be gone over and checked whether they are correctly linked to the portal (at dataset level, description sufficient etc). At the same time, links should be double-checked for open data that isn't already linked to ODP.

infokujur commented 4 years ago

It seems that mostly the issue is, when HTML is given as resource and then you click on it and it has multiple excel etc linked. @keeganmcbride can you filter resources out, what then @tkutsar can go through? Also any other ideas how to get it done with systemic approach is welcomed.

keeganmcbride commented 4 years ago

aadressiandmed.md: 15: format: HTML

aegviiduvallavalitsus.md: 15: format: html

ahhaateaduskeskus-avalikinfo.md: 14: format: HTML

ajaloolised-vaatlusandmed.md: 15: format: HTML

avaliku-korra-vastased-ja-avalikus-kohas-toime-pandud-syyteod.md: 42: format: HTML

basseinid.md: 19: format: HTML

basseinide-veeproovid.md: 19: format: HTML

dea.md: 19: format: HTML

digar.md: 51: format: HTML 55: format: HTML

eesti-hariduse-infos-steemi-avaandmed.md: 28: format: HTML 44: format: HTML 48: format: HTML 52: format: HTML

eesti-kirjandusmuuseumi-arhiivide-avaandmed.md: 20: format: HTML

eesti-kirjandusmuuseumi-keeleressursid.md: 19: format: HTML

eesti-looduse-infos-steem.md: 13: format: HTML

eesti-patendiameti-kaubam-rkide-avalikud-andmed.md: 15: format: HTML

eesti-spordiregistri-avaandmed.md: 46: format: HTML

eesti-teadusinfos-steem.md: 30: format: HTML 34: format: HTML 38: format: HTML 42: format: HTML 46: format: HTML 50: format: HTML 54: format: HTML 58: format: HTML 62: format: HTML 66: format: HTML 70: format: HTML

eesti-topgraafia-andmekogu.md: 14: //geoportaal.maaamet.ee/est/Ruumiandmed/Eesti-topograafia-andmekogu/Laadi-ETAK-andmed-alla-p609.html' 15: format: HTML

ehitisregister.md: 15: format: HTML 19: format: HTML

ehitusgeoloogia_andmekogu.md: 15: format: HTML

eksamite-infos-steemi-avaandmed.md: 17: format: HTML 21: format: HTML 25: format: HTML

erb.md: 52: format: HTML 56: format: HTML 60: format: HTML

esthub-teenused.md: 15: format: HTML

eumetsat-satelliitandmed.md: 14: format: HTML 18: format: HTML

fidek2015.md: 15: format: HTML

geoloogilised-andmed.md: 14: geoportaal.maaamet.ee/est/Andmed-ja-kaardid/Geoloogilised-andmed/Geoloogiline-baaskaart/Andmete-allalaadimine-p501.html' 15: format: HTML

h-droloogiline-andmebaas-wiski.md: 14: format: HTML

haldus-ja-asustus-ksuste-piirid.md: 14: url: 'http://geoportaal.maaamet.ee/est/Andmed-ja-kaardid/Haldus-ja-asustusjaotus-p119.html' 15: format: HTML

haridus-ja-teadusministeeriumi-avalik-dokumendiregister.md: 15: format: HTML

harku-vallavalitsus.md: 15: format: HTML

histranspordiregistri-avaandmed.md: 15: format: HTML 19: format: HTML 23: format: HTML

ilmapank.md: 14: format: HTML

ilmavaatluste-andmekogu.md: 14: format: HTML 18: format: HTML

j--tmearuandluse-infos-steem.md: 14: format: HTML

joogiveeallikad.md: 19: format: HTML

joogiveeallikate-veeproovid.md: 19: format: HTML

keskkonnaseireinfos-steem.md: 14: format: HTML

kinnisvararegister.md: 15: format: HTML

kitsenduste-kaardi-andmed.md: 14: geoportaal.maaamet.ee/est/Ruumiandmed/Kitsenduste-andmed/Kitsenduste-andmete-allalaadimine-p624.html' 15: format: HTML

kohanimeregister.md: 15: format: HTML

kollektiivlepingute-andmekogu.md: 57: format: HTML

koolide-infos-steemi-avaandmed.md: 15: format: HTML

kutseregister.md: 43: format: HTML, XLS 47: format: HTML

liiklusjarelevalve-alased-syyteod.md: 42: format: HTML

loodusliku-mineraalvee-ja-allikavee-allikad.md: 19: format: HTML

loodusliku-mineraalvee-ja-allikavee-allikate-veeproovid.md: 19: format: HTML

loodusliku-mineraalvee-ja-allikavee-andmed.md: 19: format: HTML

loodusliku-mineraalvee-ja-allikavee-k-itlejad.md: 19: format: HTML

loodusliku-mineraalvee-ja-allikavee-veeproovid.md: 19: format: HTML

maa-ameti-avaandmete-portaal.md: 15: format: HTML

maaamet-korgusandmed.md: 13: url: 'https://geoportaal.maaamet.ee/est/Ruumiandmed/Korgusandmed/Laadi-korgusandmed-alla-p614.html' 14: format: HTML

maaamet-ortofotod.md: 14: format: HTML

maakataster.md: 14: 'https://geoportaal.maaamet.ee/est/Ruumiandmed/Maakatastri-andmed/Katastriuksuste-allalaadimine-p592.html' 15: format: HTML

majandustegevuse-register.md: 6: Tegevusalade Klassifikaatori (EMTAK) koodidega. Sisaldab ka viidet loa detailsele andmestikule (HTML) '

mem-kalapuuk.md: 31: format: HTML 35: format: HTML 39: format: HTML

mem-mahe.md: 47: format: HTML 51: format: HTML 54: format: HTML

mem-mater.md: 23: format: HTML 27: format: HTML

mem-msr.md: 26: format: HTML 30: format: HTML

mem-riiklik-alkoholiregister.md: 23: format: HTML 27: format: HTML

mem-soodakaitlejad.md: 22: url: 'https://jvis.agri.ee/jvis/avalik.html#/kaitlemisettevotedparing' 23: format: HTML 27: format: HTML

mem-sordiregister.md: 32: format: HTML 36: format: HTML

mem-taimekaitsevahendite-register.md: 54: format: HTML 58: format: HTML

mem-taimetervise-register.md: 23: format: HTML 27: format: HTML

mem-toidukaitlejad.md: 22: url: 'https://jvis.agri.ee/jvis/avalik.html#/toitKaitlemisettevotedparing' 23: format: HTML 27: format: HTML

mem-tuulekaer.md: 19: format: HTML 23: format: HTML

mem-vaetiseregister.md: 23: format: HTML 27: format: HTML

mem-veterinaararstid.md: 14: url: 'https://jvis.agri.ee/jvis/avalik.html#/vetarstparing' 15: format: HTML 19: format: HTML

metsaseire-andmekogu.md: 14: format: HTML

mullastiku-kaart.md: 14: url: 'http://geoportaal.maaamet.ee/est/Andmed-ja-kaardid/Mullakaart-p33.html' 15: format: HTML

muuseumide-infos-steemi-avaandmed.md: 15: format: HTML

oppeinfosusteem-tahvel.md: 17: format: HTML (avaandmete faili formaat, näiteks XML, JSON või mis iganes) 21: format: HTML (avaandmete faili formaat, näiteks XML, JSON või mis iganes)

p-llumajandusloomade-register.md: 15: format: HTML 19: format: 'xls, html' 23: format: HTML 27: format: HTML 31: format: HTML 47: format: HTML

p-llumassiivide-register.md: 15: format: HTML 19: format: HTML

posti-sihtnumbrid-postiindeksid.md: 18: geoportaal.maaamet.ee/est/Andmed-ja-kaardid/Aadressiandmed/Aadressid-ja-posti-sihtnumbrid-e-indeksid-p582.html' 19: format: HTML

pria-niitmisetuvastamine.md: 16: format: HTML 20: format: HTML

probleemtooteregister.md: 14: format: HTML

rahvusarhiivi-arhiivikirjeldused.md: 35: format: HTML

riha-brief.md: 27: format: html

riigieelarvega-seotud-materjalid.md: 15: format: HTML

riigihangete-register.md: 20: format: HTML

riigikogu-kantselei-erjk.md: 28: format: HTML

riigikogu-veebi-avaandmed.md: 14: url: 'https://api.riigikogu.ee/swagger-ui.html'

sotsiaalministeerium-aveeb.md: 17: format: HTML

spordikoolitus-esbl.md: 15: format: HTML

statistika-andmebaas.md: 15: format: HTML

statistilise-metsainventuuri-andmekogu.md: 13: format: HTML

supluskohad.md: 27: format: HTML

tallinna-andmekogud.md: 15: format: HTML

tallinna-geoportaal.md: 14: format: HTML

tartu-linna-avaandmed.md: 15: format: HTML

tartu-linnavalitsuse-dokumendihaldussusteemis-avaldatud-oigusaktid.md: 14: format: HTML

toetuste-saajad.md: 15: format: HTML 19: format: HTML

ujulad.md: 23: format: HTML

valimiste-avaandmed.md: 15: format: HTML

varavastased-syyteod.md: 42: format: HTML

veek-itlejad.md: 27: format: HTML

SigritSiht commented 4 years ago

Having only one filtering condition, namely format HTML will produce a lot of false positives. I don't have that many great suggestions for solving that issue, but what I've noticed is that usually the title of the dataset is "Avaandmed". Following the same logic, keywords to use to filter out these pages could also be "Andmekogud" or other Estonian words for datasets etc. Some examples: https://opendata.riik.ee/andmehulgad/tallinna-andmekogud/ https://opendata.riik.ee/andmehulgad/tartu-linna-avaandmed/ https://opendata.riik.ee/andmehulgad/eesti-looduse-infos-steem/

https://opendata.riik.ee/andmehulgad/eesti-topgraafia-andmekogu/ https://opendata.riik.ee/andmehulgad/maa-ameti-avaandmete-portaal/ The last one is very general which considering that geospatial data(sets) is(are) HVD is pretty bad, this site has many apps and datasets but just a link is too general. Different apps created are found under Kaardirakendused.

SigritSiht commented 4 years ago

another possible keyword "Infosüsteem" https://opendata.riik.ee/andmehulgad/keskkonnaseireinfos-steem/

SigritSiht commented 4 years ago

Or "Portaal" https://opendata.riik.ee/andmehulgad/tallinna-geoportaal/ this one also has many apps that have not been added to Raknedused.