Open infokujur opened 4 years ago
It seems that mostly the issue is, when HTML is given as resource and then you click on it and it has multiple excel etc linked. @keeganmcbride can you filter resources out, what then @tkutsar can go through? Also any other ideas how to get it done with systemic approach is welcomed.
aadressiandmed.md: 15: format: HTML
aegviiduvallavalitsus.md: 15: format: html
ahhaateaduskeskus-avalikinfo.md: 14: format: HTML
ajaloolised-vaatlusandmed.md: 15: format: HTML
avaliku-korra-vastased-ja-avalikus-kohas-toime-pandud-syyteod.md: 42: format: HTML
basseinid.md: 19: format: HTML
basseinide-veeproovid.md: 19: format: HTML
dea.md: 19: format: HTML
digar.md: 51: format: HTML 55: format: HTML
eesti-hariduse-infos-steemi-avaandmed.md: 28: format: HTML 44: format: HTML 48: format: HTML 52: format: HTML
eesti-kirjandusmuuseumi-arhiivide-avaandmed.md: 20: format: HTML
eesti-kirjandusmuuseumi-keeleressursid.md: 19: format: HTML
eesti-looduse-infos-steem.md: 13: format: HTML
eesti-patendiameti-kaubam-rkide-avalikud-andmed.md: 15: format: HTML
eesti-spordiregistri-avaandmed.md: 46: format: HTML
eesti-teadusinfos-steem.md: 30: format: HTML 34: format: HTML 38: format: HTML 42: format: HTML 46: format: HTML 50: format: HTML 54: format: HTML 58: format: HTML 62: format: HTML 66: format: HTML 70: format: HTML
eesti-topgraafia-andmekogu.md: 14: //geoportaal.maaamet.ee/est/Ruumiandmed/Eesti-topograafia-andmekogu/Laadi-ETAK-andmed-alla-p609.html' 15: format: HTML
ehitisregister.md: 15: format: HTML 19: format: HTML
ehitusgeoloogia_andmekogu.md: 15: format: HTML
eksamite-infos-steemi-avaandmed.md: 17: format: HTML 21: format: HTML 25: format: HTML
erb.md: 52: format: HTML 56: format: HTML 60: format: HTML
esthub-teenused.md: 15: format: HTML
eumetsat-satelliitandmed.md: 14: format: HTML 18: format: HTML
fidek2015.md: 15: format: HTML
geoloogilised-andmed.md: 14: geoportaal.maaamet.ee/est/Andmed-ja-kaardid/Geoloogilised-andmed/Geoloogiline-baaskaart/Andmete-allalaadimine-p501.html' 15: format: HTML
h-droloogiline-andmebaas-wiski.md: 14: format: HTML
haldus-ja-asustus-ksuste-piirid.md: 14: url: 'http://geoportaal.maaamet.ee/est/Andmed-ja-kaardid/Haldus-ja-asustusjaotus-p119.html' 15: format: HTML
haridus-ja-teadusministeeriumi-avalik-dokumendiregister.md: 15: format: HTML
harku-vallavalitsus.md: 15: format: HTML
histranspordiregistri-avaandmed.md: 15: format: HTML 19: format: HTML 23: format: HTML
ilmapank.md: 14: format: HTML
ilmavaatluste-andmekogu.md: 14: format: HTML 18: format: HTML
j--tmearuandluse-infos-steem.md: 14: format: HTML
joogiveeallikad.md: 19: format: HTML
joogiveeallikate-veeproovid.md: 19: format: HTML
keskkonnaseireinfos-steem.md: 14: format: HTML
kinnisvararegister.md: 15: format: HTML
kitsenduste-kaardi-andmed.md: 14: geoportaal.maaamet.ee/est/Ruumiandmed/Kitsenduste-andmed/Kitsenduste-andmete-allalaadimine-p624.html' 15: format: HTML
kohanimeregister.md: 15: format: HTML
kollektiivlepingute-andmekogu.md: 57: format: HTML
koolide-infos-steemi-avaandmed.md: 15: format: HTML
kutseregister.md: 43: format: HTML, XLS 47: format: HTML
liiklusjarelevalve-alased-syyteod.md: 42: format: HTML
loodusliku-mineraalvee-ja-allikavee-allikad.md: 19: format: HTML
loodusliku-mineraalvee-ja-allikavee-allikate-veeproovid.md: 19: format: HTML
loodusliku-mineraalvee-ja-allikavee-andmed.md: 19: format: HTML
loodusliku-mineraalvee-ja-allikavee-k-itlejad.md: 19: format: HTML
loodusliku-mineraalvee-ja-allikavee-veeproovid.md: 19: format: HTML
maa-ameti-avaandmete-portaal.md: 15: format: HTML
maaamet-korgusandmed.md: 13: url: 'https://geoportaal.maaamet.ee/est/Ruumiandmed/Korgusandmed/Laadi-korgusandmed-alla-p614.html' 14: format: HTML
maaamet-ortofotod.md: 14: format: HTML
maakataster.md: 14: 'https://geoportaal.maaamet.ee/est/Ruumiandmed/Maakatastri-andmed/Katastriuksuste-allalaadimine-p592.html' 15: format: HTML
majandustegevuse-register.md: 6: Tegevusalade Klassifikaatori (EMTAK) koodidega. Sisaldab ka viidet loa detailsele andmestikule (HTML) '
mem-kalapuuk.md: 31: format: HTML 35: format: HTML 39: format: HTML
mem-mahe.md: 47: format: HTML 51: format: HTML 54: format: HTML
mem-mater.md: 23: format: HTML 27: format: HTML
mem-msr.md: 26: format: HTML 30: format: HTML
mem-riiklik-alkoholiregister.md: 23: format: HTML 27: format: HTML
mem-soodakaitlejad.md: 22: url: 'https://jvis.agri.ee/jvis/avalik.html#/kaitlemisettevotedparing' 23: format: HTML 27: format: HTML
mem-sordiregister.md: 32: format: HTML 36: format: HTML
mem-taimekaitsevahendite-register.md: 54: format: HTML 58: format: HTML
mem-taimetervise-register.md: 23: format: HTML 27: format: HTML
mem-toidukaitlejad.md: 22: url: 'https://jvis.agri.ee/jvis/avalik.html#/toitKaitlemisettevotedparing' 23: format: HTML 27: format: HTML
mem-tuulekaer.md: 19: format: HTML 23: format: HTML
mem-vaetiseregister.md: 23: format: HTML 27: format: HTML
mem-veterinaararstid.md: 14: url: 'https://jvis.agri.ee/jvis/avalik.html#/vetarstparing' 15: format: HTML 19: format: HTML
metsaseire-andmekogu.md: 14: format: HTML
mullastiku-kaart.md: 14: url: 'http://geoportaal.maaamet.ee/est/Andmed-ja-kaardid/Mullakaart-p33.html' 15: format: HTML
muuseumide-infos-steemi-avaandmed.md: 15: format: HTML
oppeinfosusteem-tahvel.md: 17: format: HTML (avaandmete faili formaat, näiteks XML, JSON või mis iganes) 21: format: HTML (avaandmete faili formaat, näiteks XML, JSON või mis iganes)
p-llumajandusloomade-register.md: 15: format: HTML 19: format: 'xls, html' 23: format: HTML 27: format: HTML 31: format: HTML 47: format: HTML
p-llumassiivide-register.md: 15: format: HTML 19: format: HTML
posti-sihtnumbrid-postiindeksid.md: 18: geoportaal.maaamet.ee/est/Andmed-ja-kaardid/Aadressiandmed/Aadressid-ja-posti-sihtnumbrid-e-indeksid-p582.html' 19: format: HTML
pria-niitmisetuvastamine.md: 16: format: HTML 20: format: HTML
probleemtooteregister.md: 14: format: HTML
rahvusarhiivi-arhiivikirjeldused.md: 35: format: HTML
riha-brief.md: 27: format: html
riigieelarvega-seotud-materjalid.md: 15: format: HTML
riigihangete-register.md: 20: format: HTML
riigikogu-kantselei-erjk.md: 28: format: HTML
riigikogu-veebi-avaandmed.md: 14: url: 'https://api.riigikogu.ee/swagger-ui.html'
sotsiaalministeerium-aveeb.md: 17: format: HTML
spordikoolitus-esbl.md: 15: format: HTML
statistika-andmebaas.md: 15: format: HTML
statistilise-metsainventuuri-andmekogu.md: 13: format: HTML
supluskohad.md: 27: format: HTML
tallinna-andmekogud.md: 15: format: HTML
tallinna-geoportaal.md: 14: format: HTML
tartu-linna-avaandmed.md: 15: format: HTML
tartu-linnavalitsuse-dokumendihaldussusteemis-avaldatud-oigusaktid.md: 14: format: HTML
toetuste-saajad.md: 15: format: HTML 19: format: HTML
ujulad.md: 23: format: HTML
valimiste-avaandmed.md: 15: format: HTML
varavastased-syyteod.md: 42: format: HTML
veek-itlejad.md: 27: format: HTML
Having only one filtering condition, namely format HTML will produce a lot of false positives. I don't have that many great suggestions for solving that issue, but what I've noticed is that usually the title of the dataset is "Avaandmed". Following the same logic, keywords to use to filter out these pages could also be "Andmekogud" or other Estonian words for datasets etc. Some examples: https://opendata.riik.ee/andmehulgad/tallinna-andmekogud/ https://opendata.riik.ee/andmehulgad/tartu-linna-avaandmed/ https://opendata.riik.ee/andmehulgad/eesti-looduse-infos-steem/
Having only one filtering condition, namely format HTML will produce a lot of false positives. I don't have that many great suggestions for solving that issue, but what I've noticed is that usually the title of the dataset is "Avaandmed". Following the same logic, keywords to use to filter out these pages could also be "Andmekogud" or other Estonian words for datasets etc. Some examples: https://opendata.riik.ee/andmehulgad/tallinna-andmekogud/ https://opendata.riik.ee/andmehulgad/tartu-linna-avaandmed/ https://opendata.riik.ee/andmehulgad/eesti-looduse-infos-steem/
https://opendata.riik.ee/andmehulgad/eesti-topgraafia-andmekogu/ https://opendata.riik.ee/andmehulgad/maa-ameti-avaandmete-portaal/ The last one is very general which considering that geospatial data(sets) is(are) HVD is pretty bad, this site has many apps and datasets but just a link is too general. Different apps created are found under Kaardirakendused.
Having only one filtering condition, namely format HTML will produce a lot of false positives. I don't have that many great suggestions for solving that issue, but what I've noticed is that usually the title of the dataset is "Avaandmed". Following the same logic, keywords to use to filter out these pages could also be "Andmekogud" or other Estonian words for datasets etc. Some examples: https://opendata.riik.ee/andmehulgad/tallinna-andmekogud/ https://opendata.riik.ee/andmehulgad/tartu-linna-avaandmed/ https://opendata.riik.ee/andmehulgad/eesti-looduse-infos-steem/
another possible keyword "Infosüsteem" https://opendata.riik.ee/andmehulgad/keskkonnaseireinfos-steem/
Or "Portaal" https://opendata.riik.ee/andmehulgad/tallinna-geoportaal/ this one also has many apps that have not been added to Raknedused.
All existing datasets should be gone over and checked whether they are correctly linked to the portal (at dataset level, description sufficient etc). At the same time, links should be double-checked for open data that isn't already linked to ODP.