Open aidiss opened 9 years ago
Vienas .yaml failas turi būti suprantamas kaip viena rinkmena. DCAT ontologijos terminais, tai būtų vienas Dataset, turintis keletą Distribution, kur Dataset yra tarpusavyje susijusių duomenų rinkinys, o Distribution yra konkreti duomenų lentelė, duomenų failas ar pan.
Pavyzdžiui turint tokį .yaml failą:
name: opendata.gov.lt
crowler:
start-urls:
- http://opendata.gov.lt/index.php?vars=/public/public/search
download-urls:
- name: table
pattern: http://opendata\.gov\.lt/index\.php\?vars=/public/public/search/\d+/
actions: [follow, download]
- name: details
pattern: http://opendata\.gov\.lt/index.php\?vars=/public/public/print/\d+/
actions: [download]
scraper:
- name: dataset
source: details
parser: html-table-fields
xpath: /html/body/table
primary-key: [code]
fields:
- name: code
type: integer
match: Kodas
Visas failas aprašo vieną Dataset (vieną rinkmeną), tuo tarpu pavadinimai table
, details
ir dataset
yra konkretūs duomenys (Distribution).
Ar vienai rinkmenai gali būti naudojami keli .yaml aprašymai?
Pavyzdžiui, ŠMM turi yra bent du subdomainus http://www.aikos.smm.lt/ http://www.ukc.smm.lt/
Ar kiekvienam iš jų kurti atskirą rinkmeną?