aidiss / opendatagovlt

For open data in Lithuania
2 stars 1 forks source link

YAML #21

Open aidiss opened 9 years ago

aidiss commented 9 years ago

Ar vienai rinkmenai gali būti naudojami keli .yaml aprašymai?

Pavyzdžiui, ŠMM turi yra bent du subdomainus http://www.aikos.smm.lt/ http://www.ukc.smm.lt/

Ar kiekvienam iš jų kurti atskirą rinkmeną?

sirex commented 9 years ago

Vienas .yaml failas turi būti suprantamas kaip viena rinkmena. DCAT ontologijos terminais, tai būtų vienas Dataset, turintis keletą Distribution, kur Dataset yra tarpusavyje susijusių duomenų rinkinys, o Distribution yra konkreti duomenų lentelė, duomenų failas ar pan.

Pavyzdžiui turint tokį .yaml failą:

name: opendata.gov.lt
crowler:
  start-urls:
    - http://opendata.gov.lt/index.php?vars=/public/public/search
  download-urls:
    - name: table
      pattern: http://opendata\.gov\.lt/index\.php\?vars=/public/public/search/\d+/
      actions: [follow, download]
    - name: details
      pattern: http://opendata\.gov\.lt/index.php\?vars=/public/public/print/\d+/
      actions: [download]
scraper:
  - name: dataset
    source: details
    parser: html-table-fields
    xpath: /html/body/table
    primary-key: [code]
    fields:
      - name: code
        type: integer
        match: Kodas

Visas failas aprašo vieną Dataset (vieną rinkmeną), tuo tarpu pavadinimai table, details ir dataset yra konkretūs duomenys (Distribution).