biolab / text-semantics

The package with scripts for semantic analyser project
MIT License
4 stars 5 forks source link

Izroček 1.3: predobdelava dokumentov #26

Closed BlazZupan closed 3 years ago

BlazZupan commented 3 years ago

Izroček 1.3: knjižnica za predobdelavo skladišča dokumentov v namen poenotenja zapisa dokumentov v enostavno berljivo tekstovno obliko.

BlazZupan commented 3 years ago

Za ta izroček smo se odločili implementirati skripte, ki znajo pridobiti podatke iz surovih datotek oziroma iz spletnih strani ter te predobdelati in zapisati v obliki, ki je primerna za shranjevanje v repozitoriju projekta. Ker so podatkovni viri različni, predvidevamo, da bo za vsak tip dokumentov oziroma za vsak projekt potrebno spisati svoj del kode za predobdelavo. Kot cilj tega izročka smo zato postavili izdelavo skript za branje spletnih podatkov o predlogih vladi in spletnih podatkov o zakonih.

PrimozGodec commented 3 years ago

Pripravili smo dve skripti, ki pridobita podatke iz interneta in jih pretvorita v primerno obliko za prenos v skladišče dokumentov:

BlazZupan commented 3 years ago

Dela na tem izročku so zaključena.