tar -> csv - Githubissues

a tar könyvtárban lévő tömörített fájlokat ki kell csomagolni
ki kell szedni a jelenet határokat és át kell rakni csv-be

Célszerűen a csv oszlopok a következők:

jelenet azonosítója / sorszáma
jelenet kezdete (másodpercben)
jelenet vége (másodpercben)

A csv-re és a script-re a többi konvertálós feladathoz hasonlóan a következők érvényesüljenek:

A konvertálásra bármilyen elterjedt script vagy programnyelv használható, egy Debianon lesz futtatva, úgyhogy bash, php, python, ruby, xml-ekre xslt célszerűbb mint egy c/c++, de ez csak egy tipp.

Input/Output

Legyen az a konvenció, hogy a script/program két könyvtárat vár.

Az első a letöltött adathalmaz gyökere kell legyen. Azaz ha a data_root könyvtárat kapja meg paraméterül, akkor az a következőket tartalmazza:

data_root
- json
- ProsodicFeatures
- subtitles
- tar
- ...

pont úgy ahogy a beehub-on is fent van.

A második az a kimeneti mappa ahova a konvertált csv fájlok kerülnek. A csv fájlok neve megegyezik az átkonvertált fájl nevével, de ha lehet hagyjunk el minden felesleges prefixet. Illetve a postfixeljük az adattípusra utaló névvel pl.:

v20080401_002000_bbcthree_pulling.xml -> 20080401_002000_bbcthree_pulling.transcript-limsi.csv

A kimeneti mappába almappák nélkül kerüljenek be a postfixelt csv-k, azaz ha az össze scriptet lefuttatjuk, akkor lesz egy mappánk amiben kismillió csv lesz.

Példa a script hívására ha a data_root-ba töltöttük le az adathalmazt és az out könytárba akarjuk pakolni a csv-ket:

[script neve/indítás módja] data_root out

CSV

A csv-re vonatkozó fontos infók, hogy minimalizáljuk a szívást:

utf8 kódolás és unix-os \n soremelés (a windowsos \r\n helyett)
a számok tizedes elválasztója . legyen
az elemeket a ; válassza el egymástól
a csv első sora az oszlopok neveit tartalmazza, hogyha megnyitja valaki a fájlt, akkor egyből tudja értelmezni az adatokat
ha videón belüli időre vonatkozó adat van, akkor az időt egységesen másodperc-be konvertálva adjuk meg, ez a szám nyilván nem feltétlenül lesz egész szám

DCLab-MediaLab / MediaEval14

tar -> csv #6

Input/Output

CSV