a tar könyvtárban lévő tömörített fájlokat ki kell csomagolni
ki kell szedni a jelenet határokat és át kell rakni csv-be
Célszerűen a csv oszlopok a következők:
jelenet azonosítója / sorszáma
jelenet kezdete (másodpercben)
jelenet vége (másodpercben)
A csv-re és a script-re a többi konvertálós feladathoz hasonlóan a következők érvényesüljenek:
A konvertálásra bármilyen elterjedt script vagy programnyelv használható, egy Debianon lesz futtatva, úgyhogy bash, php, python, ruby, xml-ekre xslt célszerűbb mint egy c/c++, de ez csak egy tipp.
Input/Output
Legyen az a konvenció, hogy a script/program két könyvtárat vár.
Az első a letöltött adathalmaz gyökere kell legyen. Azaz ha a data_root könyvtárat kapja meg paraméterül, akkor az a következőket tartalmazza:
data_root
json
ProsodicFeatures
subtitles
tar
...
pont úgy ahogy a beehub-on is fent van.
A második az a kimeneti mappa ahova a konvertált csv fájlok kerülnek. A csv fájlok neve megegyezik az átkonvertált fájl nevével, de ha lehet hagyjunk el minden felesleges prefixet. Illetve a postfixeljük az adattípusra utaló névvel pl.:
A kimeneti mappába almappák nélkül kerüljenek be a postfixelt csv-k, azaz ha az össze scriptet lefuttatjuk, akkor lesz egy mappánk amiben kismillió csv lesz.
Példa a script hívására ha a data_root-ba töltöttük le az adathalmazt és az out könytárba akarjuk pakolni a csv-ket:
[script neve/indítás módja] data_root out
CSV
A csv-re vonatkozó fontos infók, hogy minimalizáljuk a szívást:
utf8 kódolás és unix-os \n soremelés (a windowsos \r\n helyett)
a számok tizedes elválasztója . legyen
az elemeket a ; válassza el egymástól
a csv első sora az oszlopok neveit tartalmazza, hogyha megnyitja valaki a fájlt, akkor egyből tudja értelmezni az adatokat
ha videón belüli időre vonatkozó adat van, akkor az időt egységesen másodperc-be konvertálva adjuk meg, ez a szám nyilván nem feltétlenül lesz egész szám
Célszerűen a csv oszlopok a következők:
A csv-re és a script-re a többi konvertálós feladathoz hasonlóan a következők érvényesüljenek:
A konvertálásra bármilyen elterjedt script vagy programnyelv használható, egy Debianon lesz futtatva, úgyhogy bash, php, python, ruby, xml-ekre xslt célszerűbb mint egy c/c++, de ez csak egy tipp.
Input/Output
Legyen az a konvenció, hogy a script/program két könyvtárat vár.
Az első a letöltött adathalmaz gyökere kell legyen. Azaz ha a
data_root
könyvtárat kapja meg paraméterül, akkor az a következőket tartalmazza:pont úgy ahogy a beehub-on is fent van.
A második az a kimeneti mappa ahova a konvertált csv fájlok kerülnek. A csv fájlok neve megegyezik az átkonvertált fájl nevével, de ha lehet hagyjunk el minden felesleges prefixet. Illetve a postfixeljük az adattípusra utaló névvel pl.:
v20080401_002000_bbcthree_pulling.xml -> 20080401_002000_bbcthree_pulling.transcript-limsi.csv
A kimeneti mappába almappák nélkül kerüljenek be a postfixelt csv-k, azaz ha az össze scriptet lefuttatjuk, akkor lesz egy mappánk amiben kismillió csv lesz.
Példa a script hívására ha a
data_root
-ba töltöttük le az adathalmazt és azout
könytárba akarjuk pakolni a csv-ket:[script neve/indítás módja] data_root out
CSV
A csv-re vonatkozó fontos infók, hogy minimalizáljuk a szívást: