DCLab-MediaLab / MediaEval14

0 stars 0 forks source link

transcripts/NST -> csv #12

Closed sbarnis closed 10 years ago

sbarnis commented 10 years ago

NST átirat -> csv.

A csv-re és a script-re a többi konvertálós feladathoz hasonlóan a következők érvényesüljenek:

A konvertálásra bármilyen elterjedt script vagy programnyelv használható, egy Debianon lesz futtatva, úgyhogy bash, php, python, ruby, xml-ekre xslt célszerűbb mint egy c/c++, de ez csak egy tipp.

Input/Output

Legyen az a konvenció, hogy a script/program két könyvtárat vár.

Az első a letöltött adathalmaz gyökere kell legyen. Azaz ha a data_root könyvtárat kapja meg paraméterül, akkor az a következőket tartalmazza:

pont úgy ahogy a beehub-on is fent van.

A második az a kimeneti mappa ahova a konvertált csv fájlok kerülnek. A csv fájlok neve megegyezik az átkonvertált fájl nevével, de ha lehet hagyjunk el minden felesleges prefixet. Illetve a postfixeljük az adattípusra utaló névvel pl.:

v20080401_002000_bbcthree_pulling.xml -> 20080401_002000_bbcthree_pulling.transcript-limsi.csv

A kimeneti mappába almappák nélkül kerüljenek be a postfixelt csv-k, azaz ha az össze scriptet lefuttatjuk, akkor lesz egy mappánk amiben kismillió csv lesz.

Példa a script hívására ha a data_root-ba töltöttük le az adathalmazt és az out könytárba akarjuk pakolni a csv-ket:

[script neve/indítás módja] data_root out

CSV

A csv-re vonatkozó fontos infók, hogy minimalizáljuk a szívást:

sbarnis commented 10 years ago

done! a71957a2e406df1c761fd0868328ad2aa30f8e28