DCLab-MediaLab / MediaEval14

0 stars 0 forks source link

subtitles -> csv #2

Closed balintfodor closed 10 years ago

balintfodor commented 10 years ago

Subtitles csv formátum ellenőrzése a lentieknek megfelelően és átmásolás, szintén a lentieknek megfelelően. Itt nem kell konvertálni, mert alapból csv-ben van az adat.

A konvertálásra bármilyen elterjedt script vagy programnyelv használható, egy Debianon lesz futtatva, úgyhogy bash, php, python, ruby, xml-ekre xslt célszerűbb mint egy c/c++, de ez csak egy tipp.

Input/Output

Legyen az a konvenció, hogy a script/program két könyvtárat vár.

Az első a letöltött adathalmaz gyökere kell legyen. Azaz ha a data_root könyvtárat kapja meg paraméterül, akkor az a következőket tartalmazza:

pont úgy ahogy a beehub-on is fent van.

A második az a kimeneti mappa ahova a konvertált csv fájlok kerülnek. A csv fájlok neve megegyezik az átkonvertált fájl nevével, de ha lehet hagyjunk el minden felesleges prefixet. Illetve a postfixeljük az adattípusra utaló névvel pl.:

v20080401_002000_bbcthree_pulling.xml -> 20080401_002000_bbcthree_pulling.transcript-limsi.csv

A kimeneti mappába almappák nélkül kerüljenek be a postfixelt csv-k, azaz ha az össze scriptet lefuttatjuk, akkor lesz egy mappánk amiben kismillió csv lesz.

Példa a script hívására ha a data_root-ba töltöttük le az adathalmazt és az out könytárba akarjuk pakolni a csv-ket:

[script neve/indítás módja] data_root out

CSV

A csv-re vonatkozó fontos infók, hogy minimalizáljuk a szívást:

realhidden commented 10 years ago

Done: dc28bd45a5893c8c2ceb5e3da623493714607b17