Data verzamelen voor de grafieken

Het gaat om de volgende grafieken en data:

[x] Grafiek over de test-data, per document:
Titel, taal (3x: metadata, from_text, from_title)
Mimetype, humanized-mimetype, etc
Collectie
Lengte van de video (als het een video is)
Welke stappen door de pipeline het document doorlopen heeft
[x] Voor de grafieken over de effictiviteit van zoeken:
Scores (precision@10, precision@3, dcg, ndcg) voor de ranked queries van de docenten, per field combinatie
Scores (precision@10, precision@3, dcg, ndcg) voor de ranked queries, uitgevoerd op de verschillende experimenten: Google, PRF, ConceptNet, EduRep
[x] De Language recognition resultaten
[x] Grafiek met de word error rates, voor alle video's waar we een transcript van Tom voor hebben:
de word error rate
Per video aangeven welke kaldi (nl of en) er gebruikt is.
Link naar de video
Indien mogelijk ook de counts voor de specifiekere onderdelen van de WER: insertions, substitutions, deletions, etc.

surfedushare / pol-harvester