boudinfl / taln-archives

TALN Archives is a digital archive of French research articles in Natural Language Processing
Other
12 stars 5 forks source link

taln-archives

TALN Archives est une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue. Elle contient actuellement les actes des conférences RECITAL et TALN de 1997 à 2015.

Une version html est disponible ici.

Un fichier XML contenant les méta-données a été créé pour chaque édition des conférences, ce dernier contient :

Les fichiers bibtex de tous les articles ont été générés automatiquement à partir du fichier de méta-données avec la commande :

cd tools/
./generate_bibtex_files.sh

Les fichiers au format texte des articles ont été extraits avec l'outil pdftotext au format texte ou OCRisés avec l'outil tesseract-ocr.

cd tools/
./extract_text_from_pdfs.sh

Les méta-données des fichiers pdfs ont été modifiés avec l'outil pdftk avec la commande :

cd tools/
./update_pdf_metadata.sh

Une version web de l'archive peut être créée avec la commande :

cd tools/
python generate_html.py

Si vous utilisez cet ensemble de données, veuillez citer l'article :

Mises à jour

Remerciements