taln-archives
TALN Archives est une archive numérique francophone des articles de recherche en
Traitement Automatique de la Langue. Elle contient actuellement les actes des
conférences RECITAL et TALN de 1997 à 2015.
Une version html est disponible
ici.
Un fichier XML contenant les méta-données a été créé pour chaque édition des
conférences, ce dernier contient :
Les fichiers bibtex de tous les articles ont été générés automatiquement à
partir du fichier de méta-données avec la commande :
cd tools/
./generate_bibtex_files.sh
Les fichiers au format texte des articles ont été extraits avec l'outil
pdftotext au format texte ou OCRisés
avec l'outil tesseract-ocr.
cd tools/
./extract_text_from_pdfs.sh
Les méta-données des fichiers pdfs ont été modifiés avec l'outil
pdftk avec la commande :
cd tools/
./update_pdf_metadata.sh
Une version web de l'archive peut être créée avec la commande :
cd tools/
python generate_html.py
Si vous utilisez cet ensemble de données, veuillez citer l'article :
- Florian Boudin, TALN Archives : une archive numérique francophone des
articles de recherche en Traitement Automatique de la Langue, Traitement
Automatique des Langues Naturelles (TALN), 2013.
Mises à jour
- 19/06/2015, ajout des actes de TALN-RECITAL 2015 et des ateliers,
restructuration du dépot avec l'ajout des répertoires conferences et
ateliers.
- 18/11/2014, ajout des titres en anglais pour TALN 2014, RECITAL 2014 et
TALN-2011.
- 09/07/2014, ajout des actes de TALN-RECITAL 2014.
- 28/06/2014, corrections meta-donnés.
- 06/05/2015, bug-fixes, ajout des prénoms/noms dans les fichiers de
méta-données, modification des bibtex (maintenant en UTF-8), transfert des
informations sur les meilleurs papiers et les taux de sélection.
- 07/04/2014, ajout des actes de TALN 1997 et 1998.
- 02/04/2014, ajout des actes de TALN-RECITAL 1999 et 2000.
- 28/03/2014, ajout des actes de TALN-RECITAL 2006.
- 06/02/2014, suppression des fichiers parscit/html/txt et conversion des
articles avec pdftotext + nettoyage des header/footer.
- 03/02/2014, ajout de l'extraction des citations avec ParsCit.
- 02/02/2014, ajout des actes de RECITAL 2001.
- 31/01/2014, ajout des actes des conférences TALN-RECITAL 2002 et TALN 2001,
modifications des scripts.
- 29/01/2014, modification du script de conversion pdf->txt et ajout des
fichiers txt, html et ocr.
- 27/01/2014, ajout des actes de TALN/RECITAL 2003, correction de
problèmes de case des noms d'auteurs, correction de problèmes de fichiers
corrompus (recital-2008-long-010), correction de problèmes de fichiers
protégés (taln-2010-long-037), modification globale des méta-données des
fichiers pdfs à l'aide de pdftk.
- 24/01/2014, ajout des actes de RECITAL 2004.
- 23/01/2014, ajout des actes de TALN 2004 et modification des scripts pour la
génération du site web.
- 21/01/2014, ajout de méta-données pour TALN et RECITAL 2005 (résumé, mots
clés) et modification des pdfs.
- 15/01/2014, corrections de méta-données.
- 08/01/2014, ajout des actes des conférences TALN 2005 et RECITAL 2005,
ajout des noms des sessions dans TALN 2009.
- 26/07/2013, ajout des fichiers textes, extraits à partir du contenu des
articles au format pdf.
- 18/07/2013, ajout des fichiers de génération de bibtex et du site web.
- 25/06/2013, ajout des actes des conférences TALN 2013 et RECITAL 2013.
Remerciements
- José Moreno
- Thierry Hamon
- Patrick Paroubek
- Gil Francopoulo
- Amir Hazem
- Anne Vilnat
- Cédrick Fairon
- Pierre Zweigenbaum