Open CamilleDemers opened 1 week ago
2024-12-02
Distribution des commentaires en fonction de leur longueur (en nombre de tokens)
mean | 1105.256757
std | 995.359021
min | 0.000000
25% | 443.750000
50% | 887.500000
75% | 1437.750000
max | 7384.000000
Les commentaires ont une longueur moyenne de 1105 tokens avec un écart-type (std) de 995 tokens - il y a donc une importante variabilité dans la longueur des commentaires.
Aussi, l'analyse des percentiles nous indique que 50% des posts ont une longueur inférieure ou égale à 887.5 tokens (ce qui excède la limite de 512 tokens.)
La distribution des données illustre une forte asymétrie, c'est-à-dire qu'une majorité de commentaires relativement courts est concentrée dans un intervalle de valeurs allant jusqu'à environ 250 tokens, puis ensuite une proportion plus étalée de commentaires s'étale dans un intervalle allant de 250 à plus de 7000 tokens. Par ailleurs, cette distribution illustre que les textes plus longs sont relativement rares.
Dans cette situation, il pourrait être raisonnable de ne retenir que les 512 premiers tokens de chaque posts comme ça semble être une pratique courante pour gérer ce genre de situation (trouver réf à citer).
"We use three different methods of truncate text to perform BERT fine-tuning.
"The truncation method of head+tail achieves the best performance on IMDb and Sogou datasets. Therefore, we use this method to deal with the long text in the following experiments" (Sun et al., 2020)
Blocked : Je rencontre des problèmes d'allocation de mémoire et de temps d'exécution. J'ai tenté de rouler certaines analyses en utilisant le GPU disponible dans Google Colab (T4) mais sans succès. À suivre.
Ce tutoriel illustre comment utiliser des embeddings BERT pour entraîner un classifieur de régression logistique : https://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time/
Prochaine session de travail: les textes sont actuellement trop longs pour être encodés avec BERT (limite = 512 tokens)
Regarder les stratégies utilisées dans cet article : Sun, C., Qiu, X., Xu, Y., & Huang, X. (2019). How to fine-tune bert for text classification?. In Chinese computational linguistics: 18th China national conference, CCL 2019, Kunming, China, October 18–20, 2019, proceedings 18 (pp. 194-206). Springer International Publishing. https://arxiv.org/pdf/1905.05583
Choix entre : troncation (tête), troncation (milieu), troncation (queue). Il semble que la troncation en utilisant le milieu du texte fonctionne le mieux pour les auteurs de cet article.
Il pourrait également être intéressant de regarder la distribution des longueurs de texte pour voir s'ils sont en général trop longs ou si cela ne concerne que quelques exceptions.
Voir également : https://stackoverflow.com/questions/58636587/how-to-use-bert-for-long-text-classification