Quelques explications sur la constitution du dataset & son entraînement?

Conobi commented 4 years ago

Hello, et merci bien pour ce projet! J'aimerais savoir comment constituer un bon dataset, ou tout du moins si il y a certaines pratiques à effectuer pour rendre l'entraînement le plus efficace possible avec un dataset propre! Par ailleurs il y a-t-il une quantité de données optimale pour obtenir des résultats convaincants pour disons 5000 steps. Merci! :)

aquadzn commented 4 years ago

@Donokami Pour le dataset tu peux tout mettre dans un seul .txt Si tu as juste un seul texte, tu peux manuellement ajouter les tokens <|startoftext|> au début et <|endoftext|> à la fin du texte. Avec plusieurs textes tu peux faire une boucle rapide genre

echo <|startoftext|> $(cat $i)<|endoftext|>"

Ou bien mettre les différents textes dans un csv et il sera automatiquement parsé par gpt-2-simple.

Pour fine-tuner, avec le modèle medium, gpt-2-simple commence à déconner avec un .txt de +2Go. Y'a une fonction pour encoder le dataset mais ce que tu peux faire pour les gros fichiers, tu split en plusieurs, et tu fais plusieurs run en reprennant le modèle précédent

Conobi commented 4 years ago

Merci beaucoup! Peut-être pourrait-on ajouter ces infos dans le readme ou sur le notebook? :)

aquadzn commented 4 years ago

Merci beaucoup! Peut-être pourrait-on ajouter ces infos dans le readme ou sur le notebook? :)

Tu peux faire une PR si tu veux :wink:

aquadzn / gpt2-french

Quelques explications sur la constitution du dataset & son entraînement? #3