Closed Conobi closed 4 years ago
@Donokami Pour le dataset tu peux tout mettre dans un seul .txt Si tu as juste un seul texte, tu peux manuellement ajouter les tokens <|startoftext|> au début et <|endoftext|> à la fin du texte. Avec plusieurs textes tu peux faire une boucle rapide genre
echo <|startoftext|> $(cat $i)<|endoftext|>"
Ou bien mettre les différents textes dans un csv et il sera automatiquement parsé par gpt-2-simple.
Pour fine-tuner, avec le modèle medium, gpt-2-simple commence à déconner avec un .txt de +2Go. Y'a une fonction pour encoder le dataset mais ce que tu peux faire pour les gros fichiers, tu split en plusieurs, et tu fais plusieurs run en reprennant le modèle précédent
Merci beaucoup! Peut-être pourrait-on ajouter ces infos dans le readme ou sur le notebook? :)
Merci beaucoup! Peut-être pourrait-on ajouter ces infos dans le readme ou sur le notebook? :)
Tu peux faire une PR si tu veux :wink:
Hello, et merci bien pour ce projet! J'aimerais savoir comment constituer un bon dataset, ou tout du moins si il y a certaines pratiques à effectuer pour rendre l'entraînement le plus efficace possible avec un dataset propre! Par ailleurs il y a-t-il une quantité de données optimale pour obtenir des résultats convaincants pour disons 5000 steps. Merci! :)