context length and dataset size

jquesnelle / yarn

YaRN: Efficient Context Window Extension of Large Language Models

MIT License

1.25k stars 110 forks source link

Open shossain opened 7 months ago

shossain commented 7 months ago

Can I train a 64k context length model with 16k long dataset? Or is it just an example?