dbiir / UER-py

Open Source Pre-training Model Framework in PyTorch & Pre-trained Model Zoo
https://github.com/dbiir/UER-py/wiki
Apache License 2.0
3.01k stars 525 forks source link

max_seq_length 和 seq_length 两个参数均设置为512,打印出的batch内序列长度仍为128? #347

Closed dr-GitHub-account closed 2 years ago

dr-GitHub-account commented 2 years ago

将 opts.py 和 base_config.json 中的 max_seq_length 以及 seq_length 都设为了512,但打印 class BertTrainer 中 src, tgt_mlm, tgt_sp, seg = batch 得到的 src, tgt_mlm, tgt_sp, seg 序列长度都是128。想请教一下是什么原因?是参数哪里没改到位吗?还是 Dataloader 有相关设定?

dr-GitHub-account commented 2 years ago

自问自答一下。看了一下Dataloader部分,发现从数据预处理开始序列长度就只有128。原来是数据预处理脚本中本来就有相应的参数,需要重新生成一个序列长度为512的.pt文件。