ShannonAI / glyce

Code for NeurIPS 2019 - Glyce: Glyph-vectors for Chinese Character Representations
https://arxiv.org/abs/1901.10125
Apache License 2.0
421 stars 75 forks source link

在BQ数据集上训练,评估结果差距有些大 #13

Open MrRace opened 5 years ago

MrRace commented 5 years ago

在BQ数据集上训练时候,采用默认参数,直接运行scripts/bq_glyce_bert.sh。得到的结果与官方提供的结果存在较大出入(由于显存限制,训练时候bacth size设置为50,其他参数默认),请问是否有其他需要改动的参数?按照直观感知,不该与bacth size=64的有这么大的差距(5个点的差距)。 DEV数据集上,f1, acc, loss分别为:

0.8037 0.8093 0.4607

在TEST数据集上,f1, acc, loss分别为:

0.7864 0.7921 0.4971

或者能否帮忙看下,您那边对于该数据集采用batch size=50时候,BQ数据集评测结果指标是多少? 多谢!

ghost commented 5 years ago

您好~我需要首先复现一下您的结果,麻烦请您稍微等一下,如果实验有结果之后一定给您反馈。应该是实验过程中哪里出问题了。十分感谢您的反馈!

MrRace commented 5 years ago

您好~我需要首先复现一下您的结果,麻烦请您稍微等一下,如果实验有结果之后一定给您反馈。应该是实验过程中哪里出问题了。十分感谢您的反馈!

感谢您的回复,敬候~

ghost commented 4 years ago

您好~麻烦尝试一下下面一组超参数组合,当时实验过程中我们使用了3张12G内存的TITAN Xp。 {max_seq_len=80; train_batch=64; learning_rate=2e-5; num_train_epochs=3; warmup=0.1 seed=3308; checkpoint=500; gpus=0-2-3; glyph_decay=0.1; glyph_ratio=1.0; glyph_output_size=768; glyph_embsize=128; num_fonts_concat=6; font_channels=6; cnn_dropout=0.1} 如果还有问题,请继续在issue下面提问!谢谢!!!

zhaiqi commented 4 years ago

您好 按照您现在给定的这个参数,依然没有达到论文中给定的结果,训练策略上是有什么特殊的设置吗?

Crescentz commented 4 years ago

您好~我需要首先复现一下您的结果,麻烦请您稍微等一下,如果实验有结果之后一定给您反馈。应该是实验过程中哪里出问题了。十分感谢您的反馈!

感谢您的回复,敬候~

你好,我看了半天作者的文件,还是没懂怎么配置,可以发下你配置的bq_glyce_bert.sh么。

  1. 作者的bert_model是预训练bq_bert.sh,然鹅,bq_bert.sh运行缺东西,你怎么解决的呀
Crescentz commented 4 years ago

您好~麻烦尝试一下下面一组超参数组合,当时实验过程中我们使用了3张12G内存的TITAN Xp。 {max_seq_len=80; train_batch=64; learning_rate=2e-5; num_train_epochs=3; warmup=0.1 seed=3308; checkpoint=500; gpus=0-2-3; glyph_decay=0.1; glyph_ratio=1.0; glyph_output_size=768; glyph_embsize=128; num_fonts_concat=6; font_channels=6; cnn_dropout=0.1} 如果还有问题,请继续在issue下面提问!谢谢!!!

作者你好,怎么多GPU,gpus=0-2-3; ,没有这个参数啊,在CUDA_VISIBLE_DEVICES=1,2,3会有错误