VisualJoyce / ChengyuBERT

[COLING 2020] BERT-based Models for Chengyu
MIT License
17 stars 3 forks source link

训练时报错,请问下competition_train.db是做什么的, #22

Open Viserion-nlper opened 10 months ago

Viserion-nlper commented 10 months ago

请问下competitiontrain.db是做什么的呢? 我在熟读您的代码的时候,有几个疑问: 1、Preprocessing中: image 这些official*.db是干嘛的?可以替换吗? └── txt_db ├── hfl │   └── chinese-bert-wwm-ext │   ├── external_pretrain.db │   ├── official_dev.db │   ├── official_out.db │   ├── official_ran.db │   ├── official_sim.db │   ├── official_test.db │   └── official_train.db └── visualjoyce └── chengyubert_2stage_stage1_wwm_ext -> ../hfl/chinese-bert-wwm-ext 这些db文件没有下载路径,麻烦解答下哈,感谢

Vimos commented 10 months ago

都是生成的tokenize之后的ids文件,通过preprocess生成的,如果不需要这一步,可以跳过去直接tokenize之后传递给模型