lipiji / SongNet

Code for ACL 2020 paper "Rigid Formats Controlled Text Generation":https://www.aclweb.org/anthology/2020.acl-main.68/
MIT License
230 stars 40 forks source link

请问,如何使用自己的数据进行预训练啊? #16

Closed ChaooMa closed 3 years ago

ChaooMa commented 3 years ago

如题,麻烦了

lipiji commented 3 years ago

@ChaooMa 你好,具体什么数据呢?

ChaooMa commented 3 years ago

@ChaooMa 你好,具体什么数据呢?

比如 wiki,news 这些数据

lipiji commented 3 years ago

不影响的,文本不限于诗词歌赋这类格式的。

ChaooMa commented 3 years ago

不影响的,文本不限于诗词歌赋这类格式的。

普通的文本没有押韵信息,单条文本长度也长短不一 在用这些数据进行预训练的时候,是否把这些格式化约束去掉更好?而后在用唐诗宋词微调的时候,再加上 s、p、c、t 这些格式约束性信息?