songhaoyu / BoB

The released codes for ACL 2021 paper 'BoB: BERT Over BERT for Training Persona-based Dialogue Models from Limited Personalized Data'
https://aclanthology.org/2021.acl-long.14/
Apache License 2.0
136 stars 24 forks source link

数据不一致问题 #9

Closed xiaoshengjun closed 2 years ago

xiaoshengjun commented 2 years ago

您好,代码中数据预处理阶段处理了“nli_negative.tsv”和“ nli_positive.tsv”两个文件,convAI2有这两个文件,但是ECDT2019目录下没有这两个文件,请问这两个文件是干嘛呢,看训练的代码中有根据这两个数据进行训练?谢谢

haoyusoong commented 2 years ago

这两个文件是NLI数据的正例和负例,其中负例会用于D2的unlikelihood training,使模型能够在ppl上区分一致和矛盾。中文数据格式和这里给出的例子一致,但是由于相关数据刚发布不久所以这个项目里就没有给出示例文件。

jiangliqin commented 2 years ago

@haoyusoong 请问Unlikelihood Training部分的中文NLI数据来源哪里?可以提供地址吗?

jiangliqin commented 2 years ago

你们实际使用CLUECorpus数据多大的呢?