thu-coai / EVA

EVA: Large-scale Pre-trained Chit-Chat Models
MIT License
305 stars 51 forks source link

WDC-Dialogue数据来源问题 #27

Closed jiangliqin closed 2 years ago

jiangliqin commented 2 years ago

您好,paper中提到WDC-Dialogue数据分别来源于社交平台的转发、网站论坛的评论转发、问答交流,请问能再分别详细说明下分别在哪些网站中通过什么方式采集的吗? 比如zhihu平台是什么入口,或者什么关键词搜索相关数据? 对这部分工作比较感兴趣,请帮忙说明下,谢谢~

TissueC commented 2 years ago

主要有微博的转发和评论、豆瓣小组、百度贴吧和知乎问答等。采集的时候我们是直接采集的,没有设定关键词。

jiangliqin commented 2 years ago

您好,请问原始未处理的数据可以提供吗?

TissueC commented 2 years ago

抱歉,发布原始数据并不在我们的近期计划之中。

jiangliqin commented 2 years ago

请问签订数据协议申请也不可以吗?

t1101675 commented 2 years ago

数据协议的问题可以咨询 aihuang@tsinghua.edu.cn

jiangliqin commented 2 years ago

好的,谢谢

jiangliqin commented 2 years ago

@t1101675 昨天下午jiangliqin@migu.cn 已向 aihuang@tsinghua.edu.cn 发送咨询邮件,暂时未收到回应,请帮忙确认下,谢谢!

jiangliqin commented 2 years ago

您好,感谢你们的工作! 关于在WDC-Dialogue基础上数据扩充的几个问题: 1.www.opensubtitles.org平台的电影电视剧台词是非中文的,请问你们是翻译成了中文吗?数据量有多大?这部分数据可以开放吗? 2.从LOT-LongLM项目中的小说数据提取的对话数据量量有多大?小说包含哪些题材类型,不同题材的小说是不是会影响模型效果的风格?请问这部分可以开放吗?

TissueC commented 2 years ago

我们选取了有中文的字幕;我们尽可能选择了通用题材的小说;两者所占数据总量约10%;数据开放问题同上。

jiangliqin commented 2 years ago

请问,小说的对话数据你们是怎么做处理的? 1.是构造成上下文多轮的形式吗?那么对话话题是怎么区分的? 2.对话中包含姓名等和上下文强相关的信息,这部分怎么处理?