WDC-Dialogue数据来源问题

thu-coai / EVA

EVA: Large-scale Pre-trained Chit-Chat Models

MIT License

305 stars 51 forks source link

WDC-Dialogue数据来源问题 #27

Closed jiangliqin closed 2 years ago

jiangliqin commented 2 years ago

您好，paper中提到WDC-Dialogue数据分别来源于社交平台的转发、网站论坛的评论转发、问答交流，请问能再分别详细说明下分别在哪些网站中通过什么方式采集的吗？比如zhihu平台是什么入口，或者什么关键词搜索相关数据？对这部分工作比较感兴趣，请帮忙说明下，谢谢~

TissueC commented 2 years ago

主要有微博的转发和评论、豆瓣小组、百度贴吧和知乎问答等。采集的时候我们是直接采集的，没有设定关键词。

jiangliqin commented 2 years ago

您好，请问原始未处理的数据可以提供吗？

TissueC commented 2 years ago

抱歉，发布原始数据并不在我们的近期计划之中。

jiangliqin commented 2 years ago

请问签订数据协议申请也不可以吗？

t1101675 commented 2 years ago

数据协议的问题可以咨询 aihuang@tsinghua.edu.cn

jiangliqin commented 2 years ago

好的，谢谢

jiangliqin commented 2 years ago

@t1101675 昨天下午jiangliqin@migu.cn 已向 aihuang@tsinghua.edu.cn 发送咨询邮件，暂时未收到回应，请帮忙确认下，谢谢！

jiangliqin commented 2 years ago

您好，感谢你们的工作！关于在WDC-Dialogue基础上数据扩充的几个问题： 1.www.opensubtitles.org平台的电影电视剧台词是非中文的，请问你们是翻译成了中文吗？数据量有多大？这部分数据可以开放吗？ 2.从LOT-LongLM项目中的小说数据提取的对话数据量量有多大？小说包含哪些题材类型，不同题材的小说是不是会影响模型效果的风格？请问这部分可以开放吗？

TissueC commented 2 years ago

我们选取了有中文的字幕；我们尽可能选择了通用题材的小说；两者所占数据总量约10%；数据开放问题同上。

jiangliqin commented 2 years ago

请问，小说的对话数据你们是怎么做处理的？ 1.是构造成上下文多轮的形式吗？那么对话话题是怎么区分的？ 2.对话中包含姓名等和上下文强相关的信息，这部分怎么处理？