jiesutd / LatticeLSTM

Chinese NER using Lattice LSTM. Code for ACL 2018 paper.
1.79k stars 457 forks source link

数据集划分 #76

Closed berryxue closed 5 years ago

berryxue commented 5 years ago

您好,您的论文与实验对我做NER提供了很大的帮助! 请问您的msra与ontonotes的数据集是怎么划分训练集测试集的呢,这两份数据集好像没有官方的划分标准,如果您方便的话,能麻烦您发一下您这两份的训练开发测试集吗,非常感谢,我的邮箱是xuemengge@iie.ac.cn。如果您方便的话,resume数据集能麻烦您一起分享一下吗,谢谢。

jiesutd commented 5 years ago

你好。

  1. Resume 的数据就在这个Repository 里面。
  2. MSRA的数据没有dev数据集,一般都是直接在test 集上调参数。
  3. Ontonotes 的划分在我们的论文里有提到划分的参考文献,由于版权原因我不能把数据分享给你,除非你有Ontonotes的数据获取licence.
berryxue commented 5 years ago

您好。 1、感谢您分享resume和Ontonotes数据集的获取方法,我们会去划分的参考文献中找 2、MSRA数据集的训练集和开发集能麻烦您分享一下吗,似乎大家的划分标准都不统一

yukihuyt commented 5 years ago

2、MSRA数据集的训练集和开发集能麻烦您分享一下吗,似乎大家的划分标准都不统一

前面作者回复和论文中关于数据集描述的部分都提到了MSRA开发集就是测试集(通常也都是如此),而MSRA的训练集和测试集划分大家的标准都是一致的(遵循可获取的下载版本直接划分好的train和test) 希望可以帮助到你。