关于训练sequence tagging model的数据集

ntunlp / daga

Data Augmentation with a Generation Approach for Low-resource Tagging Tasks

MIT License

79 stars 15 forks source link

关于训练sequence tagging model的数据集 #8

Open Lucky-259 opened 3 years ago

Lucky-259 commented 3 years ago

感谢作者团队的贡献！我打算复现这篇文章，但是在训练STM的过程中出现了一些问题。

首先尝试在--data_dir 的后面输入数据集的网址https://www.clips.uantwerpen.be/conll2002/ner/data/ ，报错为AssertError；后来将数据集下载到本地，输入本地文件路径，报错为UnicodeDecodeError。不知道该怎样正确的获取数据集，以及训练/验证数据文件的文件类型是否必须为.txt呢？

另外，对于readme文档中的其他输入（--model_dir ./model 和--embeddings_file PATH/TO/emb 的内容也不是很明确），可以麻烦给出训练CONLL_03_SPANISH语料库的输入样例吗？十分感谢！ readme

Bosheng2020 commented 3 years ago

您好谢谢您的留言。直接下载的非英语数据集的编码不是utf-8 encoding，你可以参考这个文章去修改编码格式 https://www.jianshu.com/p/36286fa7a9ed。具体操作是在vi或者vim打开文件输入:set fileencoding=utf-8。如果有后续问题欢迎留言。

NER数据的格式并不需要txt格式，但是我们实验的时候用的是bioes格式直接下载的格式是iob格式你可以把下载的数据转换一下。如果你想保留iob格式也是可以的。

另外，您第二个问题提到的训练CONLL_03_SPANISH语料库的输入样例是指训练NER模型还是语言模型的输入样例？

Lucky-259 commented 3 years ago

非常感谢您的回复！对我很有帮助~

我尝试了预处理CONLL2003的数据集，实验有了一些进展。但是还是出现了一个问题，没能找到合适的解决方案，不知道您是否知道如何解决？ ImportError: /home/cky/anaconda3/envs/py36s/lib/python3.6/site-packages/sentencepiece/_sentencepiece.cpython-36m-x86_64-linux-gnu.so: undefined symbol: _ZNK13sentencepiece4util6Status8ToStringB5cxx11Ev

另外，我是想看一下训练NER模型的具体输入样例~

Bosheng2020 commented 3 years ago

你好抱歉哈最近在忙其他项目回复的比较晚这个是你环境的问题可以重装一下sentencepiece。

NER模型的输入例子:

-DOCSTART- O

EU S-ORG rejects O German S-MISC call O to O boycott O British S-MISC lamb O . O

Peter B-PER Blackburn E-PER

Bosheng2020 commented 3 years ago

请问这个问题已经解决了吗？如果有其他问题可以留言或者发邮件给我谢谢。