ntunlp / daga

Data Augmentation with a Generation Approach for Low-resource Tagging Tasks
MIT License
79 stars 15 forks source link

关于训练sequence tagging model的数据集 #8

Open Lucky-259 opened 3 years ago

Lucky-259 commented 3 years ago

感谢作者团队的贡献!我打算复现这篇文章,但是在训练STM的过程中出现了一些问题。

首先尝试在--data_dir 的后面输入数据集的网址https://www.clips.uantwerpen.be/conll2002/ner/data/ ,报错为AssertError; AssertError 后来将数据集下载到本地,输入本地文件路径,报错为UnicodeDecodeError。 UnicodeDecodeError 不知道该怎样正确的获取数据集,以及训练/验证数据文件的文件类型是否必须为.txt呢?

另外,对于readme文档中的其他输入(--model_dir ./model 和--embeddings_file PATH/TO/emb 的内容也不是很明确),可以麻烦给出训练CONLL_03_SPANISH语料库的输入样例吗?十分感谢! readme

Bosheng2020 commented 3 years ago

您好 谢谢您的留言。直接下载的非英语数据集的编码不是utf-8 encoding,你可以参考这个文章去修改编码格式 https://www.jianshu.com/p/36286fa7a9ed。 具体操作是在vi或者vim打开文件 输入:set fileencoding=utf-8。 如果有后续问题欢迎留言。

NER数据的格式并不需要txt格式,但是我们实验的时候用的是bioes格式 直接下载的格式是iob格式 你可以把下载的数据转换一下。如果你想保留iob格式也是可以的。

另外,您第二个问题提到的 训练CONLL_03_SPANISH语料库的输入样例 是指训练NER模型还是语言模型的输入样例?

Lucky-259 commented 3 years ago

非常感谢您的回复!对我很有帮助~

我尝试了预处理CONLL2003的数据集,实验有了一些进展。但是还是出现了一个问题,没能找到合适的解决方案,不知道您是否知道如何解决? ImportError: /home/cky/anaconda3/envs/py36s/lib/python3.6/site-packages/sentencepiece/_sentencepiece.cpython-36m-x86_64-linux-gnu.so: undefined symbol: _ZNK13sentencepiece4util6Status8ToStringB5cxx11Ev ImportError

另外,我是想看一下训练NER模型的具体输入样例~

Bosheng2020 commented 2 years ago

你好 抱歉哈 最近在忙其他项目 回复的比较晚 这个是你环境的问题 可以重装一下sentencepiece。

NER模型的输入例子:

-DOCSTART- O

EU S-ORG rejects O German S-MISC call O to O boycott O British S-MISC lamb O . O

Peter B-PER Blackburn E-PER

Bosheng2020 commented 2 years ago

请问这个问题已经解决了吗?如果有其他问题可以留言或者发邮件给我 谢谢。