关于数据集 - Githubissues

yongzhuo / Macropodus

自然语言处理工具Macropodus，基于Albert+BiLSTM+CRF深度学习网络架构，中文分词，词性标注，命名实体识别，新词发现，关键词，文本摘要，文本相似度，科学计算器，中文数字阿拉伯数字(罗马数字)转换，中文繁简转换，拼音转换。tookit(tool) of NLP，CWS(chinese word segnment)，POS(Part-Of-Speech Tagging)，NER(name entity recognition)，Find(new words discovery)，Keyword(keyword extraction)，Summarize(text summarization)，Sim(text similarity)，Calculate(scientific calculator)，Chi2num(chinese number to arabic number)

https://blog.csdn.net/rensihui

MIT License

656 stars 93 forks source link

关于数据集 #2

Closed qa8306202 closed 4 years ago

qa8306202 commented 4 years ago

请问训练自己的数据集，是按照data/train/corpus/下面的train.json格式来制作自己的数据集来训练吗？想问一下，您当时只使用了train.json中的数据进行训练，还是使用了整个ChineseNER外加自己的数据？

yongzhuo commented 4 years ago

是train.json那样的格式。训练时候用了整个ChineseNER外加自己的数据

qa8306202 commented 4 years ago

您好，我想微调一下模型，使用自己的数据集来做question-question相似度匹配，请问如何操作？应该不是使用NER格式的吧

yongzhuo commented 4 years ago

目前文本分类没有集成