gaohongkui / GlobalPointer_pytorch

全局指针统一处理嵌套与非嵌套NER的Pytorch实现
380 stars 45 forks source link

数据集划分问题 #21

Open cqcl1 opened 1 year ago

cqcl1 commented 1 year ago

请问数据集文件有dev、train和test,test是没标签,请问带有标签的测试集用来评估测试结果是哪个文件呢?dev文件是验证集吗?evaluate.py这个文件是做什么的呢?评估测试集结果和预测未知标签数据集都是这个吗?

gaohongkui commented 1 year ago

你好,已更新了这部分混乱的逻辑。 dev.json 文件用于模型选择最优 f1 的依据,是验证集。 带有标签的测试集,可以在配置文件 train_config 中配置测试集文件,并切换 run_type 为 eval。具体实验逻辑是 https://github.com/gaohongkui/GlobalPointer_pytorch/blob/64d5cb881b880848c84c9d6200ca42ed7d9658b3/train.py#L291-L295

evaluate.py 是用于最终无标签数据集的评价,也即预测过程