JOHNNY-fans / NormPULSE

Apache License 2.0
25 stars 2 forks source link

data文件夹中数据的有关问题? #7

Open zbrnwpu opened 11 months ago

zbrnwpu commented 11 months ago

hello~请教个问题哈,op_tree_training_example.jsonl和dis_tree_training_example.jsonl这两个数据集有什么作用呢?在使用过程中没有体现出来哦,没有使用大模型去做层级的推理呐? open_op_norm_training_example.jsonl这个数据集是用作训练大模型去进行标准化术语多选一的示例妈? @JOHNNY-fans

JOHNNY-fans commented 7 months ago

tree_training文件,是试图让模型从中学习一些术语间的层次关系。 norm_training文件是多选一的简单示例。

本仓库还是在探索纯依靠大模型的生成能力和推理能力完成标准化任务,目前的7B的精度确实不如专门在某个数据集上训练一个encoder+分类模型。同时我们已经注意到单独一个子任务的数据训练是提升不明显的,现在的思路会是与别的医疗任务一起训练,同时后续还会加强对中文术语的推理能力。这些会体现在PULSE的迭代中,后续会放出新的模型。