zjunlp / IEPile

[ACL 2024] IEPile: A Large-Scale Information Extraction Corpus
http://oneke.openkg.cn/
Other
157 stars 14 forks source link

咨询下长文本处理方式 #21

Closed gumanchang closed 1 week ago

gumanchang commented 3 weeks ago

有场景需要对长文本通常有几万字进行信息抽取,qwen2的最大长度是32K,可以通过修改代码src/finetune.py中的参数max_source_length, max_target_length, cutoff_len: 最大输入、输出长度、截断长度支持长文本的输入和输出吗? 看到了 #7 的讨论由于训练模型的最大长度限制,因此可能无法很好处理, 想请教下Qwen2的所有Instruct模型,均在32k上下文长度上进行训练,而IEPile训练模型能在32K的文本内进行训练吗?

guihonghao commented 3 weeks ago

受限于当前信息抽取数据集语料长度,目前信息抽取数据集长度在1、200 token左右,不超过512。因此模型在1k以上的文本长度上的抽取能力是欠缺的。

guihonghao commented 3 weeks ago

长文本抽取建议调用GPT4、Kimi等模型获取长文本信息抽取标注数据,训练模型。