关于使用预训练模型作为编码器构图的问题

nju-websoft / GLRE

Global-to-Local Neural Networks for Document-Level Relation Extraction, EMNLP 2020

GNU General Public License v3.0

53 stars 15 forks source link

你好，想请教两个问题。

1、当模型使用预训练模型作为编码器时，word会被分为子词，那么原本数据中标注的entity位置就会被改变了。dataset.py中好像没有对这种情况有进行处理，继续用的是数据集中标注的entity位置。

2、此外看到代码中使用bert时会截取512的长度，那超出512的片段都不要吗？好像论文中说的会分好几段来编码。如果是我理解错了，可以指出在哪进行了处理吗？

nju-websoft / GLRE