cooelf / SemBERT

Semantics-aware BERT for Language Understanding (AAAI 2020)
https://arxiv.org/abs/1909.02209
MIT License
285 stars 55 forks source link

About SQuAD task #14

Closed quevia closed 3 years ago

quevia commented 4 years ago

大佬,我想问一下你是如何对SQuAD处理集进行语义标注处理的?

因为我看到GLUE baseline的任务数据句子长度都比较短而且是单个句子。我试着调用allennlp的predictor.predict_batch_json(sentence),这个sentence如果是多句话(比如整个passages)的时候,predict 的tags是逐句进行的,其他句的tag则全部填充为0.这种情况下设置max_num_aspect=3很明显就无法捕捉的所有句子的语义。

cooelf commented 3 years ago

你好,我们是先对篇章做了分句再进行的处理。因为SRL模型原本训练也是基于句子的,如果直接标注整个passage不仅可能predicate过多,而且标注可能精度损失也比较大。