About SQuAD task - Githubissues

cooelf / SemBERT

Semantics-aware BERT for Language Understanding (AAAI 2020)

https://arxiv.org/abs/1909.02209

MIT License

285 stars 55 forks source link

About SQuAD task #14

Closed quevia closed 3 years ago

quevia commented 4 years ago

大佬，我想问一下你是如何对SQuAD处理集进行语义标注处理的？

因为我看到GLUE baseline的任务数据句子长度都比较短而且是单个句子。我试着调用allennlp的predictor.predict_batch_json(sentence)，这个sentence如果是多句话(比如整个passages)的时候，predict 的tags是逐句进行的，其他句的tag则全部填充为0.这种情况下设置max_num_aspect=3很明显就无法捕捉的所有句子的语义。

cooelf commented 3 years ago

你好，我们是先对篇章做了分句再进行的处理。因为SRL模型原本训练也是基于句子的，如果直接标注整个passage不仅可能predicate过多，而且标注可能精度损失也比较大。