izhx / paper-reading

组内追更订会相关论文
7 stars 2 forks source link

CogLTX: Applying BERT to Long Texts #5

Open bluishwhite opened 3 years ago

bluishwhite commented 3 years ago

内容

这篇文章针对BERT无法处理长文本问题,基于认知理论提出了用于BERT任务的CogLTX 框架。

信息

1 学习到的新东西:

作者受人理解长文本方式启发提出了CogLTX 。人的工作记忆是会随时间衰减,但由于检索需要,被忽视的信息不断被来自长期记忆中相关内容更新。因此工作记忆能够采集充分的信息用于推理。 CogLTX 的思想是对关键句子的串联进行推理。CogLTX 中的关键是 MemRecall,即通过处理情节记忆来识别有关文本块的过程。MemRecall 模拟工作记忆中的检索竞争、重复和衰减,便于多步推理。这一过程使用另一个 BERT,judge,对块的相关性进行评分,并与原始 BERT reasoner 联合训练。MemRecall 是利用judge模型来检索关键块的算法,这些关键块被输入到reasoner中以在推理过程中完成任务。 针对不同的下游任务,设计了有监督和无监督训练方法,其中对于无监督训练中,为了保证生成分布一致使用隐变量模型,基于时间成本,这篇文章没有使用采样的方式进行训练,而是使用基于干预的方法。为每个x维护一个预测值z,其中z 是通过比较附近的值(替换不相关块后的结果)而不是使用贝叶斯规则来优化。judge 拟合了一个归纳判别模型以帮助推断 z。 模型训练的内存消耗恒定。

2 通过Related Work了解到了哪些知识

用于长文本的模型: Transformer-XL 、Compressive Transformer:压缩或重复使用先前步骤的结果,无法应用于BERT Reformer:使用局部敏感的哈希值进行基于内容的组关注,但它对GPU不友好,仍然需要对BERT进行验证 BlockBERT :切断了无关紧要的注意力,将BERT从512个令牌扩展到1,024个 Longformer :自定义CUDA内核以支持窗口关注和对特殊标记的全局关注,效果未得到充分研究。

3 实验验证任务,如果不太熟悉,需要简单描述

4 在你认知范围内,哪些其它任务可以尝试

5 好的词语、句子或段落

Two ingredients are essential in CogLTX, MemRecall and the joint training of two BERTs.