你好，使用BERT模型时，关于adjacency matrix的一些问题

z1ouhan commented 2 years ago

adjacency matrix是没有tokenize之前获得的，但由于bert使用的分词算法文本tokenize之后token可能和之前原本text位置对应不上，adjacency matrix不需额外处理一下吗，我在代码中好像没有看到相关操作，希望解答！谢谢！

BinLiang-NLP commented 2 years ago

adjacency matrix是没有tokenize之前获得的，但由于bert使用的分词算法文本tokenize之后token可能和之前原本text位置对应不上，adjacency matrix不需额外处理一下吗，我在代码中好像没有看到相关操作，希望解答！谢谢！

您好！非常感谢您提出的问题，这是一个非常好的问题。我们在后续的实验中也确实遇到了因token不对应导致的图信息不匹配问题。但是针对这个工作，因为我们主要是通过图网络描绘词语和aspect，以及aspect和aspect之间的联系，所以这个token不对应的情况对图中边的权重影响较少，对最终性能影响也不大。针对token不对应问题，因为主要原因是BERT会将原本的完整的一个词语分成多个token，我建议可以通过两个方法来解决这个问题：1、针对多出来的token，可以采用按顺序连接，形成一个小型的对角矩阵，跟原来的图矩阵进行对应结合。也就是扩充了原来图的节点和边；2、可以修改tokenizer，针对多出来的token，可以将它们再重新合并成一个词语，这样可以保留原本的图信息。如有其他问题，请随时联系我。谢谢！！！

z1ouhan commented 2 years ago

非常感谢这么详细的解答！

BinLiang-NLP / InterGCN-ABSA

你好，使用BERT模型时，关于adjacency matrix的一些问题 #8