Open yxgnahz opened 3 years ago
您好!请问对于position attention设置end token的意义在哪里呢?既然position attention不是auto regressive的形式,好像并不需要一个end token来终止解码过程?
Hi, @yxgnahz 主要起到预测文本长度的作用
您好!请问对于position attention设置end token的意义在哪里呢?既然position attention不是auto regressive的形式,好像并不需要一个end token来终止解码过程?