关于DST文章的理解与疑惑

MF-XU commented 10 months ago

作者您好！最近在阅读您的DST这篇文章，也调试了您的代码，想请作者帮忙看我对这篇文章理解的是否正确。首先进行输入，对输入的第j个token通过linear层进行线性映射，线性映射之后得到第j个token的query，接着通过决策网络，决策网络根据第j个token计算出offset和size；这里存在一个个人的疑惑：在图中计算出offset和size之后，这里又变成一个序列了，而在决策网络之前是一个token？移动之后的token获得了更多的情绪信息，通过线性层得到K和V通过求和法则完成注意力计算，最后拼接多头在之前您是遍历了整个序列将每个token都做了一次这样的运算，这样使得每个token都具有了更多的情感信息，进而得到输出希望得到您的解答！

DthdZK commented 10 months ago

作者您好！最近在阅读您的DST这篇文章，也调试了您的代码，想请作者帮忙看我对这篇文章理解的是否正确。首先进行输入，对输入的第j个token通过linear层进行线性映射，线性映射之后得到第j个token的query，接着通过决策网络，决策网络根据第j个token计算出offset和size；这里存在一个个人的疑惑：在图中计算出offset和size之后，这里又变成一个序列了，而在决策网络之前是一个token？移动之后的token获得了更多的情绪信息，通过线性层得到K和V通过求和法则完成注意力计算，最后拼接多头在之前您是遍历了整个序列将每个token都做了一次这样的运算，这样使得每个token都具有了更多的情感信息，进而得到输出希望得到您的解答！

请问你调试通代码了么？我下载下来直接运行结果报错： RuntimeError: Output 0 of SplitBackward0 is a view and is being modified inplace. This view is the output of a function that returns multiple views. Such functions do not allow the output views to be modified inplace. You should replace the inplace operation by an out-of-place one. 请问可以帮忙解答一下吗？

MF-XU commented 10 months ago

作者您好！最近在阅读您的DST这篇文章，也调试了您的代码，想请作者帮忙看我对这篇文章理解的是否正确。首先进行输入，对输入的第j个token通过linear层进行线性映射，线性映射之后得到第j个token的query，接着通过决策网络，决策网络根据第j个token计算出offset和size；这里存在一个个人的疑惑：在图中计算出offset和size之后，这里又变成一个序列了，而在决策网络之前是一个token？移动之后的token获得了更多的情绪信息，通过线性层得到K和V通过求和法则完成注意力计算，最后拼接多头在之前您是遍历了整个序列将每个token都做了一次这样的运算，这样使得每个token都具有了更多的情感信息，进而得到输出希望得到您的解答！

请问你调试通代码了么？我下载下来直接运行结果报错： RuntimeError: Output 0 of SplitBackward0 is a view and is being modified inplace. This view is the output of a function that returns multiple views. Such functions do not allow the output views to be modified inplace. You should replace the inplace operation by an out-of-place one. 请问可以帮忙解答一下吗？

模型是没有问题的，作者也给出了用法，你看你报错的那个位置有什么问题，可以直接使用

HappyColor / DST

关于DST文章的理解与疑惑 #3