HappyColor / DST

Deformable Speech Transformer (DST)
26 stars 2 forks source link

关于DST文章的理解与疑惑 #3

Open MF-XU opened 10 months ago

MF-XU commented 10 months ago

作者您好! 最近在阅读您的DST这篇文章,也调试了您的代码,想请作者帮忙看我对这篇文章理解的是否正确。 首先进行输入,对输入的第j个token通过linear层进行线性映射,线性映射之后得到第j个token的query,接着通过决策网络,决策网络根据第j个token计算出offset和size; 这里存在一个个人的疑惑:在图中计算出offset和size之后,这里又变成一个序列了,而在决策网络之前是一个token? 移动之后的token获得了更多的情绪信息,通过线性层得到K和V通过求和法则完成注意力计算,最后拼接多头 在之前您是遍历了整个序列将每个token都做了一次这样的运算,这样使得每个token都具有了更多的情感信息,进而得到输出 希望得到您的解答!

DthdZK commented 10 months ago

作者您好! 最近在阅读您的DST这篇文章,也调试了您的代码,想请作者帮忙看我对这篇文章理解的是否正确。 首先进行输入,对输入的第j个token通过linear层进行线性映射,线性映射之后得到第j个token的query,接着通过决策网络,决策网络根据第j个token计算出offset和size; 这里存在一个个人的疑惑:在图中计算出offset和size之后,这里又变成一个序列了,而在决策网络之前是一个token? 移动之后的token获得了更多的情绪信息,通过线性层得到K和V通过求和法则完成注意力计算,最后拼接多头 在之前您是遍历了整个序列将每个token都做了一次这样的运算,这样使得每个token都具有了更多的情感信息,进而得到输出 希望得到您的解答!

请问你调试通代码了么?我下载下来直接运行结果报错: RuntimeError: Output 0 of SplitBackward0 is a view and is being modified inplace. This view is the output of a function that returns multiple views. Such functions do not allow the output views to be modified inplace. You should replace the inplace operation by an out-of-place one. 请问可以帮忙解答一下吗?

MF-XU commented 10 months ago

作者您好! 最近在阅读您的DST这篇文章,也调试了您的代码,想请作者帮忙看我对这篇文章理解的是否正确。 首先进行输入,对输入的第j个token通过linear层进行线性映射,线性映射之后得到第j个token的query,接着通过决策网络,决策网络根据第j个token计算出offset和size; 这里存在一个个人的疑惑:在图中计算出offset和size之后,这里又变成一个序列了,而在决策网络之前是一个token? 移动之后的token获得了更多的情绪信息,通过线性层得到K和V通过求和法则完成注意力计算,最后拼接多头 在之前您是遍历了整个序列将每个token都做了一次这样的运算,这样使得每个token都具有了更多的情感信息,进而得到输出 希望得到您的解答!

请问你调试通代码了么?我下载下来直接运行结果报错: RuntimeError: Output 0 of SplitBackward0 is a view and is being modified inplace. This view is the output of a function that returns multiple views. Such functions do not allow the output views to be modified inplace. You should replace the inplace operation by an out-of-place one. 请问可以帮忙解答一下吗?

模型是没有问题的,作者也给出了用法,你看你报错的那个位置有什么问题,可以直接使用