wenet-e2e / wenet

Production First and Production Ready End-to-End Speech Recognition Toolkit
https://wenet-e2e.github.io/wenet/
Apache License 2.0
3.87k stars 1.03k forks source link

Unified Conformer ASR模型中的attention decoder解码是否是真正的streaming? #2553

Closed zsLin177 closed 2 weeks ago

zsLin177 commented 2 weeks ago

你好,请问在Unified Conformer ASR模型中的attention decoder解码时( https://github.com/wenet-e2e/wenet/tree/main/examples/aishell/s0#unified-conformer-result ), 如果chunk_size=16, 是不是只是encoder在编码的时候是做chunk-based attention?在解码的时候还是需要audio全部编码完成后再整体给decoder做cross-attention(即在解码的每一个step,decoder都能看到所有的encoder信息)?

Zth9730 commented 2 weeks ago

是的,decoder做的是对整句的rescoring

---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2024年06月11日 13:37 | | 收件人 | wenet-e2e/wenet @.> | | 抄送人 | Subscribed @.***> | | 主题 | [wenet-e2e/wenet] Unified Conformer ASR模型中的attention decoder解码是否是真正的streaming? (Issue #2553) |

你好,请问在Unified Conformer ASR模型中的attention decoder解码时,如果chunk_size=16, 是不是只是encoder在编码的时候是做chunk-based attention?在解码的时候还是需要audio全部编码完成后再整体给decoder做cross-attention(即在解码的每一个step,decoder都能看到所有的encoder信息)?

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>

zsLin177 commented 2 weeks ago

是的,decoder做的是对整句的rescoring ---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2024年06月11日 13:37 | | 收件人 | wenet-e2e/wenet @.> | | 抄送人 | Subscribed @.> | | 主题 | [wenet-e2e/wenet] Unified Conformer ASR模型中的attention decoder解码是否是真正的streaming? (Issue #2553) | 你好,请问在Unified Conformer ASR模型中的attention decoder解码时,如果chunk_size=16, 是不是只是encoder在编码的时候是做chunk-based attention?在解码的时候还是需要audio全部编码完成后再整体给decoder做cross-attention(即在解码的每一个step,decoder都能看到所有的encoder信息)? — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.>

感谢回复。如果不是rescoring的时候呢?我看这里的链接 ( https://github.com/wenet-e2e/wenet/tree/main/examples/aishell/s0#unified-conformer-result ) 的表格里面有decoding mode= attention decoder,chunk_size=16的结果,这个结果也是audio编码完然后decoder 自回归一步一步解码得到的吗?

Zth9730 commented 2 weeks ago

---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2024年06月11日 13:56 | | 收件人 | wenet-e2e/wenet @.> | | 抄送人 | TianHao @.>, Comment @.> | | 主题 | Re: [wenet-e2e/wenet] Unified Conformer ASR模型中的attention decoder解码是否是真正的streaming? (Issue #2553) |

是的,decoder做的是对整句的rescoring … ---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2024年06月11日 13:37 | | 收件人 | wenet-e2e/wenet @.> | | 抄送人 | Subscribed @.> | | 主题 | [wenet-e2e/wenet] Unified Conformer ASR模型中的attention decoder解码是否是真正的streaming? (Issue #2553) | 你好,请问在Unified Conformer ASR模型中的attention decoder解码时,如果chunk_size=16, 是不是只是encoder在编码的时候是做chunk-based attention?在解码的时候还是需要audio全部编码完成后再整体给decoder做cross-attention(即在解码的每一个step,decoder都能看到所有的encoder信息)? — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.>

感谢回复。如果不是rescoring的时候呢?我看这里的链接 ( https://github.com/wenet-e2e/wenet/tree/main/examples/aishell/s0#unified-conformer-result ) 的表格里面有decoding mode= attention decoder,chunk_size=16的结果,这个结果也是audio编码完然后decoder 自回归一步一步解码得到的吗?

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

zsLin177 commented 2 weeks ago

---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2024年06月11日 13:56 | | 收件人 | wenet-e2e/wenet @.> | | 抄送人 | TianHao @.>, Comment @.> | | 主题 | Re: [wenet-e2e/wenet] Unified Conformer ASR模型中的attention decoder解码是否是真正的streaming? (Issue #2553) | 是的,decoder做的是对整句的rescoring … ---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2024年06月11日 13:37 | | 收件人 | wenet-e2e/wenet @.> | | 抄送人 | Subscribed @.> | | 主题 | [wenet-e2e/wenet] Unified Conformer ASR模型中的attention decoder解码是否是真正的streaming? (Issue #2553) | 你好,请问在Unified Conformer ASR模型中的attention decoder解码时,如果chunk_size=16, 是不是只是encoder在编码的时候是做chunk-based attention?在解码的时候还是需要audio全部编码完成后再整体给decoder做cross-attention(即在解码的每一个step,decoder都能看到所有的encoder信息)? — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.> 感谢回复。如果不是rescoring的时候呢?我看这里的链接 ( https://github.com/wenet-e2e/wenet/tree/main/examples/aishell/s0#unified-conformer-result ) 的表格里面有decoding mode= attention decoder,chunk_size=16的结果,这个结果也是audio编码完然后decoder 自回归一步一步解码得到的吗? — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

好的我明白了,感谢解惑。😊