Open szxysdt opened 6 months ago
动态输入对TPU来说是一件非常难的事情,mlir支持的不好,不建议使用。你可以转几个不同长度的bmodel,combine在一起,然后跟据输入序列选择相应的stage去推理。 可以参考PP-OCR的实现,我把width=320和width=640的rec模型combine到了一起,如果输入的比例更符合48/320,我就选择320的stage进行推理,反之则选择640的stage进行推理。
OK~ 多谢指导,我这边通过转多个长度不同的bmodel实现了低延迟TTS😄
是否有支持动态维度输入的计划? 还是说,如果某个模型的输入长度跨度较大(比如说存在0-4096,那小长度序列在计算的时候就会导致明显的延迟),需要做多个不同长度输入的来解决推理延迟问题? (好奇问问动态输入,是否真能够降低推理延迟,因此在此和万能的Github大佬们讨论讨论)