采用你们的修正的T.fst. TLG.fst模型变大了，没有变小,

thu-spmi / CAT

A CRF-based ASR Toolkit

Apache License 2.0

324 stars 74 forks source link

采用你们的修正的T.fst. TLG.fst模型变大了，没有变小, #49

Closed Sundy1219 closed 1 year ago

Sundy1219 commented 2 years ago

你们的工程很棒，我也一直在eesen的工程上做工作，根据你们的论文CRF-BASED SINGLE-STAGE ACOUSTIC MODELING WITH CTC TOPOLOGY里说的，修改T.fst的生成方式，模型大小会变小，并且性能会略有提升. 我实际操作了下，根据我的语言模型，原来eesen生成的TLG.fst,是16M，直接在eesen的脚本中替换成你们的ctc_token_fst_corrected.py，生成的TLG.fst是20M．我发现你们论文说的，你们的T.fst的state的数量减少了，但是相对的arc增多了，这个你们有研究过吗？还是说我哪里有没理解到的地方？期待你们的回复，谢谢

aky15 commented 2 years ago

你好，谢谢你的关注！

我们的修正会减小路径的数量，可以参考https://zhuanlan.zhihu.com/p/114279301这个回答里的例子。
在我们修正后的拓扑里不允许eps:eps这样的跳转关系(不消耗任何东西，也不输出任何东西)，而eps:eps在EESEN里是允许的。不允许eps:eps会造成T.fst的增大。
综合以上两点，修正后的T相对EESEN的T，变大或者变小都是有可能的（在我们的论文里对这一点没有详尽论述）。

Sundy1219 commented 2 years ago

很感谢您的回复，所以说，生成的TLG.fst大小是可能变大的，是这样子的吗？

aky15 commented 2 years ago

是的

Sundy1219 commented 2 years ago

好的，感谢，请问你们这个CAT项目，有没有学习交流群啥的？希望可以多交流

aky15 commented 2 years ago

有关问题可以在github discussions中交流：）

Sundy1219 commented 2 years ago

好的，你们的CAT loss 有tensorflow版本吗？或者有什么思路给整合到tensorflow上，类似tensorflow的tf.nn.ctc_loss()．谢谢

aky15 commented 2 years ago

可以参考这个repo: https://github.com/TeaPoly/warp-ctc-crf