Ayanaminn / N46Whisper

Whisper based Japanese subtitle generator
MIT License
1.54k stars 127 forks source link

Adding function for user to set beam size #69

Closed CooperWang0912 closed 9 months ago

CooperWang0912 commented 9 months ago

增加了在Google Colab中能够让用户选择Beam Size的功能

Ayanaminn commented 9 months ago

感谢PR。 这个功能可以提供给用户更多的自由度,以便调整自己满意的转录效果。 但是您的描述

Beam Size数值越高,识别精确度越高,但是相对的VRAM使用也会更高

我认为有待商榷。 我的理解是: Beam Size数值越高,相对的VRAM使用也会更高,这个没有问题。 Beam Size数值越高,生成输出的每一步探索的路径越多,可供context分析的信息也越多,这在总体上有利于提高输出结果的准确性,但并非一定会提高识别精度。实际上,在提高到一定值时,反而可能导致转录质量下降。 您可以参考这篇 这篇paper的说法:

Many researchers observe that translation quality degrades with beam sizes beyond 5 or 10 (Tuet al., 2017; Koehn and Knowles, 2017). We call this phenomenon the “beam search curse”, which is listed as one of the six biggest challenges for NMT (Koehn and Knowles, 2017).

请问是否可以稍微修正一下对参数的描述?

CooperWang0912 commented 9 months ago

好的,我把描述更改为了“Beam Size数值越高,在识别时探索的路径越多,这在一定范围内可以帮助提高识别准确性,但是相对的VRAM使用也会更高. 同时,Beam Size在超过5-10后有可能降低精确性,详情请见https://arxiv.org/pdf/2204.05424.pdf”

Ayanaminn commented 9 months ago

已merge,感谢~!