on a colab GPU instance, I setup m4t runtime env and try a s2tt task. It produce bad quality transcription as follows compared whisper. I wonder if I have been doing something wrong on setup seamless m4t. My source voice is attached as a zip to this post.
/content/seamless_communication# m4t_predict japanweather.wav s2tt jpn
2023-08-23 12:32:11,231 INFO -- m4t_scripts.predict.predict: Running inference on the GPU.
Using the cached checkpoint of the model 'seamlessM4T_large'. Set force=True to download again.
Using the cached tokenizer of the model 'seamlessM4T_large'. Set force=True to download again.
Using the cached checkpoint of the model 'vocoder_36langs'. Set force=True to download again.
2023-08-23 12:33:46,030 INFO -- m4t_scripts.predict.predict: Translated text in jpn: 台風の最新情報は二十八日三時頃に台湾の西海を伴う注意必要な状況もありました ⁇ 特に台風に向かって強い風力が続く状況もあります ⁇
/content/seamless_communication#
while using whisper:
whisper japanweather.wav
Detecting language using up to the first 30 seconds. Use --language to specify the language
Detected language: Japanese
[00:00.000 --> 00:03.680] 予防センターから台風の最新情報をお伝えいたします
[00:03.680 --> 00:07.240] 大型で強い台風5号は28日3時現在
[00:07.240 --> 00:11.040] 台湾の西の海上を北に時速20キロで済んでいます
[00:11.040 --> 00:14.440] 中心の気圧は955ヘクトパスカル
[00:14.440 --> 00:17.240] 中心吹きの最大風速は40メートルです
[00:17.240 --> 00:19.760] この後も北上を続けまして
[00:19.760 --> 00:23.840] 28日のうちに中国大陸に上陸する見通しです
[00:23.840 --> 00:27.760] 大陸に上陸した後は急速に成力を弱めまして
[00:27.760 --> 00:32.400] 29日には熱帯的やつに変わると見られます
[00:32.400 --> 00:35.440] まだ強い制御庫を保っているということもありまして
[00:35.440 --> 00:40.320] 沖縄周辺、特に先島方面では風が強まるような状況です
[00:40.320 --> 00:45.680] 平均で15メートルを超えるような風の強い状況となることも考えられます
[00:45.680 --> 00:50.320] 恐怖や高波などには引き続き注意が必要といった状況です
[00:50.320 --> 00:53.640] また台風に向かって湿った空気が流れ込む影響で
[00:53.640 --> 00:55.920] 沖縄方面、先島だけではなくて
[00:55.920 --> 01:00.000] 沖縄は本当エリアにも甘くものがかかりやすい状況が続きます
[01:00.000 --> 01:01.760] 短時間ではありますけれども
[01:01.760 --> 01:03.880] 雨がざっと降るようなこともありますし
[01:03.880 --> 01:06.040] 雷の友だう心配もありますので
[01:06.040 --> 01:11.680] 雨や風、そして高波には引き続き注意が必要と言えそうです
[01:11.680 --> 01:14.680] 以上台風に関する情報をお伝えいたしました
on a colab GPU instance, I setup m4t runtime env and try a s2tt task. It produce bad quality transcription as follows compared whisper. I wonder if I have been doing something wrong on setup seamless m4t. My source voice is attached as a zip to this post.
/content/seamless_communication# m4t_predict japanweather.wav s2tt jpn 2023-08-23 12:32:11,231 INFO -- m4t_scripts.predict.predict: Running inference on the GPU. Using the cached checkpoint of the model 'seamlessM4T_large'. Set
force=True
to download again. Using the cached tokenizer of the model 'seamlessM4T_large'. Setforce=True
to download again. Using the cached checkpoint of the model 'vocoder_36langs'. Setforce=True
to download again. 2023-08-23 12:33:46,030 INFO -- m4t_scripts.predict.predict: Translated text in jpn: 台風の最新情報は二十八日三時頃に台湾の西海を伴う注意必要な状況もありました ⁇ 特に台風に向かって強い風力が続く状況もあります ⁇ /content/seamless_communication#while using whisper:
japanweather.wav.zip