litagin02 / Style-Bert-VITS2

Style-Bert-VITS2: Bert-VITS2 with more controllable voice styles.
GNU Affero General Public License v3.0
778 stars 100 forks source link

Custom ASR #105

Closed OzoneAsai closed 8 months ago

OzoneAsai commented 8 months ago

https://huggingface.co/clu-ling/whisper-large-v2-japanese-5k-steps などの任意のmodelをpipeline経由で実行できるようにできますか?

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("automatic-speech-recognition", model="clu-ling/whisper-large-v2-japanese-5k-steps")

この場合は、clu-ling/whisper-large-v2-japanese-5k-stepsを指定することで使用できたり...?

OzoneAsai commented 8 months ago

たとえばcsvで、

model_name, type? module?
clu-ling/whisper-large-v2-japanese-5k-steps, pipeline
large-v3, faster_whisper
NadiaHolmlund/Japanese_Fine_Tuned_Whisper_Model, pipeline
espnet/kan-bayashi_csj_asr_train_asr_transformer_raw_char_sp_valid.acc.ave, espnet2

などといった具合にできたらいいなぁ...と。

from espnet2.bin.asr_inference import Speech2Text

model = Speech2Text.from_pretrained(
  "espnet/kan-bayashi_csj_asr_train_asr_transformer_raw_char_sp_valid.acc.ave"
)

speech, rate = soundfile.read("speech.wav")
text, *_ = model(speech)[0]
litagin02 commented 8 months ago

原理的にはできるとは思いますが、あまり選択肢が多くてもユーザーフレンドリーでなく、また他のモデルを調べて使いたい人は自分でコードを書いて書き起こしができるだろうので、あまりこれ以上増やす予定はありません。

OzoneAsai commented 8 months ago

あくまで追加できるよという形式でしたが... まあ、増やす予定がないなら Not plannedでクローズしてください