thewh1teagle / vibe

Transcribe on your own!
https://thewh1teagle.github.io/vibe/
MIT License
492 stars 32 forks source link

Bug: hangs in the end of transcription #48

Closed Danthig closed 3 months ago

Danthig commented 3 months ago

What happened?

בנסיון תמלול בגרסה 9, (בגרסה 8 תומלל מצויין) התוכנה נסגרת לאחר כמה שניות: image

Steps to reproduce

  1. step one...
  2. step two...

What OS are you seeing the problem on?

Window

Relevant log output

App Version: 0.0.9
Arch: x86_64
Platform: windows
Kernel Version: 10.0.22631
OS: windows
OS Version: 10.0.22631
Models: ivrit-ai--whisper-large-v2-tuned-ggml-model.bin
Default Mode: "C:\\Users\\1234\\AppData\\Local\\github.com.thewh1teagle.vibe\\ivrit-ai--whisper-large-v2-tuned-ggml-model.bin"
thewh1teagle commented 3 months ago

Thanks for reporting! Does it happens with short audio files? (for instance one of the samples of vibe)

Danthig commented 3 months ago

תודה על הדיווח! האם זה קורה עם קבצי אודיו קצרים? (למשל אחת הדוגמאות של האווירה)

כשניסיתי לתמלל את הדוגמא זה מה שקרה https://github.com/thewh1teagle/vibe/issues/49

Danthig commented 3 months ago

20240415_211200.zip ראה דוגמא

thewh1teagle commented 3 months ago

20240415_211200.zip ראה דוגמא

I see, it's hangs and crashing for some reason. Can you try change the "threads" to "1" before starting? (in advanced options in the main window)

Danthig commented 3 months ago

אתה מתכוון לזה?: image

מתרסק גם כן.

thewh1teagle commented 3 months ago

יש לך דיסקורד במקרה? יצרתי לvibe קהילה, אולי יהיה יותר קל לדבר שם https://discord.gg/73s4WqSDPg

Danthig commented 3 months ago

תודה רבה!!! אני מאוד מעריך את עבודתך, ואת העזרה שלך. אין לי discord, ואין לי אפשרות להכנס לשם. מקווה שבעדכון הבא זה יסתדר.

thewh1teagle commented 3 months ago

תודה רבה!!! אני מאוד מעריך את עבודתך, ואת העזרה שלך

בשמחה! :) אני לא בטוח מה גורם לבעיה, ניסיתי לתמלל בגרסה האחרונה על לפטופ עם ווינדוס וזה עבד כרגיל - אפילו תמלול של שעה. תוכל לנסות להוריד את whisper המקורי ולתמלל את אותו הקובץ?

  1. Download https://whisper-bin-x64.zip from whisper.cpp/releases and unzip it
  2. Download vibe/samples/single_speaker.wav and place it in the same folder (and check that the file is ok)
  3. Open terminal there and execute
    main.exe -m "<path to model>" -f single_speaker.wav

    Replace with the real path of the model (you can drag and drop it to the terminal) Check if it works, compare the result by trying with vibe app.

Danthig commented 3 months ago

main.exe : The term 'main.exe' is not recognized as the name of a cmdlet, function, script file, or operable program. Check the spelling of the name, or if a path was included, verify that the path is correct and try again. At line:1 char:1 כנראה שלא הבנתי היכן להחליף את הנתיב, האם אני צריך להחליף את הנתיב של המודל שיראה כך?: main.exe -m "<C:\Users\1234\AppData\Local\github.com.thewh1teagle.vibe\ivrit-ai--whisper-large-v2-tuned-ggml-model.bin>" -f single_speaker.wav

thewh1teagle commented 3 months ago

main.exe : The term 'main.exe' is not recognized as the name of a cmdlet, function, script file, or operable program. Check the spelling of the name, or if a path was included, verify that the path is correct and try again. At line:1 char:1 כנראה שלא הבנתי היכן להחליף את הנתיב, האם אני צריך להחליף את הנתיב של המודל שיראה כך?: main.exe -m "<C:\Users\1234\AppData\Local\github.com.thewh1teagle.vibe\ivrit-ai--whisper-large-v2-tuned-ggml-model.bin>" -f single_speaker.wav

זה לא מוצא את הקובץ main.exe, אז נראה שהרצת את הפקודה בנתיב הלא נכון. את הטרמינל צריך לפתוח בנתיב של אותה התקייה של main.exe, אפשר לפתוח את התקייה בסייר הקבצים ואז להקיש על שורת הנתיב בסייר הקבצים בווינדוס (או פשוט ctrl + l) ולכתוב cmd ואז אנטר. ככה הוא יפתח בנתיב של אותה תקייה

בנוסף בפקודה עצמה הנתיב למודל צריך להיות בלי התווים <> הפקודה צריכה להיות בערך ככה:

main.exe -m "C:\Users\1234\AppData\Local\github.com.thewh1teagle.vibe\ivrit-ai--whisper-large-v2-tuned-ggml-model.bin" -f single_speaker.wav
Danthig commented 3 months ago

אה, זה בCMD, חשבתי בפאוורשול, זה התוצאה בCMD: `whisper_model_load: loading model whisper_model_load: n_vocab = 51865 whisper_model_load: n_audio_ctx = 1500 whisper_model_load: n_audio_state = 1280 whisper_model_load: n_audio_head = 20 whisper_model_load: n_audio_layer = 32 whisper_model_load: n_text_ctx = 448 whisper_model_load: n_text_state = 1280 whisper_model_load: n_text_head = 20 whisper_model_load: n_text_layer = 32 whisper_model_load: n_mels = 80 whisper_model_load: ftype = 1 whisper_model_load: qntvr = 0 whisper_model_load: type = 5 (large) whisper_model_load: adding 1607 extra tokens whisper_model_load: n_langs = 99 whisper_model_load: CPU buffer size = 3094.49 MB whisper_model_load: model size = 3093.99 MB whisper_init_state: kv self size = 220.20 MB whisper_init_state: kv cross size = 245.76 MB whisper_init_state: compute buffer (conv) = 30.98 MB whisper_init_state: compute buffer (encode) = 212.42 MB whisper_init_state: compute buffer (cross) = 9.38 MB whisper_init_state: compute buffer (decode) = 99.23 MB error: failed to open 'single_speaker.wav' as WAV file error: failed to read WAV file 'single_speaker.wav'

whisper_print_timings: load time = 7463.27 ms whisper_print_timings: fallbacks = 0 p / 0 h whisper_print_timings: mel time = 0.00 ms whisper_print_timings: sample time = 0.00 ms / 1 runs ( 0.00 ms per run) whisper_print_timings: encode time = 0.00 ms / 1 runs ( 0.00 ms per run) whisper_print_timings: decode time = 0.00 ms / 1 runs ( 0.00 ms per run) whisper_print_timings: batchd time = 0.00 ms / 1 runs ( 0.00 ms per run) whisper_print_timings: prompt time = 0.00 ms / 1 runs ( 0.00 ms per run) whisper_print_timings: total time = 7472.06 ms`

thewh1teagle commented 3 months ago

זה לא הצליח כי השם של הקובץ wav שבתקייה שונה (משום מה כשמורידים את הקובץ השם שונה) אז הפקודה הנכונה צריכה להיות:

main.exe -m "C:\Users\%username%\AppData\Local\github.com.thewh1teagle.vibe\ggml-medium.bin" -f "samples_single_speaker.wav"

אגב, תמיד אפשר לגרור קבצים ישירות לטרמינל כדי שהנתיב יהיה מדויק. נגיד את הנתיב למודל אפשר למחוק פה (ולהשאיר גרשיים) ואז לגרור אותו לתוך הטרמינל כאשר הסמן בתוך הסוגריים. כנ"ל לגבי הנתיב לקובץ wav.

Danthig commented 3 months ago

אולי בסוף אני עוד יבין קצת בתכנות... למעשה זה עבד!!!: `

[00:00:00.000 --> 00:00:11.120] And so, my fellow Americans, ask not what your country can do for you, ask what you can do for your country.

whisper_print_timings: load time = 5565.98 ms whisper_print_timings: fallbacks = 0 p / 0 h whisper_print_timings: mel time = 18.16 ms whisper_print_timings: sample time = 162.62 ms / 140 runs ( 1.16 ms per run) whisper_print_timings: encode time = 47262.88 ms / 1 runs (47262.88 ms per run) whisper_print_timings: decode time = 0.00 ms / 1 runs ( 0.00 ms per run) whisper_print_timings: batchd time = 6869.11 ms / 138 runs ( 49.78 ms per run) whisper_print_timings: prompt time = 0.00 ms / 1 runs ( 0.00 ms per run) whisper_print_timings: total time = 59892.78 ms`

thewh1teagle commented 3 months ago

מעולה! נראה שהבעיה לא במודל או בwhisper עצמו יש סיכוי קטן שהגרסה שאתה משתמש בה היא לא האחרונה (למרות שכתוב שהיא 0.0.9) תוכל להוריד את הגרסה האחרונה מ https://thewh1teagle.github.io/vibe/ ולהתקין? אין צורך להסיר את הקודמת, פשוט להוריד ולהתקין

Danthig commented 3 months ago

עובד מצויין👍👍👍

thewh1teagle commented 3 months ago

עובד מצויין👍👍👍

מדהים! תודה על הסבלנות עם הבדיקות : - )

Danthig commented 3 months ago

תודה לך, אתה משקיע הרבה יותר זמן ממני. ואילו אני עושה את זה בשבילי...