VinAIResearch / PhoWhisper

PhoWhisper: Automatic Speech Recognition for Vietnamese (2024)
Apache License 2.0
102 stars 10 forks source link

Punctuation and timestamp #9

Open bvqbao opened 3 weeks ago

bvqbao commented 3 weeks ago

Hello,

Is there any way to enable/force punctuation and timestamp for the output? The original whisper model supports punctuation and timestamp out-of-the box but it doesn't seem like that for phowhisper. For example, here are the example outputs for the original whisper and the phowhisper:

Output of the original whisper:

{'text': ' Trong mất sớm, bà 2 một tay nuôi đàn con trưởng thành ở huyện nghèo Lạc Dương, Lâm Đồng. Lớn lên, mỗi người con rời tổ ấm, lập nghiệp nuôi phương xa, chỉ còn con gái bà lạnh sống gần bà. Họ hiếm khi cùng về thăm mẹ nên điều mong mỏi của bà 2 là một tấm ảnh chúc chung của đại gia đình. Biến khố bắt đầu khi người mẹ 73 tuổi bị tay nạn gãy chân phải ngồi xe lăn. 5 người con đùn đẩy nhau bốc thăm để mỗi người chịu trách nhiệm cho mẹ trong 1 tuần. Với cái chân đau, bà 2 đến thăm mỗi nhà nhìn thấy lỗ hổng trong cuộc sống các con và lạnh nỗi đau cho họ.', 'chunks': [{'timestamp': (0.0, 4.6), 'text': ' Trong mất sớm, bà 2 một tay nuôi đàn con trưởng thành ở huyện nghèo Lạc Dương, Lâm Đồng.'}, {'timestamp': (4.6, 9.88), 'text': ' Lớn lên, mỗi người con rời tổ ấm, lập nghiệp nuôi phương xa, chỉ còn con gái bà lạnh sống gần bà.'}, {'timestamp': (9.88, 14.64), 'text': ' Họ hiếm khi cùng về thăm mẹ nên điều mong mỏi của bà 2 là một tấm ảnh chúc chung của đại gia đình.'}, {'timestamp': (14.64, 18.72), 'text': ' Biến khố bắt đầu khi người mẹ 73 tuổi bị tay nạn gãy chân phải ngồi xe lăn.'}, {'timestamp': (18.72, 22.84), 'text': ' 5 người con đùn đẩy nhau bốc thăm để mỗi người chịu trách nhiệm cho mẹ trong 1 tuần.'}, {'timestamp': (22.84, 28.32), 'text': ' Với cái chân đau, bà 2 đến thăm mỗi nhà nhìn thấy lỗ hổng trong cuộc sống các con và lạnh nỗi đau cho họ.'}]}

Output of phowhisper:

{'text': 'chồng mất sớm bà hai một tay nuôi đàn con trưởng thành ở huyện nghèo lạc dương lâm đồng lớn lên mỗi người con rời tổ ấm lập nghiệp nơi phương xa chỉ còn con gái bà lành sống gần bà họ hiếm khi cùng về thăm mẹ nên điều mong mỏi của bà hai là một tấm ảnh chụp chung của đại gia đình biến cố bắt đầu khi người mẹ bảy mươi ba tuổi bị tai nạn gãy chân phải ngồi xe lăn năm người con đùn đẩy nhau bốc thăm để mỗi người chịu trách nhiệm chăm mẹ trong một tuần với cái chân đau bà hai đến thăm mỗi nhà nhìn thấy lỗ hổng trong cuộc sống các con vá lành nỗi đau cho họ.', 'chunks': [{'timestamp': (0.0, None), 'text': 'chồng mất sớm bà hai một tay nuôi đàn con trưởng thành ở huyện nghèo lạc dương lâm đồng lớn lên mỗi người con rời tổ ấm lập nghiệp nơi phương xa chỉ còn con gái bà lành sống gần bà họ hiếm khi cùng về thăm mẹ nên điều mong mỏi của bà hai là một tấm ảnh chụp chung của đại gia đình biến cố bắt đầu khi người mẹ bảy mươi ba tuổi bị tai nạn gãy chân phải ngồi xe lăn năm người con đùn đẩy nhau bốc thăm để mỗi người chịu trách nhiệm chăm mẹ trong một tuần với cái chân đau bà hai đến thăm mỗi nhà nhìn thấy lỗ hổng trong cuộc sống các con vá lành nỗi đau cho họ.'}]}

I use the same code and same input audio file.

Do I need to use special config to enable these or simply the finetuning process makes the model lose these features?

Thanks, Bao Bui