FunAudioLLM / SenseVoice

Multilingual Voice Understanding Model
https://funaudiollm.github.io/
Other
2.65k stars 254 forks source link

效果非常差 #51

Closed MonolithFoundation closed 1 month ago

MonolithFoundation commented 2 months ago

SenseVoice这个漏字太明显了。

output3.mp3.zip

[{'key': 'output3', 'text': '<|zh|><|HAPPY|><|Applause|><|woitn|>我跳脱口秀大会舞吗李诞互相伤害吧我还挺怀念在那个浪姐的那段时间比我是都没怎么赢过好的舞输什坏事位选也是啊尽力去拼输了没关系至少跟我没关系大迎我也欢迎一下我们的领校各欢迎我们的返场领校园娜姐娜怎么想呢回来了跟我们玩我就是觉得像回家一不是上一场就来了来了之后啊回去宿得人快幸福天生默的人跟大家介绍一下赛舞生存但获得四的十六组演员已经分为四组将展开组内对决每组前两名直接晋级进入下一赛段的主题赛名遗憾淘汰今天投票呢满票票观人票票我是一个笑点特别低的人但是我希望我真看不出来我感觉你这辈子都不怎么笑应该是那种上去很冷酷的人特冷笑点特别来的时候笑去了下面话不多但是特别爱笑太好了今天要上场的十六位朋友已经都在被战来让我们看一下他们第一组王十孟川小欢迎欢迎下一组曹鹏医生姜子浩小徐智再组蛋李大爷 ' 'rock庞博'}]

这个漏字太多了,仔细听一下,而且有很多重复

def __init__(self) -> None:
        model_dir = "iic/SenseVoiceCTC"
        # self.model = SenseVoiceSmall(model_dir, batch_size=1, quantize=True)
        model_dir = "iic/SenseVoiceSmall"
        # self.model, self.kwargs = SenseVoiceSmall.from_pretrained(model=model_dir)
        self.model = AutoModel(
            model=model_dir,
            vad_model="fsmn-vad",
            vad_kwargs={"max_single_segment_time": 60000},
            punc_model="ct-punc",
            spk_model="cam++",
        )

    def asr(self, wav_path):
        # result = self.model(wav_path)
        # return result
        result = self.model.inference(
            # data_in=wav_path,
            input=wav_path,
            language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"
            use_itn=False,
            # **self.kwargs,
        )
        return result
heihei1204 commented 2 months ago

agree,but i would like where you found fsmn-vad,thanks

gaochangfeng commented 1 month ago

检查vad是否起效?

model = AutoModel(
    model=model_dir,
    trust_remote_code=True,
    remote_code="./model.py",
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0",
)

# en
res = model.generate(
    input=f"output3_01.wav",
    cache={},
    language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"
    use_itn=True,
    batch_size_s=60,
    merge_vad=True,  #
    ban_emo_unk=True,
    merge_length_s=15,
)
print(res)

[{'key': 'output3_01', 'text': '<|zh|><|HAPPY|><|Laughter|><|withitn|>我跳脱口秀大会舞吗?李诞互相伤害吧,好热呀这个。 <|ko|><|HAPPY|><|Applause|><|withitn|>. <|zh|><|NEUTRAL|><|Speech|><|withitn|>我还挺怀念在那个浪姐的那段时间,虽然比赛我是都没怎么赢过啊,但是呢最好的舞台输掉也 不是什么坏事。今天呢各位选手其实也是一样啊,呃,尽力去拼就可以了,输了也没有关系,反正呢至少跟我没关系,谢谢大家,我是因为。 <|zh|><|HAPPY|><|Applause|><|withitn|>开欢迎乐乐。 <|zh|><|HAPPY|><|Applause|><|withitn|>我们也欢迎一下我们的领校员大老师,一各位各位位欢迎我们的返场领校员大姐。 <|en|><|HAPPY|><|Applause|><|withitn|>The. <|zh|><|HAPPY|><|Laughter|><|withitn|>大姐怎么想的又回来了,又来跟我们玩会儿。哎,我就是觉得像回家一样,我不是上一场就来了吗?我来了之后啊,回去好像一宿没怎么睡,我说的说的是实话,哎呀,我觉得人生如果要一直就是能够这么快乐着,就是你不睡觉,他都是幸福的。而且我就是天生喜欢幽默的人,想起来就乐,你伤害了我却一笑而过哈哈。 <|zh|><|NEUTRAL|><|Applause|><|withitn|>跟大家介绍一下赛智。 <|zh|><|NEUTRAL|><|BGM|><|withitn|>一层舞台生存赛突围赛中,晋级但位获得4灯的16组演员已经分为四组,将展开组内对决,每组前两名直接晋级进入下一赛段的主题赛,而后两名则遗憾淘汰。 <|en|><|NEUTRAL|><|BGM|><|withitn|>. <|zh|><|ANGRY|><|Speech|><|withitn|>今天投票呢满票200票,现场各位观众一人一票,领校员一登两票。嗯,嗯,你问一下排灯标准吗?还是新来的领校员朋友,本来我是一个笑点特别低的人,但是我希望我真看不出来 。我感觉你这辈子都不怎么笑,应该是那种看上去很冷酷的人。对,酷我都放冰箱里头特别冷酷。 <|ja|><|HAPPY|><|Speech|><|withitn|>あ。 <|zh|><|HAPPY|><|Speech|><|withitn|>我笑点真特别低,我上次来的时候笑奔子去了,你这下面嗯这话不多,但是特别爱笑,太好了。今天要上场的16位朋友已经都在备战间。来让我们看一下他们第一组王十七颜颜乐孟川小北。 <|zh|><|HAPPY|><|Applause|><|withitn|>欢迎欢迎下一组曹鹏医生姜子浩、小顾徐智盛,再组蛋卷美大爷Rck庞博。'}]

fclearner commented 1 month ago

Wild boars can't eat fine bran.

MonolithFoundation commented 1 month ago

Hi, I think it's better make it clear in README, new comers actually didn't quit can understanding what's get wrong when it fails.