bytedance / SALMONN

SALMONN: Speech Audio Language Music Open Neural Network
https://bytedance.github.io/SALMONN/
Apache License 2.0
985 stars 77 forks source link

对中文电话录音识别的支持好像不太行? #1

Closed magicleo closed 11 months ago

magicleo commented 1 year ago
image

识别的内容无法停止。一直在重复一句话

这是一段电话对话,有两个人在谈话。

第一个人说:“你好,是吗?”

第二个人回答:“你好,有什么需要吗?”

第一个人说:“我想问一下你的价格是多少?”

第二个人回答:“我们的价格是三百六十美元。”

第一个人说:“啊,太贵了。那么价格是多少?”

第二个人回答:“我们的价格是三百六十美元。”

第一个人说:“啊,太贵了。那么价格是多少?”

第二个人回答:“我们的价格是三百六十美元。”

第一个人说:“啊,太贵了。那么价格是多少?”

第二个人回答:“我们的价格是三百六十美元。”

第一个人说:“啊,太贵了。那么价格是多少?”

第二个人回答:“我们的价格是三百六十美元。”

jiaenqiu commented 1 year ago

我测的中文大概能识别出来,但是准确率一般。您可以改一下提示词哦,“识别音频内容并转录输出中文

image
TCL606 commented 1 year ago

目前模型还是只在英文上训的,其他语言上是有点弱