majianjia / nnom

A higher-level Neural Network library for microcontrollers.
Apache License 2.0
908 stars 245 forks source link

关于识别几秒时长的语音 #204

Open xingjunhong opened 1 year ago

xingjunhong commented 1 year ago

假设:有一段几秒的语音,其中有关键词在语音内,其余的都是杂音。 问题:如何找到关键词的开始位置和结束位置,并且将其识别?

majianjia commented 1 year ago

喂数据的时候是一帧一帧的滑动窗口,你可以结合vad来做起始和结束时间戳

xingjunhong commented 1 year ago

我看main_pc.c脚本,推理时,是每一秒都有一个推理结果,可以用这个结果来当做起始位置吗?

majianjia commented 1 year ago

取决于你用什么类型的模型,如果是RNN那种,是每十几毫秒就有一帧