Open Mddct opened 1 month ago
kmeans 是个常用的工具, 这里实现了在wenet的speech model基础上 进行online 提特征 用途: speech encoder 聚类 离散化id -> LLM 语音理解 (asr等) hubert/w2vbert 聚类, 离散化 semantic token -> tts 的semantic 等
TODO:
it works ! aishell 8gpu
encode save to file works
kmeans 是个常用的工具, 这里实现了在wenet的speech model基础上 进行online 提特征 用途: speech encoder 聚类 离散化id -> LLM 语音理解 (asr等) hubert/w2vbert 聚类, 离散化 semantic token -> tts 的semantic 等
TODO: