Open zzchust opened 1 week ago
嗯嗯,输入平均每秒12.5token, 输出的speeck-codebook 和输入不是同一个codebook吗?
在这个软硬件环境中
GPU A800-SXM4-80GB cuda 12.1 torch 2.4.0 torchaudio 2.4.0 transformers 4.45.2 python 3.10 显存 80G 精度 BF16 GPU 个数 1 top_p = 1.0 temperature = 1.0 max_new_tokens = 256
我的测试结果,我迭代了3次,计算了平均首token时延和平均解码时延(仅个人测试,不代表官方评测数据)
Average First Token Time over 3 iterations: 0.0907 seconds Average Decode Time per Token over 3 iterations: 22.7574 tokens/second
你好,“Average First Token Time over 3 iterations: 0.0907 seconds”,这个token指LLM预测的首speech token吗? “22.7574 tokens/second” 这个是指flow matching 1s可解码22.7个speech token到mel吗?
在这个软硬件环境中
我的测试结果,我迭代了3次,计算了平均首token时延和平均解码时延(仅个人测试,不代表官方评测数据)