Closed NaivePawn closed 8 months ago
使用qwen-14b-chat模型,MultiFieldQA-zh数据集,单卡A100上跑,推理时间几乎增加了2倍
您好,这个问题由以下几个问题引起:
InfLLM的优势在于处理超长文本,能够在处理超长文本时控制显存与计算量;我们正在从底层对InfLLM的效率进行优化,并将在完成开发后更新至该仓库中。感谢您的关注!
嗯嗯,目前大部分模型都能支持8k-32k的长度。实验目的主要是想看看使用了window attention等技术之后,整体效果会不会有所下降。非常不错的工作,期待在推理效率上有提升!
使用qwen-14b-chat模型,MultiFieldQA-zh数据集,单卡A100上跑,推理时间几乎增加了2倍