推理时间问题 - Githubissues

NaivePawn commented 8 months ago

使用qwen-14b-chat模型，MultiFieldQA-zh数据集，单卡A100上跑，推理时间几乎增加了2倍

xcjthu commented 8 months ago

您好，这个问题由以下几个问题引起：

InfLLM在处理超长上下文时，设计了offloading机制，因此会带来额外的显存拷贝、从cpu中加载记忆单元的时间开销（该过程可通过异步加载等手段进行优化，目前正在进行中）；因此，若原始模型的训练长度、显卡显存能够支持长序列计算，直接使用原始模型即可，InfLLM是一种对full-attention的近似
仓库中给出的使用原始模型的代码中调用了flashattention，在长序列中具有非常显著的加速作用；InfLLM目前尚未完成底层算子的开发，因此在底层计算效率上也不足

InfLLM的优势在于处理超长文本，能够在处理超长文本时控制显存与计算量；我们正在从底层对InfLLM的效率进行优化，并将在完成开发后更新至该仓库中。感谢您的关注！

NaivePawn commented 8 months ago

嗯嗯，目前大部分模型都能支持8k-32k的长度。实验目的主要是想看看使用了window attention等技术之后，整体效果会不会有所下降。非常不错的工作，期待在推理效率上有提升！

thunlp / InfLLM