对 baichuan2-13b 模型进行 ntk 插值之后，对长文本任务进行推理 generate 速度极慢

baichuan-inc / Baichuan2

A series of large language models developed by Baichuan Intelligent Technology

https://huggingface.co/baichuan-inc

Apache License 2.0

4.08k stars 293 forks source link

对 baichuan2-13b 模型进行 ntk 插值之后，对长文本任务进行推理 generate 速度极慢 #304

Open LOTK2019 opened 9 months ago

LOTK2019 commented 9 months ago

你好我采用了下面这篇文章的 ntk 插值，将 baichuan2-13b 模型的 sequence length 拓展到了 8k。 https://zhuanlan.zhihu.com/p/657161287 之后在 LongBench 数据集中的 Dureader 部分进行了测试。观察到模型在 generate 部分推理十分缓慢。具体来说，是在 generate 的 greedy search 中判断 unfinished_sequence.max() == 0 调用 .max() 时消耗了大量的时间。但是实际上 unfinished_sequence 是一个只包含一个元素的向量。请教下可能的原因是什么？

IT-five commented 9 months ago

我也在做这个任务，也是用的同一个数据集，请问你用xformer了吗？我目前使用xformer以后导致gpu不可用了，但不用吧，我在seq_len特别长的时候会OOM，使用的是A800

IT-five commented 9 months ago

的

请问你实现的长度外推有将generation_utils.py中图片部分的逻辑进行截断吗？我将其截断以后实现NTK，会使推理结果直接重复并且为空

LOTK2019 commented 9 months ago

我也在做这个任务，也是用的同一个数据集，请问你用xformer了吗？我目前使用xformer以后导致gpu不可用了，但不用吧，我在seq_len特别长的时候会OOM，使用的是A800

使用了 xformer 然后也没有动 generation_utils.py，不过貌似没有出您说的这些问题