baichuan-inc / Baichuan2

A series of large language models developed by Baichuan Intelligent Technology
https://huggingface.co/baichuan-inc
Apache License 2.0
4.08k stars 293 forks source link

对 baichuan2-13b 模型进行 ntk 插值之后,对长文本任务进行推理 generate 速度极慢 #304

Open LOTK2019 opened 9 months ago

LOTK2019 commented 9 months ago

你好 我采用了下面这篇文章的 ntk 插值,将 baichuan2-13b 模型的 sequence length 拓展到了 8k。 https://zhuanlan.zhihu.com/p/657161287 之后在 LongBench 数据集中的 Dureader 部分进行了测试。 观察到模型在 generate 部分推理十分缓慢。 具体来说,是在 generate 的 greedy search 中判断 unfinished_sequence.max() == 0 调用 .max() 时消耗了大量的时间。 但是实际上 unfinished_sequence 是一个只包含一个元素的向量。 请教下可能的原因是什么?

IT-five commented 9 months ago

我也在做这个任务,也是用的同一个数据集,请问你用xformer了吗?我目前使用xformer以后导致gpu不可用了,但不用吧,我在seq_len特别长的时候会OOM,使用的是A800

IT-five commented 9 months ago

请问你实现的长度外推有将generation_utils.py中图片部分的逻辑进行截断吗?我将其截断以后实现NTK,会使推理结果直接重复并且为空

image image
LOTK2019 commented 9 months ago

我也在做这个任务,也是用的同一个数据集,请问你用xformer了吗?我目前使用xformer以后导致gpu不可用了,但不用吧,我在seq_len特别长的时候会OOM,使用的是A800

使用了 xformer 然后也没有动 generation_utils.py,不过貌似没有出您说的这些问题