playground推理过慢 - Githubissues

HarderThenHarder / transformers_tasks

⭐️ NLP Algorithms with transformers lib. Supporting Text-Classification, Text-Generation, Information-Extraction, Text-Matching, RLHF, SFT etc.

2.11k stars 376 forks source link

Hi，正常来讲当前 playground 应该只会加载一次模型，只有在刷新页面的时候才会重新加载模型。

我在这里进行了模型的缓存，只有当刷新页面（清除缓存）后才会重新加载。

生成速度慢可能有两个原因：

要求模型生成的文本过长，这将会延长模型推理时间。
使用 LoRA 加载，而非原始模型加载，这也可能会小部分影响推理时延。您可以使用最新的代码训练模型，模型在保存时将会保存为原始模型的结构（而非 LoRA Adaptor）。

HarderThenHarder / transformers_tasks