Closed lwj2001 closed 3 months ago
我正在使用llama3-70B,framework: hf作为来运行整个RAG流程,并且显卡资源足够,如何加快整体RAG流程的速度呢?
llama3-70B
framework: hf
我注意到:在config.yaml文件中,存在retrieval_batch_size,rerank_batch_size,generator_batch_size这几个参数,但似乎增大这些参数,并不会减少 Retrieval process 所消耗的时间:比如我设置 retrieval_batch_size: 1024 ,虽然每一次Retrieval process 的数量从14减小到4,但总体时间并不会缩短,仍为1小时左右
config.yaml
retrieval_batch_size
rerank_batch_size
generator_batch_size
Retrieval process
retrieval_batch_size: 1024
请先确认花费在检索和生成上的时间分别是多久。
如果检索时间比较长(10000条数据上花费>20分钟):
如果是生成时间比较长:
我正在使用
llama3-70B
,framework: hf
作为来运行整个RAG流程,并且显卡资源足够,如何加快整体RAG流程的速度呢?我注意到:在
config.yaml
文件中,存在retrieval_batch_size
,rerank_batch_size
,generator_batch_size
这几个参数,但似乎增大这些参数,并不会减少Retrieval process
所消耗的时间:比如我设置retrieval_batch_size: 1024
,虽然每一次Retrieval process
的数量从14减小到4,但总体时间并不会缩短,仍为1小时左右