Closed yyy-Apple closed 2 years ago
对于不同用户来说,如果每个用户来的请求,比如说bart,都单独动态初始化的话。那么两个用户就要初始化了两个bart。如果有多个用户的请求的处理时间上重叠的话,就会白白初始化了很多模型,这样会造成显存的爆炸。
用global记录目前初始化了的pretrain model数目,让一次最多有一个初始化了
对于不同用户来说,如果每个用户来的请求,比如说bart,都单独动态初始化的话。那么两个用户就要初始化了两个bart。如果有多个用户的请求的处理时间上重叠的话,就会白白初始化了很多模型,这样会造成显存的爆炸。