Bugs in the inference phase

When I modified： output_ids = model.generate(inputs=input_ids, images=video, attention_mask=attention_masks, modalities="video", do_sample=False, temperature=0.0, max_new_tokens=1024, top_p=0.1,num_beams=1,use_cache=True, stopping_criteria=[stopping_criteria])

-->

output_ids = model.generate(inputs=input_ids, images=video, attention_mask=attention_masks, modalities=["video"], do_sample=False, temperature=0.0, max_new_tokens=1024, top_p=0.1,num_beams=1,use_cache=True, stopping_criteria=[stopping_criteria])

When I modified xx, I solved the problem.

LLaVA-VL / LLaVA-NeXT

Bugs in the inference phase #176