how to write L_cap in pytorch?

Hi @jaycee-tian, thanks for your interest! Actually, $L_{cap}$ is exactly the loss for training an image captioning model. A simplified code snippet looks like:


import torch
import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration

processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base", torch_dtype=torch.float16).to("cuda")

text = "a photography of a polar bear"
inputs = processor(generated_image_of_a_polar_bear, text, return_tensors="pt").to("cuda", torch.float16)

l_cap = model(**inputs).loss

CaraJ7 / CoMat

how to write L_cap in pytorch? #2