CodeT5+ | Repeated <extra_id_1> in the generated tokens

salesforce / CodeT5

Home of CodeT5: Open Code LLMs for Code Understanding and Generation

BSD 3-Clause "New" or "Revised" License

2.66k stars 391 forks source link

Given the code bellow:

from transformers import T5ForConditionalGeneration, AutoTokenizer

checkpoint = "Salesforce/codet5p-220m"
device = "cpu"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = T5ForConditionalGeneration.from_pretrained(checkpoint).to(device)

inputs = tokenizer.encode('def print_hello_world(): <extra_id_0>"', return_tensors="pt").to(device)
outputs = model.generate(inputs, max_new_tokens=60)
print(tokenizer.decode(outputs[0], skip_special_tokens=False))

The output I get is:

>>> print(tokenizer.decode(outputs[0], skip_special_tokens=False))
<pad><extra_id_0>
    print "Hello World<extra_id_1>
    print "Hello World<extra_id_1>
    print "Hello World<extra_id_1>
    print "Hello World<extra_id_1>
    print "Hello World<extra_id_1>
    print "Hello World<extra_id_1>
    print "Hello World<extra_id_1>
    print "Hello World<extra_id_1>
    print

I was not expecting to get multiple <extra_id_1> tokens. Is this known or expected?

salesforce / CodeT5

CodeT5+ | Repeated <extra_id_1> in the generated tokens #105