Open xiangxinhello opened 1 month ago
结果有问题是说output_tokens看起来像是乱码的东西么?这里和qwen的分词方案有关系,不是错了。可以这样看:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-VL-7B-Instruct")
token_ids = [108386, 6313, 104139, 109944, 100364, 103929, 101037, 11319]
tokens = tokenizer.convert_ids_to_tokens(token_ids)
print(tokens) # ['ä½łå¥½', 'ï¼ģ', 'æľīä»Ģä¹Ī', 'æĪijåı¯ä»¥', '帮åĬ©', 'ä½łçļĦ', 'åIJĹ', 'ï¼Ł']
token_strs = [tokenizer.convert_tokens_to_string([token]) for token in tokens]
print(token_strs) # ['你好', '!', '有什么', '我可以', '帮助', '你的', '吗', '?']
print(tokenizer.decode(token_ids)) # 你好!有什么我可以帮助你的吗?
结果有问题是说output_tokens看起来像是乱码的东西么?这里和qwen的分词方案有关系,不是错了。可以这样看:
from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-VL-7B-Instruct") token_ids = [108386, 6313, 104139, 109944, 100364, 103929, 101037, 11319] tokens = tokenizer.convert_ids_to_tokens(token_ids) print(tokens) # ['ä½łå¥½', 'ï¼ģ', 'æľīä»Ģä¹Ī', 'æĪijåı¯ä»¥', '帮åĬ©', 'ä½łçļĦ', 'åIJĹ', 'ï¼Ł'] token_strs = [tokenizer.convert_tokens_to_string([token]) for token in tokens] print(token_strs) # ['你好', '!', '有什么', '我可以', '帮助', '你的', '吗', '?'] print(tokenizer.decode(token_ids)) # 你好!有什么我可以帮助你的吗?
您好,救命稻草!请问VLLM遇到这个问题怎么解决呢
如果我输入不带图片,只有文字,ouput的结果有问题
output_text = 你好!有什么我可以帮助你的吗?<|im_end|> output_tokens = ['ä½łå¥½', 'ï¼ģ', 'æľīä»Ģä¹Ī', 'æĪijåı¯ä»¥', '帮åĬ©', 'ä½łçļĦ', 'åIJĹ', 'ï¼Ł', '<|im_end|>']