Closed ooe1123 closed 1 month ago
tokenizerとtokenizer_2のdiff。
kyakuno@mbakk sdxl-turbo % diff tokenizer/merges.txt tokenizer_2/merges.txt
kyakuno@mbakk sdxl-turbo % diff tokenizer/vocab.json tokenizer_2/vocab.json
kyakuno@mbakk sdxl-turbo % diff tokenizer/tokenizer_config.json tokenizer_2/tokenizer_config.json
3a4,11
> "0": {
> "content": "!",
> "lstrip": false,
> "normalized": false,
> "rstrip": false,
> "single_word": false,
> "special": true
> },
27c35
< "pad_token": "<|endoftext|>",
---
> "pad_token": "!",
kyakuno@mbakk sdxl-turbo % diff tokenizer/special_tokens_map.json tokenizer_2/special_tokens_map.json
17c17
< "content": "<|endoftext|>",
---
> "content": "!",
19c19
< "normalized": true,
---
> "normalized": false,
tokenizer_2は、padトークンとして0が追加されている。vocabは同じ。
clipのデフォルトは target._pad_token_id = 49407 なので、 tokenizer.add_special_tokens({'pad_token': '!'}) を呼べば等価になる。
https://github.com/axinc-ai/ailia-models/issues/1435 のPRです。