Closed kyakuno closed 3 months ago
"a photograph of an astronaut riding a hors"の場合、従来の
49406 320 8853 539 550 18376 6765 320 4558 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407
が
49406 320 8853 539 550 18376 553 570 5215 320 71 1127 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407 49407
になり、微妙に挙動が異なる。
Pythonだと従来の方なので、Tokenizerが怪しい。
tensor([[49406, 320, 8853, 539, 550, 18376, 6765, 320, 4558, 49407,
49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407,
49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407,
49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407,
49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407,
49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407,
49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407, 49407,
49407, 49407, 49407, 49407, 49407, 49407, 49407]])
CLIPのSimpleTokenizerと、transformersのCLIPTokenizerで挙動が異なる?
ailia Tokenizerの方に問題があったため、ailia Tokenizerを1.1.12に更新。
117