ai-forever / ru-gpts

Russian GPT3 models.
Apache License 2.0
2.08k stars 445 forks source link

Как embedding'и получить и какой они длины? #96

Closed AlexanderKozhevin closed 1 year ago

AlexanderKozhevin commented 1 year ago

В описании на hugging face написано следущее

Модель является языковой моделью, может определять вероятности следующего и пропущенного слова, а также эффективно представлять слова и тексты в векторном пространстве.

Но в примерах кода не нашел. Можете помочь, сориентировать.

Спасибо.

king-menin commented 1 year ago

For example

from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch
model_name_or_path = "sberbank-ai/rugpt3small_based_on_gpt2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name_or_path)
model = GPT2LMHeadModel.from_pretrained(model_name_or_path).cuda()
text = "Александр Сергеевич Пушкин родился в "
input_ids = tokenizer.encode(text, return_tensors="pt").cuda()
with torch.no_grad():
    out = model(input_ids)
out = out.logits.cpu()
print(out.shape)