Tokens especiais - Githubissues

neuralmind-ai / portuguese-bert

Portuguese pre-trained BERT models

Other

792 stars 122 forks source link

Olá Samara, Acredito que seja possível sim substituir esses tokens de outras línguas sem problemas. Talvez possa ser interessante reinicializar o valor dos embeddings desses tokens, ou aleatóriamente ou seguindo alguma regra que leve em conta a grafia desses novos tokens (se não forem tokens especiais). Uma adaptação do BERT multilíngua para russo reportou que inicializar tokens novos com o valor médio dos embeddings das subwords das suas tokenizações fez o modelo convergir mais rápido no pré-treinamento.

neuralmind-ai / portuguese-bert

Tokens especiais #16