neuralmind-ai / portuguese-bert

Portuguese pre-trained BERT models
Other
792 stars 122 forks source link

Tokens especiais #16

Closed SamaraAlves closed 4 years ago

SamaraAlves commented 4 years ago

Gostaríamos de incluir novas palavras ao corpus, mas 100 espaços ([unused]) não serão suficientes. Vocês acreditam que é possível substituir subwords com caracteres especiais do tipo 분 com esse nosso vocabulário específico? Uma vez que esses tipos de caracteres não fazem sentido para o nosso domínio.

fabiocapsouza commented 4 years ago

Olá Samara, Acredito que seja possível sim substituir esses tokens de outras línguas sem problemas. Talvez possa ser interessante reinicializar o valor dos embeddings desses tokens, ou aleatóriamente ou seguindo alguma regra que leve em conta a grafia desses novos tokens (se não forem tokens especiais). Uma adaptação do BERT multilíngua para russo reportou que inicializar tokens novos com o valor médio dos embeddings das subwords das suas tokenizações fez o modelo convergir mais rápido no pré-treinamento.