Open fcbr opened 8 years ago
Consegui extrair as palavras do primeiro link em um JSON. Mas antes de tentar comparar esta lista do Libras com a OWN-PT, comecei a fazer para termos uma idéia mas terminar fica como pendência:
Usei o aspell porque ele é um bom corretor, mas existem outros dicionários livres por ai que poderiamos tentar colaborar e pensar como usar:
https://addons.mozilla.org/en-US/firefox/language-tools/ https://pt-br.libreoffice.org/projetos/vero http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb/web/dicionarios.html (vide abaixo)
Notem que contribuir com estes dicionários não é necessariamente trivial. Em geral além da lista de palavras eles usam arquivos com regras de afixos, logo o dicionário pode ser completado seja com adição de palavras ou regras de afixos.
Contribuir com estes dicionários também nos ajudaria a melhorar o dicionário de PT do FreeLing. Nos arquivos dicc.src e afixos.dat que segundo Garcia e Gamalo, veio do:
Outra questão é o que cada discionário contém. Os dicionários para serem úteis para o Freeling precisam ter a word form, lema e POS tag. Os demais dicionários acima, acho que apenas as palavras.
No zip anexo, preservei as versões anteriores do libras.json, com sufixo ~?~, para os interessados poderem comparar (diff) e ver o que mudei.
a ideia de investigar dicionarios mais completos pro Freeling me parece bem boa. principalmente se a gente quer (e eu quero muito!) fazer UDs pra portugues. mas o fato 'e que precisamos de um bom sistema de NER e de um bom pos-tagger, alem de um dependencies parser.
outra coisa a notar aqui 'e que esse dicionario do vLibras vem do repositorio de "open source" software do governo brasileiro https://softwarepublico.gov.br/ acho que a gente devia depositar o OWN-PT la' tambem.
Obrigada pelo arquivo .json acima. eu consegui transformar de maiusculas pra minusculas, mas ainda esta' faltando um bocado de cedilhas.
http://per-fide.di.uminho.pt/site.pl/resources.pt
shared by Hugo
Estou abrindo esta issue para registrarmos as pendencias de processamento de corpus: