own-pt / openWordnet-PT

OpenWordnet-PT: an open access wordnet for Portuguese
http://openwordnet-pt.org
Other
154 stars 35 forks source link

completando own-pt via listas de palavras #92

Open fcbr opened 8 years ago

fcbr commented 8 years ago

Estou abrindo esta issue para registrarmos as pendencias de processamento de corpus:

arademaker commented 8 years ago

Consegui extrair as palavras do primeiro link em um JSON. Mas antes de tentar comparar esta lista do Libras com a OWN-PT, comecei a fazer para termos uma idéia mas terminar fica como pendência:

  1. aparentemente palavras com hífen foram quebradas, isto precisa ser manualmente verificado no PDF e corrigido no arquivo JSON.
  2. Estou usando o http://aspell.net para corrigir a ortografia, acrescentando os acentos. Este exercício pode ser interessante para contribuirmos com o aspell em paralelo a checagem da lista. No site do aspell parece que tudo está meio parado. Em particular, estou trabalhando no Mac usando o aspell via Emacs, sendo o aspell instalado via macports. No macports, https://trac.macports.org/browser/trunk/dports/textproc/aspell-dict-pt_BR/Portfile, também parece que o dict PT_BR está sem ninguém mantendo.

Usei o aspell porque ele é um bom corretor, mas existem outros dicionários livres por ai que poderiamos tentar colaborar e pensar como usar:

https://addons.mozilla.org/en-US/firefox/language-tools/ https://pt-br.libreoffice.org/projetos/vero http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb/web/dicionarios.html (vide abaixo)

Notem que contribuir com estes dicionários não é necessariamente trivial. Em geral além da lista de palavras eles usam arquivos com regras de afixos, logo o dicionário pode ser completado seja com adição de palavras ou regras de afixos.

Contribuir com estes dicionários também nos ajudaria a melhorar o dicionário de PT do FreeLing. Nos arquivos dicc.src e afixos.dat que segundo Garcia e Gamalo, veio do:

  1. LABEL-LEX (SW) (Eleuterio et al., 2003) e
  2. Muniz (2004) presented the DELAF PB6 lexicon, which contains 878, 651 forms from 61, 095 lemmas.

Outra questão é o que cada discionário contém. Os dicionários para serem úteis para o Freeling precisam ter a word form, lema e POS tag. Os demais dicionários acima, acho que apenas as palavras.

No zip anexo, preservei as versões anteriores do libras.json, com sufixo ~?~, para os interessados poderem comparar (diff) e ver o que mudei.

libras.zip

vcvpaiva commented 8 years ago

a ideia de investigar dicionarios mais completos pro Freeling me parece bem boa. principalmente se a gente quer (e eu quero muito!) fazer UDs pra portugues. mas o fato 'e que precisamos de um bom sistema de NER e de um bom pos-tagger, alem de um dependencies parser.

vcvpaiva commented 8 years ago

outra coisa a notar aqui 'e que esse dicionario do vLibras vem do repositorio de "open source" software do governo brasileiro https://softwarepublico.gov.br/ acho que a gente devia depositar o OWN-PT la' tambem.

vcvpaiva commented 8 years ago

Obrigada pelo arquivo .json acima. eu consegui transformar de maiusculas pra minusculas, mas ainda esta' faltando um bocado de cedilhas.

arademaker commented 5 years ago

http://per-fide.di.uminho.pt/site.pl/resources.pt

shared by Hugo