own-pt / openWordnet-PT

OpenWordnet-PT: an open access wordnet for Portuguese
http://openwordnet-pt.org
Other
154 stars 35 forks source link

bosque corpus #78

Closed arademaker closed 8 years ago

arademaker commented 9 years ago

http://www.linguateca.pt/floresta/corpus.html

Bosque CF + CP (TigerXML)

um bom experimento seria checar as palavras do Bosque que ainda não temos na OWN-PT. Chalub escreveu um transformador do Bosque para lemma+pos, vide own-pt/wordnet-utils@7d7a6ac

Agora restaria:

  1. outro script para buscar cada palavra na OWN-PT ou
  2. vide own-pt/cl-wnbrowser#127

Com o arquivo produzido do bosque:

$ awk '$2 !~ /n|num|pu|prp|prop|art/ { print }' Bosque-CF-CP-Lemmas-Raw.txt > tmp.txt
$ cat tmp.txt | sort | uniq | wc -l
    4711
arademaker commented 9 years ago

tmp.txt Bosque-CF-CP-Lemmas-Raw.txt

vcvpaiva commented 9 years ago

talvez fazer tmp.txt tmp.xls pra separar as pos tags? sao so' 25.780 lemas, espero que tenhamos pelo menos todos os verbos.

arademaker commented 8 years ago

fechando, novas sugestões irão ou via interface a ser desenvolvida no issue #127 (casos específicos) ou via sugestões em corpus com contexto.

vcvpaiva commented 8 years ago

Nao esta' claro pra mim o que esta' faltando no dicionario FreeLing e o que esta' faltnado na OWN-PT.

para o que esta' faltando na OWN-PT temos pelo menos o diretorio corpora. Para o que esta' faltando, digamos no DHBB ou nas UD no dicionario FreeLing deviamos ter tambem listas, que fossem diminuindo a mediade que completassemos os (dois) recursos lexicos. Fechar os issues sem ter alguma solucao (ainda que so' alinhavada) nao me parece bom.

arademaker commented 8 years ago

O tal diretório corpora será mudado, generalizado, vide issue own-pt/cl-wnbrowser#127. Também pretendemos melhorar interface para melhor suporte de adição de words via anotação de corpus, a lá interface do Francis Bond:

L. M. da Costa and F. Bond, “OMWEdit - the integrated open multilingual wordnet editing system,” presented at the ACL System Demonstrations, 2015.

O que está faltando do DHBB ou UD nunca foi parte deste issue. O que está falando do bosque no dict de freeling sabemos verificar usando o arquivo anexo e @livyreal saberá como checar para completar os dict (vide own-pt/FreeLing#18).

Por isto este issue está, sendo fechado.