Closed arademaker closed 8 years ago
talvez fazer tmp.txt tmp.xls pra separar as pos tags? sao so' 25.780 lemas, espero que tenhamos pelo menos todos os verbos.
fechando, novas sugestões irão ou via interface a ser desenvolvida no issue #127 (casos específicos) ou via sugestões em corpus com contexto.
Nao esta' claro pra mim o que esta' faltando no dicionario FreeLing e o que esta' faltnado na OWN-PT.
para o que esta' faltando na OWN-PT temos pelo menos o diretorio corpora. Para o que esta' faltando, digamos no DHBB ou nas UD no dicionario FreeLing deviamos ter tambem listas, que fossem diminuindo a mediade que completassemos os (dois) recursos lexicos. Fechar os issues sem ter alguma solucao (ainda que so' alinhavada) nao me parece bom.
O tal diretório corpora será mudado, generalizado, vide issue own-pt/cl-wnbrowser#127. Também pretendemos melhorar interface para melhor suporte de adição de words via anotação de corpus, a lá interface do Francis Bond:
L. M. da Costa and F. Bond, “OMWEdit - the integrated open multilingual wordnet editing system,” presented at the ACL System Demonstrations, 2015.
O que está faltando do DHBB ou UD nunca foi parte deste issue. O que está falando do bosque no dict de freeling sabemos verificar usando o arquivo anexo e @livyreal saberá como checar para completar os dict (vide own-pt/FreeLing#18).
Por isto este issue está, sendo fechado.
http://www.linguateca.pt/floresta/corpus.html
Bosque CF + CP (TigerXML)
um bom experimento seria checar as palavras do Bosque que ainda não temos na OWN-PT. Chalub escreveu um transformador do Bosque para lemma+pos, vide own-pt/wordnet-utils@7d7a6ac
Agora restaria:
Com o arquivo produzido do bosque: