LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

novos lemas verbais do dhbb #74

Open arademaker opened 4 years ago

arademaker commented 4 years ago

@lucasrct , pode apontar aqui para script e listas que vc produziu de possíveis verbos faltando no MorphoBr?

lucasrct commented 4 years ago

Eu não produzi uma lista específica dos possíveis verbos que não constam no MorphoBr, os que encontrei, foi olhando mesmo.... teve o "zerar" que de fato não existe no morphoBr e o "freqüentar" (com trema) que existe no morphoBr mas sem a trema, então não está de fato faltando.

arademaker commented 4 years ago

Bem, não temos zerar e freqüentar no MorphoBr, isto é fato.

O que Lucas fez foi rodar https://github.com/cpdoc/dhbb-nlp/blob/master/udp/not_in_morpho.sh e obter esta lista https://github.com/cpdoc/dhbb-nlp/blob/master/udp/verbs.not_in_morpho!

Mas UDPipe comete errors como

# text = Batiam-se pelo intervencionismo governamental nos assuntos econômicos, com ênfase nas questões financeiras e nos problemas suscitados pela crescente importância dos transportes ferroviários.
1-2     Batiam-se       _       _       _       _       _       _       _       _
1       Batiam  Batir   VERB    _       Mood=Ind|Number=Plur|Person=3|Tense=Imp|VerbForm=Fin    0       root ...

Ou seja, ele errou o lema de Batiam e ao invés de bater lematizou para batir. Note @lucasrct que tirei o seu downcase do script, não lematizar para minusculas é outro erro de UDPipe e não queremos mascarar né?

arademaker commented 4 years ago

OK. Melhorei um pouco o script do comentário acima. Gerei dois arquivos, um que os dados dhbb de verbos são comparados por lemma com o morphobr, e outro onde são comparados por forma flexionada.

  1. https://github.com/cpdoc/dhbb-nlp/blob/master/udp/verbs-missing-by-form.tsv
  2. https://github.com/cpdoc/dhbb-nlp/blob/master/udp/verbs-missing-by-lemma.tsv
vcvpaiva commented 4 years ago

hmm, nao entendi o que aconteceu com downcasing do script. porque de 9.3K casos em https://github.com/cpdoc/dhbb-nlp/blob/master/udp/verbs-missing-by-lemma.tsv quase 2K (1870) sao de verbos que estao uppercase ne?

arademaker commented 4 years ago

Correto, erros de lemmatização do UDPipe, por isso o by-form.

vcvpaiva commented 4 years ago

erros de lemmatização do UDPipe, por isso o by-form

mas isso nao ajuda, nao e'? o que a gente quer (eu suponho) e' descobrir lemas que realmente estao faltando no Morpho. exemplos como "frequentar" com trema sao faceis de corrigir (vc pode simplesmente grep os verbos com "qu" e adicionar a forma com trema (que acho agora esta' errada, ms estava correta ate o ultimo acordo BR-PT). o que 'e interessante 'e descobrir exemplos como "zerar" que esta' no wiktionary (https://en.wiktionary.org/wiki/zerar) e tb no OWN-PT http://wn.mybluemix.net/synset?id=00297507-v