legal-nlp / lei-8906

We are applying NLP to http://www.planalto.gov.br/ccivil_03/Leis/L8906.htm
0 stars 2 forks source link

art-ab.txt issues #28

Open vcvpaiva opened 6 years ago

vcvpaiva commented 6 years ago

checking lei-8906-ownpt/freeling/art-ab.out I understand that:

  1. privativo http://wnpt.brlcloud.com/wn/synset?id=02152985-a
  2. postulação 06513366-n
  3. juizado
  4. impetração
  5. constitutivo added to 00901345-a are really missing from OWN-PT.

    However both

  6. habeas corpus and
  7. pessoa jurídica are tokenization problems of freeling while
  8. instância is a wsd problem
  9. sob_pena_de is a good functional mwe
  10. but I really do not understand how come vedar 00795863-v is working and producing the synset to which I added the verb "vedar" only recently. any explanations?
vcvpaiva commented 6 years ago

after Alessandra's suggestions: privativo: added to http://wnpt.brlcloud.com/wn/synset?id=02152985-a (privativo) postulação: added to 06513366-n juizado: under discussion! added to 08166187-n, Alessandra suggested http://wnpt.brlcloud.com/wn/synset?id=08329453-n and there is also http://wnpt.brlcloud.com/wn/synset?id=08328700-n impetração: 06513366-n ? not ideal... constitutivo: added to 00901345-a

arademaker commented 6 years ago

Veja que existem casos como “juizados” que não tinha no dicionário de FL e estava sendo então lematizado para juizados. Depois de acionar juizados no dicionário e juizado_especial nas locuções. Agora FL produz um token apenas para a MWE

vcvpaiva commented 6 years ago

Note that Bruno has found (missing-art-ab.out) privativas privativo AQ0FP00 1 - postulação postulação NCFS000 1 - juizados juizados NCMP000 0.133333 - privativa privativo AQ0FS00 1 - impetração impetração NCFS000 1 - habeas habeas AQ0CN00 1 -

plus "O" and "quando", which shouldn't be there. "habeas corpus" shouldn't be there either. Freeling issue, like "juizados"?

vcvpaiva commented 6 years ago

@arademaker nos temos um plano pro que podemos fazer com o FreeLing?

vcvpaiva commented 6 years ago

@alessandracid de uma olhada em https://www.linguee.com.br/portugues-ingles/traducao/impetrar+mandado+de+seguran%C3%A7a.html me parece que impetracao podia ser filing...

vcvpaiva commented 6 years ago

About "juizado" I believe we need both the place and the people as in https://www.linguee.com.br/portugues-ingles/traducao/juizado+especial+c%C3%ADvel.html, so the 3 places were we have it are fine.

arademaker commented 6 years ago

O primeiro comentário está bem confuso, peço que os problemas sejam apontados mais claramente e possivelmente tipando.

Caso de habeas_corpus resolvido com alteração no locucions.dat

Para pessoa jurídica sou mais resistente. Acho que poderiamos ter um outro arquivo de locucions.dat produzido a partir das MWE que tivemos na OWN-PT. Colocar termos específicos de aplicação ou domínio nos files gerais de FL não faz muito sentido para mim.

Para vedar, o arquivo que o FL usa para UKB é /usr/local/share/freeling/pt/senses30.src e tem 3 entradas para este lema.

arademaker commented 6 years ago

Vide 2f816c2

vcvpaiva commented 6 years ago

Caso de habeas_corpus resolvido com alteração no locucions.dat

otimo!

Para vedar, o arquivo que o FL usa para UKB é /usr/local/share/freeling/pt/senses30.src e tem 3 entradas para este lema

voce nao esta' entendendo o problema: vedar nao existe no sentido que queremos e que 'e produzido pelo Freeling no synset indicado. o synset produzido e' 00795863-v veja que eles tem 3 palavras somente "proibir • proscrever • vetar " nao tem vedar que eu adicionei, pois esta' certo. mas o Freeling achou do mesmo jeito. esta' funcionando bem demais!!!!

vcvpaiva commented 6 years ago

Para pessoa jurídica sou mais resistente. Acho que poderiamos ter um outro arquivo de locucions.dat produzido a partir das MWE que tivemos na OWN-PT.

podemos sim ter locucoes especiais para o dominio juridico, mas eu acho que pessoa juridica 'e mwe normal, nao especialmente juridica.

arademaker commented 6 years ago

Bem, como disse, temos vedar em 3 synsets no arquivo que FL usa. Achei dois casos na interface http://wnpt.brlcloud.com/wn/search?term=word_pt%3Avedar.

$ rg vedar /usr/local/share/freeling/pt/senses30.src
7354:00795863-v proibir proscrever recusar vedar vetar
11346:01348013-v lacrar vedar
11383:01354006-v selar vedar
vcvpaiva commented 6 years ago

@arademaker Realmente nao estou entendendo isso, se voce olhar 00795863-v na nossa interface, nao tem "vedar" so' tem "proibir • proscrever • vetar " de onde veem recusar e vedar? esta' correto, fico contente, mas queria sabe porque eu nao vejo na nossa interface...

arademaker commented 6 years ago

Não sei. Realmente não sei como o arquivo senses30.src pode ter sido atualizado da última vez e talvez os nossos dados tivessem este palavra neste synset em alguma versão anterior.