LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

filling gaps in verb forms #22

Open leoalenc opened 6 years ago

leoalenc commented 6 years ago

@odanoburu @arademaker Quem poderia construir programinha para verificar se todos os verbos do dicionário de São Carlos possuem pelo menos 71 formas diferentes, isto é, pares diferentes word\tlemma+tags?

Relevante direção para este issue: https://github.com/LFG-PTBR/MorphoBr/issues/8#issuecomment-381645381

odanoburu commented 6 years ago

só para registrar: primeiro uni todos os verbos sem pronomes, depois removi as duplicatas; assim só precisava de checar lemma+tags, então fiz:

$ cd verbs
$ cat *.pairs > verbs.all
$ grep -o -P "\t[^+]+\+V" verbs.all | sort | uniq -c > forms.count
$ grep -v "71" forms.count > bad.verbs
leoalenc commented 6 years ago

@odanoburu muito bom! Só uma curiosidade: qual a função da opção -P? Ela não existe na minha versão do unix.

odanoburu commented 6 years ago
       -P, --perl-regexp
              Interpret  PATTERN as a Perl regular expression.  This is highly
              experimental and grep -P may warn of unimplemented features.

provavelmente funciona com as flags normais de REGEXP tb!

odanoburu commented 6 years ago

fechamos essa issue? (embora ela efetivamente não esteja terminada...)

leoalenc commented 6 years ago

@odanoburu seria bom termos uma tabela com as formas que faltam para cada um dos verbos incompletos. Isso naturalmente depois de incluir as minhas três adições, ou seja, aqueles três arquivos com formas faltantes .

arademaker commented 6 years ago

@odanoburu não consegui reproduzir seus comandos no meu repo depois de pull.

odanoburu commented 6 years ago

@arademaker oq houve? acho que era um typo meu, que corrigi no comando

@leoalenc seria ótimo! mas demoraria um pouco mais do que usando as unix tools atuais.. vou fazer, though!

arademaker commented 6 years ago

@odanoburu editei agora seu comentário acima, também não tinha colocado a opção -o. Mas nestes arquivos ainda não estão os pares que podem vir do Freeling e Marcos certo?

odanoburu commented 6 years ago

@arademaker de fato, não estão!

arademaker commented 6 years ago

Então agora precisamos começar a consolidar os arquivos antes de gerar novas formas né ? Pode ser que muitas coisas venham de Freeling e Marcos

odanoburu commented 6 years ago

~depois de incorporado GFL: bad.verbs.txt~

depois de incorporado GFL e corrigido #40: bad.verbs.txt vou mudar o nome da issue pra refletir melhor o que estamos fazendo -- se houver outras coisas a fazer abramos outras issues!