Open leoalenc opened 6 years ago
só para registrar: primeiro uni todos os verbos sem pronomes, depois removi as duplicatas; assim só precisava de checar lemma+tags, então fiz:
$ cd verbs
$ cat *.pairs > verbs.all
$ grep -o -P "\t[^+]+\+V" verbs.all | sort | uniq -c > forms.count
$ grep -v "71" forms.count > bad.verbs
@odanoburu muito bom! Só uma curiosidade: qual a função da opção -P? Ela não existe na minha versão do unix.
-P, --perl-regexp
Interpret PATTERN as a Perl regular expression. This is highly
experimental and grep -P may warn of unimplemented features.
provavelmente funciona com as flags normais de REGEXP tb!
fechamos essa issue? (embora ela efetivamente não esteja terminada...)
@odanoburu seria bom termos uma tabela com as formas que faltam para cada um dos verbos incompletos. Isso naturalmente depois de incluir as minhas três adições, ou seja, aqueles três arquivos com formas faltantes .
@odanoburu não consegui reproduzir seus comandos no meu repo depois de pull.
@arademaker oq houve? acho que era um typo meu, que corrigi no comando
@leoalenc seria ótimo! mas demoraria um pouco mais do que usando as unix tools atuais.. vou fazer, though!
@odanoburu editei agora seu comentário acima, também não tinha colocado a opção -o
. Mas nestes arquivos ainda não estão os pares que podem vir do Freeling e Marcos certo?
@arademaker de fato, não estão!
Então agora precisamos começar a consolidar os arquivos antes de gerar novas formas né ? Pode ser que muitas coisas venham de Freeling e Marcos
~depois de incorporado GFL: bad.verbs.txt~
depois de incorporado GFL e corrigido #40: bad.verbs.txt vou mudar o nome da issue pra refletir melhor o que estamos fazendo -- se houver outras coisas a fazer abramos outras issues!
@odanoburu @arademaker Quem poderia construir programinha para verificar se todos os verbos do dicionário de São Carlos possuem pelo menos 71 formas diferentes, isto é, pares diferentes
word\tlemma+tags
?Relevante direção para este issue: https://github.com/LFG-PTBR/MorphoBr/issues/8#issuecomment-381645381