Closed leoalenc closed 2 years ago
O segundo caso é interessante. O que devemos fazer com formas que não estão no novo acordo? Qualquer futuro uso do recurso com corpora poderá resultar em gap se removermos ... textos irão conter formas que eventualmente deixaram de ser aceitas.
Marcamos estas formas ? Separamos em outro arquivo ? Obviamente manter estes registros pode ser bem complicado.
O segundo caso é interessante. O que devemos fazer com formas que não estão no novo acordo? Qualquer futuro uso do recurso com corpora poderá resultar em gap se removermos ... textos irão conter formas que eventualmente deixaram de ser aceitas.
Marcamos estas formas ? Separamos em outro arquivo ? Obviamente manter estes registros pode ser bem complicado.
@arademaker, esse problema já foi levantado em #93. No caso da presente issue, que afeta uma única forma, num primeiro impulso, quis eliminá-la, mas agora vejo o lado para o qual você chama atenção, preferindo deixar como está. Depois retomamos #93, considerando a possibilidade de marcar com uma etiqueta essas formas.
@arademaker e @analununes, seja como for, acho que devemos eliminar esta forma:
veiste vir+V+PRF+2+SG errada
Parece que o erro propagou para outros lemas:
Search term: veiste change
Directory: ~/work/morpho-br/
verbs/verbs-aat.dict
38976deveiste devir+V+PRF+2+SG
verbs/verbs-acm.dict
11150veiste vir+V+PRF+2+SG
verbs/verbs-abs.dict
11407obveiste obvir+V+PRF+2+SG
verbs/verbs-abk.dict
34034interveiste intervir+V+PRF+2+SG
verbs/verbs-aay.dict
31918entreveiste entrevir+V+PRF+2+SG
verbs/verbs-aah.dict
38881aveiste avir+V+PRF+2+SG
verbs/verbs-acg.dict
20623sobreveiste sobrevir+V+PRF+2+SG
verbs/verbs-aaq.dict
12948desaveiste desavir+V+PRF+2+SG
36174desconveiste desconvir+V+PRF+2+SG
verbs/verbs-acd.dict
27923reveiste revir+V+PRF+2+SG
verbs/verbs-abz.dict
9585 proveiste provir+V+PRF+2+SG
verbs/verbs-aab.dict
39036adveiste advir+V+PRF+2+SG
verbs/verbs-aan.dict
27796contraveiste contravir+V+PRF+2+SG
29474conveiste convir+V+PRF+2+SG
verbs/verbs-acb.dict
15669reconveiste reconvir+V+PRF+2+SG
Parece que o erro propagou para outros lemas:
verbs/verbs-aat.dict 38976deveiste devir+V+PRF+2+SG verbs/verbs-acm.dict 11150veiste vir+V+PRF+2+SG verbs/verbs-abs.dict 11407obveiste obvir+V+PRF+2+SG verbs/verbs-abk.dict 34034interveiste intervir+V+PRF+2+SG verbs/verbs-aay.dict 31918entreveiste entrevir+V+PRF+2+SG verbs/verbs-aah.dict 38881aveiste avir+V+PRF+2+SG verbs/verbs-acg.dict 20623sobreveiste sobrevir+V+PRF+2+SG verbs/verbs-aaq.dict 12948desaveiste desavir+V+PRF+2+SG 36174desconveiste desconvir+V+PRF+2+SG verbs/verbs-acd.dict 27923reveiste revir+V+PRF+2+SG verbs/verbs-abz.dict 9585 proveiste provir+V+PRF+2+SG verbs/verbs-aab.dict 39036adveiste advir+V+PRF+2+SG verbs/verbs-aan.dict 27796contraveiste contravir+V+PRF+2+SG 29474conveiste convir+V+PRF+2+SG verbs/verbs-acb.dict 15669reconveiste reconvir+V+PRF+2+SG
@arademaker, bem lembrado verificar isso. Correto, todas essas são formas espúrias.
Related to https://github.com/LR-POR/PorGram/issues/15
@arademaker e @leoalenc, acredito ter encontrado outro erro, as formas com sufixo -asseis estão sendo identificadas como irregulares:
aalenianizasseis IMPF-SUBJ-2PL-SUFFIX aalenianizar
aaronicizasseis IMPF-SUBJ-2PL-SUFFIX aaronicizar
ababalhabilizasseis IMPF-SUBJ-2PL-SUFFIX ababalhabilizar
ababosabilizasseis IMPF-SUBJ-2PL-SUFFIX ababosabilizar
abacalhoo PRES-IND-1SG-SUFFIX abacalhoar
abacalhôo PRES-IND-1SG-SUFFIX abacalhoar
abacelabilizasseis IMPF-SUBJ-2PL-SUFFIX abacelabilizar
abacializasseis IMPF-SUBJ-2PL-SUFFIX abacializar
abacinabilizasseis IMPF-SUBJ-2PL-SUFFIX abacinabilizar
abadabilizasseis IMPF-SUBJ-2PL-SUFFIX abadabilizar
abadernabilizasseis IMPF-SUBJ-2PL-SUFFIX abadernabilizar
abadessabilizasseis IMPF-SUBJ-2PL-SUFFIX abadessabilizar
abaetabilizasseis IMPF-SUBJ-2PL-SUFFIX abaetabilizar
abafabilizasseis IMPF-SUBJ-2PL-SUFFIX abafabilizar
abaganhabilizasseis IMPF-SUBJ-2PL-SUFFIX abaganhabilizar
abagaçabilizasseis IMPF-SUBJ-2PL-SUFFIX abagaçabilizar
abagoabilizasseis IMPF-SUBJ-2PL-SUFFIX abagoabilizar
impf-subj-2pl-suffix :=
%suffix (ir ísseis) (er êsseis) (ar ásseis)
impf-subj-2pl-lex-rule.
@arademaker e @leoalenc, acredito ter encontrado outro erro, as formas com sufixo -asseis estão sendo identificadas como irregulares:
aalenianizasseis IMPF-SUBJ-2PL-SUFFIX aalenianizar aaronicizasseis IMPF-SUBJ-2PL-SUFFIX aaronicizar ababalhabilizasseis IMPF-SUBJ-2PL-SUFFIX ababalhabilizar ababosabilizasseis IMPF-SUBJ-2PL-SUFFIX ababosabilizar abacalhoo PRES-IND-1SG-SUFFIX abacalhoar abacalhôo PRES-IND-1SG-SUFFIX abacalhoar abacelabilizasseis IMPF-SUBJ-2PL-SUFFIX abacelabilizar abacializasseis IMPF-SUBJ-2PL-SUFFIX abacializar abacinabilizasseis IMPF-SUBJ-2PL-SUFFIX abacinabilizar abadabilizasseis IMPF-SUBJ-2PL-SUFFIX abadabilizar abadernabilizasseis IMPF-SUBJ-2PL-SUFFIX abadernabilizar abadessabilizasseis IMPF-SUBJ-2PL-SUFFIX abadessabilizar abaetabilizasseis IMPF-SUBJ-2PL-SUFFIX abaetabilizar abafabilizasseis IMPF-SUBJ-2PL-SUFFIX abafabilizar abaganhabilizasseis IMPF-SUBJ-2PL-SUFFIX abaganhabilizar abagaçabilizasseis IMPF-SUBJ-2PL-SUFFIX abagaçabilizar abagoabilizasseis IMPF-SUBJ-2PL-SUFFIX abagoabilizar
impf-subj-2pl-suffix := %suffix (ir ísseis) (er êsseis) (ar ásseis) impf-subj-2pl-lex-rule.
@analununes, muito bem observado! As formas em asseis de IMPF-SUBJ-2PL sem acento são espúrias! Devem ser removidas ou acentuadas. @arademaker, seriam formas geradas (erroneamente) pelo Hélio? Parece que todos os lemas terminam em izar.
@arademaker e @analununes, quismos e quisdes são outras formas espúrias que provocaram erros na tabela de exceções:
quisermos FUT-SUBJ-1PL-SUFFIX querer forma correta quismos FUT-SUBJ-1PL-SUFFIX querer forma errada
quisdes FUT-SUBJ-2PL-SUFFIX querer forma errada quiserdes FUT-SUBJ-2PL-SUFFIX querer forma correta
@arademaker, mais formas espúrias, agora detectadas pelo algoritmo da @analununes, que gerou o arquivo https://github.com/LR-POR/PorGram/files/6942926/regra2-sem-s.txt:
head regra2-sem-s.txt
abalausuraste abalaustrar+V+PRF+2+SG erro abalaustraste abalaustrar+V+PRF+2+SG abaldeia abaldear+V+IMP+2+SG abaldeaia abaldear+V+IMP+2+SG erro abarbeia abarbear+V+IMP+2+SG abarbeaia abarbear+V+IMP+2+SG erro abastardeia abastardear+V+IMP+2+SG abastardeaia abastardear+V+IMP+2+SG erro abstrói abstruir+V+IMP+2+SG erro abstrui abstruir+V+IMP+2+SG
Ver http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=69845.
Ok, precisamos de uma estratégia para eliminar formas do recurso. O primeiro impulso é manualmente pagar a linha com um editor de texto. Mas minimamente precisamos verificar se existe alguma outra entrada para a análise sendo eliminada.
Por exemplo, se vou eliminar
veiste vir+V+PRF+2+SG
Preciso garantir que existe outra entrada para o mesmo lema e análise:
???? vir+V+PRF+2+SG
Idealmente, no futuro, seria bom recorrer a biblioteca que estamos criando e ter um comando para remoção e inserção de entradas que fariam estes testes de consistência.
@leoalenc algum outro cuidado para remoção ou adição de formas que devemos ter para tentar garantir consistência do recurso?
Ok, precisamos de uma estratégia para eliminar formas do recurso. O primeiro impulso é manualmente pagar a linha com um editor de texto. Mas minimamente precisamos verificar se existe alguma outra entrada para a análise sendo eliminada.
Por exemplo, se vou eliminar
veiste vir+V+PRF+2+SG
Preciso garantir que existe outra entrada para o mesmo lema e análise:
???? vir+V+PRF+2+SG
Idealmente, no futuro, seria bom recorrer a biblioteca que estamos criando e ter um comando para remoção e inserção de entradas que fariam estes testes de consistência.
@leoalenc algum outro cuidado para remoção ou adição de formas que devemos ter para tentar garantir consistência do recurso?
@arademaker, boa pergunta, mas, no caso das formas espúrias objeto desta issue, como são duplicatas agramaticais de formas gramaticais, já sabemos que podem ser removidas sem deixar lacunas no recurso. De fato, o algoritmo implementado pela @analununes a partir do meu esboço (aquelas regras de remoção que formulei) detecta essas duplicatas espúrias.
@leoalenc algum outro cuidado para remoção ou adição de formas que devemos ter para tentar garantir consistência do recurso?
@arademaker, as regras flexionais de my-irules.tdl constituem um bom critério, pois visam a modelar as regularidades e as principais subregularidades da conjugação do português. É claro que não considero essa regras um trabalho fechado e concluído. Posso incluir mais subregularidades por meio de (re)leitura da literatura ou pelo exame da saída do algoritmo da @analununes, que classifica as formas verbais em regulares e irregulares. Com isso, podemos diminuir o tamanho de my-irregs.tab. Isso mostra a importância fundamental do referido algoritmo da @analununes no nosso ecossistema.
@analununes , Vendo o mais recente arquivo de formas regulares, constatei um outro tipo de erro ortográfico: formas do verbo cuspir com a letra u repetida.
@analununes , mais alguns erros do Morphobr que detectei no mais recente arquivo de formas irregulares gerado pelo seu algoritmo
Curguei, curgue etc. do verbo curvar Não existe gu na conjugação de curvar
Formas do verbo cuspir começadas com cuo
Formas de denegrir com com duas vezes a letra e
Forma suspeitare sem esse final do infinitivo flexionado segunda pessoa do singular do verbo suspeitar. procurar na lista de regulares se existem outras duplicatas do infinitivo flexionado na segunda pessoa do singular.
Formas do verbo suspeitar com gu, Por exemplo suspeigue
@analununes , mais alguns erros do Morphobr que detectei no mais recente arquivo de formas irregulares gerado pelo seu algoritmo:
Curguei, curgue etc. do verbo curvar Não existe gu na conjugação de curvar
Formas do verbo cuspir começadas com cuo
Formas de denegrir com com duas vezes a letra e
Forma suspeitare sem esse final do infinitivo flexionado segunda pessoa do singular do verbo suspeitar. Procurar na lista de regulares se existem outras duplicatas do infinitivo flexionado na segunda pessoa do singular.
Formas do verbo suspeitar com gu, Por exemplo suspeigue
@leoalenc, assim que tiver meu algoritmo pronto vou montar uma lista com essas entradas para você conferir, ok?
@analununes , só mais um erro, talvez até já esteja na lista dos casos A serem eliminados: formas do verbo abalaustrar com "lausu".
@analununes , só mais um erro, talvez até já esteja na lista dos casos A serem eliminados: formas do verbo abalaustrar com "lausu".
@analununes , Na lista de irregulares irregs.txt, tem muitos erros desse tipo! Procure por lausu e lausú com lema abalaustrar. Essas palavras estão erradas porque foi trocado o t por u ou ú.
@arademaker e @analununes, na tabela final irregs.txt, comentada no artigo, encontrei os tipos seguintes de problemas:
1) nova versus velha ortografia: a) oo junto com ôo
abacalhoo PRES-IND-1SG-SUFFIX abacalhoar abacalhôo PRES-IND-1SG-SUFFIX abacalhoar abagoo PRES-IND-1SG-SUFFIX abagoar abagôo PRES-IND-1SG-SUFFIX abagoar etc.
b) aiu junto com aiú
abaiuque PRES-SUBJ-3SG-SUFFIX abaiucar abaiúque PRES-SUBJ-3SG-SUFFIX abaiucar etc.
Ver:
No Brasil, também desaparecem os acentos gráficos nas vogais tónicas i e u quando são antecedidas de um ditongo: baiúca passa a escrever-se baiuca, saiinha passa a ser a forma correta da palavra que antes se escrevia saiínha. http://www.portaldalinguaportuguesa.org/novoacordo.php?action=vop&page=crit1
c)
aboie PRES-SUBJ-3SG-SUFFIX aboiar abóie PRES-SUBJ-3SG-SUFFIX aboiar
Ver:
Segundo as novas regras, os ditongos tónicos na penúltima sílaba deixam de ser marcados com acento gráfico: assim, palavras como jóia e paranóico passam a escrever-se joia e paranoico. No Brasil, esta regra aplica-se também às palavras com ditongo ei tónico, que no Brasil eram até aqui escritas com acento e passam a ser escritas como nos restantes países, ideia e nucleico. http://www.portaldalinguaportuguesa.org/novoacordo.php?action=vop&page=crit1
3) erros completamente arbitrários
aba PRES-IND-3SG-SUFFIX abar taba PRES-IND-3SG-SUFFIX abar abaule PRES-SUBJ-3SG-SUFFIX abaular abaúle PRES-SUBJ-3SG-SUFFIX abaular etc.
Em todas as formas de abaular,ocorre o ditongo au e não o hiato aú no radical: http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=128469
Diversas formas do verbo agauchar com dois us:
agauche PRES-SUBJ-3SG-SUFFIX agauchar agauúhe PRES-SUBJ-3SG-SUFFIX agauchar
Tenho uma lembrança que esse erro apareceu em issue anterior, estranho ainda aparecer aqui. Eliminar tanto as formas com uu quanto uú de agauchar.
4) inexistência de acento nas formas rizotônicas de agraudar:
agraude PRES-SUBJ-3SG-SUFFIX agraudar erro agraúde PRES-SUBJ-3SG-SUFFIX agraudar agraudem PRES-SUBJ-3PL-SUFFIX agraudar erro agraúdem PRES-SUBJ-3PL-SUFFIX agraudar agraudes PRES-SUBJ-2SG-SUFFIX agraudar erro agraúdes PRES-SUBJ-2SG-SUFFIX agraudar agraude PRES-SUBJ-1SG-SUFFIX agraudar erro agraúde PRES-SUBJ-1SG-SUFFIX agraudar agrauda PRES-IND-3SG-SUFFIX agraudar erro agraúda PRES-IND-3SG-SUFFIX agraudar etc. Ver: http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=37655
É interessante que esse erro sugere erro de modelagem do algoritmo que gerou essas formas para constituir os recursos que foram incorporados ao MorphoBr. Esse algoritmo não levou em conta essas exceções. Talvez seja o caso de eu revisar as regras flexionais da PorGram para dar conta desses casos.
5) formas do verbo aguar, possivelmente, subtipo de 1):
águem PRES-SUBJ-3PL-SUFFIX aguar aguem PRES-SUBJ-3PL-SUFFIX aguar ágüem PRES-SUBJ-3PL-SUFFIX aguar etc. Ver: http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=8115
Essa lista de 5 tipos, evidentemente, não é exaustiva. Parei a verificação na linha 556 de irregs.txt. Como esses problemas são recorrentes, afetando dezenas de outros exemplos, a sua eliminação da lista vai reduzir em muito o arquivo original, permitindo uma nova verificação manual sobre um conjunto de dados menor. Depois repetimos o processo e vamos, recursivamente, diminuindo a lista. Esses problemas enfatizam a importância da implementação do algoritmo de classificação de formas verbais em regulares e irregulares, conforme delineado em mais de uma issue da PorGram. Várias vezes, @arademaker chamou a atenção para a inexistência de uma ferramenta de validação de entradas. As regras de flexão da PorGram, associadas com o programa em Haskell da @analununes, constituem um passo nessa direção.
@arademaker e @analununes, mais casos de 3):
a) formas de aguerrir com j ou g em vez de r:
aguirra PRES-SUBJ-3SG-SUFFIX aguerrir aguerja PRES-SUBJ-3SG-SUFFIX aguerrir etc.
aguerríssemos IMPF-SUBJ-1PL-SUFFIX aguerrir aguergíssemos IMPF-SUBJ-1PL-SUFFIX aguerrir etc.
Particípio estranho:
aguerrido PAST-PART-SUFFIX aguerrir aguerto PAST-PART-SUFFIX aguerrir ???
http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=88329
b) formas de ajesuitar com z em vez de t (provenientes de Silva 2019?):
ajesuite PRES-SUBJ-3SG-SUFFIX ajesuitar ajesuíze PRES-SUBJ-3SG-SUFFIX ajesuitar http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=81350
c) formas de anexar com gu em vez de x
anexe PRES-SUBJ-3SG-SUFFIX anexar anegue PRES-SUBJ-3SG-SUFFIX anexar anexem PRES-SUBJ-3PL-SUFFIX anexar aneguem PRES-SUBJ-3PL-SUFFIX anexar anexes PRES-SUBJ-2SG-SUFFIX anexar anegues PRES-SUBJ-2SG-SUFFIX anexar anexeis PRES-SUBJ-2PL-SUFFIX anexar anegueis PRES-SUBJ-2PL-SUFFIX anexar
d) formas de INFL-INF-2SG-SUFFIX sem res final, por exemplo:
anexares INFL-INF-2SG-SUFFIX anexar anexa INFL-INF-2SG-SUFFIX anexar
e) formas com truncamento do radical arraçarraçar e arregaçarregaçar (esses verbos existem?)
arrace PRES-SUBJ-1SG-SUFFIX arraçarraçar arraçasse IMPF-SUBJ-1SG-SUFFIX arraçarraçar etc.
Parei análise na linha 1400.
@arademaker e @analununes, pesquisei o tal estranho e suspeito verbo arregaçarregaçar no Google, a única coisa que encontrei foi esta:
https://svn.spraakdata.gu.se/clt/naacl/2015/extract/data/freeling/base_forms_pt_verbs.txt
Ou seja, tudo indica que herdamos esse verbo do Freeling. Suspeito que, nesse recurso, essa forma espúria surgiu por conta de erro de segmentação (apagamento de um espaço ou quebra de linha) dos dados, que fundiu os verbos arregaçar e regaçar. O outro verbo suspeito, arraçarraçar, tem a mesma origem:
https://svn.spraakdata.gu.se/clt/naacl/2015/extract/data/freeling/base_forms_pt_verbs.txt
Deriva da fusão dos verbos legítimos arraçar e raçar.
Mais problemas decorrente da fusão de verbos diferentes, no caso arriçar e riçar:
arrice PRES-SUBJ-1SG-SUFFIX arriçarriçar arriçasse IMPF-SUBJ-1SG-SUFFIX arriçarriçar arriçar FUT-SUBJ-1SG-SUFFIX arriçarriçar arriça PRES-IND-3SG-SUFFIX arriçarriçar arriçaram PERF-IND-3PL-SUFFIX arriçarriçar arriçaste PERF-IND-2SG-SUFFIX arriçarriçar arriçara PLUPERF-3SG-SUFFIX arriçarriçar arriçara PLUPERF-1SG-SUFFIX arriçarriçar arriçarem INFL-INF-3PL-SUFFIX arriçarriçar arriçares INFL-INF-2SG-SUFFIX arriçarriçar arriçardes INFL-INF-2PL-SUFFIX arriçarriçar arriçar INFL-INF-1SG-SUFFIX arriçarriçar arriçarmos INFL-INF-1PL-SUFFIX arriçarriçar arriçava IMPF-IND-3SG-SUFFIX arriçarriçar arriçava IMPF-IND-1SG-SUFFIX arriçarriçar arriçaria FUT-PRET-1SG-SUFFIX arriçarriçar
O lema correto é arriçar. É bom verificar se existe o verbo riçar no MorphoBr, incluindo-o também se for preciso. Essa mesma verificação deve ocorrer com os demais casos de fusão.
@analununes, mais casos de troca de consoante final do radical:
arruíne PRES-SUBJ-3SG-SUFFIX arruinar arruíze PRES-SUBJ-3SG-SUFFIX arruinar erro arruínem PRES-SUBJ-3PL-SUFFIX arruinar arruízem PRES-SUBJ-3PL-SUFFIX arruinar erro etc.
@analununes, segundo http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=1990, o verbo aspergir não sofre alternância vocálica no radical. Portanto, as formas sem alternância, provavelmente geradas pelas regras de my-irules.tdl, devem ser incluídas, pois não parecem constar no MorphoBr:
aspirja PRES-SUBJ-3SG-SUFFIX aspergir aspirjam PRES-SUBJ-3PL-SUFFIX aspergir aspirjas PRES-SUBJ-2SG-SUFFIX aspergir aspirjais PRES-SUBJ-2PL-SUFFIX aspergir aspirja PRES-SUBJ-1SG-SUFFIX aspergir aspirjamos PRES-SUBJ-1PL-SUFFIX aspergir aspirjo PRES-IND-1SG-SUFFIX aspergir
Vou pesquisar se existem mesmo essas variantes, mas, seja como for, as formas com e devem ser incluídas.
@arademaker e @analununes, mais casos de 3):
c) formas de anexar com gu em vez de x
anexe PRES-SUBJ-3SG-SUFFIX anexar anegue PRES-SUBJ-3SG-SUFFIX anexar anexem PRES-SUBJ-3PL-SUFFIX anexar aneguem PRES-SUBJ-3PL-SUFFIX anexar anexes PRES-SUBJ-2SG-SUFFIX anexar anegues PRES-SUBJ-2SG-SUFFIX anexar anexeis PRES-SUBJ-2PL-SUFFIX anexar anegueis PRES-SUBJ-2PL-SUFFIX anexar
@analununes, mais casos análogos:
atente PRES-SUBJ-3SG-SUFFIX atentar atengue PRES-SUBJ-3SG-SUFFIX atentar erro atentem PRES-SUBJ-3PL-SUFFIX atentar atenguem PRES-SUBJ-3PL-SUFFIX atentar erro atentes PRES-SUBJ-2SG-SUFFIX atentar atengues PRES-SUBJ-2SG-SUFFIX atentar erro atenteis PRES-SUBJ-2PL-SUFFIX atentar atengueis PRES-SUBJ-2PL-SUFFIX atentar erro etc.
@analununes:
atido PAST-PART-SUFFIX ater ateido PAST-PART-SUFFIX ater erro
Verificada até linha 1656.
Mais problemas decorrente da fusão de verbos diferentes, no caso arriçar e riçar:
arrice PRES-SUBJ-1SG-SUFFIX arriçarriçar arriçasse IMPF-SUBJ-1SG-SUFFIX arriçarriçar arriçar FUT-SUBJ-1SG-SUFFIX arriçarriçar arriça PRES-IND-3SG-SUFFIX arriçarriçar arriçaram PERF-IND-3PL-SUFFIX arriçarriçar arriçaste PERF-IND-2SG-SUFFIX arriçarriçar arriçara PLUPERF-3SG-SUFFIX arriçarriçar arriçara PLUPERF-1SG-SUFFIX arriçarriçar arriçarem INFL-INF-3PL-SUFFIX arriçarriçar arriçares INFL-INF-2SG-SUFFIX arriçarriçar arriçardes INFL-INF-2PL-SUFFIX arriçarriçar arriçar INFL-INF-1SG-SUFFIX arriçarriçar arriçarmos INFL-INF-1PL-SUFFIX arriçarriçar arriçava IMPF-IND-3SG-SUFFIX arriçarriçar arriçava IMPF-IND-1SG-SUFFIX arriçarriçar arriçaria FUT-PRET-1SG-SUFFIX arriçarriçar
O lema correto é arriçar. É bom verificar se existe o verbo riçar no MorphoBr, incluindo-o também se for preciso. Essa mesma verificação deve ocorrer com os demais casos de fusão.
@leoalenc, no commit 9412b64ca7a13f1c62c8365fd358304bc55bba59 eliminei os lemas arraçarraçar, arregaçarregaçar e arriçarriçar com a função corLemma. As formas de regaçar e riçar estão no MorphoBr, raçar deve ser adicionada? Não encontrei esse verbo em https://svn.spraakdata.gu.se/clt/naacl/2015/extract/data/freeling/base_forms_pt_verbs.txt.
As seguintes entradas foram criadas:
arraceis arraçar+V+IMP+2+PL
arraces arraçar+V+IMP+2+SG
arregaceis arregaçar+V+IMP+2+PL
arregaces arregaçar+V+IMP+2+SG
arriceis arriçar+V+IMP+2+PL
arrices arriçar+V+IMP+2+SG
Estas foram eliminadas: deletadas.txt
Porque usar este link específico @analununes ? O dicionário de freeling usamos como ponto de partida para o morphobr e este link não é o repositório oficial do freeling.
Eu estou preocupado com este issue. São vários os erros aparentemente detectados pela inspeção manual de entradas não esperadas na tabela de formas irregulares que o algoritmo gerou.
Então como iremos garantir que efetivamente todas as formas espúrias aqui listadas explícita e implicitamente serão efetivamente eliminadas e somente elas?
Pra piorar, como a eliminação de algumas formas está causando modificação em praticamente todos os arquivos de verbos, o diff do GitHub não será de nenhuma utilidade.
Mais problemas decorrente da fusão de verbos diferentes, no caso arriçar e riçar:
arrice PRES-SUBJ-1SG-SUFFIX arriçarriçar arriçasse IMPF-SUBJ-1SG-SUFFIX arriçarriçar arriçar FUT-SUBJ-1SG-SUFFIX arriçarriçar arriça PRES-IND-3SG-SUFFIX arriçarriçar arriçaram PERF-IND-3PL-SUFFIX arriçarriçar arriçaste PERF-IND-2SG-SUFFIX arriçarriçar arriçara PLUPERF-3SG-SUFFIX arriçarriçar arriçara PLUPERF-1SG-SUFFIX arriçarriçar arriçarem INFL-INF-3PL-SUFFIX arriçarriçar arriçares INFL-INF-2SG-SUFFIX arriçarriçar arriçardes INFL-INF-2PL-SUFFIX arriçarriçar arriçar INFL-INF-1SG-SUFFIX arriçarriçar arriçarmos INFL-INF-1PL-SUFFIX arriçarriçar arriçava IMPF-IND-3SG-SUFFIX arriçarriçar arriçava IMPF-IND-1SG-SUFFIX arriçarriçar arriçaria FUT-PRET-1SG-SUFFIX arriçarriçar
O lema correto é arriçar. É bom verificar se existe o verbo riçar no MorphoBr, incluindo-o também se for preciso. Essa mesma verificação deve ocorrer com os demais casos de fusão.
@leoalenc, no commit 9412b64 eliminei os lemas arraçarraçar, arregaçarregaçar e arriçarriçar com a função corLemma. As formas de regaçar e riçar estão no MorphoBr, raçar deve ser adicionada? Não encontrei esse verbo em https://svn.spraakdata.gu.se/clt/naacl/2015/extract/data/freeling/base_forms_pt_verbs.txt.
As seguintes entradas foram criadas:
arraceis arraçar+V+IMP+2+PL arraces arraçar+V+IMP+2+SG arregaceis arregaçar+V+IMP+2+PL arregaces arregaçar+V+IMP+2+SG arriceis arriçar+V+IMP+2+PL arrices arriçar+V+IMP+2+SG
Estas foram eliminadas: deletadas.txt
@analununes, muito bem! Você pode, por favor, checar se o recurso, agora, contém todas as formas dos seguintes lemas: raçar, arraçar, riçar, arriçar, arregaçar e regaçar? Sobre raçar, parece existir, portanto, vamos incluí-lo, ver, por exemplo:
@leoalenc e @arademaker, fiz um documento com as formas espúrias indicadas por @leoalenc, no documento também deixei registrado os comandos que usei para encontrar as entradas. Esse documento não inclui as entradas do tipo 1. espurias.txt Eliminei essas entradas no commit c14ac346df5cfa44d2ebb8d1e5859b9913ab072c. A tabela atualizada está aqui.
Bem, infelizmente é difícil avaliar as mudanças no repositório. Como falamos, os diffs na interface web não são possíveis e praticamente todos os arquivos foram modificados, logo o principio de menor diferença entre mudanças não foi preservado e os tamanhos de arquivos ainda parecem estar fora do limite suportado pela interface do GitHub.
Outra coisa que seria bom evitarmos é commit direto no master. Sempre importante fazer um branch com nome do issue e fazer um PR para o master.
correção, vi agora que vc está usando um branch... ok. Então imagino que vc fará um PR quando considerar que suas mudanças estão prontas para serem aplicadas no master, correto?
@leoalenc e @arademaker, fiz um documento com as formas espúrias indicadas por @leoalenc, no documento também deixei registrado os comandos que usei para encontrar as entradas. Esse documento não inclui as entradas do tipo 1. espurias.txt Eliminei essas entradas no commit c14ac34. A tabela atualizada está aqui.
Obrigado, @analununes. Notei que você usou o comando abaixo para extrair formas não terminadas em res:
~/MorphoBr/verbs$ egrep '[^(res)][[:space:]].*\+V\+INF\+2\+SG' * > ../../egrep
Na expressão regular [^(res)]
, porém, não se tem a negação da sequência res, mas a negação da classe de caracteres constituída por ), (, r, e e s. Desse modo, a expressão [^(res)][[:space:]]
, usada no egrep , permite extrair linhas em que não se tem ), (, r, e ou s seguido de algum tipo de espaço em branco.
Nesse caso, essa diferença semântica pode não ter feito muita diferença. Noutros casos, contudo, pode produzir resultados errados. Veja:
echo "comprasre" | grep -E "[^(res)]$"
Creio que o seguinte seria um comando mais adequado:
echo "anexa anexar+V+INF+2+SG" | awk '$1 !~ /res$/ && $2 ~ /.+\+V\+INF\+2\+SG/'
anexa anexar+V+INF+2+SG
echo "anexares anexar+V+INF+2+SG" | awk '$1 !~ /res$/ && $2 ~ /.+\+V\+INF\+2\+SG/'
Seria bom revisar as expressões. O que acha, @arademaker?
commit 48684c3c03aad4f821791c12ea90cf9307b6e5da
veiste vir+V+PRF+2+SG errada vieste vir+V+PRF+2+SG correta
quisermos FUT-SUBJ-1PL-SUFFIX querer forma correta quismos FUT-SUBJ-1PL-SUFFIX querer forma errada
quisdes FUT-SUBJ-2PL-SUFFIX querer forma errada quiserdes FUT-SUBJ-2PL-SUFFIX querer forma correta
commit c544e13 -aia na flexão -ar+V+IMP+2+SG
abaldeia abaldear+V+IMP+2+SG abaldeaia abaldear+V+IMP+2+SG erro abarbeia abarbear+V+IMP+2+SG abarbeaia abarbear+V+IMP+2+SG erro
commit d3c40aa abstrói, taba, abaular, agraudar, aguerrir e restringir
abstrói abstruir+V+IMP+2+SG erro abstrui abstruir+V+IMP+2+SG
1. erros completamente arbitrários
aba PRES-IND-3SG-SUFFIX abar taba PRES-IND-3SG-SUFFIX abar abaule PRES-SUBJ-3SG-SUFFIX abaular abaúle PRES-SUBJ-3SG-SUFFIX abaular etc.
Em todas as formas de abaular,ocorre o ditongo au e não o hiato aú no radical:
1. inexistência de acento nas formas rizotônicas de _agraudar_:
agraude PRES-SUBJ-3SG-SUFFIX agraudar erro agraúde PRES-SUBJ-3SG-SUFFIX agraudar agraudem PRES-SUBJ-3PL-SUFFIX agraudar erro agraúdem PRES-SUBJ-3PL-SUFFIX agraudar
Particípio estranho:
aguerrido PAST-PART-SUFFIX aguerrir aguerto PAST-PART-SUFFIX aguerrir ???
restringto restringir+V+PTPST+M+SG
commit 8c2b517
INFL-INF-2SG não terminando em "res" #110
Forma suspeitare sem esse final do infinitivo flexionado segunda pessoa do singular do verbo suspeitar. procurar na lista de regulares se existem outras duplicatas do infinitivo flexionado na segunda pessoa do singular.
commit cf40cf0
Diversas formas do verbo agauchar com dois us:
agauche PRES-SUBJ-3SG-SUFFIX agauchar agauúhe PRES-SUBJ-3SG-SUFFIX agauchar
commit f34611d
a) formas de aguerrir com j ou g em vez de r:
aguirra PRES-SUBJ-3SG-SUFFIX aguerrir aguerja PRES-SUBJ-3SG-SUFFIX aguerrir etc.
commit 4eddd71
formas de ajesuitar com z em vez de t (provenientes de Silva 2019?):
ajesuite PRES-SUBJ-3SG-SUFFIX ajesuitar ajesuíze PRES-SUBJ-3SG-SUFFIX ajesuitar
commit f16c2b7
c) formas de anexar com gu em vez de x
anexe PRES-SUBJ-3SG-SUFFIX anexar anegue PRES-SUBJ-3SG-SUFFIX anexar
commit daa354e
atido PAST-PART-SUFFIX ater ateido PAST-PART-SUFFIX ater erro
commit 4d905b2
Esta questão foca os verbos da terceira conjugação do tipo de ferir e vestir que sofrem alternância vocálica na primeira pessoa > do singular do presente do indicativo e em todo o presente do subjuntivo, bem como nas formas derivadas do imperativo #102
commit c5b009d
E para gauchar temos também algumas várias formas com duplo uu #51
Arquivo com comandos e entradas eliminadas: espurias.txt
Tabela de irregulares atualizada: irregs.txt
@analununes, segundo http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=1990, o verbo aspergir não sofre alternância vocálica no radical. Portanto, as formas sem alternância, provavelmente geradas pelas regras de my-irules.tdl, devem ser incluídas, pois não parecem constar no MorphoBr:
aspirja PRES-SUBJ-3SG-SUFFIX aspergir aspirjam PRES-SUBJ-3PL-SUFFIX aspergir aspirjas PRES-SUBJ-2SG-SUFFIX aspergir aspirjais PRES-SUBJ-2PL-SUFFIX aspergir aspirja PRES-SUBJ-1SG-SUFFIX aspergir aspirjamos PRES-SUBJ-1PL-SUFFIX aspergir aspirjo PRES-IND-1SG-SUFFIX aspergir
Vou pesquisar se existem mesmo essas variantes, mas, seja como for, as formas com e devem ser incluídas.
@leoalenc, as formas geradas pelas regras não foram as esperadas:
aspirga aspergir+V+SBJR+1+SG
aspirga aspergir+V+SBJR+3+SG
aspirgais aspergir+V+SBJR+2+PL
aspirgam aspergir+V+SBJR+3+PL
aspirgamos aspergir+V+SBJR+1+PL
aspirgas aspergir+V+SBJR+2+SG
aspirgo aspergir+V+PRS+1+SG
No commit 6a4431ad1a3a700ff3f7f7818e4b03fd4f46d67e foram corrigidos os lemas arraçarraçar
, arregaçarregaçar
e arriçarriçar
.
No commit 6da66b267cbab37bbe940f02e6fab2aa574fa563 foram adicionados as formas geradas pelas regras de my-irules.tdl dos verbos: #76
raçar
priorizar
reaglutinar
desestimular
gestar
reconfigurar
credenciar
reaparelhar
pós-graduar
repactuar
superfaturar
reinstaurar
acessar
monitorar
realocar
elencar
contra-argumentar
operacionalizar
reapropriar
todas as entradas adicionadas estão neste arquivo: adicionadas.txt
@analununes issues longos como este devem ser verificados com cuidado. Por favor, ao fechar, confirme que TODOS os casos acima foram tratados e sumarize as decisões.
@leoalenc, as formas geradas pelas regras não foram as esperadas:
aspirga aspergir+V+SBJR+1+SG aspirga aspergir+V+SBJR+3+SG aspirgais aspergir+V+SBJR+2+PL aspirgam aspergir+V+SBJR+3+PL aspirgamos aspergir+V+SBJR+1+PL aspirgas aspergir+V+SBJR+2+SG aspirgo aspergir+V+PRS+1+SG
@analununes, obrigado. De fato, esse verbo é irregular, apresentando variações no radical não contempladas pelas regras de my-irules.tdl. Você pode fazer as inclusões devidas seguindo o paradigma abaixo?
http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=1990
Veja que formas como eu aspirjo constam da conjugação do verbo aspergir segundo alguns sites:
https://www.conjugacao-de-verbos.com/verbo/aspergir.php
https://estraviz.org/conjugar.php?palavra=aspergir
Não sei se o primeiro é confiável, e o segundo é, na verdade, um dicionário da língua galega. No momento, temos:
awk '$3 ~ /^aspergir$/ {print $1,$2,$3}' irregs.txt
aspirjo PRES-IND-1SG-SUFFIX aspergir aspirjas PRES-SUBJ-2SG-SUFFIX aspergir aspirjamos PRES-SUBJ-1PL-SUFFIX aspergir aspirjam PRES-SUBJ-3PL-SUFFIX aspergir aspirjais PRES-SUBJ-2PL-SUFFIX aspergir aspirja PRES-SUBJ-1SG-SUFFIX aspergir aspirja PRES-SUBJ-3SG-SUFFIX aspergir
Cunha e Cintra (1985, p. 409) não abonam essas formas com i, mas prefiro deixá-las, pois podem ocorrer dialetalmente.
@analununes, mais erros de grafia:
awk '$3 ~ /^ganhar$/ {print $1,$2,$3}' irregs.txt
ganhe PRES-SUBJ-3SG-SUFFIX ganhar gangue PRES-SUBJ-3SG-SUFFIX ganhar ERRO ganhe PRES-SUBJ-1SG-SUFFIX ganhar gangue PRES-SUBJ-1SG-SUFFIX ganhar ERRO ganhei PERF-IND-1SG-SUFFIX ganhar ganguei PERF-IND-1SG-SUFFIX ganhar ERRO ganheis PRES-SUBJ-2PL-SUFFIX ganhar gangueis PRES-SUBJ-2PL-SUFFIX ganhar ERRO ganhem PRES-SUBJ-3PL-SUFFIX ganhar ganguem PRES-SUBJ-3PL-SUFFIX ganhar ERRO ganhemos PRES-SUBJ-1PL-SUFFIX ganhar ganguemos PRES-SUBJ-1PL-SUFFIX ganhar ERRO ganhes PRES-SUBJ-2SG-SUFFIX ganhar gangues PRES-SUBJ-2SG-SUFFIX ganhar ERRO ganhado PAST-PART-SUFFIX ganhar ganho PAST-PART-SUFFIX ganhar
Parece haver um padrão aí, troca do h dígrafo nh por alguma outra letra. Pode checar se há mais casos desse tipo?
@analununes vamos tentar fechar este issue? Esta ficando longo e seria bom fecharmos para no futuro tratarmos de erros em issues mais específicos.
@analununes vamos tentar fechar este issue? Esta ficando longo e seria bom fecharmos para no futuro tratarmos de erros em issues mais específicos.
Pode ser! Vou revisar.
@analununes, mais erros de grafia:
awk '$3 ~ /^ganhar$/ {print $1,$2,$3}' irregs.txt
ganhe PRES-SUBJ-3SG-SUFFIX ganhar gangue PRES-SUBJ-3SG-SUFFIX ganhar ERRO ganhe PRES-SUBJ-1SG-SUFFIX ganhar gangue PRES-SUBJ-1SG-SUFFIX ganhar ERRO ganhei PERF-IND-1SG-SUFFIX ganhar ganguei PERF-IND-1SG-SUFFIX ganhar ERRO ganheis PRES-SUBJ-2PL-SUFFIX ganhar gangueis PRES-SUBJ-2PL-SUFFIX ganhar ERRO ganhem PRES-SUBJ-3PL-SUFFIX ganhar ganguem PRES-SUBJ-3PL-SUFFIX ganhar ERRO ganhemos PRES-SUBJ-1PL-SUFFIX ganhar ganguemos PRES-SUBJ-1PL-SUFFIX ganhar ERRO ganhes PRES-SUBJ-2SG-SUFFIX ganhar gangues PRES-SUBJ-2SG-SUFFIX ganhar ERRO ganhado PAST-PART-SUFFIX ganhar ganho PAST-PART-SUFFIX ganhar
Parece haver um padrão aí, troca do h dígrafo nh por alguma outra letra. Pode checar se há mais casos desse tipo?
Com o comando:
MorphoBr/verbs$ egrep '^[^h]*[[:space:]].*nh' ./*
encontrei apenas entradas que são flexões do verbo ganhar, que foram eliminadas no commit c16f7028975f6a3ea22cdc535276927fa9dfb80b:
gangue ganhar+V+SBJR+3+SG
gangue ganhar+V+SBJR+1+SG
gangue ganhar+V+IMP+3+SG
ganguei ganhar+V+PRF+1+SG
gangueis ganhar+V+SBJR+2+PL
ganguem ganhar+V+SBJR+3+PL
ganguem ganhar+V+IMP+3+PL
ganguemos ganhar+V+SBJR+1+PL
ganguemos ganhar+V+IMP+1+PL
gangues ganhar+V+SBJR+2+SG
Exceto os casos de velha ortografia #93 e adição de formas do verbo aspergir #120 que possuem issues próprias, todos os problemas relatados nessa issue foram resolvidos.
@arademaker e @analununes, examinando o arquivo preparado pela @analununes https://github.com/LR-POR/PorGram/files/6927615/amostra-irregs.txt, referido em #104, constatei os seguintes erros:
~/MorphoBr/verbs$ grep -Ph "\tvir\+V\+PRF\+2\+SG" verbs-a*
~/MorphoBr/verbs$ grep -Ph "\tver\+V\+PRS\+3\+PL" verbs-a*
A forma vêem deixou de ser correta pelo novo acordo ortográfico:
http://www.portaldalinguaportuguesa.org/simplesearch.php?action=lemma&lemma=110412&highlight=^ver$ https://ciberduvidas.iscte-iul.pt/consultorio/perguntas/veem-e-vem-mais-uma-vez/22604