LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

formas espúrias de verbos devidas a erros ortográficos #106

Closed leoalenc closed 2 years ago

leoalenc commented 2 years ago

@arademaker e @analununes, examinando o arquivo preparado pela @analununes https://github.com/LR-POR/PorGram/files/6927615/amostra-irregs.txt, referido em #104, constatei os seguintes erros:

~/MorphoBr/verbs$ grep -Ph "\tvir\+V\+PRF\+2\+SG" verbs-a*

veiste vir+V+PRF+2+SG errada vieste vir+V+PRF+2+SG correta

~/MorphoBr/verbs$ grep -Ph "\tver\+V\+PRS\+3\+PL" verbs-a*

veem ver+V+PRS+3+PL correta vêem ver+V+PRS+3+PL errada

A forma vêem deixou de ser correta pelo novo acordo ortográfico:

http://www.portaldalinguaportuguesa.org/simplesearch.php?action=lemma&lemma=110412&highlight=^ver$ https://ciberduvidas.iscte-iul.pt/consultorio/perguntas/veem-e-vem-mais-uma-vez/22604

arademaker commented 2 years ago

O segundo caso é interessante. O que devemos fazer com formas que não estão no novo acordo? Qualquer futuro uso do recurso com corpora poderá resultar em gap se removermos ... textos irão conter formas que eventualmente deixaram de ser aceitas.

Marcamos estas formas ? Separamos em outro arquivo ? Obviamente manter estes registros pode ser bem complicado.

leoalenc commented 2 years ago

O segundo caso é interessante. O que devemos fazer com formas que não estão no novo acordo? Qualquer futuro uso do recurso com corpora poderá resultar em gap se removermos ... textos irão conter formas que eventualmente deixaram de ser aceitas.

Marcamos estas formas ? Separamos em outro arquivo ? Obviamente manter estes registros pode ser bem complicado.

@arademaker, esse problema já foi levantado em #93. No caso da presente issue, que afeta uma única forma, num primeiro impulso, quis eliminá-la, mas agora vejo o lado para o qual você chama atenção, preferindo deixar como está. Depois retomamos #93, considerando a possibilidade de marcar com uma etiqueta essas formas.

leoalenc commented 2 years ago

@arademaker e @analununes, seja como for, acho que devemos eliminar esta forma:

veiste vir+V+PRF+2+SG errada

arademaker commented 2 years ago

Parece que o erro propagou para outros lemas:

Search term: veiste change
Directory: ~/work/morpho-br/

verbs/verbs-aat.dict
38976deveiste   devir+V+PRF+2+SG

verbs/verbs-acm.dict
11150veiste vir+V+PRF+2+SG

verbs/verbs-abs.dict
11407obveiste   obvir+V+PRF+2+SG

verbs/verbs-abk.dict
34034interveiste    intervir+V+PRF+2+SG

verbs/verbs-aay.dict
31918entreveiste    entrevir+V+PRF+2+SG

verbs/verbs-aah.dict
38881aveiste    avir+V+PRF+2+SG

verbs/verbs-acg.dict
20623sobreveiste    sobrevir+V+PRF+2+SG

verbs/verbs-aaq.dict
12948desaveiste desavir+V+PRF+2+SG
36174desconveiste   desconvir+V+PRF+2+SG

verbs/verbs-acd.dict
27923reveiste   revir+V+PRF+2+SG

verbs/verbs-abz.dict
9585 proveiste  provir+V+PRF+2+SG

verbs/verbs-aab.dict
39036adveiste   advir+V+PRF+2+SG

verbs/verbs-aan.dict
27796contraveiste   contravir+V+PRF+2+SG
29474conveiste  convir+V+PRF+2+SG

verbs/verbs-acb.dict
15669reconveiste    reconvir+V+PRF+2+SG
leoalenc commented 2 years ago

Parece que o erro propagou para outros lemas:

verbs/verbs-aat.dict
38976deveiste devir+V+PRF+2+SG

verbs/verbs-acm.dict
11150veiste   vir+V+PRF+2+SG

verbs/verbs-abs.dict
11407obveiste obvir+V+PRF+2+SG

verbs/verbs-abk.dict
34034interveiste  intervir+V+PRF+2+SG

verbs/verbs-aay.dict
31918entreveiste  entrevir+V+PRF+2+SG

verbs/verbs-aah.dict
38881aveiste  avir+V+PRF+2+SG

verbs/verbs-acg.dict
20623sobreveiste  sobrevir+V+PRF+2+SG

verbs/verbs-aaq.dict
12948desaveiste   desavir+V+PRF+2+SG
36174desconveiste desconvir+V+PRF+2+SG

verbs/verbs-acd.dict
27923reveiste revir+V+PRF+2+SG

verbs/verbs-abz.dict
9585 proveiste    provir+V+PRF+2+SG

verbs/verbs-aab.dict
39036adveiste advir+V+PRF+2+SG

verbs/verbs-aan.dict
27796contraveiste contravir+V+PRF+2+SG
29474conveiste    convir+V+PRF+2+SG

verbs/verbs-acb.dict
15669reconveiste  reconvir+V+PRF+2+SG

@arademaker, bem lembrado verificar isso. Correto, todas essas são formas espúrias.

arademaker commented 2 years ago

Related to https://github.com/LR-POR/PorGram/issues/15

analununes commented 2 years ago

@arademaker e @leoalenc, acredito ter encontrado outro erro, as formas com sufixo -asseis estão sendo identificadas como irregulares:

aalenianizasseis    IMPF-SUBJ-2PL-SUFFIX    aalenianizar
aaronicizasseis IMPF-SUBJ-2PL-SUFFIX    aaronicizar
ababalhabilizasseis IMPF-SUBJ-2PL-SUFFIX    ababalhabilizar
ababosabilizasseis  IMPF-SUBJ-2PL-SUFFIX    ababosabilizar
abacalhoo   PRES-IND-1SG-SUFFIX abacalhoar
abacalhôo   PRES-IND-1SG-SUFFIX abacalhoar
abacelabilizasseis  IMPF-SUBJ-2PL-SUFFIX    abacelabilizar
abacializasseis IMPF-SUBJ-2PL-SUFFIX    abacializar
abacinabilizasseis  IMPF-SUBJ-2PL-SUFFIX    abacinabilizar
abadabilizasseis    IMPF-SUBJ-2PL-SUFFIX    abadabilizar
abadernabilizasseis IMPF-SUBJ-2PL-SUFFIX    abadernabilizar
abadessabilizasseis IMPF-SUBJ-2PL-SUFFIX    abadessabilizar
abaetabilizasseis   IMPF-SUBJ-2PL-SUFFIX    abaetabilizar
abafabilizasseis    IMPF-SUBJ-2PL-SUFFIX    abafabilizar
abaganhabilizasseis IMPF-SUBJ-2PL-SUFFIX    abaganhabilizar
abagaçabilizasseis  IMPF-SUBJ-2PL-SUFFIX    abagaçabilizar
abagoabilizasseis   IMPF-SUBJ-2PL-SUFFIX    abagoabilizar
 impf-subj-2pl-suffix :=
%suffix (ir ísseis) (er êsseis) (ar ásseis)
impf-subj-2pl-lex-rule.
leoalenc commented 2 years ago

@arademaker e @leoalenc, acredito ter encontrado outro erro, as formas com sufixo -asseis estão sendo identificadas como irregulares:

aalenianizasseis  IMPF-SUBJ-2PL-SUFFIX    aalenianizar
aaronicizasseis   IMPF-SUBJ-2PL-SUFFIX    aaronicizar
ababalhabilizasseis   IMPF-SUBJ-2PL-SUFFIX    ababalhabilizar
ababosabilizasseis    IMPF-SUBJ-2PL-SUFFIX    ababosabilizar
abacalhoo PRES-IND-1SG-SUFFIX abacalhoar
abacalhôo PRES-IND-1SG-SUFFIX abacalhoar
abacelabilizasseis    IMPF-SUBJ-2PL-SUFFIX    abacelabilizar
abacializasseis   IMPF-SUBJ-2PL-SUFFIX    abacializar
abacinabilizasseis    IMPF-SUBJ-2PL-SUFFIX    abacinabilizar
abadabilizasseis  IMPF-SUBJ-2PL-SUFFIX    abadabilizar
abadernabilizasseis   IMPF-SUBJ-2PL-SUFFIX    abadernabilizar
abadessabilizasseis   IMPF-SUBJ-2PL-SUFFIX    abadessabilizar
abaetabilizasseis IMPF-SUBJ-2PL-SUFFIX    abaetabilizar
abafabilizasseis  IMPF-SUBJ-2PL-SUFFIX    abafabilizar
abaganhabilizasseis   IMPF-SUBJ-2PL-SUFFIX    abaganhabilizar
abagaçabilizasseis    IMPF-SUBJ-2PL-SUFFIX    abagaçabilizar
abagoabilizasseis IMPF-SUBJ-2PL-SUFFIX    abagoabilizar
 impf-subj-2pl-suffix :=
%suffix (ir ísseis) (er êsseis) (ar ásseis)
impf-subj-2pl-lex-rule.

@analununes, muito bem observado! As formas em asseis de IMPF-SUBJ-2PL sem acento são espúrias! Devem ser removidas ou acentuadas. @arademaker, seriam formas geradas (erroneamente) pelo Hélio? Parece que todos os lemas terminam em izar.

leoalenc commented 2 years ago

@arademaker e @analununes, quismos e quisdes são outras formas espúrias que provocaram erros na tabela de exceções:

quisermos FUT-SUBJ-1PL-SUFFIX querer forma correta quismos FUT-SUBJ-1PL-SUFFIX querer forma errada

quisdes FUT-SUBJ-2PL-SUFFIX querer forma errada quiserdes FUT-SUBJ-2PL-SUFFIX querer forma correta

leoalenc commented 2 years ago

@arademaker, mais formas espúrias, agora detectadas pelo algoritmo da @analununes, que gerou o arquivo https://github.com/LR-POR/PorGram/files/6942926/regra2-sem-s.txt:

head regra2-sem-s.txt

abalausuraste abalaustrar+V+PRF+2+SG erro abalaustraste abalaustrar+V+PRF+2+SG abaldeia abaldear+V+IMP+2+SG abaldeaia abaldear+V+IMP+2+SG erro abarbeia abarbear+V+IMP+2+SG abarbeaia abarbear+V+IMP+2+SG erro abastardeia abastardear+V+IMP+2+SG abastardeaia abastardear+V+IMP+2+SG erro abstrói abstruir+V+IMP+2+SG erro abstrui abstruir+V+IMP+2+SG

Ver http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=69845.

arademaker commented 2 years ago

Ok, precisamos de uma estratégia para eliminar formas do recurso. O primeiro impulso é manualmente pagar a linha com um editor de texto. Mas minimamente precisamos verificar se existe alguma outra entrada para a análise sendo eliminada.

Por exemplo, se vou eliminar

veiste vir+V+PRF+2+SG

Preciso garantir que existe outra entrada para o mesmo lema e análise:

???? vir+V+PRF+2+SG

Idealmente, no futuro, seria bom recorrer a biblioteca que estamos criando e ter um comando para remoção e inserção de entradas que fariam estes testes de consistência.

@leoalenc algum outro cuidado para remoção ou adição de formas que devemos ter para tentar garantir consistência do recurso?

leoalenc commented 2 years ago

Ok, precisamos de uma estratégia para eliminar formas do recurso. O primeiro impulso é manualmente pagar a linha com um editor de texto. Mas minimamente precisamos verificar se existe alguma outra entrada para a análise sendo eliminada.

Por exemplo, se vou eliminar

veiste vir+V+PRF+2+SG

Preciso garantir que existe outra entrada para o mesmo lema e análise:

???? vir+V+PRF+2+SG

Idealmente, no futuro, seria bom recorrer a biblioteca que estamos criando e ter um comando para remoção e inserção de entradas que fariam estes testes de consistência.

@leoalenc algum outro cuidado para remoção ou adição de formas que devemos ter para tentar garantir consistência do recurso?

@arademaker, boa pergunta, mas, no caso das formas espúrias objeto desta issue, como são duplicatas agramaticais de formas gramaticais, já sabemos que podem ser removidas sem deixar lacunas no recurso. De fato, o algoritmo implementado pela @analununes a partir do meu esboço (aquelas regras de remoção que formulei) detecta essas duplicatas espúrias.

leoalenc commented 2 years ago

@leoalenc algum outro cuidado para remoção ou adição de formas que devemos ter para tentar garantir consistência do recurso?

@arademaker, as regras flexionais de my-irules.tdl constituem um bom critério, pois visam a modelar as regularidades e as principais subregularidades da conjugação do português. É claro que não considero essa regras um trabalho fechado e concluído. Posso incluir mais subregularidades por meio de (re)leitura da literatura ou pelo exame da saída do algoritmo da @analununes, que classifica as formas verbais em regulares e irregulares. Com isso, podemos diminuir o tamanho de my-irregs.tab. Isso mostra a importância fundamental do referido algoritmo da @analununes no nosso ecossistema.

leoalenc commented 2 years ago

@analununes , Vendo o mais recente arquivo de formas regulares, constatei um outro tipo de erro ortográfico: formas do verbo cuspir com a letra u repetida.

leoalenc commented 2 years ago

@analununes , mais alguns erros do Morphobr que detectei no mais recente arquivo de formas irregulares gerado pelo seu algoritmo

Curguei, curgue etc. do verbo curvar Não existe gu na conjugação de curvar

Formas do verbo cuspir começadas com cuo

Formas de denegrir com com duas vezes a letra e

Forma suspeitare sem esse final do infinitivo flexionado segunda pessoa do singular do verbo suspeitar. procurar na lista de regulares se existem outras duplicatas do infinitivo flexionado na segunda pessoa do singular.

Formas do verbo suspeitar com gu, Por exemplo suspeigue

analununes commented 2 years ago

@analununes , mais alguns erros do Morphobr que detectei no mais recente arquivo de formas irregulares gerado pelo seu algoritmo:

Curguei, curgue etc. do verbo curvar Não existe gu na conjugação de curvar

Formas do verbo cuspir começadas com cuo

Formas de denegrir com com duas vezes a letra e

Forma suspeitare sem esse final do infinitivo flexionado segunda pessoa do singular do verbo suspeitar. Procurar na lista de regulares se existem outras duplicatas do infinitivo flexionado na segunda pessoa do singular.

Formas do verbo suspeitar com gu, Por exemplo suspeigue

@leoalenc, assim que tiver meu algoritmo pronto vou montar uma lista com essas entradas para você conferir, ok?

leoalenc commented 2 years ago

@analununes , só mais um erro, talvez até já esteja na lista dos casos A serem eliminados: formas do verbo abalaustrar com "lausu".

leoalenc commented 2 years ago

@analununes , só mais um erro, talvez até já esteja na lista dos casos A serem eliminados: formas do verbo abalaustrar com "lausu".

@analununes , Na lista de irregulares irregs.txt, tem muitos erros desse tipo! Procure por lausu e lausú com lema abalaustrar. Essas palavras estão erradas porque foi trocado o t por u ou ú.

leoalenc commented 2 years ago

@arademaker e @analununes, na tabela final irregs.txt, comentada no artigo, encontrei os tipos seguintes de problemas:

1) nova versus velha ortografia: a) oo junto com ôo

abacalhoo PRES-IND-1SG-SUFFIX abacalhoar abacalhôo PRES-IND-1SG-SUFFIX abacalhoar abagoo PRES-IND-1SG-SUFFIX abagoar abagôo PRES-IND-1SG-SUFFIX abagoar etc.

b) aiu junto com aiú

abaiuque PRES-SUBJ-3SG-SUFFIX abaiucar abaiúque PRES-SUBJ-3SG-SUFFIX abaiucar etc.

Ver:

No Brasil, também desaparecem os acentos gráficos nas vogais tónicas i e u quando são antecedidas de um ditongo: baiúca passa a escrever-se baiuca, saiinha passa a ser a forma correta da palavra que antes se escrevia saiínha. http://www.portaldalinguaportuguesa.org/novoacordo.php?action=vop&page=crit1

c)

aboie PRES-SUBJ-3SG-SUFFIX aboiar abóie PRES-SUBJ-3SG-SUFFIX aboiar

Ver:

Segundo as novas regras, os ditongos tónicos na penúltima sílaba deixam de ser marcados com acento gráfico: assim, palavras como jóia e paranóico passam a escrever-se joia e paranoico. No Brasil, esta regra aplica-se também às palavras com ditongo ei tónico, que no Brasil eram até aqui escritas com acento e passam a ser escritas como nos restantes países, ideia e nucleico. http://www.portaldalinguaportuguesa.org/novoacordo.php?action=vop&page=crit1

3) erros completamente arbitrários

aba PRES-IND-3SG-SUFFIX abar taba PRES-IND-3SG-SUFFIX abar abaule PRES-SUBJ-3SG-SUFFIX abaular abaúle PRES-SUBJ-3SG-SUFFIX abaular etc.

Em todas as formas de abaular,ocorre o ditongo au e não o hiato no radical: http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=128469

Diversas formas do verbo agauchar com dois us:

agauche PRES-SUBJ-3SG-SUFFIX agauchar agauúhe PRES-SUBJ-3SG-SUFFIX agauchar

Tenho uma lembrança que esse erro apareceu em issue anterior, estranho ainda aparecer aqui. Eliminar tanto as formas com uu quanto de agauchar.

4) inexistência de acento nas formas rizotônicas de agraudar:

agraude PRES-SUBJ-3SG-SUFFIX agraudar erro agraúde PRES-SUBJ-3SG-SUFFIX agraudar agraudem PRES-SUBJ-3PL-SUFFIX agraudar erro agraúdem PRES-SUBJ-3PL-SUFFIX agraudar agraudes PRES-SUBJ-2SG-SUFFIX agraudar erro agraúdes PRES-SUBJ-2SG-SUFFIX agraudar agraude PRES-SUBJ-1SG-SUFFIX agraudar erro agraúde PRES-SUBJ-1SG-SUFFIX agraudar agrauda PRES-IND-3SG-SUFFIX agraudar erro agraúda PRES-IND-3SG-SUFFIX agraudar etc. Ver: http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=37655

É interessante que esse erro sugere erro de modelagem do algoritmo que gerou essas formas para constituir os recursos que foram incorporados ao MorphoBr. Esse algoritmo não levou em conta essas exceções. Talvez seja o caso de eu revisar as regras flexionais da PorGram para dar conta desses casos.

5) formas do verbo aguar, possivelmente, subtipo de 1):

águem PRES-SUBJ-3PL-SUFFIX aguar aguem PRES-SUBJ-3PL-SUFFIX aguar ágüem PRES-SUBJ-3PL-SUFFIX aguar etc. Ver: http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=8115

Essa lista de 5 tipos, evidentemente, não é exaustiva. Parei a verificação na linha 556 de irregs.txt. Como esses problemas são recorrentes, afetando dezenas de outros exemplos, a sua eliminação da lista vai reduzir em muito o arquivo original, permitindo uma nova verificação manual sobre um conjunto de dados menor. Depois repetimos o processo e vamos, recursivamente, diminuindo a lista. Esses problemas enfatizam a importância da implementação do algoritmo de classificação de formas verbais em regulares e irregulares, conforme delineado em mais de uma issue da PorGram. Várias vezes, @arademaker chamou a atenção para a inexistência de uma ferramenta de validação de entradas. As regras de flexão da PorGram, associadas com o programa em Haskell da @analununes, constituem um passo nessa direção.

leoalenc commented 2 years ago

@arademaker e @analununes, mais casos de 3):

a) formas de aguerrir com j ou g em vez de r:

aguirra PRES-SUBJ-3SG-SUFFIX aguerrir aguerja PRES-SUBJ-3SG-SUFFIX aguerrir etc.

aguerríssemos IMPF-SUBJ-1PL-SUFFIX aguerrir aguergíssemos IMPF-SUBJ-1PL-SUFFIX aguerrir etc.

Particípio estranho:

aguerrido PAST-PART-SUFFIX aguerrir aguerto PAST-PART-SUFFIX aguerrir ???

http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=88329

b) formas de ajesuitar com z em vez de t (provenientes de Silva 2019?):

ajesuite PRES-SUBJ-3SG-SUFFIX ajesuitar ajesuíze PRES-SUBJ-3SG-SUFFIX ajesuitar http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=81350

c) formas de anexar com gu em vez de x

anexe PRES-SUBJ-3SG-SUFFIX anexar anegue PRES-SUBJ-3SG-SUFFIX anexar anexem PRES-SUBJ-3PL-SUFFIX anexar aneguem PRES-SUBJ-3PL-SUFFIX anexar anexes PRES-SUBJ-2SG-SUFFIX anexar anegues PRES-SUBJ-2SG-SUFFIX anexar anexeis PRES-SUBJ-2PL-SUFFIX anexar anegueis PRES-SUBJ-2PL-SUFFIX anexar

d) formas de INFL-INF-2SG-SUFFIX sem res final, por exemplo:

anexares INFL-INF-2SG-SUFFIX anexar anexa INFL-INF-2SG-SUFFIX anexar

e) formas com truncamento do radical arraçarraçar e arregaçarregaçar (esses verbos existem?)

arrace PRES-SUBJ-1SG-SUFFIX arraçarraçar arraçasse IMPF-SUBJ-1SG-SUFFIX arraçarraçar etc.

Parei análise na linha 1400.

leoalenc commented 2 years ago

@arademaker e @analununes, pesquisei o tal estranho e suspeito verbo arregaçarregaçar no Google, a única coisa que encontrei foi esta:

https://svn.spraakdata.gu.se/clt/naacl/2015/extract/data/freeling/base_forms_pt_verbs.txt

Ou seja, tudo indica que herdamos esse verbo do Freeling. Suspeito que, nesse recurso, essa forma espúria surgiu por conta de erro de segmentação (apagamento de um espaço ou quebra de linha) dos dados, que fundiu os verbos arregaçar e regaçar. O outro verbo suspeito, arraçarraçar, tem a mesma origem:

https://svn.spraakdata.gu.se/clt/naacl/2015/extract/data/freeling/base_forms_pt_verbs.txt

Deriva da fusão dos verbos legítimos arraçar e raçar.

leoalenc commented 2 years ago

Mais problemas decorrente da fusão de verbos diferentes, no caso arriçar e riçar:

arrice PRES-SUBJ-1SG-SUFFIX arriçarriçar arriçasse IMPF-SUBJ-1SG-SUFFIX arriçarriçar arriçar FUT-SUBJ-1SG-SUFFIX arriçarriçar arriça PRES-IND-3SG-SUFFIX arriçarriçar arriçaram PERF-IND-3PL-SUFFIX arriçarriçar arriçaste PERF-IND-2SG-SUFFIX arriçarriçar arriçara PLUPERF-3SG-SUFFIX arriçarriçar arriçara PLUPERF-1SG-SUFFIX arriçarriçar arriçarem INFL-INF-3PL-SUFFIX arriçarriçar arriçares INFL-INF-2SG-SUFFIX arriçarriçar arriçardes INFL-INF-2PL-SUFFIX arriçarriçar arriçar INFL-INF-1SG-SUFFIX arriçarriçar arriçarmos INFL-INF-1PL-SUFFIX arriçarriçar arriçava IMPF-IND-3SG-SUFFIX arriçarriçar arriçava IMPF-IND-1SG-SUFFIX arriçarriçar arriçaria FUT-PRET-1SG-SUFFIX arriçarriçar

O lema correto é arriçar. É bom verificar se existe o verbo riçar no MorphoBr, incluindo-o também se for preciso. Essa mesma verificação deve ocorrer com os demais casos de fusão.

leoalenc commented 2 years ago

@analununes, mais casos de troca de consoante final do radical:

arruíne PRES-SUBJ-3SG-SUFFIX arruinar arruíze PRES-SUBJ-3SG-SUFFIX arruinar erro arruínem PRES-SUBJ-3PL-SUFFIX arruinar arruízem PRES-SUBJ-3PL-SUFFIX arruinar erro etc.

leoalenc commented 2 years ago

@analununes, segundo http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=1990, o verbo aspergir não sofre alternância vocálica no radical. Portanto, as formas sem alternância, provavelmente geradas pelas regras de my-irules.tdl, devem ser incluídas, pois não parecem constar no MorphoBr:

aspirja PRES-SUBJ-3SG-SUFFIX aspergir aspirjam PRES-SUBJ-3PL-SUFFIX aspergir aspirjas PRES-SUBJ-2SG-SUFFIX aspergir aspirjais PRES-SUBJ-2PL-SUFFIX aspergir aspirja PRES-SUBJ-1SG-SUFFIX aspergir aspirjamos PRES-SUBJ-1PL-SUFFIX aspergir aspirjo PRES-IND-1SG-SUFFIX aspergir

Vou pesquisar se existem mesmo essas variantes, mas, seja como for, as formas com e devem ser incluídas.

leoalenc commented 2 years ago

@arademaker e @analununes, mais casos de 3):

c) formas de anexar com gu em vez de x

anexe PRES-SUBJ-3SG-SUFFIX anexar anegue PRES-SUBJ-3SG-SUFFIX anexar anexem PRES-SUBJ-3PL-SUFFIX anexar aneguem PRES-SUBJ-3PL-SUFFIX anexar anexes PRES-SUBJ-2SG-SUFFIX anexar anegues PRES-SUBJ-2SG-SUFFIX anexar anexeis PRES-SUBJ-2PL-SUFFIX anexar anegueis PRES-SUBJ-2PL-SUFFIX anexar

@analununes, mais casos análogos:

atente PRES-SUBJ-3SG-SUFFIX atentar atengue PRES-SUBJ-3SG-SUFFIX atentar erro atentem PRES-SUBJ-3PL-SUFFIX atentar atenguem PRES-SUBJ-3PL-SUFFIX atentar erro atentes PRES-SUBJ-2SG-SUFFIX atentar atengues PRES-SUBJ-2SG-SUFFIX atentar erro atenteis PRES-SUBJ-2PL-SUFFIX atentar atengueis PRES-SUBJ-2PL-SUFFIX atentar erro etc.

leoalenc commented 2 years ago

@analununes:

atido PAST-PART-SUFFIX ater ateido PAST-PART-SUFFIX ater erro

leoalenc commented 2 years ago

Verificada até linha 1656.

analununes commented 2 years ago

Mais problemas decorrente da fusão de verbos diferentes, no caso arriçar e riçar:

arrice PRES-SUBJ-1SG-SUFFIX arriçarriçar arriçasse IMPF-SUBJ-1SG-SUFFIX arriçarriçar arriçar FUT-SUBJ-1SG-SUFFIX arriçarriçar arriça PRES-IND-3SG-SUFFIX arriçarriçar arriçaram PERF-IND-3PL-SUFFIX arriçarriçar arriçaste PERF-IND-2SG-SUFFIX arriçarriçar arriçara PLUPERF-3SG-SUFFIX arriçarriçar arriçara PLUPERF-1SG-SUFFIX arriçarriçar arriçarem INFL-INF-3PL-SUFFIX arriçarriçar arriçares INFL-INF-2SG-SUFFIX arriçarriçar arriçardes INFL-INF-2PL-SUFFIX arriçarriçar arriçar INFL-INF-1SG-SUFFIX arriçarriçar arriçarmos INFL-INF-1PL-SUFFIX arriçarriçar arriçava IMPF-IND-3SG-SUFFIX arriçarriçar arriçava IMPF-IND-1SG-SUFFIX arriçarriçar arriçaria FUT-PRET-1SG-SUFFIX arriçarriçar

O lema correto é arriçar. É bom verificar se existe o verbo riçar no MorphoBr, incluindo-o também se for preciso. Essa mesma verificação deve ocorrer com os demais casos de fusão.

@leoalenc, no commit 9412b64ca7a13f1c62c8365fd358304bc55bba59 eliminei os lemas arraçarraçar, arregaçarregaçar e arriçarriçar com a função corLemma. As formas de regaçar e riçar estão no MorphoBr, raçar deve ser adicionada? Não encontrei esse verbo em https://svn.spraakdata.gu.se/clt/naacl/2015/extract/data/freeling/base_forms_pt_verbs.txt.

As seguintes entradas foram criadas:

arraceis    arraçar+V+IMP+2+PL
arraces arraçar+V+IMP+2+SG
arregaceis  arregaçar+V+IMP+2+PL
arregaces   arregaçar+V+IMP+2+SG
arriceis    arriçar+V+IMP+2+PL
arrices arriçar+V+IMP+2+SG

Estas foram eliminadas: deletadas.txt

arademaker commented 2 years ago

Porque usar este link específico @analununes ? O dicionário de freeling usamos como ponto de partida para o morphobr e este link não é o repositório oficial do freeling.

Eu estou preocupado com este issue. São vários os erros aparentemente detectados pela inspeção manual de entradas não esperadas na tabela de formas irregulares que o algoritmo gerou.

Então como iremos garantir que efetivamente todas as formas espúrias aqui listadas explícita e implicitamente serão efetivamente eliminadas e somente elas?

arademaker commented 2 years ago

Pra piorar, como a eliminação de algumas formas está causando modificação em praticamente todos os arquivos de verbos, o diff do GitHub não será de nenhuma utilidade.

leoalenc commented 2 years ago

Mais problemas decorrente da fusão de verbos diferentes, no caso arriçar e riçar:

arrice PRES-SUBJ-1SG-SUFFIX arriçarriçar arriçasse IMPF-SUBJ-1SG-SUFFIX arriçarriçar arriçar FUT-SUBJ-1SG-SUFFIX arriçarriçar arriça PRES-IND-3SG-SUFFIX arriçarriçar arriçaram PERF-IND-3PL-SUFFIX arriçarriçar arriçaste PERF-IND-2SG-SUFFIX arriçarriçar arriçara PLUPERF-3SG-SUFFIX arriçarriçar arriçara PLUPERF-1SG-SUFFIX arriçarriçar arriçarem INFL-INF-3PL-SUFFIX arriçarriçar arriçares INFL-INF-2SG-SUFFIX arriçarriçar arriçardes INFL-INF-2PL-SUFFIX arriçarriçar arriçar INFL-INF-1SG-SUFFIX arriçarriçar arriçarmos INFL-INF-1PL-SUFFIX arriçarriçar arriçava IMPF-IND-3SG-SUFFIX arriçarriçar arriçava IMPF-IND-1SG-SUFFIX arriçarriçar arriçaria FUT-PRET-1SG-SUFFIX arriçarriçar

O lema correto é arriçar. É bom verificar se existe o verbo riçar no MorphoBr, incluindo-o também se for preciso. Essa mesma verificação deve ocorrer com os demais casos de fusão.

@leoalenc, no commit 9412b64 eliminei os lemas arraçarraçar, arregaçarregaçar e arriçarriçar com a função corLemma. As formas de regaçar e riçar estão no MorphoBr, raçar deve ser adicionada? Não encontrei esse verbo em https://svn.spraakdata.gu.se/clt/naacl/2015/extract/data/freeling/base_forms_pt_verbs.txt.

As seguintes entradas foram criadas:

arraceis  arraçar+V+IMP+2+PL
arraces   arraçar+V+IMP+2+SG
arregaceis    arregaçar+V+IMP+2+PL
arregaces arregaçar+V+IMP+2+SG
arriceis  arriçar+V+IMP+2+PL
arrices   arriçar+V+IMP+2+SG

Estas foram eliminadas: deletadas.txt

@analununes, muito bem! Você pode, por favor, checar se o recurso, agora, contém todas as formas dos seguintes lemas: raçar, arraçar, riçar, arriçar, arregaçar e regaçar? Sobre raçar, parece existir, portanto, vamos incluí-lo, ver, por exemplo:

https://estraviz.org/Ra%C3%A7ar

analununes commented 2 years ago

@leoalenc e @arademaker, fiz um documento com as formas espúrias indicadas por @leoalenc, no documento também deixei registrado os comandos que usei para encontrar as entradas. Esse documento não inclui as entradas do tipo 1. espurias.txt Eliminei essas entradas no commit c14ac346df5cfa44d2ebb8d1e5859b9913ab072c. A tabela atualizada está aqui.

arademaker commented 2 years ago

Bem, infelizmente é difícil avaliar as mudanças no repositório. Como falamos, os diffs na interface web não são possíveis e praticamente todos os arquivos foram modificados, logo o principio de menor diferença entre mudanças não foi preservado e os tamanhos de arquivos ainda parecem estar fora do limite suportado pela interface do GitHub.

image

Outra coisa que seria bom evitarmos é commit direto no master. Sempre importante fazer um branch com nome do issue e fazer um PR para o master.

arademaker commented 2 years ago

correção, vi agora que vc está usando um branch... ok. Então imagino que vc fará um PR quando considerar que suas mudanças estão prontas para serem aplicadas no master, correto?

leoalenc commented 2 years ago

@leoalenc e @arademaker, fiz um documento com as formas espúrias indicadas por @leoalenc, no documento também deixei registrado os comandos que usei para encontrar as entradas. Esse documento não inclui as entradas do tipo 1. espurias.txt Eliminei essas entradas no commit c14ac34. A tabela atualizada está aqui.

Obrigado, @analununes. Notei que você usou o comando abaixo para extrair formas não terminadas em res:

~/MorphoBr/verbs$ egrep '[^(res)][[:space:]].*\+V\+INF\+2\+SG' * > ../../egrep

Na expressão regular [^(res)], porém, não se tem a negação da sequência res, mas a negação da classe de caracteres constituída por ), (, r, e e s. Desse modo, a expressão [^(res)][[:space:]], usada no egrep , permite extrair linhas em que não se tem ), (, r, e ou s seguido de algum tipo de espaço em branco. Nesse caso, essa diferença semântica pode não ter feito muita diferença. Noutros casos, contudo, pode produzir resultados errados. Veja:

echo "comprasre" | grep -E "[^(res)]$"

Creio que o seguinte seria um comando mais adequado:

echo "anexa anexar+V+INF+2+SG" | awk '$1 !~ /res$/ && $2 ~ /.+\+V\+INF\+2\+SG/'

anexa anexar+V+INF+2+SG

echo "anexares anexar+V+INF+2+SG" | awk '$1 !~ /res$/ && $2 ~ /.+\+V\+INF\+2\+SG/'

Seria bom revisar as expressões. O que acha, @arademaker?

analununes commented 2 years ago

commit 48684c3c03aad4f821791c12ea90cf9307b6e5da

veiste vir+V+PRF+2+SG errada vieste vir+V+PRF+2+SG correta

quisermos FUT-SUBJ-1PL-SUFFIX querer forma correta quismos FUT-SUBJ-1PL-SUFFIX querer forma errada

quisdes FUT-SUBJ-2PL-SUFFIX querer forma errada quiserdes FUT-SUBJ-2PL-SUFFIX querer forma correta

commit c544e13 -aia na flexão -ar+V+IMP+2+SG

abaldeia abaldear+V+IMP+2+SG abaldeaia abaldear+V+IMP+2+SG erro abarbeia abarbear+V+IMP+2+SG abarbeaia abarbear+V+IMP+2+SG erro

commit d3c40aa abstrói, taba, abaular, agraudar, aguerrir e restringir

abstrói abstruir+V+IMP+2+SG erro abstrui abstruir+V+IMP+2+SG

1. erros completamente arbitrários

aba PRES-IND-3SG-SUFFIX abar taba PRES-IND-3SG-SUFFIX abar abaule PRES-SUBJ-3SG-SUFFIX abaular abaúle PRES-SUBJ-3SG-SUFFIX abaular etc.

Em todas as formas de abaular,ocorre o ditongo au e não o hiato no radical:

1. inexistência de acento nas formas rizotônicas de _agraudar_:

agraude PRES-SUBJ-3SG-SUFFIX agraudar erro agraúde PRES-SUBJ-3SG-SUFFIX agraudar agraudem PRES-SUBJ-3PL-SUFFIX agraudar erro agraúdem PRES-SUBJ-3PL-SUFFIX agraudar

Particípio estranho:

aguerrido PAST-PART-SUFFIX aguerrir aguerto PAST-PART-SUFFIX aguerrir ???

restringto restringir+V+PTPST+M+SG

commit 8c2b517

INFL-INF-2SG não terminando em "res" #110

Forma suspeitare sem esse final do infinitivo flexionado segunda pessoa do singular do verbo suspeitar. procurar na lista de regulares se existem outras duplicatas do infinitivo flexionado na segunda pessoa do singular.

commit cf40cf0

Diversas formas do verbo agauchar com dois us:

agauche PRES-SUBJ-3SG-SUFFIX agauchar agauúhe PRES-SUBJ-3SG-SUFFIX agauchar

commit f34611d

a) formas de aguerrir com j ou g em vez de r:

aguirra PRES-SUBJ-3SG-SUFFIX aguerrir aguerja PRES-SUBJ-3SG-SUFFIX aguerrir etc.

commit 4eddd71

formas de ajesuitar com z em vez de t (provenientes de Silva 2019?):

ajesuite PRES-SUBJ-3SG-SUFFIX ajesuitar ajesuíze PRES-SUBJ-3SG-SUFFIX ajesuitar

commit f16c2b7

c) formas de anexar com gu em vez de x

anexe PRES-SUBJ-3SG-SUFFIX anexar anegue PRES-SUBJ-3SG-SUFFIX anexar

commit daa354e

atido PAST-PART-SUFFIX ater ateido PAST-PART-SUFFIX ater erro

commit 4d905b2

Esta questão foca os verbos da terceira conjugação do tipo de ferir e vestir que sofrem alternância vocálica na primeira pessoa > do singular do presente do indicativo e em todo o presente do subjuntivo, bem como nas formas derivadas do imperativo #102

commit c5b009d

E para gauchar temos também algumas várias formas com duplo uu #51

Arquivo com comandos e entradas eliminadas: espurias.txt

Tabela de irregulares atualizada: irregs.txt

analununes commented 2 years ago

@analununes, segundo http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=1990, o verbo aspergir não sofre alternância vocálica no radical. Portanto, as formas sem alternância, provavelmente geradas pelas regras de my-irules.tdl, devem ser incluídas, pois não parecem constar no MorphoBr:

aspirja PRES-SUBJ-3SG-SUFFIX aspergir aspirjam PRES-SUBJ-3PL-SUFFIX aspergir aspirjas PRES-SUBJ-2SG-SUFFIX aspergir aspirjais PRES-SUBJ-2PL-SUFFIX aspergir aspirja PRES-SUBJ-1SG-SUFFIX aspergir aspirjamos PRES-SUBJ-1PL-SUFFIX aspergir aspirjo PRES-IND-1SG-SUFFIX aspergir

Vou pesquisar se existem mesmo essas variantes, mas, seja como for, as formas com e devem ser incluídas.

@leoalenc, as formas geradas pelas regras não foram as esperadas:

aspirga aspergir+V+SBJR+1+SG
aspirga aspergir+V+SBJR+3+SG
aspirgais   aspergir+V+SBJR+2+PL
aspirgam    aspergir+V+SBJR+3+PL
aspirgamos  aspergir+V+SBJR+1+PL
aspirgas    aspergir+V+SBJR+2+SG
aspirgo aspergir+V+PRS+1+SG
analununes commented 2 years ago

No commit 6a4431ad1a3a700ff3f7f7818e4b03fd4f46d67e foram corrigidos os lemas arraçarraçar, arregaçarregaçar e arriçarriçar.

No commit 6da66b267cbab37bbe940f02e6fab2aa574fa563 foram adicionados as formas geradas pelas regras de my-irules.tdl dos verbos: #76

raçar
priorizar
reaglutinar
desestimular
gestar
reconfigurar
credenciar
reaparelhar
pós-graduar
repactuar
superfaturar
reinstaurar
acessar
monitorar
realocar
elencar
contra-argumentar
operacionalizar
reapropriar

todas as entradas adicionadas estão neste arquivo: adicionadas.txt

arademaker commented 2 years ago

@analununes issues longos como este devem ser verificados com cuidado. Por favor, ao fechar, confirme que TODOS os casos acima foram tratados e sumarize as decisões.

leoalenc commented 2 years ago

@leoalenc, as formas geradas pelas regras não foram as esperadas:

aspirga aspergir+V+SBJR+1+SG aspirga aspergir+V+SBJR+3+SG aspirgais aspergir+V+SBJR+2+PL aspirgam aspergir+V+SBJR+3+PL aspirgamos aspergir+V+SBJR+1+PL aspirgas aspergir+V+SBJR+2+SG aspirgo aspergir+V+PRS+1+SG

@analununes, obrigado. De fato, esse verbo é irregular, apresentando variações no radical não contempladas pelas regras de my-irules.tdl. Você pode fazer as inclusões devidas seguindo o paradigma abaixo?

http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=1990

Veja que formas como eu aspirjo constam da conjugação do verbo aspergir segundo alguns sites:

https://www.conjugacao-de-verbos.com/verbo/aspergir.php

https://estraviz.org/conjugar.php?palavra=aspergir

Não sei se o primeiro é confiável, e o segundo é, na verdade, um dicionário da língua galega. No momento, temos:

awk '$3 ~ /^aspergir$/ {print $1,$2,$3}' irregs.txt

aspirjo PRES-IND-1SG-SUFFIX aspergir aspirjas PRES-SUBJ-2SG-SUFFIX aspergir aspirjamos PRES-SUBJ-1PL-SUFFIX aspergir aspirjam PRES-SUBJ-3PL-SUFFIX aspergir aspirjais PRES-SUBJ-2PL-SUFFIX aspergir aspirja PRES-SUBJ-1SG-SUFFIX aspergir aspirja PRES-SUBJ-3SG-SUFFIX aspergir

Cunha e Cintra (1985, p. 409) não abonam essas formas com i, mas prefiro deixá-las, pois podem ocorrer dialetalmente.

leoalenc commented 2 years ago

@analununes, mais erros de grafia:

awk '$3 ~ /^ganhar$/ {print $1,$2,$3}' irregs.txt

ganhe PRES-SUBJ-3SG-SUFFIX ganhar gangue PRES-SUBJ-3SG-SUFFIX ganhar ERRO ganhe PRES-SUBJ-1SG-SUFFIX ganhar gangue PRES-SUBJ-1SG-SUFFIX ganhar ERRO ganhei PERF-IND-1SG-SUFFIX ganhar ganguei PERF-IND-1SG-SUFFIX ganhar ERRO ganheis PRES-SUBJ-2PL-SUFFIX ganhar gangueis PRES-SUBJ-2PL-SUFFIX ganhar ERRO ganhem PRES-SUBJ-3PL-SUFFIX ganhar ganguem PRES-SUBJ-3PL-SUFFIX ganhar ERRO ganhemos PRES-SUBJ-1PL-SUFFIX ganhar ganguemos PRES-SUBJ-1PL-SUFFIX ganhar ERRO ganhes PRES-SUBJ-2SG-SUFFIX ganhar gangues PRES-SUBJ-2SG-SUFFIX ganhar ERRO ganhado PAST-PART-SUFFIX ganhar ganho PAST-PART-SUFFIX ganhar

Parece haver um padrão aí, troca do h dígrafo nh por alguma outra letra. Pode checar se há mais casos desse tipo?

arademaker commented 2 years ago

@analununes vamos tentar fechar este issue? Esta ficando longo e seria bom fecharmos para no futuro tratarmos de erros em issues mais específicos.

analununes commented 2 years ago

@analununes vamos tentar fechar este issue? Esta ficando longo e seria bom fecharmos para no futuro tratarmos de erros em issues mais específicos.

Pode ser! Vou revisar.

analununes commented 2 years ago

@analununes, mais erros de grafia:

awk '$3 ~ /^ganhar$/ {print $1,$2,$3}' irregs.txt

ganhe PRES-SUBJ-3SG-SUFFIX ganhar gangue PRES-SUBJ-3SG-SUFFIX ganhar ERRO ganhe PRES-SUBJ-1SG-SUFFIX ganhar gangue PRES-SUBJ-1SG-SUFFIX ganhar ERRO ganhei PERF-IND-1SG-SUFFIX ganhar ganguei PERF-IND-1SG-SUFFIX ganhar ERRO ganheis PRES-SUBJ-2PL-SUFFIX ganhar gangueis PRES-SUBJ-2PL-SUFFIX ganhar ERRO ganhem PRES-SUBJ-3PL-SUFFIX ganhar ganguem PRES-SUBJ-3PL-SUFFIX ganhar ERRO ganhemos PRES-SUBJ-1PL-SUFFIX ganhar ganguemos PRES-SUBJ-1PL-SUFFIX ganhar ERRO ganhes PRES-SUBJ-2SG-SUFFIX ganhar gangues PRES-SUBJ-2SG-SUFFIX ganhar ERRO ganhado PAST-PART-SUFFIX ganhar ganho PAST-PART-SUFFIX ganhar

Parece haver um padrão aí, troca do h dígrafo nh por alguma outra letra. Pode checar se há mais casos desse tipo?

Com o comando: MorphoBr/verbs$ egrep '^[^h]*[[:space:]].*nh' ./* encontrei apenas entradas que são flexões do verbo ganhar, que foram eliminadas no commit c16f7028975f6a3ea22cdc535276927fa9dfb80b:

gangue  ganhar+V+SBJR+3+SG
gangue  ganhar+V+SBJR+1+SG
gangue  ganhar+V+IMP+3+SG
ganguei ganhar+V+PRF+1+SG
gangueis    ganhar+V+SBJR+2+PL
ganguem ganhar+V+SBJR+3+PL
ganguem ganhar+V+IMP+3+PL
ganguemos   ganhar+V+SBJR+1+PL
ganguemos   ganhar+V+IMP+1+PL
gangues ganhar+V+SBJR+2+SG
analununes commented 2 years ago

Exceto os casos de velha ortografia #93 e adição de formas do verbo aspergir #120 que possuem issues próprias, todos os problemas relatados nessa issue foram resolvidos.