LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

PTPASS should be replaced by PTPST #81

Closed leoalenc closed 2 years ago

leoalenc commented 3 years ago

@arademaker, no DELAF_PB, K representa o particípio. Na atual versão do MorphoBr, só temos a etiqueta PTPASS, que é o particípio passivo. Não temos a etiqueta PTPST, que é o particípio passado. Enquanto grande parte dos verbos possui as duas formas, que diferem na valência, verbos intransitivos não apassiváveis como ser não possuem um PTPASS. O contrário, porém, é verdadeiro: todo verbo possui PTPST. Desse modo, proponho substituir PTPASS por PTPST. Essa questão é relevante para a discussão sobre a compatibilidade entre MorphoBr e UD.

arademaker commented 3 years ago

Bom, ao fazer isso, estaremos deixando como pendências identificar quais verbos teriam o PTPASS, correto?

Para confirmar, vc está propondo transformar PTPASS em PTPST de forma global em todos os verbos certo?

ar@leme verbs % rg PTPASS * | wc -l
  138576

Confirmando eu vou rodar:

for f in *.dict; do 
awk 'BEGIN {OFS="\t"} $2 ~ /PTPASS/ {sub(/PTPASS/,"PTPST",$2); print $1,$2}' $f > $f.new; done

E temos que corrigir o arquivo TAGSET, certo? Está confuso porque lá falamos que o K do DELAF_PB é passive participle e não apenas participio. E passive participle (PTPST forms, i.e., past participles without gender and number tags, must be included) sugeri que PTPST estão inclusos nos PTPASS mas vc acima diz o contrário ne? Todos os verbos tem PTPST mas nem todos PTPASS.

leoalenc commented 3 years ago

Bom, ao fazer isso, estaremos deixando como pendências identificar quais verbos teriam o PTPASS, correto?

Para confirmar, vc está propondo transformar PTPASS em PTPST de forma global em todos os verbos certo?

@arademaker, sim.

ar@leme verbs % rg PTPASS * | wc -l
  138576

Confirmando eu vou rodar:

for f in *.dict; do 
awk 'BEGIN {OFS="\t"} $2 ~ /PTPASS/ {sub(/PTPASS/,"PTPST",$2); print $1,$2}' $f > $f.new; done

E temos que corrigir o arquivo TAGSET, certo? Está confuso porque lá falamos que o K do DELAF_PB é passive participle e não apenas participio. E passive participle (PTPST forms, i.e., past participles without gender and number tags, must be included) sugeri que PTPST estão inclusos nos PTPASS mas vc acima diz o contrário ne? Todos os verbos tem PTPST mas nem todos PTPASS.

@arademaker, sim, precisamos corrigir esse arquivo. Na documentação do DELAF_PB, temos:

G: Gerúndio K: Particípio

Gerúndio são as formas em -ndo, como cantando, e particípio, formas em -do, como cantado. Agora me escapa por que converti K em PTPASS quando construímos o MorphoBr. Parece que na época eu estava preocupado com a análise da passiva na BrGram. As documentação de UD desrecomenda o termo gerúndio, preferindo particípio presente. Com isso na cabeça, sugeri agora PTPST para substituir PTPASS. Creio que podemos manter essa etiqueta, com a interpretação de UD, também adotada pela gramática de Mateus et al. (1989, p. 372), entre outras, ou seja, como a forma de particípio que se usa tanto para construir tempos do passado (por ex., eu tinha cantado) como a voz passiva (por ex., o hino foi cantado). Desse modo, na documentação, teríamos simplesmente o seguinte:

PTPST past participle

A diferença entre os dois particípios dos exemplos eu tinha cantado e o hino foi cantado diz respeito à valência, fenômeno fora da abrangencia do POS-tagging. a propósito: Mateus et al. também usam o termo gerúndio para as formas em -ndo. A referência é esta:

MATEUS, M. H. M. et al. Gramática da língua portuguesa. 2. ed. Lisboa: Caminho, 1989.

arademaker commented 3 years ago

O commit 5bb7c47 resolve este issue. Peço verificar. No arquivo TAGSET, poderíamos tentar acrescentar o mapeamento para UD talvez... E note ainda que poderiamos buscar algum link com https://unimorph.github.io, veja #54.

leoalenc commented 3 years ago

O commit 5bb7c47 resolve este issue. Peço verificar. No arquivo TAGSET, poderíamos tentar acrescentar o mapeamento para UD talvez... E note ainda que poderiamos buscar algum link com https://unimorph.github.io, veja #54.

@arademaker, seriam úteis esses mapeamentos, até tendo em vista a checagem do MorphoBr e do Bosque UD pela comparação entre os dois recursos.

arademaker commented 3 years ago

OK, ja temos o issue para tratar disso. Por agora, queremos o mapeamento com UD.

analununes commented 2 years ago

@arademaker e @leoalenc, nos clíticos ainda existe a tag PTPASS, vamos atualizar?

provindo-a  provir+V.ele.ACC.3.F.SG+PTPASS
provindo-as provir+V.ele.ACC.3.F.PL+GRD
provindo-as provir+V.ele.ACC.3.F.PL+PTPASS
leoalenc commented 2 years ago

@arademaker e @leoalenc, nos clíticos ainda existe a tag PTPASS, vamos atualizar?

provindo-a    provir+V.ele.ACC.3.F.SG+PTPASS
provindo-as   provir+V.ele.ACC.3.F.PL+GRD
provindo-as   provir+V.ele.ACC.3.F.PL+PTPASS

@analununes , bem observado, sim, vamos. A tag PTPASS não será mais utilizada, apenas PTPST, que, conforme expliquei em comentário anterior, serve tanto para o particípio passivo quanto particípio passado.

arademaker commented 2 years ago

Imagino que ao trocar a tag PTPASS por PTPST possam surgir entradas duplicadas (entradas PTPST já existentes) certo? Importante verificar isso.

analununes commented 2 years ago

Imagino que ao trocar a tag PTPASS por PTPST possam surgir entradas duplicadas (entradas PTPST já existentes) certo? Importante verificar isso.

Posso cuidar disso quando estiver trocando a tag.

analununes commented 2 years ago

Conforme #118, problema de tag PTPASS no diretório de cliticos foi resolvido em 077f617ebae89a1c8b3cb367212eb077bc7279d9