UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
48 stars 11 forks source link

inconsistent analysis of etc #386

Open wellington36 opened 2 years ago

wellington36 commented 2 years ago

Na sentença CF324-8, etc foi quebrado em et e cetera, o que não ocorre nos outros casos http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=618a85368f014. (encontrado analisando o issue #365)

Os contribuintes que pagarem seus tributos (IPTU, ISS etc.) hoje sairão ganhando, pois o cálculo será feito pela UFM de R$ 26,54.

7   (   (   PUNCT   PU|@PU  _   8   punct   _   SpaceAfter=No
8   IPTU    IPTU    PROPN   <first-cjt>|PROP|M|S|@N<PRED    Gender=Masc|Number=Sing 6   nmod    _   SpaceAfter=No
9   ,   ,   PUNCT   PU|@PU  _   10  punct   _   _
10  ISS iss NOUN    <np-idf>|N|M|S|@N<PRED  Gender=Masc|Number=Sing 8   conj    _   _
11-12   etc.    _   _   _   _   _   _   _   SpaceAfter=No
11  et  et  CCONJ   _   _   12  cc  _   _
12  cetera  cetera  PRON    _   Gender=Masc|Number=Plur 8   conj    _   _
13  )   )   PUNCT   PU|@PU  _   8   punct   _   _
wellington36 commented 2 years ago

Vou deixar o comentario do PR #388:

Correção de caso mencionado no issue seguindo outros casos do corpus e verificando na documentação, sugiro aplicar esse padrão para outros casos de etc no corpus (http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=6189c9fd85132&clustering=e.label), como marcados com upos X e com lemma etc..

arademaker commented 2 years ago

qual seria o issue aqui? o problema mais grave é o tratamento inconsistente mas de fato, etc é et cetera vide https://pt.wikipedia.org/wiki/Et_cetera.

wellington36 commented 2 years ago

Entendi, então o problema muda para os casos que não são quebrados em et cetera: http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=618a85368f014

arademaker commented 2 years ago

no English-EWT, eles não separam, mas tratam como pos X tendo a relação deprel conj ou list.. eu até gosto da idéia de separar mas teríamos que ver alguns casos para verificar se teríamos uma analise sintática coerente.

arademaker commented 2 years ago

se separarmos, o cetera não seria PRON, mas NOUN me parece.

wellington36 commented 2 years ago

no English-EWT, eles não separam, mas tratam como pos X tendo a relação deprel conj ou list.. eu até gosto da idéia de separar mas teríamos que ver alguns casos para verificar se teríamos uma analise sintática coerente.

Dado que em outros corpus o etc não é quebra casos do English-GUM, Spanish-AnCora, French-GSD e Italian-VIT (também vale para outros corpus do mesmo idioma), podemos seguir a decisão deles ou discutir (talvez eles não tenham discutido sobre). Curioso que em cada um destes corpora que mencionei etc tem uma upos diferente (ADV, NOUN, PUNCT, ...), vale notar que nos corpus do German eles quebram o etc, o que gostaria de saber o que levou o German a separar e os demais que mencionei não.

wellington36 commented 2 years ago

Seguindo comentário de @leoalenc https://github.com/UniversalDependencies/UD_Portuguese-Bosque/pull/388#issuecomment-967347582 e a discussão em https://github.com/UniversalDependencies/docs/issues/820 o caminho viavel seria não separar o etc. mas sim o . seguindo comentario de @leoalenc e seguindo https://github.com/UniversalDependencies/docs/issues/820#issuecomment-966060725 teria upos CCONJ.

arademaker commented 2 years ago

Oi @leoalenc vamos discutir aqui? Melhor do que discutir no PR …

leoalenc commented 2 years ago

Oi @leoalenc vamos discutir aqui? Melhor do que discutir no PR …

@arademaker e @wellington36 , pelo critério distribucional, etc. é uma espécie de pronome, uma vez que constitui pro-forma de um um nome ou sintagma nominal (NP), ou seja, é usado em substituição a um constituinte desse tipo, conforme a definição em UD.

Ele comprou canetas, lápis e borrachas. Ele comprou canetas, lápis, borrachas e cadernos. Ele comprou canetas, lápis, borrachas, cadernos etc.

Na língua padrão, etc. é usado numa estrutura de coordenação assindética, ou seja, sem a conjunção aditiva e. Tipicamente, indica que uma determinada série de dois ou mais Ns ou NPs inclui mais elementos do mesmo tipo (no exemplo acima, materiais de escrita). Neste treebank, a UPOS é X, pois se trata de expressão em língua estrangeira. No entanto, há uma margem em UD para que se atribua uma etiqueta de classe de palavra a estrangeirismos:

A special usage of X is for cases of code-switching where it is not possible (or meaningful) to analyze the intervening language grammatically (and where the dependency relation flat:foreign is typically used in the syntactic analysis). This usage does not extend to ordinary loan words which should be assigned a normal part-of-speech. For example, in he put on a large sombrero, sombrero is an ordinary NOUN.

https://universaldependencies.org/u/pos/X.html

Tenho a forte convição de que etc. se aproxima mais do caso de sombrero, pois não se tem code-switching, uma vez que é um termo plenamente incorporado ao idioma.

code-switching. Oxford Reference. Retrieved 15 Nov. 2021, from https://www.oxfordreference.com/view/10.1093/oi/authority.20110803095621438.

arademaker commented 2 years ago

se tratarmos como X, ainda temos o problema de decidir pela relação de dependência. @leoalenc vc chegou a olhar a discussão que está sendo feita no https://github.com/UniversalDependencies/docs/issues/820?

wellington36 commented 2 years ago

@leoalenc, dado que o senhor mencionou "é uma espécie de pronome" o coméntario em https://github.com/UniversalDependencies/docs/issues/820#issuecomment-969039309 e o seguinte falam de um possivel tratamento como PRON.

arademaker commented 2 years ago

Melhor não tentarmos aqui ficar apontando para comentários isolados de lá. Já apareceram argumentos para não tratar como PRON e já existem argumentos para NOUN e também já foi dito que no latin o cetera era adjectivo e não pronome...

leoalenc commented 2 years ago

Melhor não tentarmos aqui ficar apontando para comentários isolados de lá. Já apareceram argumentos para não tratar como PRON e já existem argumentos para NOUN e também já foi dito que no latin o cetera era adjectivo e não pronome...

@arademaker , como não se trata de code-switching, mas de uma expressão aportuguesada, considero irrelevante a classe de palavra em latim. Por outro lado, é preciso levar em conta o que alguém tem em mente quando classifica algo como adjetivo ou pronome, pois se trata de termos cuja conceituação varia bastante de um quadro teórico a outro. No quadro de UD, não me parece cabível a classificação como adjetivo:

https://universaldependencies.org/u/pos/ADJ.html

De fato, estaria modificando que substantivo? Mantenho minha análise como pronome, pelas razões distribucionais apontadas. Essa análise por sinal vai ao encontro de Cunha e Cintra (1985, p. 347), que tratam outros como pronome indefinido.

leoalenc commented 2 years ago

se tratarmos como X, ainda temos o problema de decidir pela relação de dependência. @leoalenc vc chegou a olhar a discussão que está sendo feita no UniversalDependencies/docs#820?

@arademaker , dei uma olhada por cima agora, vejo que alguns pessoas concordam comigo em alguns pontos. Na verdade, como são muitas pessoas opinando e não sabemos seus backgrounds nem os quadros teóricos que pressupõem, prefiro aplicar eu mesmo os critérios da análise linguística estrutural (matemática) aos dados, levando em conta o quadro de UD e o sistema gramatical do português. Sobre o vínculo dependencial, isso parece claro: etc. é membro de uma série de conjuncts. Portanto:

A,B,C etc.

A,B,C,D.

Você trata etc. como trataria D.

wellington36 commented 2 years ago

A,B,C etc.

A,B,C,D.

Você trata etc. como trataria D.

No caso seria:

A, B, C e D.

Correto? O etc faz o papel do e e do D, não sei se faz significativa diferença pensar assim.

leoalenc commented 2 years ago

A,B,C etc.

A,B,C,D.

Você trata etc. como trataria D.

No caso seria:

A, B, C e D.

Correto? O etc faz o papel do e e do D, não sei se faz significativa diferença pensar assim.

@wellington36 , não analiso assim o exemplo. Existe o fenômeno da coordenação assindética, ou seja, sem o e. Portanto, não se deve inserir um e na análise do meu exemplo:

A, B, C, D.

wellington36 commented 2 years ago

Entendo desconsidere o comentário.

wellington36 commented 2 years ago

@leoalenc, mudo meu ponto, depois de analisar o Bosque, noto que, a estrutura A, B, C, D. é muito mais rara do que A, B, C e D. (talvez nem hava essa estrutura no Bosque).

wellington36 commented 2 years ago

De fato, estaria modificando que substantivo? Mantenho minha análise como pronome, pelas razões distribucionais apontadas. Essa análise por sinal vai ao encontro de Cunha e Cintra (1985, p. 347), que tratam outros como pronome indefinido.

Sobre o vínculo dependencial, isso parece claro: etc. é membro de uma série de conjuncts. Portanto:

A,B,C etc.

A,B,C,D.

Você trata etc. como trataria D.

@arademaker, seguindo comentários de @leoalenc, acredito que já podemos decidir qual analise fazer e eu aplico as mudanças.

leoalenc commented 2 years ago

De fato, estaria modificando que substantivo? Mantenho minha análise como pronome, pelas razões distribucionais apontadas. Essa análise por sinal vai ao encontro de Cunha e Cintra (1985, p. 347), que tratam outros como pronome indefinido.

Sobre o vínculo dependencial, isso parece claro: etc. é membro de uma série de conjuncts. Portanto: A,B,C etc. A,B,C,D. Você trata etc. como trataria D.

@arademaker, seguindo comentários de @leoalenc, acredito que já podemos decidir qual analise fazer e eu aplico as mudanças.

@wellington36 , etc. é o D do meu exemplo:

A,B,C,D.

Portanto, deve analisar-se como C.