UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
47 stars 11 forks source link

verbos pronominais/reflexivos #211

Open ceramisch opened 6 years ago

ceramisch commented 6 years ago

@claudiafreitas e eu estávamos discutindo a questão dos verbos pronominais por email. Ela propõe uma análisa baseada nas classes de Duran et al (2013). Eu comparei a proposta dela com as guidelines PARSEME para Inherently Reflexive Verbs (IRV).

A proposta da Claudia é classifica os verbos reflexivos em 3 grandes grupos (a explicação dos grupos é minha) 1) Indeterminado amplo (dorme-se hoje, vendem-se casas, as maçãs se vendem bem, a porta se fechou) - inclui 3 alternâncias: impessoal para verbos intransitivos, passiva sintética para verbos transitivos (com sujeito pós-posto e com sujeito canônico). Elas incluem indeterminação do sujeito mas tb casos em que o sujeito pode não existir (a porta se fechou - incoativo). Todas têm como resultado a indeterminação do sujeito e se aplicam a praticamente qualquer verbo 2) Reflexivo ou recíproco (machuquei-me, encontramo-nos, agrediram-se) 3) Parte integrante do verbo ou IRV (queixar-se, suicidar-se)

Nem sempre é fácil distinguir essas classes, por exemplo:

eles se dizem oposição é 2 ou 3? => Acho que é 3

a crise aprofundou-se com o desemprego é 1 ou 3? => Acho que é 1

O que eu não sei é: como, no UD, se representa cada um desses casos? no caso 2, imagino que seja obj, no caso 1

vcvpaiva commented 6 years ago

obrigada por abrir essa discussao @ceramisch! me parece que reflexivo ou reciproco (#2) 'e um pouco mais facil de distinguir de 1 e 3, mas nao tenho a menor ideia de como distinguir 1 de 3.

claudiafreitas commented 6 years ago

bom resumo @ceramisch , obrigada!

eles se dizem oposição é 2 ou 3? => Acho que é 3

Sim

a crise aprofundou-se com o desemprego é 1 ou 3? => Acho que é 1

Sim

No UD: 1 e 3 são tratados da mesma maneira: o se tem relação expl com o verbo. Por isso a sugestão do Bosque-UD (implementada, mas inconsistente) em usar o campo MISC para especificação de 1. Mas acabo de me dar conta de que funciona expl:indet para 1 e simplesmente expl para 3.

Que tal?

vcvpaiva commented 6 years ago

bom, continuo sem ver muitoa diferenca entre 1 e 3.

"aprofundar-se" me parece tao cristalizado quanto queixar-se ou suicidar-se. e tao indeterminado quanto, tambem: voce pode se queixar pra voce mesmo ou pra outros. e voce pode aprofundar uma discussao ou aprofundar-se na mesma.

alguma outra dica pra gente ver a diferenca?

claudiafreitas commented 6 years ago

As classificações não se referem exatamente aos verbos, mas às construções - e o problema é a classificação do -se pronome. A diferença entre 1 e 3 é que em 1, o -se indica a ausência de um agente - por isso chamo de "indeterminado amplo": A crise aprofundou-se com o desemprego. Quem aprofundou a crise?? (1) Ela se aprofundou nos estudos. Quem se aprofundou? Ela. (3) Eles se dizem oposição. Quem se diz oposição? Eles (3)

livyreal commented 6 years ago

achar testes é realmente o melhor, mas veja @claudiafreitas que as perguntas que vc está fazendo pra achar se é 1 ou 3 são já diferentes:

"Quem aprofundou a crise?" indicaria (1), mas se a pergunta for "Quem aprofundou-se?" (que é a estrutura dos testes das seguintes perguntas teste), daí já podemos responder "A crise" e pensar que esse caso é (3) também.

A crise aprofundou-se com o desemprego. Quem aprofundou a crise?? Indeterminado (1) / Quem aprofundou se? A crise (3). Ela se aprofundou nos estudos. Quem aprofundou "ela"? Ela mesma. (3) / Quem se aprofundou? Ela. (3) Eles se dizem oposição. Quem "os" dizem oposição? Eles mesmos (3) /Quem se diz oposição? Eles (3)

Vou deixar aí o meu raciocínio. Parece funcionar bem, mas a pergunta teste não pode ter o "se". Agora com esses testes, fica bem clara a natureza reflexiva de (3), "quem" aí parece ser sempre agente e paciente (tema, enfim... escolha seu label semântico pra objeto), que é na verdade o critério para definir (2).

claudiafreitas commented 6 years ago

livy e valeria, um pouco do que eu tenho pensado sobre o -se está aqui: https://github.com/own-pt/bosque-UD/wiki/SE-pronominal

(nada do que está escrito foi implementado; mas é onde eu tenho escrito coisas para discutir com minhas alunas, de uma forma mais controlada que aqui)

ceramisch commented 6 years ago

Como ressaltado pela @livyreal, na hora de se aplicar testes é necessário ser muito criterioso com a sintaxe (por exemplo, deve-se especificar se a pergunta inclui o se ou não)

No meu entendimento, a diferença entre 1 e 3 é que (1) é uma alternância que pode ser aplicada a praticamente qualquer verbo para o qual se queira sub-especificar o sujeito, exatamente como na alternância passiva. Por exemplo, o verbo comer não é visto como reflexivo, mas pode-se dizer simplesmente nesse restaurante se come bem. Quem come? Não interessa, as pessoas em geral. Claramente nao é caso (2) - as pessoas não comem a si mesmas (felizmente!)

Já o caso (3) é um em que o clítico reflexivo não tem esse papel de indefinição do sujeito (com relação à versão sem se). Por exemplo, o verbo queixar simplesmente não existe sem o se. Então não podemos dizer que o se está indicando indeterminação do sujeito.

No entanto, há alguns verbos tricky como basear-se, casar-se ou aproundar-se pois eles são muito mais usados na versão reflexiva do que na versão não-reflexiva. No entanto, é possível encontrar uma relação entre a versão reflexiva e a não-reflexiva que mantém exatamente o mesmo sentido e o mesmo subcat frame (exceto pela pronominalização de um dos complementos do verbo, que vira se).

Um sub-conjunto dos testes PARSEME que poderia funcionar para o UD seria o seguinte:

Teste 1: o verbo existe sem o clítico reflexivo?

Teste 2: A versão com e sem clítico reflexivo possuem o mesmo sentido?

Teste 3: A versão com e sem clítico reflexivo possuem o mesmo subcat frame (exceto pela pronominalização de um dos complementos na versão reflexiva)?

Teste 4: Pode-se trocar o se por a si mesmo ou por uns aos outros?

ceramisch commented 6 years ago

Quanto às relações UD a serem usadas, não tenho familiaridade com as guidelines mas li a página que descreve a relação expl e não achei referência a expl:indet. É uma proposta de extensão?

Acredito que para o caso 2 se usaria a relação obj clássica, certo?

Então a questão é se 1 e 3 devem ser distinguidos. Eu acho que sim, usando expl para 1 e compound para 2. Veja que verbos inerentemente reflexivos são similares aos phrasal verbs do inglês, onde podemos ver o clítico reflexivo como uma partícula sem papel semântico no caso 3. Então acho natural usando compound ou alguma sub-relação criada para esse tipo de verbo, como foi feito para o inglês com compound:prt. Que acham?

vcvpaiva commented 6 years ago

Acredito que para o caso 2 se usaria a relação obj clássica, certo?

Certo! acho que estamos todos de acordo com essa parte.

Então a questão é se 1 e 3 devem ser distinguidos.

Sim

Eu acho que sim, usando expl para 1 e compound para 2.

ok. eu nao tenho muita conviccao, nem de um jeito nem de outro. acho que queixar-se esuicidar-se sao convencionalmente reflexivos, mas sao tb usados sem a particula. dai que tenho um certo problema com seu primeiro teste. (quem 'e a autoridade que a gente vai usar pra garantir que o verbo nao existe sem o clítico reflexivo?)

eu concordo completamente com a ideia de que na frase

nesse restaurante se come bem. Quem come? Não interessa, as pessoas em geral.

estamos falando de indeterminacao do sujeito.

mas os tres exemplos que voce deu de "tricky verbs" (basear-se, casar-se ou aprofundar-se) me parecem diferentes entre si.

enquanto no caso de casar-se

o juiz casou os noivos => os noivos se casaram

o "se" na minha opiniao nessa frase 'e reflexivo do par de noivos: um noivo casa com o outro noivo. "casar" nao 'e intransitivo, voce sempre casa com alguem ou casa alguens (um ao outro).

no caso de "aprofundar-se"

os resultados aprofundaram a crise => a crise se aprofundou

aprofundar e' fazer mais profundo e a crise pode se fazer mais profunda, ou nao. ou seja nesse caso o "se" pode ser reflexivo ou nao

e no caso de "basear-se"

eu baseio minhas conclusões nesse gráfico => minhas conclusões se baseiam nesse gráfico

eu concordo que o "se" e' meramente uma particula sintactica, sem significado semantico. pode ser compound:prt.

my two cents, mas eu nao sou linguista e voces sao.

claudiafreitas commented 6 years ago

@ceramisch

já o caso (3) é um em que o clítico reflexivo não tem esse papel de indefinição do sujeito (com relação à versão sem se).

Sim

Por exemplo, o verbo queixar simplesmente não existe sem o se. Então não podemos dizer que o se está indicando indeterminação do sujeito.

Hmmm...Discordo. Não temos como afirmar com essa certeza toda, por isso, pra mim, esse é um critério complicado. Dei um google aqui (porque dificilmente essas coisas estariam em corpus e:

Um partido que so sabe reclamar dos meios de comunicação falada escrita e televisada, vive queixando de perseguição, mas são os petralhas que perseguem principalmente o Lula um politico .

Meu filho tem 17 anos e fez a cirurgia de varicocele a mais de um ano, a varicocele voltou em grau moderado, mas ele vive queixando de dor ao caminhar na região inguinal e pubiana.

Por isso, pra mim, o grande critério de distinção é "funciona como sujeito indeterminado/agente" ou não.

Com relação ao teste 2

Teste 2: A versão com e sem clítico reflexivo possuem o mesmo sentido?

morro de medo de situações em que diferentes pessoas precisam decidir se algo tem o mesmo sentido. A chance de discordâncias infinitas, com bom argumentos para todos os lados, é enorme...

No entanto, há alguns verbos tricky como basear-se, casar-se ou aproundar-se pois eles são muito mais usados na versão reflexiva do que na versão não-reflexiva. No entanto, é possível encontrar uma relação entre a versão reflexiva e a não-reflexiva que mantém exatamente o mesmo sentido e o mesmo subcat frame (exceto pela pronominalização de um dos complementos do verbo, que vira se).

Discordamos um pouco na análise: :S

os resultados aprofundaram a crise => a crise se aprofundou

SIM, é 1, mas porque nem resultado nem crise podem ser agentes de aprofundar (porque inanimados)

o juiz casou os noivos => os noivos se casaram

Pra mim, nesse caso, pode ser 2 ou 3, mas tendo a preferir a leitura da @vcvpaiva, de recíproco. Mas se fosse

João se casou

pra mim seria 2 (porque o sujeito é agente (e isso exclui 1) e porque não é reflexivo ou recíproco. (e, tambem porque sabemos que dá no mesmo "joao casou ontem" e "joão se casou ontem", mas como ey disse não gosto muito do critério "sabemos que..."

eu baseio minhas conclusões nesse gráfico => minhas conclusões se baseiam nesse gráfico

Pra mim, esse é 1, mas porque não temos sujeito agente em minhas conclusões se baseiam... Se fosse "João se baseia nos fatos", seria 3. Por isso, a análise do -se é derivada da construção, e não do verbo propriamente.

claudiafreitas commented 6 years ago

Quanto à anotação UD,

Sim, expl:indet é uma proposta de expansão.

Acredito que para o caso 2 se usaria a relação obj clássica, certo?

Certo!

Então a questão é se 1 e 3 devem ser distinguidos. Eu acho que sim, usando expl para 1 e compound para 2.

Vc quer dizer compound para 3? (já que 2 é obj)

è um ponto a se pensar. O que vejo como desvantagem é ignorar desde sempre a tradição gramatical que considera o -se de queixar-se um expletivo (algo que não faz nada, e o uso facultativo evidencia isso. Esse uso como expletivo inclusive está indicado nas guidelines UD). Compound é usado para coisas que têm alguma sintaxe; não sei se podemos dizer que esses casos têm alguma sintaxe. Não discordo de compound:prt, achei interessante., estou pensando. Mas talvez antes precisemos concordar quanto às análises:? ; )

Lembrando que: tradicionalmente, o expletivo é usado para queixar-se, e o -se de vendem-se é pronome apassivador (mas o -se de precisa-se é índice de indeterminação). Só trouxe a lembrança para também não propormos algo que dialoga pouco com análises tradicionais.

ceramisch commented 6 years ago

Quanto à relação a ser usada, temos as seguintes possibilidades :

Concordamos também que os casos 1, 2 e 3 acima devem ser distinguidos na anotação UD, então se (1) for anotado como expel então (3) não pode usar a mesma relação. Acho que a decisão quanto a qual relação usar exatamente é meio arbitrária, mas deveria ser tomada de comum acordo com outras línguas que possuem o mesmo fenômeno (no PARSEME, descobrimos que o caso 3 ocorre em Espanhol, Francês, Italiano, Romeno, Português, Polonês, Alemão, Dinamarquês, Sueco, Esloveno, Tcheco, Búlgaro). Tem um working group no UD que deve começar em breve a tratar das MWEs, em princípio vou participar, posso lançar a discussão lá quando começar, e esperamos para ver o que sai, que acham?

Quanto ao teste que verifica a existência ou não do verbo sem a partícula: concordo que existe variabilidade, mas o caso de queixar-se me parece claramente um uso muito livre da língua. Para mim é totalmente estranho usar esse verbo sem o clítico se. Concordo que na anotação linguística é necessário levar em conta a língua em seu contexto real, em corpora, mas há limites. Não é só porque existem muitos erros de digitação na internet que devemos levar todos os erros de digitação possíveis em conta, por exemplo. Da mesma maneira, é precise estabelecer limites (arbitrários) quanto à aceitabilidade de uma variante com ou sem se. Por exemplo, queixar existe sem se em algum dicionário da língua portuguesa brasileira? Se sim, então o teste não passa e é necessário ir para o próximo.

morro de medo de situações em que diferentes pessoas precisam decidir se algo tem o mesmo sentido. A chance de discordâncias infinitas, com bom argumentos para todos os lados, é enorme...

Concordo em parte. As chances de discordância não são infinitas, mas são muito altas para alguns casos borderline, sim. Mas de toda forma, o mesmo se aplica à sua proposta: "funciona como sujeito indeterminado/agente ou não". Acho que não é realista buscar testes infalíveis, para esse tipo de problema semântico o mais importante é fornecer um grande conjunto de exemplos anotados coerentemente, para que anotadores saibam o que fazer comparando um caso novo com os exemplos.

Quanto aos exemplos tricky:

claudiafreitas commented 6 years ago

Concordamos também que os casos 1, 2 e 3 acima devem ser distinguidos na anotação UD, então se (1) for anotado como expel então (3) não pode usar a mesma relação. Acho que a decisão quanto a qual relação usar exatamente é meio arbitrária, mas deveria ser tomada de comum acordo com outras línguas que possuem o mesmo fenômeno (...)

De acordo. E devemos levar em conta também a proposta UD. Para UD, tanto 1 como 3 são expl, mas concordamos que é interessante podermos distinguir entre esses casos. Por isso minha proposta de especificação sutil, chamando 1 de expl:indet

Tem um working group no UD que deve começar em breve a tratar das MWEs, em princípio vou participar, posso lançar a discussão lá quando começar, e esperamos para ver o que sai, que acham?

ok

Quanto ao teste que verifica a existência ou não do verbo sem a partícula: concordo que existe variabilidade, mas o caso de queixar-se me parece claramente um uso muito livre da língua.

O que é “um uso muito livre da língua”? Será que a sua (a minha; a nossa) noção de “uso muito livre” não se baseia apenas no que nos rodeia?

Para mim é totalmente estranho usar esse verbo sem o clítico se.

Pra mim também, mas não para meus alunos de MG, que de fato usam assim... (ou seja, não é erro de digitação. É apenas uma variante, e nem tão popular assim, dado que meus alunos são de pós graduação...) Quem somos nós para decretar o que é “uso muito livre” ou não? A língua está aí, só nos resta aceitá-la como ela é...

tbem acho que muitos exemplos anotados coerentemente funcionam melhor que explicações. Mas precisamos ter critérios para fazer as anotações (e preciso pensar sobre a diferença entre “teste” e “critério”, já que um me agrada, e o outro, não)

Quanto aos exemplos tricky:

• aprofundar-se em a crise se aprofundou com os resultados - concordo com a @claudiafreitas que é (1) apenas testei de outra maneira.

Será que essa nossa diferença poderá levar a resultados diferentes em outros contextos? Acho que sim, cf. exemplo do “se casaram” logo abaixo..

• os noivos se casaram - Se admitimos casar sendo usado como sinônimo de unir-se a alguém pelo matrimônio (João casou com Marcos) e não como sinônimo de celebrar o casamento de um casal (o juiz que casou meus pais é meu tio) então sim, pode ser 2. Eu estava sendo estrito e considerando apenas a leitura celebrar o casamento, e nesse caso seria 1.

Pela minha proposta, não seria 1 porque temos um sujeito agente – portanto, o –se não poderia ser indeterminado amplo..

• minhas conclusões se baseiam nesse gráfico - tudo depende se na indeterminação incluímos os casos de agente indeterminado e inexistente (chamado de incoativo no nosso paper com Magali). Se sim, então é 1, se não, então é 3.

Sim, a ideia é exatamente essa. Por isso, 1.

• Mas daí também devemos anotar como caso (3) coisas como a porta se fechou ou o galho se quebrou, acho que será bem produtivo e pouco lexicalizado. Mas tudo bem.

Não, esses casos tbém seriam 1. Indeterminado amplo é justamente a ideia ampla de indeterminação do sujeito: Quem fechou a porta? Não sabemos/é irrelevante. Quem quebrou o galho? Não sabemos/é irrelevante. O caso 3 é apenas para os casos em que temos um sujeito agente..

ceramisch commented 6 years ago

De acordo. E devemos levar em conta também a proposta UD. Para UD, tanto 1 como 3 são expl, mas concordamos que é interessante podermos distinguir entre esses casos. Por isso minha proposta de especificação sutil, chamando 1 de expl:indet

OK, entendo. Eu tive uma conversa semana passada com o pessoal do UD sobre a anotação de MWEs e, pelo que entendi, a visão deles seria de anotar apenas os fenômenos sintáticos na camada UD, e adicionar uma camada para as MWEs, como o que é atualmente feito no PARSEME. Isso seria um argumento para não distinguir os casos 1 (indet amplo) e 3 (clítico refl. inerente) na camada UD, colocando expl para ambos. Daí, a camada MWE anotaria o caso 3 como IRV e o caso 2 não seria anotado. Além disso, pelo que entendi eles se arrependem um pouco de ter permitido as pessoas criar estensões das etiquetas como expl:indet porque justamente está criando muita variabilidade de novo. Por exemplo, pode ser que em francês decidam chamar isso de expl:refl e daí teremos 2 nomes diferentes pra mesma coisa.

Quanto ao queixar-se, OK digamos que o teste 1, que diz para anotar como IRV se o verbo não existir sem o clítico reflexivo não passe (e podemos dizer que não passará para praticamente nenhum verbo, pois sempre poderemos achar algum registro/dialeto/situação em que o verbo é usado sem -se, ou seja, o teste é inútil). Então o teste 3 vai passar, pois muda o subcat frame:

(e preciso pensar sobre a diferença entre “teste” e “critério”, já que um me agrada, e o outro, não)

Entendo que um te agrade e outro não, mas qual? E principalmente, é uma questão de tradição/gosto ou é por alguma razão metodológica? Eu não vejo a diferença entre critério e teste, você poderia dar um exemplo?

Pela minha proposta, não seria 1 porque temos um sujeito agente – portanto, o –se não poderia ser indeterminado amplo..

Então o que seria? se casar seria 2, (recíproco), como eu coloquei acima? Para mim no recíproco o subcat frame deve se manter entre a versão reflexiva e a direta:

Quanto a anotar o caso incoativo como 1 (indet amplo) eu concordo. Então a crise se aprofundou, minhas conclusões se baseiam, a porta se abriu, etc. tudo isso é caso 1.

Veja aqui nossa lista de trabalho do PARSEME-PT na qual documentamos alguns casos de IRV tricky, com a respectiva decisão e alguns comentários: https://docs.google.com/spreadsheets/d/1xmp8RWEsBq-zu4-ptGYKkukgTWV4Z1bVUUTQeI88jYw/edit?usp=sharing

claudiafreitas commented 6 years ago

Tentando ressistematizar de novo :) Nas suas análises, vc privilegia a construção com foco no verbo (o que faz todo o sentido no contexto de mwe); eu penso na análise sintática do -se, apenas (o que faz sentido no contexto da anotação sintática UD). Daí que pra mim só faz sentido distinguir o -se

a) que não tem função sintática b) que tem função sintática (de OD)

O tipo (a) tem dois usos em português:

a1) indeterminar o sujeito a2) ser parte do verbo (e não fazer mais nada)

É só isso que eu penso em ter (isto é, em distinguir na anotação sintática) no Bosque. (E estou assumindo, com alguns gramáticos, que o -se da voz passiva pronominal nao se sustenta). Do ponto de vista UD, a1 e a2 seriam tratados exatamente da mesma maneira, mas isso nao corresponde à gramática do português; são fenômenos distintos, e isso é indiscutível. Um é um fenômeno "discursivo" (?); o outro é um fenômeno "lexical"(?). Me parece, então, que a análise/classificação PAERSE-ME seria ortogonal a essa classificação... Em alguns muitos casos as coisas vão se alinhar, mas isso - infelizmente, me parece - não será regra...

ceramisch commented 6 years ago

Ótima sistematização, obrigado.

O ponto crítico para mim é saber se a distinção a1/a2 deve ser representada nos treebanks do UD ou não (incluindo o Bosque mas não só, pois esse fenômeno ocorre em muitas línguas e seria bom tratá-lo de maneira uniforme)

Do ponto de vista unicamente do UD, creio que haveria bons argumentos para distinguir a1 de a2 (como disseste, são fenômenos de natureza distinta). Além disso, de um ponto de vista de PLN, distinguir a1 de a2 ajudaria (a) para treinar o parser e (b) no uso da análise sintática para uma futura análise semântica.

Mas há também bons argumentos para não distinguí-los: eles funcionam extatamente da mesma maneira sintaticamente (são clíticos que não podem ser separados do verbo, participam em próclise, ênclise, mesóclise, concordam em número e pessoa com o sujeito).

Eu prefiro não separá-los no UD, e separá-los em uma camada adicional que pode ser do PARSEME ou outra. Mas essa decisão não me pertence hehe.

arademaker commented 6 years ago

Olá @ceramisch , estou acompanhando no modo read-only aqui, não tenho muito a acrescentar nos pontos já citados. Mas gostaria de ver esta conversa conseguir convergir para ações concretas que possamos tomar para efetiva melhoria do corpus via o aproveitamento das anotações que vcs fazem de MWE com as anotações que fazemos de UD.

vcvpaiva commented 6 years ago

O ponto crítico para mim é saber se a distinção a1/a2 deve ser representada nos treebanks do UD ou não (incluindo o Bosque mas não só, pois esse fenômeno ocorre em muitas línguas e seria bom tratá-lo de maneira uniforme)

sim, seria bom saber o que acontece nos corpus em frances, italiano e principalmente espanhol e galego, nao? vc sabe @ceramisch?

ceramisch commented 6 years ago

sim, seria bom saber o que acontece nos corpus em frances, italiano e principalmente espanhol e galego, nao? vc sabe @ceramisch?

Não sabia, mas fiquei curioso e resolvi olhar.

Ou seja, é uma bagunça!

vcvpaiva commented 6 years ago

bom, eu deixaria o DE de lado, pois acho que nao e' lingua latina (bom e eu nao entendo mesmo). talvez fosse bom conversar com as pessoas fazendo frances, espanhol e italiano pra ver o que eles acham? chutando eu diria que cliticos sao tao importantes pra eles quanto para nos?

ceramisch commented 6 years ago

Idealmente, seria bom ter uma representação uniforme em todas as línguas nas quais o fenômeno de verbos inerentemente reflexivos ocorre. No PARSEME, identificamos as seguintes: BG, CS, DE, ES, FR, IT, PL, PT, RO, SL, SV (e também conversei com pessoal que confirmou que exite tb em DA). Pelo que observamos no PARSEME, a concentração de verbos do caso (3) nos corpora anotados é grande em quase todas essas linguas (veja a coluna IReflV dessa tabela). Vocês sabem como fazer para lançar um issue global no UD, para todas as línguas poderem contribuir na discussão? Sou novo nisso hehe

ceramisch commented 6 years ago

Por sinal, veja o que achei por acaso: http://universaldependencies.org/2015-08-23-uppsala/clitics.html

vcvpaiva commented 6 years ago

hmm, muito bom que voce achou essa pagina sobre clitics e tem todos os casos que estavamos discutindo, ne?

  1. impersonal construction,
  2. passivazing uses,
  3. pronominal verb,
  4. a real grammatical function. o problema e' consistencia da anotacao... eu nao sei a melhor maneira de discutir isso nao, mas sugeriria escrever pros nomes nessa pagina primeiro. (ps o link da tabela acima nao funcionou pra mim).
ceramisch commented 6 years ago

Passei a discussão pro UD mundial: https://github.com/UniversalDependencies/docs/issues/204

A questão da consistência da anotação é um problema, mas os reflexivos não são os únicos afetados, imagino ;-)

O mais importante seria ter guidelines claras centralizadas e fáceis de achar. Dependendo da discussão acima, poderemos propor alguma coisa.

vcvpaiva commented 6 years ago

obrigada @ceramisch por levar a discussao pros canais competentes. (O Joakim e o Dan respondem super rapido, sempre!) outro assunto: gostaria de saber quais sao as guidelines de Claudia, Alexandre e suas pras MWEs no Bosque. temos uma baseline dos problemas? temos stats que dizem: fixed =624 flat =13 flat:foreign= 72 flat:name =5861 mas nao sei quantas dessas estao corretas. voces sabem?

arademaker commented 6 years ago

@ceramisch , o link http://universaldependencies.org/2015-08-23-uppsala/clitics.html é da documentação antiga de UD.

arademaker commented 6 years ago

Nenhuma resposta conclusiva né ?

Passei a discussão pro UD mundial: UniversalDependencies/docs#204

ceramisch commented 6 years ago

Pois, estou tentando fazer a coisa avançar por lá hehe. Por enquanto, se necessário, poderiamos adoptar a solução seguinte:

Isso é conforme as guidelines, que exigem que ambos casos 1 e 3 sejam expl, mas guarda as especificidades que queremos anotar.

Se vocês quiserem, estamos planejando anotar o bosque para o PARSEME então a anotação expl:inherent pode vir diretamente das nossas anotações (mas a Cláudia não gosta das nossas guidelines hehe)

livyreal commented 6 years ago

oi pessoal, eu estava de férias e só consegui ler tudo hoje. De certa forma, já é esperado que o pessoal de UD não queira alterar as guidelines para marcar um fenômeno do português (e sim, de outras línguas românicas) que não é assim tão óbvio, não é óbvio nem para a gente. Antes de começarmos esse trabalho, o Paulo Gamallo já havia alertado (no PROPOR 2016) para o fato de que UD nunca seria uma boa forma de descrever as especificidades do português (até por que o objetivo não é esse).

Eu concordo com o "obj" para o caso 2 e prefiro "expl" (sem distinção) para 1 e 3. O melhor é seguir as guidelines à risca, sem inventar novas etiquetas. O objetivo, me parece, é conseguir uma descrição tão universal quanto possível; além disso, não temos como assegurar que o mesmo fenômeno vai ser marcado da mesma forma nos outros corpora. Podemos usar o campo MISC para distinguí-los e não perder essas anotações. Quem realmente estiver interessado neste fenômeno, pode considerar o campo MISC, assim como em outros casos em que deixamos as informações muito específicas neste campo.

arademaker commented 6 years ago

@livyreal sim,

UD nunca seria uma boa forma de descrever as especificidades do português (até por que o objetivo não é esse).

é fato conhecido. Vários grupos de UD não mantém seus treebanks em UD diretamente, mas em anotações e formatos próprios que são mapeados para UD. A questão é que para PT parece que não temos nenhum formato que seja referência aceita e usada por vários grupos. Linguateca ao longo do tempo foi desenvolvendo um esquema de anotação junto com o PALAVRAS. Fora isso, temos alguma coisa do EAGLES e outras tantas coisas desconexas: POS tags de um grupo, relações sintáticas de outro etc.

arademaker commented 6 years ago

Vale acompanhar a discussão no fórum de UD, obrigado @ceramisch por ter colocado lá, acho que estas discussões sempre deveriam ser feitas com o resto do grupo de UD, vejam recente comentário sobre uma dissertação cobrindo o assunto:

https://github.com/UniversalDependencies/docs/issues/204#issuecomment-364048005

vcvpaiva commented 6 years ago

@arademaker , @claudiafreitas seria bom ter uma ideia do tamanho do problema: determinar o numero de "-se"s no corpus, lemas dos verbos acompanhantes, e, pra mim mais interessante, o numero de sujeitos indeterminados comparado ao numero de sentencas.

claudiafreitas commented 6 years ago

Olá (chegando de férias também), insisto no meu ponto, que acredito não ferir mortalmente nenhuma guideline UD (e reforço que, na anotação do Bosque, o ponto não é identificar os verbos inerentemente reflexivos, embora isso acabe sendo um dos resultados da anotação, mas analisar o -se em contexto): daí que

claudiafreitas commented 6 years ago

Desculpem, vi que havia a proposta do Carlos que eu não mencionei. Sinceramente, acho minha proposta mais simples, com menos especificações.. Ainda nao entendi o argumento para não usá-la. Mas vamos lá. Carlos sugere:

obj no caso 2

sim, disso ninguém discorda

expl:pass, expl:impers e expl:pv no caso 1 (mas será que é mesmo útil distinguí-los?)

Acho que não, e por isso a única distinção que eu proponho é expl:indet (ou expl: impers), porque ela é útil para tarefas subsequentes de NLP. No documento da wiki eu já expliquei o motivo. E porque realmente são fenômenos distintos em PT. Já -se passiva não faz sentido indicar em português..

expl sem subtipo ou então expl:inherent ou algo assim no caso 3

Sugeri expl sem subtipo, pois esse é exatamente o uso previsto em UD.

vcvpaiva commented 6 years ago

so' pra verificar que voces estao acompanhando a discussao no caso do frances em https://github.com/UniversalDependencies/docs/issues/530#issuecomment-367049899

ceramisch commented 6 years ago

Pois, acho que questão dos clíticos reflexivos (e outros, inclusive) merecia uma página dedicada (ou a página do expl precisava ser mais clara e detalhada) para evitar que essas perguntas se repitam a cada língua/anotador que encontra o problema.

Em todos os casos, eu na verdade gosto da sua ideia Claudia. Apenas sugeri os subtipos pq parece ser o que o documento do "Uppsala group" recomenda, mas tb acho pouco útil distinguí-los. Ou seja, acho que podemos redigir uma sugestão de guidelines para o fenômeno (em inglês, para sugerir reuso no UD?), aplicar essas guidelines no bosque e fechar o issue :-)

claudiafreitas commented 6 years ago

@ceramisch : viva! (muitos emojis de alegria aqui) como já tenho muita coisa escrita em PT, me comprometo em produzir as guidelines pro UD - em inglês- ainda essa semana, ok? (e acho realmente que , na hora do vamos ver, teremos novos problemas.. e esperando para ver se o o que eu disse lá no issue do UD geral tem alguma repercussão...)

livyreal commented 6 years ago

ótimo para as relações (yey!), e o campo MISC? ainda dá para diferenciar o fenômeno ali, geralmente ninguém usa esse campo, mas é uma forma de não perder uma anotação (que é difícil demais de fazer). Acho relevante deixar marcado, pensando nos casos de [3] cujo sujeito não é na terceira pessoa, pois teremos (talvez não nesse corpus, mas as guidelines são pensadas para o PT, não?), clíticos que não o famigerado "se" marcados como "expl":

"Eu queixei-me do problema para João".

No corpus temos:

text = «Apaixonei-me imediatamente pela «Casa dos Espíritos». sentid = CP176-1 1 « « PUNCT PU PU 2 punct ChangedBy=Issue165|SpaceAfter=No 2-3 Apaixonei-me 2 Apaixonei apaixonar VERB |V|PS|1S|IND|@FS-STA Mood=Ind|Number=Sing|Person=1|Tense=Past|VerbForm=Fin 0 root _ 3 me eu PRON |PERS|M/F|1S|ACC|@<ACC Case=Acc|Gender=Unsp|Number=Sing|Person=1|PronType=Prs 2 obj

É [3], não?

E nesse caso, há mesmo uma cara de clítico fazendo passivização: A Casa dos espíritos apaixonou a moça. A moça apaixonou-se pela casa dos espíritos. A casa dos espíritos apaixonou-me (me objeto) Eu me apaixonou pela casa dos espíritos.

ps: estamos muito consistentes com https://github.com/UniversalDependencies/docs/issues/530#issuecomment-366980222

arademaker commented 3 years ago
% awk '$2 ~ /^se$/ {print $4,$6,$8}' * | sort | uniq -c | wc -l
      46

A lot of inconsistencies regarding the se particule. A possible suggestion is the one proposed by @dan-zeman , https://github.com/UniversalDependencies/UD_Portuguese-PUD/issues/19#issuecomment-711071032.

arademaker commented 3 years ago

Este issue possivelmente está fora de contexto, super longo. Mas pode estar relacionado à #212. No arquivo que citei lá da @claudiafreitas , alguns problemas com a relação expl.

arademaker commented 2 years ago

seria bom resolver este issue, considerando que temos que avaliar, levando em consideração a discussão acima, casos para verificar: http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=6183c6d2d0e3c&clustering=e.label

Um caso particular que me parece errado http://match.grew.fr/data/6183c7b02a097/177.svg

Com este issue resolvido, podemos tratar do https://github.com/UniversalDependencies/UD_Portuguese-GSD/issues/31#issuecomment-960662961

wellington36 commented 2 years ago

Li a discussão deste issue (e de issues relacionados), pelo que entendi foi discutido como classificar reflexivos em particular -se, um caminho (que particularmente acho interessante) para isso seria seguir a linha dos comentários (que já foram mencionados aqui) https://github.com/UniversalDependencies/docs/issues/204#issuecomment-364048005 e https://github.com/UniversalDependencies/UD_Portuguese-PUD/issues/19#issuecomment-711071032. Ou seja, adicionar a feature Reflex=Yes (que por sinal praticamente não é usada no Bosque) e tratar os casos de -se como PRON com relação expl.