UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
48 stars 11 forks source link

múltiplos complementadores ligados a xcomp #383

Open leoalenc opened 2 years ago

leoalenc commented 2 years ago

@arademaker , usando a biblioteca em Python para extração de molduras valenciais, obtive os seguintes resultados:

for k in counter.keys():
    print(k,counter[k])

('a',) 20
('que',) 10
('por',) 6
('a', 'que') 4
('de',) 15
('a', 'de', 'que') 1
('sem',) 3
('de', 'porque') 1
('a', 'de') 3
('de', 'pois', 'que') 1
('de', 'se') 2
('de', 'que') 7
('para',) 5
('que', 'é') 1
('a', 'para') 1
('a', 'caso') 2
('como',) 4
('para', 'que') 1
('já',) 1
('ver',) 1
('se',) 2
('em',) 4
('embora',) 2
('porque',) 3
('de', 'de', 'que') 1
('de', 'de') 1
('de', 'para') 2
('de', 'em') 1
('a', 'se') 1
('a', 'porque') 1
('em', 'que') 1
('a', 'por') 1
('por', 'que') 1
('por', 'porque') 1
('a', 'como') 1
('a', 'foi', 'que') 2
('com', 'que') 1
('a', 'quando') 1
('a', 'para', 'que') 1
('para', 'para') 1
('a', 'a', 'em') 1
('se', 'sobre') 2

O dicionário counter é uma distribuição de frequência dos complementadores (i.e., SCONJs ligadas ao xcomp via mark) de todos os casos de xcomp de mais de 2 componentes de todas as molduras extraídas do Bosque. Por componente entendo o resultado de parts=re.split(r"[+:]",rel), onde rel é o xcomp com suas anotações. Excluo da contagem casos como 'xcomp:como'. Podemos ver que a lista tem tanto coisas esperadas quanto coisas estranhas. Casos esperados, por exemplo, são:

('a',) 20 ('que',) 10 ('por',) 6 ('a', 'que') 4 ('de',) 15

E assim os casos de n=1, com n=len(tupla). Suspeitos são todos os casos de n>2. E também casos como

('já',) 1 ('ver',) 1 ('se',) 2 ('embora',) 2

Suspeito que os casos estranhos envolvam dezenas, talvez centenas de sentenças do corpus, que podem ser extraídas do dicionário.

arademaker commented 2 years ago

E também relacionado a isso temos os casos de verbos xcomp que tem sujeito, o que seria estranho correto?

http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=6183d96ba7b20

leoalenc commented 2 years ago

E também relacionado a isso temos os casos de verbos xcomp que tem sujeito, o que seria estranho correto?

http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=6183d96ba7b20

@arademaker , concordo, xcomp, por definição, não pode governar um sujeito. Examinei os três primeiros exemplos dos resultados dessa query e vi que o se, que podemos analisar, pelo menos num primeiro momento, como índice de indeterminação do sujeito da gramática tradicional, foi anexado como dependente do verbo encaixado e não do verbo principal que governa o xcomp.

O mesmo não se pode dizer da pintura de Cy Twombly. http://match.grew.fr/data/61840a7a26ff1/177.svg

O mesmo alguém não pode dizer da pintura de Cy Twombly. Alguém não pode dizer o mesmo da pintura de Cy Twombly.

Esse tipo de erro, porém, ao que parece, não seria detectado facilmente pela biblioteca do Lucas (algo a perguntar para ele). Seria talvez uma feature importante incluir essa informação em algum lugar. Uma outra alternativa de análise talvez seja considerar o se como partícula apassivadora:

O mesmo não se pode dizer da pintura de Cy Twombly. http://match.grew.fr/data/61840a7a26ff1/177.svg

O mesmo não pode ser dito da pintura de Cy Twombly.

Deve-se abrir issue aqui para tratar dessas construções, que estão definitivamente anotadas de forma errada, seja qual for a análise do se.