UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
48 stars 11 forks source link

obliques incorrectly annotated as indirect objects #401

Open leoalenc opened 2 years ago

leoalenc commented 2 years ago

@arademaker, usando o módulo extrator de valências e os meus scripts voltados à construção automática de entradas da PorGram, extraí todas as preposições usadas como case de obj ou iobj. Conforme https://github.com/LR-POR/tools/issues/39#issuecomment-1019333641, tenho me deparado com erros graves de anotação. Esses casos revelam, mais uma vez, a vantagem de se adotar a teoria da valência como perspectiva para correção de um treebank no formato UD. Em diferentes teorias gramaticais, estabelece-se uma distinção entre preposições plenas (ou lexicais) e preposições semanticamente vazias (ou gramaticais). A terminologia varia muito nesse campo, mas o importante é a distinção fundamental entre casos como (1) e (2), por um lado, e (3) e (4), por outro:

(1) Famalicão já conta [obj com os argelinos] (2) Muitas das prioridades do novo governo coincidem [obj com as prioridades do PT]. (3) Segundo o BC, mais da metade dos recursos da caderneta são de poupadores de médio e grande porte em tese, menos sujeitos a achar que o dinheiro perdeu rendimento [obl com a queda da inflação]. (4) A Polícia Civil de Ourinhos (371 km a oeste de São Paulo) prendeu ontem à tarde o ex-líder religioso Jonas Rúbio, 45, acusado de matar na quarta-feira a estudante Claudirene Contijo, 13, [obl com um tiro de espingarda].

Em (1) e (2), o PP introduzido por com está corretamente anotado no Bosque como obj, enquanto em (3) e (4), de forma que considero também correta, é analisado como obl. Veja as análises de (1)-(4):

com_PP_obj_obl.txt

Parece que, tal a preposição com nos exemplos (1)-(4), de 6 a 8 das 17 preposições classificadas como simples por Cunha e Cintra (1985, p. 542) funcionam tanto como preposições lexicais quanto gramaticais. No entanto, um grupo expressivo, com 8 ou 9 preposições, aparentemente só possui o uso como preposição semanticamente plena, por exemplo, contra, sem, até e desde. Conforme a teoria das Dependências Universais, no que reflete teorias como a LFG, entre outras, preposições plenas tipicamente funcionam como mark de substantivos ligados por obl a um núcleo verbal ou nominal. Preposições gramaticais, por sua vez, tipicamente funcionam comomark de obj ou iobj, no caso de núcleos verbais. No entanto, ao extrair todas as preposições de obj e iobj, obtemos uma lista que inclui contra, até e desde:

>>> for prep in ValenceExtractor.extract_prepositions():
    print(prep)

a
sobre
para
contra
o
desde
em
até
por
com
como
de

Vejamos exemplo com desde na função de mark de um iobj:

for example in ValenceExtractor.extract_example('<VERB:act,nsubj,iobj:desde,obj:com>','sofrer'):
    print(example)

Roberto Capuano, presidente do Creci-SP (Conselho Regional de Corretores de Imóveis), diz que o mercado de usados sofre com a carência de financiamentos desde 70.

Veja:

# text = Roberto Capuano, presidente do Creci-SP (Conselho Regional de Corretores de Imóveis), diz que o mercado de usados sofre com a carência de financiamentos desde 70.
# sent_id = CF48-3
# source = CETENFolha n=48 cad=Imóveis sec=eco sem=94b
1   Roberto Roberto PROPN   _   Gender=Masc|Number=Sing 17  nsubj   _   ExtPos=PROPN
2   Capuano Capuano PROPN   _   Number=Sing 1   flat:name   _   SpaceAfter=No
3   ,   ,   PUNCT   _   _   4   punct   _   _
4   presidente  presidente  NOUN    _   Gender=Masc|Number=Sing 1   appos   _   _
5-6 do  _   _   _   _   _   _   _   _
5   de  de  ADP _   _   7   case    _   _
6   o   o   DET _   Definite=Def|Gender=Masc|Number=Sing|PronType=Art   7   det _   _
7   Creci-SP    Creci-SP    PROPN   _   Gender=Masc|Number=Sing 4   nmod    _   _
8   (   (   PUNCT   _   _   9   punct   _   SpaceAfter=No
9   Conselho    Conselho    PROPN   _   Gender=Masc|Number=Sing 7   appos   _   _
10  Regional    Regional    PROPN   _   Number=Sing 9   flat:name   _   _
11  de  de  ADP _   _   12  case    _   _
12  Corretores  Corretores  PROPN   _   Number=Sing 9   nmod    _   _
13  de  de  ADP _   _   14  case    _   _
14  Imóveis Imóveis PROPN   _   Number=Sing 12  nmod    _   SpaceAfter=No
15  )   )   PUNCT   _   _   9   punct   _   SpaceAfter=No
16  ,   ,   PUNCT   _   _   4   punct   _   _
17  diz dizer   VERB    _   Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin   0   root    _   _
18  que que SCONJ   _   _   23  mark    _   _
19  o   o   DET _   Definite=Def|Gender=Masc|Number=Sing|PronType=Art   20  det _   _
20  mercado mercado NOUN    _   Gender=Masc|Number=Sing 23  nsubj   _   _
21  de  de  ADP _   _   22  case    _   _
22  usados  usado   NOUN    _   Gender=Masc|Number=Plur 20  nmod    _   _
23  sofre   sofrer  VERB    _   Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin   17  ccomp   _   _
24  com com ADP _   _   26  case    _   _
25  a   o   DET _   Definite=Def|Gender=Fem|Number=Sing|PronType=Art    26  det _   _
26  carência    carência    NOUN    _   Gender=Fem|Number=Sing  23  obj _   _
27  de  de  ADP _   _   28  case    _   _
28  financiamentos  financiamento   NOUN    _   Gender=Masc|Number=Plur 26  nmod    _   _
29  desde   desde   ADP _   _   30  case    _   _
30  70  70  NUM _   NumType=Card    23  iobj    _   SpaceAfter=No
31  .   .   PUNCT   _   _   17  punct   _   _

O objetivo desta issue seria, então, revisar todos os casos de iobj e obj introduzidos por preposições que funcionam apenas como plenas. Além de contra, até e desde, eu incluiria na lista de casos suspeitos os exemplos com iobj ou obj marcado por meio de sobre. Veja que a lista de preposições extraídas pela minha função ValenceExtractor.extract_prepositions() inclui o e como. O primeiro item claramente não é preposição, o segundo também não acho que seja, conforme já comentei alhures, em consonância, aliás, com Cunha e Cintra (1985), que não incluem como nem entre as preposições simples (também chamadas de essenciais) nem entre as acidentais .