UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
49 stars 11 forks source link

dep relations in the guidelines not found in corpora #65

Open livyreal opened 7 years ago

livyreal commented 7 years ago

Opening to document dependency relations that are not found in corpora, but that are in the guidelines.

livyreal commented 7 years ago

acl-inf http://universaldependencies.org/pt/dep/acl-inf.html

I think it should be:

acl:inf(subir, apoio)

O desembargador Doreste Batista, convidado pelo governador do Rio, Nilo Batista, para ser o supersecretário de Segurança do Estado, disse ontem que, se confirmado, vai pedir apoio do Exército para subir morros e colocar policiamento ostensivo nas ruas.

1   O   o   DET <artd>|ART|M|S|@>N  Gender=Masc|Number=Sing 2   det _   _
2   desembargador   desembargador   NOUN    <np-def>|N|M|S|@SUBJ>   Gender=Masc|Number=Sing 25  nsubj   _   _
3   Doreste_Batista Doreste_Batista PROPN   PROP|M|S|@N<    Gender=Masc|Number=Sing 2   appos   _   _
4   ,   ,   PUNCT   PU|@PU  _   5   punct   _   _
5   convidado   convidar    VERB    <mv>|V|PCP|M|S|@ICL-N<PRED  Gender=Masc|Number=Sing 2   acl _   _
6   por por ADP PRP|@PASS   _   8   case    _   _
7   o   o   DET <-sam>|<artd>|ART|M|S|@>N   Gender=Masc|Number=Sing 8   det _   _
8   governador  governador  NOUN    <np-def>|N|M|S|@P<  Gender=Masc|Number=Sing 5   nmod    _   _
9   de  de  ADP <sam->|PRP|@N<  _   11  case    _   _
10  o   o   DET <-sam>|<artd>|ART|M|S|@>N   Gender=Masc|Number=Sing 11  det _   _
11  Rio Rio PROPN   PROP|M|S|@P<    Gender=Masc|Number=Sing 8   nmod    _   _
12  ,   ,   PUNCT   PU|@PU  _   13  punct   _   _
13  Nilo_Batista    Nilo_Batista    PROPN   PROP|M|S|@APP   Gender=Masc|Number=Sing 11  appos   _   _
14  ,   ,   PUNCT   PU|@PU  _   13  punct   _   _
15  para    para    ADP PRP|@<ADVL  _   25  mark    _   _
16  ser ser VERB    <mv>|V|INF|@ICL-P<  _   18  cop _   _
17  o   o   DET <artd>|ART|M|S|@>N  Gender=Masc|Number=Sing 18  det _   _
18  supersecretário    supersecretário    NOUN    <np-def>|N|M|S|@<SC Gender=Masc|Number=Sing 5   dep _   _
19  de  de  ADP PRP|@N< _   20  case    _   _
20  Segurança  segurança  NOUN    <prop>|<np-idf>|N|F|S|@P<   Gender=Fem|Number=Sing  18  nmod    _   _
21  de  de  ADP <sam->|PRP|@N<  _   23  case    _   _
22  o   o   DET <-sam>|<artd>|ART|M|S|@>N   Gender=Masc|Number=Sing 23  det _   _
23  Estado  estado  NOUN    <prop>|<np-def>|N|M|S|@P<   Gender=Masc|Number=Sing 18  nmod    _   _
24  ,   ,   PUNCT   PU|@PU  _   18  punct   _   _
25  disse   dizer   VERB    <mv>|V|PS|3S|IND|@FS-STA    Mood=Ind|Tense=Past|Person=3|Number=Sing    0   root    _   _
26  ontem   ontem   ADV ADV|@<ADVL  _   25  advmod  _   _
27  que que SCONJ   KS|@SUB _   33  mark    _   _
28  ,   ,   PUNCT   PU|@PU  _   25  punct   _   _
29  se  se  SCONJ   <first-cjt>|KS|@ADVL>   _   33  advmod  _   _
30  confirmado  confirmar   VERB    <mv>|V|PCP|M|S|@ICL-<SC Gender=Masc|Number=Sing 29  dep _   _
31  ,   ,   PUNCT   PU|@PU  _   30  punct   _   _
32  vai ir  AUX <aux>|V|PR|3S|IND|@FS-<ACC  Mood=Ind|Tense=Pres|Person=3|Number=Sing    33  aux _   _
33  pedir   pedir   VERB    <mv>|V|INF|@ICL-AUX<    _   25  ccomp   _   _
34  apoio   apoio   NOUN    <np-idf>|N|M|S|@<ACC    Gender=Masc|Number=Sing 33  dobj    _   _
35  de  de  ADP <sam->|PRP|@N<ARG   _   37  case    _   _
36  o   o   DET <-sam>|<artd>|ART|M|S|@>N   Gender=Masc|Number=Sing 37  det _   _
37  Exército   exército   NOUN    <prop>|<np-def>|N|M|S|@P<   Gender=Masc|Number=Sing 34  nmod    _   _
38  para    para    ADP PRP|@N<ARG  _   39  mark    _   _
39  subir   subir   VERB    <first-cjt>|<mv>|V|INF|@ICL-P<  _   34  acl _   _ 
40  morros  morro   NOUN    <np-idf>|N|M|P|@<ACC    Gender=Masc|Number=Plur 39  dobj    _   _
41  e   e   CONJ    <co-icl>|<co-inf>|KC|@CO    _   39  cc  _   _
42  colocar colocar VERB    <cjt>|<mv>|V|INF|@ICL-P<    _   39  conj    _   _
43  policiamento    policiamento    NOUN    <np-idf>|N|M|S|@<ACC    Gender=Masc|Number=Sing 42  dobj    _   _
44  ostensivo   ostensivo   ADJ ADJ|M|S|@N< Gender=Masc|Number=Sing 43  amod    _   _
45  em  em  ADP <sam->|PRP|@<ADVL   _   47  case    _   _
46  as  o   DET <-sam>|<artd>|ART|F|P|@>N   Gender=Fem|Number=Plur  47  det _   _
47  ruas    rua NOUN    <np-def>|N|F|P|@P<  Gender=Fem|Number=Plur  42  nmod    _   _
48  .   .   PUNCT   PU|@PU  _   25  punct   _   _
livyreal commented 7 years ago

acl:part

following the documentation (http://universaldependencies.org/pt/dep/acl-part.html) I do not know exactly what is this relation. I though it would be adjective clauses with a participle head, but in the examples we have "Muitos aprendem errando , infelizmente."

arademaker commented 7 years ago

@livyreal qual o problema?? Issues não são para discussões sem foco! Qual o problema de uma relação documentada não estar no corpus? sugira a documentação e se tiver uma dúvida especifica, abra issues específicos para cada relação.

Podemos usar uma tag para marcar dúvidas sobre documentações.

livyreal commented 7 years ago

o problema é ter guidelines de anotacao específica para features em português e no nosso corpus nao ter nenhuma ocorrência (temos acl:relcl, mas não temos as duas documentadas nas guidelines), nem que seja pra escrever num artigo depois, esta info é relevante. estou documentando, se não é pra documentar em issue, sugira onde. (não é a primeira vez que te falo pra sugerir onde eu documento isso).

arademaker commented 7 years ago

seja específica nas dúvidas se for usar issue. pelo menos isso. O objetivo das issues é serem fechadas! Também pode usar o wiki para comentários mais permanentes. Mas acho que aqui a questão mesmo é documentar no arquivo diretamente e outros poderão criticar. A issue pode ser para isso, pedindo comentários específicos para terminar uma documentação específica.

livyreal commented 7 years ago

o problema é documentar como estou fazendo a documentação.

As relações que existem na documentação para português no git que não existem nas guidelines de UD e nem na nova versão do corpus são:

acl:inf acl-part advmod-emph auxpass-reflex det-poss xcomp-adj

Fiz a documentação apenas para a primeira relação acl:inf e não continuei, já que não é óbvio o que estas relações etiquetariam, não há exemplos e nem documentação disponível.

o que vc acha que fazemos com estes arquivos, @arademaker ?

arademaker commented 7 years ago

@livyreal vc viu se nos diretórios de EN e outras linguas em https://github.com/universaldependencies/docs estes arquivos ainda estão lá? No diretório de https://github.com/UniversalDependencies/docs/tree/pages-source/_en-dep não encontrei, mas vc viu a página http://universaldependencies.org/ext-dep-index.html ? estas são relações criadas para linguas que precisaram de relações específicas, podemos ver nos docs destas linguas e avaliar se temos demanda destas relações em PT. Se não tivermos, podemos apagar estes arquivos. Mas se eventualmente tivermos a possibilidade destes casos em PT, vc pode usar a documentação de outras linguas para entender a idéia.

Note que o fato do corpus agora não ter estas relações pode não ter sido uma decisão intencional do @EckhardBick .

livyreal commented 7 years ago

indeed in http://universaldependencies.org/ext-dep-index.html we have all those relations listed.

And when you go to the Portuguese page for each feature, we found statistics about these relations, but those relations are not present in our version of Bosque neither in the Dan's version. These statistics are related to the Portuguese-BR corpus. Some of the relations are indeed present in the Portuguese-BR corpus, some of them are not present even there (as advmod-emph).

I have no idea about who decided that these relations should be present in Portuguese. =/

vcvpaiva commented 7 years ago

@livyreal

I have no idea about who decided that these relations should be present in Portuguese. =/

well, all the relations are supposed to be present in all languages to begin with, I believe. and some of these are very useful: I do want to know how many and which (det-poss) determiners are possessives and which passive auxiliaries are reflexives (auxpass-reflex).

But certainly it seems more useful to see if we can recover the information that Dan Zeman has already in his processing, like all the 3168 mwes that are reported in line 114 of https://github.com/UniversalDependencies/UD_Portuguese/blob/master/stats.xml. as well as the "hits" produced by their validation tests and reported in #69. I think this amounts to 25 new issues, of which I opened three: one of lack of nsubjpass, one of PRON types and one on negative particles.

livyreal commented 7 years ago

a solution is just delete these documentation from git that is not present in Dan's version neither in ours.