UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
50 stars 12 forks source link

'Sindicato dos Jornalistas' #228

Open arademaker opened 6 years ago

arademaker commented 6 years ago

https://github.com/UniversalDependencies/UD_Portuguese-Bosque/blob/2c246a53d970bea5ca00a87f73327b588f9e53b5/documents/CF0894.conllu#L64-L68

@claudiafreitas. We need to decide how to handle these compound names and the determinantes and prepositions inside them.

claudiafreitas commented 6 years ago

As you said, compound. All the elements relate to the first element in a compound relation.

vcvpaiva commented 6 years ago

hmm, not totally clear to me. it would be so, if we translated as "Journalists' Union". but if you said the "Union of Journalists and professionals of broadcasting", would this be a compound?...

arademaker commented 6 years ago

Longa e antiga discussão certo? Precisamos definir e documentar um guideline. Também não gosto muito do flat:name, mas Sindicato dos Jornalistas é um caso menos claro por existirem vários outros Sindicato do(a)s X.

Para Pedra da Gávea ou Rio das Ostras parace bem mais claro isto ser um nome. Mas também temos expressões como fábrica de monstros que não são nomes e isto tornaria mais dificil o aprendizado do parser que para os nomes usaria flat:name e para outros casos nmod.

A questão é se estamos querendo fazer o parser aprender algo que não está no texto. Se estamos anotando semântica ou sintaxe. Nós sabemos que Pedra da Gávea é um nome e não apenas uma pedra que fica ou é vista da Gávea. Mas qual a fronteira? E uma expressão como Gávea dos Ricos ? E se escrita como Gávea dos ricos? Talvez então no primeiro caso seria flat:name e no segundo nmod?

arademaker commented 6 years ago

O problema em levar a discussão para a tradução para o inglês é que não temos um paralelo em PT para as duas formas certo?

vcvpaiva commented 6 years ago

bom, sim, nao temos as duas formas, so' a segunda ne'? por isso estou reclamando. acho que nao podemos usar o que seria bom pra "compounds". mas nao tenho certeza nao, queria ouvir o que a Claudia diz sobre o problema que estou levantando agora.