Closed arademaker closed 3 years ago
Copiando link de conversa relacionada:
https://github.com/UniversalDependencies/UD_English/issues/32
Concordo com ambas as soluções Miss Universe (Flat) mother panda (compound), e estão alinhadas com o que estamos pensando.
Concordo com as soluções do caso em inglês também.
Para o nosso caso, não está claro qual o problema na questão da análise transparente da sintaxe nos nomes compostos. Para não recorrermos ao issue, recoloco aqui o documento com o posicionamento da @claudiafreitas : Nomes.Proprios.e.a.utilizacao.de.FLAT.docx
Pelo que entendi, as objeções ao uso de anotação transparente de sintaxe no caso de nomes de entidade são:
1) Há perda na noção de entidade, em comparação a uma estrutura de flat
que seria facilmente identificada. Isso gera uma desassociação com o ponto de vista semântico.
2) O reconhecimento de encaixes de sintagmas preposicionais depende do conhecimento ou opinião de quem anota.
Isso seria problemático pois as pessoas não imaginariam em suas mentes qual a origem das palavras, portanto a sintaxe transparente não corresponderia ao modo pelo qual pessoas analizam as frases em suas próprias mentes, digamos assim.
Claudia, está correta minha caracterização da sua opinião?
Além disso, a proposta seria ir contra a documentação de UD nesse tipo de caso, alterando o uso das relações de MWE flat
, fixed
e compound
?
@GPPassos, eu acho o argumento 2 acima fraco. E acho que seja lá o que decidirmos, precisamos colocar nossa posição publicamente e discutir no repositório http://github.com/universaldependencies/docs para então atualizar a documentação UD (páginas PT). Se nossos argumentos forem bons, outros podem se beneficiar ou ficar claro que trata-se de situações particulares de idioma.
@GPPassos , sim, os problemas são esses mesmos que vc levantou. @arademaker , o argumento 2 é fraco, concordo 100%. Mas ele é o argumento UD:
In addition, regular syntactic relations are used: (...) (when these relations are (i) recognized in the language being annotated
Como se houvesse um reconhecimento único e generalizado dos falantes da língua. Isso não existe, existe o reconhecimento de quem está fazendo a anotação. Voltamos aos exemplos.. "João do Rio"; "Nelson Sargento". "Mato Grosso [do Sul]", “Unidade de Polícia Pacificadora”.. Onde traçar o limite do que é reconhecido e do que não é?
Eu gostaria de ter algum esboço de proposta, antes de apenas soltar o problema...
registro disso: https://github.com/UniversalDependencies/docs/issues/400 não é só a gente que acha estranho fazer análise sintática de nome de pessoa. (e eu sempre concordo com o manning)
Novamente, este issue é antigo e vou fechar. Na época não me parece termos convergido para nenhuma decisão. Por outro lado, discussões em UD permaneceram, para citar uma recente https://github.com/UniversalDependencies/UD_English-EWT/issues/133
Então nas decisões em ud-mini, teremos que levar em conta situação atual de UD.
nao me parece razoavel fechar o issue, uma vez q a discussao continua atual.
tb nao me parece que solucoes hibridas tenham sido muito consideradas. eu acho q nao faz sentido analisar nomes de pessoas, mas q faz algum sentido sim analisar nomes de organizacoes e de titulos de livros, filmes e outros.
Fechei porque estes casos certamente irão ocorrer no mini, de forma mais concreta e teremos um action item
: poderemos então analisar lá e decidir. Para cada decisão, eu quero tentar gerar uma documentação, podemos começar com o wiki aqui mas externalizar para o time de UD o mais rápido possível.
Para continuar discussão iniciada neste commit:
https://github.com/cpdoc/dhbb-nlp/commit/b4f35311d29151ac7ad58113d4b1e8c168474517
@GPPassos e @claudiafreitas vamos continuar aqui ok ? Não temos ainda conclusão , vejam link que compartilhei