cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

Nomes próprios #7

Closed arademaker closed 3 years ago

arademaker commented 7 years ago

Para continuar discussão iniciada neste commit:

https://github.com/cpdoc/dhbb-nlp/commit/b4f35311d29151ac7ad58113d4b1e8c168474517

@GPPassos e @claudiafreitas vamos continuar aqui ok ? Não temos ainda conclusão , vejam link que compartilhei

arademaker commented 7 years ago

Copiando link de conversa relacionada:

https://github.com/UniversalDependencies/UD_English/issues/32

claudiafreitas commented 7 years ago

Concordo com ambas as soluções Miss Universe (Flat) mother panda (compound), e estão alinhadas com o que estamos pensando.

GPPassos commented 7 years ago

Concordo com as soluções do caso em inglês também.

Para o nosso caso, não está claro qual o problema na questão da análise transparente da sintaxe nos nomes compostos. Para não recorrermos ao issue, recoloco aqui o documento com o posicionamento da @claudiafreitas : Nomes.Proprios.e.a.utilizacao.de.FLAT.docx

Pelo que entendi, as objeções ao uso de anotação transparente de sintaxe no caso de nomes de entidade são: 1) Há perda na noção de entidade, em comparação a uma estrutura de flat que seria facilmente identificada. Isso gera uma desassociação com o ponto de vista semântico. 2) O reconhecimento de encaixes de sintagmas preposicionais depende do conhecimento ou opinião de quem anota. Isso seria problemático pois as pessoas não imaginariam em suas mentes qual a origem das palavras, portanto a sintaxe transparente não corresponderia ao modo pelo qual pessoas analizam as frases em suas próprias mentes, digamos assim.

Claudia, está correta minha caracterização da sua opinião?

Além disso, a proposta seria ir contra a documentação de UD nesse tipo de caso, alterando o uso das relações de MWE flat, fixed e compound?

arademaker commented 7 years ago

@GPPassos, eu acho o argumento 2 acima fraco. E acho que seja lá o que decidirmos, precisamos colocar nossa posição publicamente e discutir no repositório http://github.com/universaldependencies/docs para então atualizar a documentação UD (páginas PT). Se nossos argumentos forem bons, outros podem se beneficiar ou ficar claro que trata-se de situações particulares de idioma.

claudiafreitas commented 7 years ago

@GPPassos , sim, os problemas são esses mesmos que vc levantou. @arademaker , o argumento 2 é fraco, concordo 100%. Mas ele é o argumento UD:

In addition, regular syntactic relations are used: (...) (when these relations are (i) recognized in the language being annotated

Como se houvesse um reconhecimento único e generalizado dos falantes da língua. Isso não existe, existe o reconhecimento de quem está fazendo a anotação. Voltamos aos exemplos.. "João do Rio"; "Nelson Sargento". "Mato Grosso [do Sul]", “Unidade de Polícia Pacificadora”.. Onde traçar o limite do que é reconhecido e do que não é?

Eu gostaria de ter algum esboço de proposta, antes de apenas soltar o problema...

claudiafreitas commented 7 years ago

registro disso: https://github.com/UniversalDependencies/docs/issues/400 não é só a gente que acha estranho fazer análise sintática de nome de pessoa. (e eu sempre concordo com o manning)

arademaker commented 3 years ago

Novamente, este issue é antigo e vou fechar. Na época não me parece termos convergido para nenhuma decisão. Por outro lado, discussões em UD permaneceram, para citar uma recente https://github.com/UniversalDependencies/UD_English-EWT/issues/133

Então nas decisões em ud-mini, teremos que levar em conta situação atual de UD.

vcvpaiva commented 3 years ago

nao me parece razoavel fechar o issue, uma vez q a discussao continua atual.

tb nao me parece que solucoes hibridas tenham sido muito consideradas. eu acho q nao faz sentido analisar nomes de pessoas, mas q faz algum sentido sim analisar nomes de organizacoes e de titulos de livros, filmes e outros.

arademaker commented 3 years ago

Fechei porque estes casos certamente irão ocorrer no mini, de forma mais concreta e teremos um action item: poderemos então analisar lá e decidir. Para cada decisão, eu quero tentar gerar uma documentação, podemos começar com o wiki aqui mas externalizar para o time de UD o mais rápido possível.