Open claudiafreitas opened 7 years ago
a proposta do Daniel faz sentido pra mim. @arademaker? Outro ponto é que precisaremos de uma re-análise das frases após a concatenação. A ideia era fazer isso pelo http://lindat.mff.cuni.cz/services/udpipe/run.php e isso teria que ser feito caso a caso.... ou não?
@DanielSpecht certamente esta primeira 'conta' que vc fez é informativa. Mas a correção não poderá ser automatizada. Uma vez as frases concatenadas, a análise da nova frase precisa ser refeita. Não basta juntar as análises pois as árvores sintáticas seriam disconexas. Então identificar os casos por token não é suficiente, ao meu ver, para termos uma solução que resolva os problemas. Vide comentário da @claudiafreitas como resolvemos um caso juntos, recorrendo ao http://lindat.mff.cuni.cz/services/udpipe/run.php para analisar a frase depois de reintegrada.
@DanielSpecht o caso do «
é mais complicado. Ainda não sabemos exatamente como resolver. Trata-se de um outro nível de discurso que não sentenças.
O commit que fizemos manualmente resolvendo um problema de segmentação foi https://github.com/own-pt/bosque-UD/commit/f6433bf4c73e7f39a159140b12012891d9a9f349
@claudiafreitas o caso que termina com vírgula acho que está segmentado certo! Parece ser um início de carta. Vide CF182-1.
Alguns casos de setenças terminadas em --
também podem estar certos.
@claudiafreitas e @DanielSpecht vejam este commit https://github.com/own-pt/bosque-UD/commit/2ebffc2439136bbed9c919859365f0122f0ef600
@DanielSpecht precisamos ter uma função para completar a análise das sentenças combinadas a partir de dados das sentenças origem. Isto é, dado um arquivo, a funçao ira procurar por sentenças com metadado new_sent_id
e MERGED
e usar estas informações para combinar as informações das sentenças listadas em MERGED
e remove-las depois do arquivo deixando apenas a combinada e renomeando o new_sent_id
para sent_id
. A função produz um novo arquivo sem alterar o anterior. Na verdade, a função deve operar sobre listas de sentenças produzindo nova lista de sentença. Quando vc tiver ela, é fácil usa-la para operar sobre arquivos. Faz sentido?
@claudiafreitas note que não é trivial. Note que UDPipe não desmembrou regozija-se
, por exemplo. Tente na interface http://lindat.mff.cuni.cz/services/udpipe/run.php a sentença:
Saddam Hussein regozija-se com o derrube de Gorbatchov; Kadhafi, da Líbia, fará o mesmo.
Tive que fazer correções manualmente. UDPipe não coloca lemas. E ainda por cima, errou feito em pensar que Gorbatchov; Kadhafi
era um nome só, ligados por flat
.
@DanielSpecht não existe nenhuma garantia sobre a ordem das sentenças, por isso explicitei no meta MERGED os IDs das sentenças que geraram a sentença combinada. Melhor falarmos, a questão não é usar os metadados das sentenças originais, mas as informações dos tokens destas sentenças que não estiverem na sentença produzida. Em particular: lema, features, misc etc. Obviamente, os campos head e deprel não podem ser sobreescritos.
As soluções de segmentação de ASPAS propostas para o DHBB em https://github.com/cpdoc/dhbb-nlp/issues/10 devem poder ser aplicadas aqui. @LRocha7
Há uma série de frases no Bosque que têm erros de segmentação: terminam em
Iremos corrigi-las de maneira sistemática, abaixo um print de como deve ficar, e em anexo o resultado da busca que fiz no Bosque por frases que terminavam com os sinais de pontuação listados acima. Não são poucas e há muito mais no CP que no CF (e é bom conferir a minha lista/refazer a busca).
Frases_SPLIT_Bosque.txt