cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

Sentenças divididas indevidamente: problemas com asteriscos? #1

Closed suemi-higuchi closed 7 years ago

suemi-higuchi commented 7 years ago

No 2.conllu, tem um exemplo dessa divisão errada:

sent_id = 31
text = Fazendeiro, empresário, acionista da TV Aratu (retransmissora da Rede Manchete) e do jornal

sent_id = 32
text = *Tribuna da Bahia*, e proprietário de uma mina de ouro na Paraíba — concessão que perderia por decisão do Ministério das Minas e Energia —, em maio de 1993 foi processado pelo Superior Tribunal de Justiça (STJ).

No final do 3.conllu, há uma sequência de nomes de publicações delimitadas por (*), que são usadas para marcar trechos em itálico. Cada livro virou uma sentença diferente. Como lidar?

arademaker commented 7 years ago

O caso do 2.conllu foi corrigido em 51e32a12. Basicamete, copiei o texto da sentença inteira para a interface http://lindat.mff.cuni.cz/services/udpipe/, escolhi o modelo PT (bandeira portugal) que é treinado com nosso corpus Bosque; e nas opções marquei Presegmented input fazendo com que o sistema aceite que cada linha tem uma sentença inteira. A parte mais chata foi limpar os campos xpostags usando nosso biblioteca e algumas repetições de # desnecessárias. De qq modo, a sentença é muito longa é ruim mesmo! ;-)

O caso do arquivo 3.conllu, temnos erros mesmo né? Estamos usando o * do Markdown mas nesta sentença existe desalinhamento destes marcadores. Na Floresta eles usavam o «...» e acho que também introduziram isso trocando as aspas por este deliminator. Mas não sei o motivo. Então no texto original (vide cpdoc/dhbb@4186dafb4) corrigi isso e depois repeti o processo acima para este arquivo. Vide 6afad661

arademaker commented 7 years ago

Em tempo, @claudiafreitas estas pontuações podem vir a gerar problema. No floresta «...» e no DHBB estamos usando *...* para marcar destaque (negrito).

arademaker commented 7 years ago

@suemi-higuchi note que qq anotação que vc tenha feito nos fragmentos de sentenças que foram juntadas, terá que refazer nas novas sentenças ok?

suemi-higuchi commented 7 years ago

@arademaker , devo colocar estes casos de segmentação por asteriscos aqui? Você vai corrigir um a um? 8 jornal jornal NOUN _ Gender=Masc|Number=Sing 5 obl _ _

1   *   *   PUNCT   _   _   2   punct   _   SpaceAfter=No
2   Folha   Folha   PROPN   _   Gender=Fem|Number=Sing  0   root    _   _                   
3   de  de  ADP _   _   4   case    _   _
4   S.  S.  PROPN   _   Gender=Masc|Number=Sing 2   nmod    _   _
5   Paulo   Paulo   PROPN   _   Number=Sing 4   flat:name   _   SpaceAfter=No
6   *   *   PUNCT   _   _   4   punct   _   _

Este está no 7.conllu, entre as sent_id=24 e 25.

suemi-higuchi commented 7 years ago

@arademaker , devo colocar estes casos de segmentação por asteriscos aqui? Você vai corrigir um a um? (Reabrindo a issue com o novo caso...)

arademaker commented 7 years ago

@suemi-higuchi cada novo problema um novo issue, não reuse issues já fechados. Além disso, não sabemos com certeza se o problema da segmentação é causado pelos asteriscos.

Tive que refazer a análise da sentença 63 completamente, qualquer anotação de relações semânticas foi perdida. A edição nas árvores deve ser feita com muito cuidado, a árvore desta sentença e de duas outras estava inválida com ciclos. O ideal é sempre usar o http://conll-validator.mybluemix.net/form para validar o arquivo sempre que ele for editado.

Este arquivo tem sentenças bem complicadas, acho que ainda tem outros problemas de segmentação tamnbém.