LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

write sources -> MBR script #53

Open odanoburu opened 6 years ago

odanoburu commented 6 years ago

como discutido em #48 , é interessante termos um script que pegue nossas fontes originais e apliquem todas as modificações/correções/conversões necessárias para obtermos o MorphoBr. assim disponibilizamos um recurso de fácil reprodução, e quando introduzirmos erros percebidos tardiamente (quando modificações posteriores já os propagaram), só precisamos de alterar esse script para consertar o problema.

estou me baseando na lista de problemas dos recursos-fonte para escrever os scripts.

leoalenc commented 6 years ago

@odanoburu Concordo!

leoalenc commented 6 years ago

@odanoburu Proponho que, no script de correção do dicionário de São Carlos, a letra S de superlativo seja substituída pela letra E, para evitar ambiguidade com a letra S de presente do subjuntivo.

odanoburu commented 6 years ago

Proponho que, no script de correção do dicionário de São Carlos, a letra S de superlativo seja substituída pela letra E, para evitar ambiguidade com a letra S de presente do subjuntivo.

podemos fazer, mas acho que não precisa, já que vamos converter para MBR logo em seguida! (e além disso, não há como o computador confundir os dois, já que não são da mesma classe..)

@leoalenc nos scripts de correção só falta corrigir a falta de itens. a gente já começou esse trabalho, mas vc acha que é melhor seguir corrigindo ou fazer um script que gera as formas corretamente e depois remover as erradas com base em tags duplicadas?

leoalenc commented 6 years ago

@odanoburu acho melhor seguir na estratégia que já estamos utilizando, ou seja, corrigir substituindo logo as formas erradas pelas corretas. Acho um grande perigo remover automaticamente etiquetas duplicadas, porque existem formas múltiplas legítimas que compartilham uma mesma etiqueta.

odanoburu commented 6 years ago

ok!

Acho um grande perigo remover automaticamente etiquetas duplicadas, porque existem formas múltiplas legítimas que compartilham uma mesma etiqueta.

concordo, só pensei nisso pq limitaria isso aos verbos marcados pela presença de clíticos..

arademaker commented 6 years ago

Acho que seja lá o que está sendo feito aqui ainda precisa ficar mais claro objetivo. Teremos este script como ponto de partida apenas certo?

Dados originais - este script - expansões do Leonel via FST - deduplicacoes - final

E isso ?

odanoburu commented 6 years ago

sim!

dados originais - script -> dados corrigidos dados corrigidos - conversão -> dados em formato MBR dados MBR - expansões FST -> morphobr com duplicatas morphobr com duplicatas - sort -u -> morphobr final

leoalenc commented 6 years ago

Eu imagino que o fluxo de operações para gerar o recurso final está assim: Número um: bash scripts para a relação e adições mecânicas

leoalenc commented 6 years ago

Eu imagino que o fluxo de operações para gerar o recurso final está assim: Número um: bash scripts para a correção de erros de formatação e adições mecânicas de lacunas do dicionário de São Carlos ( O primeiro escrito está incompleto e o segundo ainda falta )

Número dois: conversão para o nosso formato (Veja meu programa linguagem piton; parece que temos pelo menos 2 possibilidades de fazer isso, com o meu programa e com programa do @odanoburu)

Número três: anotação dos clíticos (veja meu programa em linguagem piton)

Número quatro: expansões por meio da morfologia de estados finitos

leoalenc commented 6 years ago

escrito -> script no comentário acima

leoalenc commented 6 years ago

@odanoburu Eu incluí no script de preparação do dicionário de São Carlos, na pipeline de correção dos verbos com pronomes clíticos, o meu programa em linguagem piton para separação de formas verbais e pronomes clíticos.

leoalenc commented 6 years ago

https://github.com/LFG-PTBR/MorphoBr/tree/master/tools/python-tools

odanoburu commented 6 years ago

@leoalenc estou trabalhando em https://github.com/LFG-PTBR/MorphoBr/tree/i53

já avancei bastante, falta acertar detalhes de paths e testar. quando estiver pronto, vou fazer um PR. fica o convite pra vc já ir pensando no script que incrementa os dicionários com o FST.

leoalenc commented 6 years ago

@odanoburu muito bom! Dei uma olhada no código, se eu não me engano, falta script para acrescentar aquelas formas que estão sistematicamente faltando no dicionário de São Carlos. Eu posso fazer isso em linguagem piton. Tudo bem? Eu tenho uma questão: parece que o seu script em linguagem piton não lida com a ambiguidade do pronome "nos". Aquele meu programa em linguagem piton tem uma função que permite resolver essa ambiguidade. Sim, vou preparar script para integrar no dicionário as formas criadas pelos autômatos de estados finitos. Mas antes precisamos resolver essas pendências.

leoalenc commented 6 years ago

Na verdade, este programa em linguagem piton faz o enriquecimento dos pronomes, convertendo entradas no formato MBR em entradas no mesmo formato com as informações sobre os climáticos.

leoalenc commented 6 years ago

@odanoburu Na verdade, este programa em linguagem piton já faz o enriquecimento dos pronomes, convertendo entradas no formato MBR em entradas no mesmo formato com as informações sobre os clíticos:

tools/python-tools/AnnotateClitics.py

odanoburu commented 6 years ago

falta script para acrescentar aquelas formas que estão sistematicamente faltando no dicionário de São Carlos.

sim! eu considerei elas adições feitas por XFST, já que é falta de cobertura do recurso, e não um erro de sintaxe das entradas..

Eu posso fazer isso em linguagem piton. Tudo bem? Eu tenho uma questão: parece que o seu script em linguagem piton não lida com a ambiguidade do pronome "nos".

não lida, mas eu estou usando o seu agora! ainda vou deletar o meu.

leoalenc commented 6 years ago

@odanoburu Falta script para resolver isto:

filling of systematic gaps (missing tense forms): the paradigms of the 1st verb conjugation systematically lacks the 3rd person singular forms of two tenses: the imperfect indicative (all forms missing) and the plusperfect (all but 5 forms missing). These forms are identical to the corresponding ones of the 1st person. There seems to be no reason for these gaps, since the analog forms of the 2nd conjugation are present. These missing forms were included in MophoBr. 2nd verb conjugation sistematically lacks SBJF 3 SG

https://github.com/LFG-PTBR/MorphoBr/blob/i53/tools/upstream-problems.org

odanoburu commented 6 years ago

sim @leoalenc. mas vc diz que falta nesse script de correção dos dados upstream, ou que ele não existe? vc já implementou isso, certo? nesse caso, eu julgo ser melhor colocar isso na fase seguinte da pipeline que estabelecemos.

On Wed, Jul 4, 2018, 14:41 Leonel Figueiredo de Alencar < notifications@github.com> wrote:

@odanoburu https://github.com/odanoburu Falta script para resolver isto:

filling of systematic gaps (missing tense forms): the paradigms of the 1st verb conjugation systematically lacks the 3rd person singular forms of two tenses: the imperfect indicative (all forms missing) and the plusperfect (all but 5 forms missing). These forms are identical to the corresponding ones of the 1st person. There seems to be no reason for these gaps, since the analog forms of the 2nd conjugation are present. These missing forms were included in MophoBr. 2nd verb conjugation sistematically lacks SBJF 3 SG

https://github.com/LFG-PTBR/MorphoBr/blob/i53/tools/upstream-problems.org

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/LFG-PTBR/MorphoBr/issues/53#issuecomment-402532973, or mute the thread https://github.com/notifications/unsubscribe-auth/ASc3wx7Nl8ImpnQPPDMEbIe5NF7PQYI3ks5uDP5cgaJpZM4T6OQc .

leoalenc commented 6 years ago

@odanoburu Sim, já tinha implementado isso. Vou subir o script amanhã.

leoalenc commented 6 years ago

Eu coloquei no ramo mestre, na pasta ferramentas, uma nova versão do script do @odanoburu, capaz de lidar com a mesóclise bem como a ambiguidade do pronome "nos". Esse script, na verdade, é redundante em relação ao módulo análogo que elaborei em linguagem piton, o qual está na pasta ferramentas em linguagem piton.