Open odanoburu opened 6 years ago
@odanoburu Concordo!
@odanoburu Proponho que, no script de correção do dicionário de São Carlos, a letra S de superlativo seja substituída pela letra E, para evitar ambiguidade com a letra S de presente do subjuntivo.
Proponho que, no script de correção do dicionário de São Carlos, a letra S de superlativo seja substituída pela letra E, para evitar ambiguidade com a letra S de presente do subjuntivo.
podemos fazer, mas acho que não precisa, já que vamos converter para MBR logo em seguida! (e além disso, não há como o computador confundir os dois, já que não são da mesma classe..)
@leoalenc nos scripts de correção só falta corrigir a falta de itens. a gente já começou esse trabalho, mas vc acha que é melhor seguir corrigindo ou fazer um script que gera as formas corretamente e depois remover as erradas com base em tags duplicadas?
@odanoburu acho melhor seguir na estratégia que já estamos utilizando, ou seja, corrigir substituindo logo as formas erradas pelas corretas. Acho um grande perigo remover automaticamente etiquetas duplicadas, porque existem formas múltiplas legítimas que compartilham uma mesma etiqueta.
ok!
Acho um grande perigo remover automaticamente etiquetas duplicadas, porque existem formas múltiplas legítimas que compartilham uma mesma etiqueta.
concordo, só pensei nisso pq limitaria isso aos verbos marcados pela presença de clíticos..
Acho que seja lá o que está sendo feito aqui ainda precisa ficar mais claro objetivo. Teremos este script como ponto de partida apenas certo?
Dados originais - este script - expansões do Leonel via FST - deduplicacoes - final
E isso ?
sim!
dados originais - script -> dados corrigidos
dados corrigidos - conversão -> dados em formato MBR
dados MBR - expansões FST -> morphobr com duplicatas
morphobr com duplicatas - sort -u
-> morphobr final
Eu imagino que o fluxo de operações para gerar o recurso final está assim: Número um: bash scripts para a relação e adições mecânicas
Eu imagino que o fluxo de operações para gerar o recurso final está assim: Número um: bash scripts para a correção de erros de formatação e adições mecânicas de lacunas do dicionário de São Carlos ( O primeiro escrito está incompleto e o segundo ainda falta )
Número dois: conversão para o nosso formato (Veja meu programa linguagem piton; parece que temos pelo menos 2 possibilidades de fazer isso, com o meu programa e com programa do @odanoburu)
Número três: anotação dos clíticos (veja meu programa em linguagem piton)
Número quatro: expansões por meio da morfologia de estados finitos
escrito -> script no comentário acima
@odanoburu Eu incluí no script de preparação do dicionário de São Carlos, na pipeline de correção dos verbos com pronomes clíticos, o meu programa em linguagem piton para separação de formas verbais e pronomes clíticos.
@leoalenc estou trabalhando em https://github.com/LFG-PTBR/MorphoBr/tree/i53
já avancei bastante, falta acertar detalhes de paths e testar. quando estiver pronto, vou fazer um PR. fica o convite pra vc já ir pensando no script que incrementa os dicionários com o FST.
@odanoburu muito bom! Dei uma olhada no código, se eu não me engano, falta script para acrescentar aquelas formas que estão sistematicamente faltando no dicionário de São Carlos. Eu posso fazer isso em linguagem piton. Tudo bem? Eu tenho uma questão: parece que o seu script em linguagem piton não lida com a ambiguidade do pronome "nos". Aquele meu programa em linguagem piton tem uma função que permite resolver essa ambiguidade. Sim, vou preparar script para integrar no dicionário as formas criadas pelos autômatos de estados finitos. Mas antes precisamos resolver essas pendências.
Na verdade, este programa em linguagem piton faz o enriquecimento dos pronomes, convertendo entradas no formato MBR em entradas no mesmo formato com as informações sobre os climáticos.
@odanoburu Na verdade, este programa em linguagem piton já faz o enriquecimento dos pronomes, convertendo entradas no formato MBR em entradas no mesmo formato com as informações sobre os clíticos:
tools/python-tools/AnnotateClitics.py
falta script para acrescentar aquelas formas que estão sistematicamente faltando no dicionário de São Carlos.
sim! eu considerei elas adições feitas por XFST, já que é falta de cobertura do recurso, e não um erro de sintaxe das entradas..
Eu posso fazer isso em linguagem piton. Tudo bem? Eu tenho uma questão: parece que o seu script em linguagem piton não lida com a ambiguidade do pronome "nos".
não lida, mas eu estou usando o seu agora! ainda vou deletar o meu.
@odanoburu Falta script para resolver isto:
filling of systematic gaps (missing tense forms): the paradigms of the 1st verb conjugation systematically lacks the 3rd person singular forms of two tenses: the imperfect indicative (all forms missing) and the plusperfect (all but 5 forms missing). These forms are identical to the corresponding ones of the 1st person. There seems to be no reason for these gaps, since the analog forms of the 2nd conjugation are present. These missing forms were included in MophoBr. 2nd verb conjugation sistematically lacks SBJF 3 SG
https://github.com/LFG-PTBR/MorphoBr/blob/i53/tools/upstream-problems.org
sim @leoalenc. mas vc diz que falta nesse script de correção dos dados upstream, ou que ele não existe? vc já implementou isso, certo? nesse caso, eu julgo ser melhor colocar isso na fase seguinte da pipeline que estabelecemos.
On Wed, Jul 4, 2018, 14:41 Leonel Figueiredo de Alencar < notifications@github.com> wrote:
@odanoburu https://github.com/odanoburu Falta script para resolver isto:
filling of systematic gaps (missing tense forms): the paradigms of the 1st verb conjugation systematically lacks the 3rd person singular forms of two tenses: the imperfect indicative (all forms missing) and the plusperfect (all but 5 forms missing). These forms are identical to the corresponding ones of the 1st person. There seems to be no reason for these gaps, since the analog forms of the 2nd conjugation are present. These missing forms were included in MophoBr. 2nd verb conjugation sistematically lacks SBJF 3 SG
https://github.com/LFG-PTBR/MorphoBr/blob/i53/tools/upstream-problems.org
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/LFG-PTBR/MorphoBr/issues/53#issuecomment-402532973, or mute the thread https://github.com/notifications/unsubscribe-auth/ASc3wx7Nl8ImpnQPPDMEbIe5NF7PQYI3ks5uDP5cgaJpZM4T6OQc .
@odanoburu Sim, já tinha implementado isso. Vou subir o script amanhã.
Eu coloquei no ramo mestre, na pasta ferramentas, uma nova versão do script do @odanoburu, capaz de lidar com a mesóclise bem como a ambiguidade do pronome "nos". Esse script, na verdade, é redundante em relação ao módulo análogo que elaborei em linguagem piton, o qual está na pasta ferramentas em linguagem piton.
como discutido em #48 , é interessante termos um script que pegue nossas fontes originais e apliquem todas as modificações/correções/conversões necessárias para obtermos o MorphoBr. assim disponibilizamos um recurso de fácil reprodução, e quando introduzirmos erros percebidos tardiamente (quando modificações posteriores já os propagaram), só precisamos de alterar esse script para consertar o problema.
estou me baseando na lista de problemas dos recursos-fonte para escrever os scripts.