UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
50 stars 12 forks source link

Diferenças entre versões do Bosque #155

Open arademaker opened 7 years ago

arademaker commented 7 years ago

Terminado o issue #44, temos 9 sentenças a mais no novo bosque:

Nosso bosque: 9368 Bosque do UD_Portuguese: 9359

Depois das sentenças mapeadas 1-1 (best matching via distâncias de edição), tivemos a sequinte distribuição de sentenças por distância de edição. Aqui distância de edição tem como unidade word e não caracteres (1 caso de distância 5, 113 casos de distância 1 etc):

((0 . 8311) (1 . 113) (2 . 836) (3 . 17) (4 . 68) (5 . 1) (6 . 11) (9 . 1) (NIL . 9))

Notem que aproximadamente 10% dos corpora são diferentes.

Esperava que quase todas as diferenças fossem relacionadas a contrações diferentes, mas surgiram outros casos interessantes que reporto exemplos abaixo -- para alguns casos abaixo existem várias outras ocorrências similares com outros pares de sentenças. A cada bloco, a primeira versão da sentença é a do nosso corpos, a segunda do corpus UD_Portuguese.

  1. [ ] O nome "Associação Portuguesa para a Defesa de o Consumidor" foi cortado completamente no UD_Portuguese, estamos melhor:

[5246 1981 CP268-2 pt-ud-train.conllu#s1423/pt 9] Em vésperas de Carnaval , a Associação Portuguesa para a Defesa de o Consumidor ( DECO ) mostra- se preocupada com a utilização de explosivos em as brincadeiras carnavalescas , responsável todos os anos por inúmeros acidentes , sobretudo com crianças em idade escolar . Em vésperas de Carnaval , a Associação ( DECO ) mostra -se preocupada com a utilização de explosivos em as brincadeiras carnavalescas , responsável todos os anos por inúmeros acidentes , sobretudo com crianças em idade escolar .

  1. [ ] Mesmo caso para "Secretaria de Estado de a Cultura portuguesa", "Associação de Municípios de a Alta Estremadura" e "Missão de Verificação" nas sentenças CP271-1, CP284-4 e CP216-3. Mas nossa versão está mais completa.

  2. [ ] O nome "Adega Regional de Colares" foi cortado na nossa versão. Podemos colocar o nome e corrigir manualmente a análise? Ou copiamos do UD_Portuguese toda a sentença e sua análise?

[7242 3759 CP613-4 pt-ud-train.conllu#s3201/pt 6] A 5 , em o Barreiro , visita a Sociedade Agrícola Lavradiense , a 9 , em a Azueira , Mafra , encontra- se de novo com agricultores , em a Central Fruteira e a 10 visita a . A 5 , em o Barreiro , visita a Sociedade Agrícola Lavradiense , a 9 , em a Azueira , Mafra , encontra -se de novo com agricultores , em a Central Fruteira e a 10 visita a Adega Regional de Colares .

  1. [ ] Idem caso 3.

[5742 2411 CP354-2 pt-ud-train.conllu#s1853/pt 5] Abriu- se a Abriu -se a Porta de Damasco

  1. [x] Temos vários casos como este, onde os hífens foram trocados. Nossa versão está no token do verbo, versão do UD_Portuguese na particula.

[5119 1870 CP243-21 pt-ud-train.conllu#s1312/pt 4] Finalmente , eis que podia reve- la e abraça- la . Finalmente , eis que podia revê -la e abraçá -la .

  1. [x] Problemas de encode, nossa versão está com as aspas codificada como HTML, acho que podemos corrigir, certo?

[8523 4917 CP848-6 pt-ud-train.conllu#s4359/pt 4] Bill nunca se lhe dirigiu por o nome e despedia- se com um enigmático " & " , que em linguagem de correio electrónico significa « responda » . Bill nunca se lhe dirigiu por o nome e despedia -se com um enigmático " & " , que em linguagem de correio electrónico significa « responda » .

[7730 942 CP71-9 pt-ud-train.conllu#s384/pt 2] Depois de « L'Image Fantôme » , de « Les Aventures Singulières » , de " Les Chiens " , de « Voyage Avec Deux Enfants » , de « Les Lubies d'Arthur » . Depois de « L'Image Fantôme » , de « Les Aventures Singulières » , de " Les Chiens " , de « Voyage Avec Deux Enfants » , de « Les Lubies d'Arthur » .

  1. O final da frase está cortado na versão de UD_Portuguese, mas nossa está completa. Parecido com o caso 2, mas aqui não é um nome.

[5184 1930 CP256-2 pt-ud-train.conllu#s1372/pt 3] Em o final de o jogo , adeptos de o Sporting lançam garras e pedras para a tribuna de honra , onde estavam Manuela Ferreira Leite , ministra de a Educação , e Vítor Vasques , presidente de a FPF . Em o final de o jogo , adeptos de o Sporting lançam garras e pedras para a tribuna de honra , onde estavam Manuela Ferreira Leite , ministra de a Educação , e Vítor Vasques , presidente .

  1. Na nossa versão temos "tenha ver com a..." e na versão do UD_Portuguese está "tenha a ver com a...". Acho que a versão UD_Portuguese está correta e tivemos um corte indevido na nossa. Corrigir?

[6239 807 CP44-1 pt-ud-train.conllu#s249/pt 3] Agora , a polícia inclina- se para que o assassinato tenha ver com a promoção de John Gotti Junior a o cargo de chefe de a família durante o encarceramento de o pai . Agora , a polícia inclina -se para que o assassinato tenha a ver com a promoção de John Gotti Junior a o cargo de chefe de a família durante o encarceramento de o pai .

  1. Caso de contração não tratada na nossa versão. Temos que corrigir, certo? Outros casos existem, por exemplo, CF150-3.

[284 6241 CF151-48 pt-ud-train.conllu#s5683/pt 2] Pelo menos agora em a televisão tem pra todo mundo . Por o menos agora em a televisão tem pra todo mundo .

  1. Inverso do caso 9, aqui tratamos a contração mas o UD_Portuguese não. Outros casos existem como CF242-1.

[117 6084 CF122-5 pt-ud-train.conllu#s5526/pt 2] a o justificar sua necessidade , o presidente de a República abriu uma fresta para a realidade em a propaganda sobre as virtudes de a URV . Ao justificar sua necessidade , o presidente de a República abriu uma fresta para a realidade em a propaganda sobre as virtudes de a URV .

  1. Nossa versão está com o início da sentença faltando. Completar?

[1060 6940 CF322-3 pt-ud-train.conllu#s6382/pt 2] -- Se o leitor se deu a o trabalho de ler todas as repercussões sobre o real publicadas ontem por a Folha , terá verificado que , como sempre ocorre em essas ocasiões , há opiniões contrárias , a favor e mais ou menos . SÃO PAULO -- Se o leitor se deu a o trabalho de ler todas as repercussões sobre o real publicadas ontem por a Folha , terá verificado que , como sempre ocorre em essas ocasiões , há opiniões contrárias , a favor e mais ou menos .

  1. Outro caso de conteúdo que diverge. Notem os hífens que parecem sobrar na versão UD_Portuguese, não mudaria nada.

[1528 7359 CF421-6 pt-ud-train.conllu#s6801/pt 2] Já as maiores quedas , de os preços médios , ficaram com a cenoura ( 13,82 ) , batata comum ( 5,14 % ) e pão francês ( 1,25 % ) . Já as maiores quedas , de os preços médios , ficaram com a cenoura ( - 13,82 ) , batata comum ( 5,14 % ) e pão francês ( - 1,25 % ) .

  1. Vejam que na nossa versão temos "destroçar-" e na versão UD_Portuguese o token "destroça". Mas nossa versão é que está errada. Correto? Parece que ao quebrar o token o lema foi colocado no lugar da forma.

[2470 8230 CF625-3 pt-ud-train.conllu#s7672/pt 2] A tranquilidade pode levar uma equipe a o título ou pode destroçar- la em o caminho . A tranquilidade pode levar uma equipe a o título ou pode destroçá -la em o caminho .

  1. Além da diferença na contração "à" notem como estas sentenças terminam sem ponto.

[2971 8689 CF735-9 pt-ud-train.conllu#s8131/pt 2] George era rápido para trabalhar ; Ira era meticuloso e , a as vezes , levava semanas em uma letra , trabalhando dia e noite George era rápido para trabalhar ; Ira era meticuloso e , às vezes , levava semanas em uma letra , trabalhando dia e noite

  1. "Tá Na Hora" parece ser um nome. Neste caso o "Na" deveria ser descontraído?

[4095 5973 CF97-3 pt-ud-train.conllu#s5415/pt 2] Para os menores , estão disponíveis o Pense Bem , o PC 1.000 , o Telepapo e o Tá Na Hora Para os menores , estão disponíveis o Pense Bem , o PC 1.000 , o Telepapo e o Tá Em a Hora

  1. Existem vários casos com este erro, felizmente nossa versão não tem o $%, apenas o %. Acho que estamos certos:

[4159 512 CF985-6 pt-ud-test.conllu#s242/pt 2] Tudo fica como está em a opinião de 23 % , enquanto 5 % não sabem responder . Tudo fica como está em a opinião de 23 $% , enquanto 5 $% não sabem responder .

  1. Nossa versão teve conteúdo cortado! Novamente proponho copiarmos ou a sentença e análise de UD_Portuguese ou copiar o que está falando e corrigir manualmente a análise.

[4928 667 CP21-4 pt-ud-train.conllu#s109/pt 2] É a quinta vez que Karol Wojtyla pisa , , o solo de a sua pátria . É a quinta vez que Karol Wojtyla pisa , como Pontífice , o solo de a sua pátria .

[6054 2695 CP409-1 pt-ud-train.conllu#s2137/pt 2] -- Quando comecei a fazer o Bartoon , em 1993 , tinha essa angústia . Luís Afonso -- Quando comecei a fazer o Bartoon , em 1993 , tinha essa angústia .

[6871 874 CP55-5 pt-ud-train.conllu#s316/pt 2] Paulo Sá pedia ainda uma acareação entre o industrial portuense Manuel Macedo , Ramiro Moreira e o tenente de a Marinha Pedro Menezes , em este caso . Paulo Sá pedia ainda uma acareação entre o industrial portuense Manuel Macedo , Ramiro Moreira e o tenente de a Marinha Pedro Menezes , todos testemunhas em este caso .

[7057 3593 CP585-4 pt-ud-train.conllu#s3035/pt 2] « » , dizem os franceses . « le néant » , dizem os franceses .

[7890 4340 CP736-10 pt-ud-train.conllu#s3782/pt 2] A não ser que o Eire vença hoje a Espanha e a Dinamarca derrote a Irlanda de o Norte , ficando Eire e Dinamarca de imediato com a em os EUA . A não ser que o Eire vença hoje a Espanha e a Dinamarca derrote a Irlanda de o Norte , ficando Eire e Dinamarca de imediato com a presença em os EUA garantida .

[9291 281 CP984-1 pt-ud-test.conllu#s11/pt 2] Elogiei a escolha de o meu anfitrião , enquanto discorria , a despropósito , acerca de o papel de o « consejero de créacion » , que tinha talvez inventado aquela espécie de centro de mesa , com batatas acabadas de fritar ( sim , ) , certamente em fatias espantosamente finas e em azeite a ferver , tratadas a modos de « soufflé » . Elogiei a escolha de o meu anfitrião , enquanto discorria , a despropósito , acerca de o papel de o « consejero de créacion » , que tinha talvez inventado aquela espécie de centro de mesa , com batatas acabadas de fritar ( sim , batatas fritas ) , certamente em fatias espantosamente finas e em azeite a ferver , tratadas a modos de « soufflé » .

[4285 1118 CP108-4 pt-ud-train.conllu#s560/pt 1] Assim se definem os Requiem , Requiem por os Vivos , que após quase cinco anos de ausência de os estúdios regressam em Outubro com um novo álbum e uma mão-cheia de espectáculos . Assim se definem os Requiem , ex- Requiem por os Vivos , que após quase cinco anos de ausência de os estúdios regressam em Outubro com um novo álbum e uma mão-cheia de espectáculos .

[6478 3081 CP477-4 pt-ud-train.conllu#s2523/pt 1] recentemente ( ver de 27/03/97 ) , o ministro de a Educação anunciou que seriam lançados « testes de aferição de âmbito nacional » em os 4º , 6º e 9º anos . recentemente ( ver PÚBLICO de 27/03/97 ) , o ministro de a Educação anunciou que seriam lançados « testes de aferição de âmbito nacional » em os 4º , 6º e 9º anos .

[7134 594 CP6-4 pt-ud-train.conllu#s36/pt 1] O balanço -- a que o teve acesso -- traçado por a comissão revela que o número de pessoas abrangidas por o RMG aumentou 36 por cento relativamente a o último balanço de 30 de Março . O balanço -- a que o PÚBLICO teve acesso -- traçado por a comissão revela que o número de pessoas abrangidas por o RMG aumentou 36 por cento relativamente a o último balanço de 30 de Março .

[7140 890 CP60-2 pt-ud-train.conllu#s332/pt 1] ... E , se o dr. Soares tivesse praticado desporto em a escola , será que , hoje , pensaria de a mesma ? ... E , se o dr. Soares tivesse praticado desporto em a escola , será que , hoje , pensaria de a mesma maneira ?

[7776 4231 CP716-2 pt-ud-train.conllu#s3673/pt 1] Alegando ter tomado conhecimento de a suspensão através de o , José Saldanha diz que « as responsabilidades têm que ser assumidas por a DGA que recebeu todos os documentos de a operação e autorizou a exportação » . Alegando ter tomado conhecimento de a suspensão através de o PÚBLICO , José Saldanha diz que « as responsabilidades têm que ser assumidas por a DGA que recebeu todos os documentos de a operação e autorizou a exportação » .

[8292 4707 CP808-3 pt-ud-train.conllu#s4149/pt 1] Em as « prisões de deportação » alemãs , estão cerca de quatro « indesejados » a a espera de a expulsão . Em as « prisões de deportação » alemãs , estão cerca de quatro mil « indesejados » a a espera de a expulsão .

[8562 4948 CP854-2 pt-ud-train.conllu#s4390/pt 1] -- mas normalmente é ! -- mas normalmente é assim !

[8676 5049 CP877-3 pt-ud-train.conllu#s4491/pt 1] Afirmou um dia a o que o seu inimigo principal era « o poder político » . Afirmou um dia a o PÚBLICO que o seu inimigo principal era « o poder político » .

[9051 5389 CP940-1 pt-ud-train.conllu#s4831/pt 1] O apurou também que as negociações entre a Marconi e a CN sobre a redistribuição de as participações estatais já estão bastante avançadas . O PÚBLICO apurou também que as negociações entre a Marconi e a CN sobre a redistribuição de as participações estatais já estão bastante avançadas .

  1. Aqui também temos conteúdo diferente. Na nossa versão não temos hífens. Na versão UD_Portuguese parecem ter hífens a mais.

[6566 3159 CP495-6 pt-ud-train.conllu#s2601/pt 2] Tratará se de vacinas preventivas que poderão ser eficazes contra qualquer estirpe de o HIV2 . Tratará- se- de vacinas preventivas que poderão ser eficazes contra qualquer estirpe de o HIV2 .

[6638 3214 CP505-11 pt-ud-train.conllu#s2656/pt 2] Poderá se ir mais longe ? Poderá- se- ir mais longe ?

[7541 4029 CP670-1 pt-ud-train.conllu#s3471/pt 2] A privatização de o BFE processará se por concurso público de 65 por cento de o capital de o banco . A privatização de o BFE processará- se- por concurso público de 65 por cento de o capital de o banco .

[7812 4264 CP721-7 pt-ud-train.conllu#s3706/pt 2] Diria lhe , ainda , como é lamentável em este caso a falta de apoio de o Ministério de a Educação . Diria- lhe- , ainda , como é lamentável em este caso a falta de apoio de o Ministério de a Educação .

  1. Neste caso a descontração de UD_Portuguese está certa?

[7050 3586 CP584-10 pt-ud-train.conllu#s3028/pt 2] No entanto , começou mal , fazendo três « bogeys » em os três buracos iniciais . Em o entanto , começou mal , fazendo três « bogeys » em os três buracos iniciais .

  1. Caso inverso do caso 17, aqui o conteúdo de UD_Portuguese parece cortado:

[7790 4245 CP719-1 pt-ud-train.conllu#s3687/pt 2] Printemps de Bourges chegou a o fim Printemps chegou a o fim

  1. Parece erro de quebra de sentenças, ambas começam com minúsculas e terminam com ponto-e-vírgula:

[7994 4438 CP755-4 pt-ud-train.conllu#s3880/pt 2] em bodyboard , Hugo Carvalho e Filipe Ochoa classificaram- se para a final de sub-18 ; em bodyboard , Hugo Carvalho e Filipe Ochoa classificaram -se para a final de sub-18 ;

  1. Existem vários casos onde uma palavra da nossa versão parece ter perdido um "s" ou um "a" no final. Veja o final "de um vez" na nossa versão. Podemos corrigir? No segundo caso "dezena" errado na nossa versão:

[621 5686 CF22-5 pt-ud-train.conllu#s5128/pt 1] Apesar de limitar a venda de quatro ingressos por pessoa , a Mesbla não evitava ontem que uma mesma pessoa comprasse mais de um vez . Apesar de limitar a venda de quatro ingressos por pessoa , a Mesbla não evitava ontem que uma mesma pessoa comprasse mais de uma

[715 6634 CF243-1 pt-ud-train.conllu#s6076/pt 1] Em a tarde de ontem , diante de dezena de jornalistas , Pertence « zerou » os computadores de a Justiça Eleitoral . Em a tarde de ontem , diante de dezenas de jornalistas , Pertence « zerou » os computadores de a Justiça Eleitoral .

[1288 7139 CF370-5 pt-ud-train.conllu#s6581/pt 1] Mas , em fevereiro , os laboratórios ultrapassaram a inflação outr vez . Mas , em fevereiro , os laboratórios ultrapassaram a inflação outra vez .

[5966 2618 CP394-4 pt-ud-train.conllu#s2060/pt 1] Já se definiu um vez como « moço de recados » de Deus . Já se definiu uma vez como « moço de recados » de Deus .

  1. Nossa versão está certa. Mas é bom saber que isto é um caso que estamos corrigindo:

[1679 7499 CF451-20 pt-ud-train.conllu#s6941/pt 1] Aí a gente tirava a fita e gravava em cima ! Aí a gente tirava a fita e () gravava em cima !

  1. As duas versões estão erradas para mim. Eu corrigiria as aspas no final:

[4742 1534 CP181-8 pt-ud-train.conllu#s976/pt 1] A grande questão é saber se havia alguma coisa antes de aquilo que chamamos o Big Bang ou se saltámos de o nada para o algo . " A grande questão é saber se havia alguma coisa antes de aquilo que chamamos o Big Bang ou se saltámos de o nada para o algo . "

  1. Nossa versão em "a" e na versão UD_Portuguese era "na":

[4831 1621 CP198-4 pt-ud-train.conllu#s1063/pt 1] O autor de « O Grande Meaulnes » ( edição portuguesa a Relógio d'Água ) pertencia a o 288º Regimento de Infantaria que aí combateu . O autor de « O Grande Meaulnes » ( edição portuguesa em a Relógio d'Água ) pertencia a o 288º Regimento de Infantaria que aí combateu .

  1. Nossa versão esta cortada "PSP um estabelecimento" em vez de "PSP para um estabelecimento":

[5011 1776 CP227-1 pt-ud-train.conllu#s1218/pt 1] O provedor recomenda , assim , a « imediata transferência » de o agente de a PSP um estabelecimento prisional « tutelado por o Ministério de a Justiça » e « que permita compatibilizar as exigências de segurança com o exercício de os direitos conferidos a qualquer recluso em ambiente prisional normal » . O provedor recomenda , assim , a « imediata transferência » de o agente de a PSP para um estabelecimento prisional « tutelado por o Ministério de a Justiça » e « que permita compatibilizar as exigências de segurança com o exercício de os direitos conferidos a qualquer recluso em ambiente prisional normal » .

  1. Problema de encode, podemos corrigir?

[5438 574 CP3-4 pt-ud-train.conllu#s16/pt 1] « Estamos a dotar os computadores de um novo sentido » disse Steve d’ Averio , director de marketing para a Europa de a Logitech . « Estamos a dotar os computadores de um novo sentido »" disse Steve d’ Averio , director de marketing para a Europa de a Logitech .

  1. Nossa versão teve o "a" cortado de "de duas a três voltas". Podemos corrigir? Copiar analise da versão UD_Portuguese?

[5536 2233 CP318-3 pt-ud-train.conllu#s1675/pt 1] É este material super-resistente que permite roer a rocha a a média de duas três voltas por minuto e avançar a a velocidade vertiginosa de 200 metros por semana . É este material super-resistente que permite roer a rocha a a média de duas a três voltas por minuto e avançar a a velocidade vertiginosa de 200 metros por semana .

  1. O hífen foi suprimido da nossa versão "Clinton Hosokawa" isto pode mudar a análise, como tratar? Mesmo para "Valença Monção"

[6555 3148 CP494-1 pt-ud-train.conllu#s2590/pt 1] Os Estados Unidos reexaminarão « as bases » de o acordo de cooperação económica concluído com o Japão , se não se alcançarem « acordos credíveis » entre os dois países durante a cimeira Clinton Hosokawa , prevista para 11 de Fevereiro em Washington . Os Estados Unidos reexaminarão « as bases » de o acordo de cooperação económica concluído com o Japão , se não se alcançarem « acordos credíveis » entre os dois países durante a cimeira Clinton - Hosokawa , prevista para 11 de Fevereiro em Washington .

[6874 3422 CP550-3 pt-ud-train.conllu#s2864/pt 1] Um aterro feito durante a construção de a nova estrada Valença Monção está a pressionar a estrutura para trás e irá , inevitavelmente , provocar o seu desabamento . Um aterro feito durante a construção de a nova estrada Valença - Monção está a pressionar a estrutura para trás e irá , inevitavelmente , provocar o seu desabamento .

[8878 5229 CP906-3 pt-ud-train.conllu#s4671/pt 1] Michael Jackson fracturou a cabeça e os dedos de a mãos , a cantora Dolly parton ficou sem nariz e os actores Oliver Hardy e Mae West perderam a cabeça mas não literalmente . Michael Jackson fracturou a cabeça e os dedos de a mãos , a cantora Dolly parton ficou sem nariz e os actores Oliver Hardy e Mae West perderam a cabeça - mas não literalmente .

GPPassos commented 7 years ago
  1. Nossa versão está com o início da sentença faltando. Completar? [1060 6940 CF322-3 pt-ud-train.conllu#s6382/pt 2] -- Se o leitor se deu a o trabalho de ler todas as repercussões sobre o real publicadas ontem por a Folha , terá verificado que , como sempre ocorre em essas ocasiões , há opiniões contrárias , a favor e mais ou menos . SÃO PAULO -- Se o leitor se deu a o trabalho de ler todas as repercussões sobre o real publicadas ontem por a Folha , terá verificado que , como sempre ocorre em essas ocasiões , há opiniões contrárias , a favor e mais ou menos

Devíamos tratar esse SÃO PAULO -- como parte da frase? Minha intuição é de que ele traz uma informação que é parte de uma reportagem, mas não propriamente pertence à frase em seguida.

arademaker commented 7 years ago

@GPPassos Este caso é mais complicado do que parece. Tem haver com um nível de segmentação de discurso. Depois falamos sobre.

arademaker commented 7 years ago

Podemos rodar https://github.com/udapi/udapi-python/tree/master/udapi/block/ud nos arquivos do Dan comparar estruturas das sentenças.

arademaker commented 7 years ago

See commit b4d02c2 for some fixes.

arademaker commented 7 years ago

See commit 6640e3e, in CP613-4 I choose to follow http://universaldependencies.org/u/dep/flat.html:

By contrast, names that have a regular syntactic structure, like The Lord of the Rings and Captured By Aliens, should be annotated with regular syntactic relations.

Idem commit 6630b1a, case 4 above.

arademaker commented 7 years ago

Another partial fixed commit f443f95.

arademaker commented 7 years ago

Em CP3-4 o nome da pessoa é 'Stephen Daverio'. Ainda não corrigi.

vcvpaiva commented 7 years ago

no caso 12 acima

Outro caso de conteúdo que diverge. Notem os hífens que parecem sobrar na versão UD_Portuguese, não mudaria nada.

muda completamente o sentido! [1528 7359 CF421-6 pt-ud-train.conllu#s6801/pt 2] muda o sentido completamente o hifen nao 'e hifen, e sim de sinal de menos, o que significa que a percentagem caiu os 13 porcento, ( - 13,82), nao remover sinais de menos.

arademaker commented 7 years ago

@vcvpaiva me expressei mal, o que eu quis dizer é que como o corpus UD_Portuguese é que parecia estar com estes hiféns a mais, não mudaríamos a frase nos nossos arquivos. O sentido certamente muda completamente.

Mas aproveitei agora para verificar no site da Linguateca e é nossa versão que está errada, se buscar por 'cenoura':

n=1003 sec=soc sem=98b: Já as maiores quedas, dos preços médios, ficaram com a cenoura (- 13,82) , batata comum (5,14 %) e pão francês (- 1,25 %) .

Embora parece que esta frase está bem estranha e já pode ter pertido o conteúdo orignal. Se todos estão em queda, porque apenas 2 estão com o sinal negativo e um dos números sem o percentual?

vcvpaiva commented 7 years ago

sim, foi isso que eu quiz dizer, que nossa versao sem hifens tinha que estar errada, mas bom que ja' foi resolvido, obrigada.

claudiafreitas commented 7 years ago

O nome "Adega Regional de Colares" foi cortado na nossa versão. Podemos colocar o nome e corrigir manualmente a análise? Ou copiamos do UD_Portuguese toda a sentença e sua análise?

Colocamos o nome e corrigimos

Temos vários casos como este, onde os hífens foram trocados. Nossa versão está no token do verbo, versão do UD_Portuguese na particula.

Como a decisão é arbitrária, sugiro mantermos como está (hifen no verbo) e documentarmos. Mas Alexandre disse que o pessoal do UD está com outra ideia, que envolve ignorar o hifen, já que o lema será sempre o verbo no infinitivo. Concordo com a proposta do UD.

Problemas de encode, nossa versão está com as aspas codificada como HTML, acho que podemos corrigir, certo?

CERTO.

 8. Na nossa versão temos "tenha ver com a..." e na versão do UD_Portuguese está "tenha a ver com a...". Acho que a versão UD_Portuguese está correta e tivemos um corte indevido na nossa. Corrigir?

CERTO, corrigimos a nossa. E a POS do "a" é ADP.

  1. Caso de contração não tratada na nossa versão. Temos que corrigir, certo? Outros casos existem, por exemplo, CF150-3.

CERTO, corrigir. Verificar se isso acontece em todos os casos de “pelo menos”, se sim é mais fácil de corrigir....

  1. Vejam que na nossa versão temos "destroçar-" e na versão UD_Portuguese o token "destroça". Mas nossa versão é que está errada. Correto? Parece que ao quebrar o token o lema foi colocado no lugar da forma.

SIM, nossa versão está errada. No original está “...ou pode destroçá-la”

  1. Além da diferença na contração "à" notem como estas sentenças terminam sem ponto.

No original (estou considerando "original" o Bosque 8.0, disponibilizado na página da Floresta) as frases estão sem ponto... Podemos corrigir, mas devemos ter em algum lugar uma seção #Diferenças de versões anteriores do Bosque, em que documentamos essas pequenas alterações

15."Tá Na Hora" parece ser um nome. Neste caso o "Na" deveria ser descontraído?

Segundo o UD, deve ser descontraído...

  1. Existem vários casos com este erro, felizmente nossa versão não tem o $%, apenas o %. Acho que estamos certos:

SIM, estamos certos.

  1. Nossa versão teve conteúdo cortado! Novamente proponho copiarmos ou a sentença e análise de UD_Portuguese ou copiar o que está falando e corrigir manualmente a análise.

CONCORDO. Copiamos o que falta e corrigimos manualmente a análise. Assim aproveitamos e já fazemos alguma revisão

  1. Aqui também temos conteúdo diferente. Na nossa versão não temos hífens. Na versão UD_Portuguese parecem ter hífens a mais

OS CASOS mencionados em 18 são os casos de mesóclise já tratados em uma troca de emails entre nós e Dan (ver tbém #160) , e já há uma solução consensual, que inclusive já é a solução adotada pelo PALAVRAS (solução foi incluir o “a” no verbo, isto é, “tratar-se-á” vira “tratará-se”). OU seja, nossa análise está correta (a princípio), basta corrigir a sentença original. Listo abaixo as frases em questão, caso adiante: CP495-6 Tratar-se-á de vacinas preventivas que poderão ser eficazes contra qualquer estirpe do HIV2 CP505-11 Poder-se-á ir mais longe? CP670-1 A privatização do BFE processar-se-á por concurso público de 65 por cento do capital do banco. CP721-7 Dir-lhe-ia, ainda, como é lamentável neste caso a falta de apoio do Ministério da Educação.

  1. Neste caso a descontração de UD_Portuguese está certa? [7050 3586 CP584-10 pt-ud-train.conllu#s3028/pt 2] No entanto , começou mal , fazendo três « bogeys » em os três buracos iniciais . Em o entanto , começou mal , fazendo três « bogeys » em os três buracos iniciais .

SIM, UD_Portuguese está correto. Isso tem a ver com a tal lista de mwes que devia ter sido feita - e ainda não desisti.

Caso inverso do caso 17, aqui o conteúdo de UD_Portuguese parece cortado:

SIM, nós estamos certos. Mas reparei que, no Bosque "original" (v.8), a frase estava correta, mas a análise cortada.. Verificar na nossa versão do Bosque se a análise contém a frase completa

  1. Parece erro de quebra de sentenças, ambas começam com minúsculas e terminam com ponto-e-vírgula

O problema de segmentação vem do original. Os segmentos CP755-3 CP755-4 CP755-5 deveriam ser uma frase só. Houve falha de tokenização desde o original. Voto por corrigirmos e deixarmos isso documentado na tal seção seção #Diferenças de versões anteriores do Bosque

  1. Existem vários casos onde uma palavra da nossa versão parece ter perdido um "s" ou um "a" no final. Veja o final "de um vez" na nossa versão. Podemos corrigir? No segundo caso "dezena" errado na nossa versão

SIM, podemos e devemos corrigir.

  1. As duas versões estão erradas para mim. Eu corrigiria as aspas no final

NÂO DEVEMOS CORRIGIR. As aspas abrem 2 frases acima, em CP181-6.

25.Nossa versão em "a" e na versão UD_Portuguese era "na":

No original era “na” --> deve virar “em a”

  1. Nossa versão esta cortada "PSP um estabelecimento" em vez de "PSP para um estabelecimento":

CERTO, devemos corrigir

  1. Problema de encode, podemos corrigir?

SIM, devemos. No original estava ok.

  1. Nossa versão teve o "a" cortado de "de duas a três voltas". Podemos corrigir? Copiar analise da versão UD_Portuguese?

ACHO que devemos corrigir, assim aproveitamos e já fazemos uma revisão

  1. O hífen foi suprimido da nossa versão "Clinton Hosokawa" isto pode mudar a análise, como tratar? Mesmo para "Valença Monção

VOLTAMOS com o hífen e refazemos a análise, que será algo como Clinton PROPN -- PUNCT Hosokawa PROPN compound ou seja, ambos são PROPN e estão em uma relação de compound.

arademaker commented 7 years ago

Vários problemas de segmentação. @claudiafreitas vai criar issue especifico para casos de segmentação. Commit f6433bf4