LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

should we preserve old orthography forms? #93

Open leoalenc opened 3 years ago

leoalenc commented 3 years ago

@arademaker, como ressaltei em issue anterior (#92), existem muitas formas duplas por conta da inclusão de formas da ortografia de antes do Acordo Ortográfico da Língua Portuguesa de 1990 (doravante AOP), em vigor desde 2009 no Brasil e em Portugal. São, por exemplo, formas com ü, abolido de todo pelo AOP, e terminadas em éia(s), substituídas pelas formas com eia(s). Devemos preservar as formas antigas? Inclino-me, salvo melhor juízo, a eliminá-las, pois se alguém quiser utilizar o recurso para processar textos mais antigos, deveria realizar a normalização das formas seguindo o AOP. O português sofreu diversas reformas ortográficas ao longo do tempo, manter as formas do período imediatamente anterior ao AOP não ajudaria o processamento de formas de períodos mais antigos. Essa eliminação de formas, porém, pode não ser tão trivial, pois parece haver casos menos óbvios que os mencionados acima.

wellington36 commented 3 years ago

Uma discussão acredito parecida foi iniciada no Bosque https://github.com/UniversalDependencies/UD_Portuguese-Bosque/issues/306, mais voltada ao Portugal, acredito que seria interessante mencionar aqui.

vcvpaiva commented 3 years ago

Discordo @leoalenc ! O problema e' generico: temos o mesmo no OWN-PT, nos treebanks, em todos os lugares. acho que e' melhor termos as duas formas. os portugueses ja' nao mudaram a grafia deles ha' mais de dez anos. so' vai complicar a nossa vida, pra nenhum beneficio tangivel.

arademaker commented 3 years ago

Seria bom tentarmos fazer um script para capturar as listas de http://www.portaldalinguaportuguesa.org/?action=novoacordo e comprar com o MorphoBr? Talvez conseguir identificar possiveis inconsistencias e talvez decidir se queremos marcar as formas antigas de alguma forma? Ou separa-las em arquivos diferentes?