Closed leoalenc closed 2 years ago
Em https://github.com/LR-POR/PorGram/commit/c92eb264e74d4843949aab64810428b510e0ff49, incluí random-sample-50-with-examples.tdl
. Este arquivo contém a mesma amostra aleatória de 50 entradas de random-sample-50-entries.tdl
, mas se diferencia por conter exemplos em docstrings, conforme o commit comentado aqui. Incluí também amostra adicional de 156 novas entradas aleatórias.
A amostra de 50 entradas e a de 156 perfazem 10% do total de 2059 de new-lexicon-rec.tdl
(inserido em 0058bda), de onde foram extraídas.
A amostra random-sample-50-with-examples.tdl
contém, além de exemplos, anotações adicionais nos exemplos marcadas com @, que podem indicar erros de anotação do UD_Portuguese-Bosque.
@arademaker , seria interessante fundir os dois arquivos random-sample-50-entries.tdl
e random-sample-50-with-examples.tdl
num só. Alguma ideia de como fazer isso automaticamente?
https://github.com/LR-POR/PorGram/commit/efda56d49e7a67b5075e7255cbc6a9e53a5ecc35 resolve esta issue. Fiz uma avaliação manual da amostra aleatória de 156 entradas e copiei as informações do arquivo random-sample-50-entries.tdl
para o random-sample-50-with-examples.tdl
, fazendo, ao mesmo tempo, uma revisão da avaliação anterior.
A avaliação baseia-se, quase sempre, nos dicionários listados no início do arquivo random-sample-50-entries.tdl
. Por exemplo, seja a entrada seguinte:
ligar_1 := nonrefl-goa-obj-verb-lex & ; BOR
[ STEM < "ligar" >,
SYNSEM.LKEYS.KEYREL.PRED "_ligar_v_1_rel" ]
"""
No dia seguinte ligou para mim, e disse que estava interessada.
""".
A sigla BOR no comentário da primeira linha assinala que a valência correspondente está contemplada no Dicionário gramatical de verbos do português contemporâneo do Brasil, organizado por Francisco da Silva Borba (2. ed. São Paulo: Editora da UNESP, 1991). Em apenas dois casos não encontrei confirmação na literatura para o tipo atribuído automaticamente e que considerei correto. Esses casos estão identificados pela abreviatura LEO. Na amostra aleatória de 206 entradas (somando os dois arquivos), constatei 46 erros (identificados por ERROR na primeira linha da entrada), perfazendo acurácia de 77.7%. Um exemplo de erro anotado com identificação do tipo correto:
; para-PP or a-PP is complement (BOR)
; TODO: nom-acc-rec-ditransitive-verb-lex (not exactly a recipient)
relegar_1 := trans-verb-lex & ; ERROR:nom-acc-goa-ditransitive-verb-lex
[ STEM < "relegar" >,
SYNSEM.LKEYS.KEYREL.PRED "_relegar_v_1_rel" ]
"""
No ultra-sensível debate que opõe na Alemanha os que gostariam de relegar o Holocausto para@obj?@ o lugar dum mero acontecimento histórico e os que pensam que devem assumir, ainda hoje, uma responsabilidade, Friedmann adverte:
""".
O erro acima decorreu de que o PP introduzido por para não foi analisado no Bosque como argumento do verbo, contrariamente à análise do dicionário de Borba, que trata esse sintagma como complemento.
Avaliar a correção das entradas da amostra aleatória de 50 das 2059 entradas automaticamente construídas a partir de dados do UD_Portuguese-Bosque.