UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
48 stars 11 forks source link

orthographic error #402

Closed leoalenc closed 2 years ago

leoalenc commented 2 years ago

@arademaker, no exemplo abaixo, o verbo desfrutar está incorretamente grafado como disfrutar. Existe alguma forma de assinalar esse erro? Detectei esse problema examinando uma amostra das 2059 entradas da PorGram geradas automaticamente por meio do módulo em Python extrator de valências, entradas essas armazenadas no arquivo new-lexicon-rec.tdl, referido em https://github.com/LR-POR/PorGram/issues/66#issuecomment-1005687249.

# text = Entretanto, os espinhenses disfrutam da companhia do Penafiel, que foi perder a Viseu por 3-1 e está a repetir a má campanha da temporada anterior.
# sent_id = CP182-7
# source = CETEMPúblico n=182 sec=des sem=93b
1   Entretanto  entretanto  ADV _   _   5   advmod  _   SpaceAfter=No
2   ,   ,   PUNCT   _   _   1   punct   _   _
3   os  o   DET _   Definite=Def|Gender=Masc|Number=Plur|PronType=Art   4   det _   _
4   espinhenses espinhenses NOUN    _   Gender=Masc|Number=Plur 5   nsubj   _   _
5   disfrutam   disfrutar   VERB    _   Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin   0   root    _   _
6-7 da  _   _   _   _   _   _   _   _
6   de  de  ADP _   _   8   case    _   _
7   a   o   DET _   Definite=Def|Gender=Fem|Number=Sing|PronType=Art    8   det _   _
8   companhia   companhia   NOUN    _   Gender=Fem|Number=Sing  5   obj _   _
9-10    do  _   _   _   _   _   _   _   _
9   de  de  ADP _   _   11  case    _   _
10  o   o   DET _   Definite=Def|Gender=Masc|Number=Sing|PronType=Art   11  det _   _
11  Penafiel    Penafiel    PROPN   _   Gender=Masc|Number=Sing 8   nmod    _   SpaceAfter=No
12  ,   ,   PUNCT   _   _   15  punct   _   _
13  que que PRON    _   Gender=Masc|Number=Sing|PronType=Rel    15  nsubj   _   _
14  foi ir  AUX _   Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin   15  aux _   _
15  perder  perder  VERB    _   VerbForm=Inf    11  acl:relcl   _   _
16  a   a   ADP _   _   17  case    _   _
17  Viseu   Viseu   PROPN   _   Gender=Masc|Number=Sing 15  obl _   _
18  por por ADP _   _   19  case    _   _
19  3-1 3-1 NUM _   NumType=Card    15  obl _   _
20  e   e   CCONJ   _   _   21  cc  _   _
21  está    estar   VERB    _   Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin   15  conj    _   ExtPos=AUX
22  a   a   SCONJ   _   _   23  mark    _   _
23  repetir repetir VERB    _   VerbForm=Inf    21  xcomp   _   _
24  a   o   DET _   Definite=Def|Gender=Fem|Number=Sing|PronType=Art    26  det _   _
25  má  má  ADJ _   Gender=Fem|Number=Sing  26  amod    _   _
26  campanha    campanha    NOUN    _   Gender=Fem|Number=Sing  23  obj _   _
27-28   da  _   _   _   _   _   _   _   _
27  de  de  ADP _   _   29  case    _   _
28  a   o   DET _   Definite=Def|Gender=Fem|Number=Sing|PronType=Art    29  det _   _
29  temporada   temporada   NOUN    _   Gender=Fem|Number=Sing  26  nmod    _   _
30  anterior    anterior    ADJ _   Gender=Fem|Number=Sing  29  amod    _   SpaceAfter=No
31  .   .   PUNCT   _   _   5   punct   _   _
leoalenc commented 2 years ago

Outro caso:

; orthographic error in corpus
; correct form and lemma: "comprimimos" and "comprimir"
cumprimir_1 := trans-verb-lex & ; MIC
  [ STEM < "cumprimir" >,
    SYNSEM.LKEYS.KEYREL.PRED "_cumprimir_v_1_rel" ]
  """
  «Se nós cumprimimos a matéria, não deixamos os quarks distanciarem-se o suficiente para produzirem o Psi», explica Paula Bordalo.
  """. 

Ver https://github.com/LR-POR/PorGram/issues/67

arademaker commented 2 years ago

@leoalenc veja f037c10d8 como anotar typos no corpus. note que nossos script de extração de valências deveria ser mais robustos e consultar estas anotações.

leoalenc commented 2 years ago

@leoalenc veja f037c10 como anotar typos no corpus. note que nossos script de extração de valências deveria ser mais robustos e consultar estas anotações.

@arademaker, sim, deveriam.