thorunna / UDConverter

A treebank format converter for converting PPCHE-style treebanks into UD treebanks.
Apache License 2.0
4 stars 0 forks source link

depender.py - Merkja inn 'hafa' og 'vera' sem aðalsagnir líka - Bæði mark og vensl #11

Open hinrikur opened 4 years ago

hinrikur commented 4 years ago

Eins og er eru hafa og vera alhfæfðar sem hjálpar- og aukasagnir og eru aldrei rót setningar. Auk þess er erfitt að gera greinarmun á auka- og aðalsögnum á réttan hátt eins og algrímið er sett upp núna.

hinrikur commented 4 years ago

Hlutalausn við vera og hafa í _select_head():

# Fix for aux 
if tree.num_verbs() == 1:
      rules[4:4] = ['BE.*', 'HV.*', 'MD.*', 'RD.*']

Ef mark trés er IP-... og það inniheldur bara eina sögn, er hausareglunni breytt á staðnum þannig það horfir EKKI framhjá hjálparsagnatöggunum og getur þannig merkt það sem rót setningar.

Ef fleiri en ein sögn í trénu eru hausareglurnar óbreyttar og það velur "venjulegu" sögnina sem rót.

þetta þarf svo að tékka og laga

hinrikur commented 4 years ago

Hlutalausn við vera og hafa í _select_head():

# Fix for aux 
if tree.num_verbs() == 1:
      rules[4:4] = ['BE.*', 'HV.*', 'MD.*', 'RD.*']

Ef mark trés er IP-... og það inniheldur bara eina sögn, er hausareglunni breytt á staðnum þannig það horfir EKKI framhjá hjálparsagnatöggunum og getur þannig merkt það sem rót setningar.

Ef fleiri en ein sögn í trénu eru hausareglurnar óbreyttar og það velur "venjulegu" sögnina sem rót.

þetta þarf svo að tékka og laga

ATH breytingu:

# Somewhat efficient fix for aux verbs
if tree.num_verbs() == 1:
    new_rules[0:0] = rules
    new_rules[4:4] = ['BE.*', 'HV.*', 'MD.*', 'RD.*']
    rules = new_rules

Virkar svona í keyrslu (hitt var með minnisvandamál)

hinrikur commented 4 years ago

Enn eftir að breyta UD taggi vera og hafa úr AUX í VERB ef sögnin er aðalsögn. Hægt að tékka hvort hún sé rót, í aðalsetningum, en það virkar ekki ef hún er aðalsögn í aukasetningum.

hinrikur commented 4 years ago

Helsta vandamálið sem er eftir (og hefur verið hingað til) er að vita hvenær á að merkja 'vera' sem cop

hinrikur commented 4 years ago

bæði 'vera' og 'verða' eru stundum merkt cop

sjá dæmi frá HJ:


# sent_id = n01118017
# text = „Kvikmyndir höfðu breyst svo gríðarlega að fjölskylduáhorfendur voru orðnir afhuga Hollywood.“
# text_en = "Cinema had changed so drastically that Hollywood had alienated the family audience."
1   „   „   PUNCT   „   _   4   punct   _   _
2   Kvikmyndir  kvikmynd    NOUN    nvfn    Case=Nom|Definite=Ind|Gender=Fem|Number=Plur    4   nsubj   _   _
3   höfðu   hafa    AUX sfg3fþ  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin|Voice=Act 4   aux _   _
4   breyst  breyta  VERB    ssm VerbForm=Sup|Voice=Mid  0   root    _   _
5   svo svo ADV aa  _   6   advmod  _   _
6   gríðarlega  gríðarlega  ADV aa  _   4   advmod  _   _
7   að  að  SCONJ   c   _   11  mark    _   _
8   fjölskylduáhorfendur    fjölskylduáhorfandi NOUN    nkfn    Case=Nom|Definite=Ind|Gender=Masc|Number=Plur   11  nsubj   _   _
9   voru    vera    AUX sfg3fþ  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin|Voice=Act 10  aux _   _
10  orðnir  verða   VERB    sþgkfn  Case=Nom|Gender=Masc|Number=Plur|Tense=Past|VerbForm=Part|Voice=Act 11  cop _   _
11  afhuga  afhuga  ADJ lkfnof  Case=Nom|Degree=Pos|Gender=Masc|Number=Plur 4   advcl   _   _
12  Hollywood   Hollywood   PROPN   e   _   11  obl:arg _   _
13  .   .   PUNCT   .   _   4   punct   _   _
14  “   “   PUNCT   “   _   4   punct   _   _
hinrikur commented 4 years ago

Það sem HJ kallar location copula virkar ekki rétt hjá okkur.

Sjá dæmi:

# sent_id = 2008.ofsi.nar-sag.psd_1152_72954
# IcePaHC_ID = ID 2008.OFSI.NAR-SAG,.1152
# text = við getum alltaf sest að í Eyjafirðinum, hérna handan fjallgarðsins, á einhverju stórbýlinu þar þar er okkar bakland, sem til tilheyrum Sturlungaflokknum.
1   við ég  PRON    PRO-N   _   4   nsubj   _   _
2   getum   geta    AUX MDPI    _   4   aux _   _
3   alltaf  alltaf  ADV ADV _   4   advmod  _   _
4   sest    setjast VERB    VBN _   0   root    _   _
5   að  að  SCONJ   C   _   20  mark    _   _
6   í   í   ADP P   _   7   case    _   _
7   Eyjafirðinum    eyjafjörður PROPN   NPR-D   _   20  obl _   SpaceAfter=No
8   ,   ,   PUNCT   ,   _   7   punct   _   _
9   hérna   hérna   ADV ADV _   11  advmod  _   _
10  handan  handan  ADP P   _   11  case    _   _
11  fjallgarðsins   fjallgarður NOUN    N-G _   7   obl _   SpaceAfter=No
12  ,   ,   PUNCT   ,   _   7   punct   _   _
13  á   á   ADP P   _   15  case    _   _
14  einhverju   einhver ADJ Q-D _   15  amod    _   _
15  stórbýlinu  stórbýli    NOUN    N-D _   7   obl _   _
16  þar þar ADV ADV _   15  advmod  _   _
17  þar þar ADV ADV _   20  advmod  _   _
18  er  vera    AUX BEPI    _   20  cop _   _
19  okkar   ég  PRON    PRO-G   _   20  nmod:poss   _   _
20  bakland bakland NOUN    N-N _   4   ccomp/xcomp _   SpaceAfter=No
21  ,   ,   PUNCT   ,   _   20  punct   _   _
22  sem sem SCONJ   C   _   24  mark    _   _
23  til til ADP RP  _   24  compound:prt    _   _
24  tilheyrum   tilheyra    VERB    VBPI    _   20  acl:relcl   _   _
25  Sturlungaflokknum   sturlungaflokkur    PROPN   NPR-D   _   24  obj _   SpaceAfter=No
26  .   .   PUNCT   .   _   4   punct   _   _

Í "þar er okkar bakland" ætti 'þar' að vera hausinn, sbr. fig. A.22 hjá HJ