Open hinrikur opened 4 years ago
# Fix for aux
if tree.num_verbs() == 1:
rules[4:4] = ['BE.*', 'HV.*', 'MD.*', 'RD.*']
Ef mark trés er IP-... og það inniheldur bara eina sögn, er hausareglunni breytt á staðnum þannig það horfir EKKI framhjá hjálparsagnatöggunum og getur þannig merkt það sem rót setningar.
Ef fleiri en ein sögn í trénu eru hausareglurnar óbreyttar og það velur "venjulegu" sögnina sem rót.
Hlutalausn við vera og hafa í _select_head():
# Fix for aux if tree.num_verbs() == 1: rules[4:4] = ['BE.*', 'HV.*', 'MD.*', 'RD.*']
Ef mark trés er IP-... og það inniheldur bara eina sögn, er hausareglunni breytt á staðnum þannig það horfir EKKI framhjá hjálparsagnatöggunum og getur þannig merkt það sem rót setningar.
Ef fleiri en ein sögn í trénu eru hausareglurnar óbreyttar og það velur "venjulegu" sögnina sem rót.
þetta þarf svo að tékka og laga
# Somewhat efficient fix for aux verbs
if tree.num_verbs() == 1:
new_rules[0:0] = rules
new_rules[4:4] = ['BE.*', 'HV.*', 'MD.*', 'RD.*']
rules = new_rules
Virkar svona í keyrslu (hitt var með minnisvandamál)
Enn eftir að breyta UD taggi vera og hafa úr AUX
í VERB
ef sögnin er aðalsögn.
Hægt að tékka hvort hún sé rót, í aðalsetningum, en það virkar ekki ef hún er aðalsögn í aukasetningum.
Helsta vandamálið sem er eftir (og hefur verið hingað til) er að vita hvenær á að merkja 'vera' sem cop
bæði 'vera' og 'verða' eru stundum merkt cop
sjá dæmi frá HJ:
# sent_id = n01118017
# text = „Kvikmyndir höfðu breyst svo gríðarlega að fjölskylduáhorfendur voru orðnir afhuga Hollywood.“
# text_en = "Cinema had changed so drastically that Hollywood had alienated the family audience."
1 „ „ PUNCT „ _ 4 punct _ _
2 Kvikmyndir kvikmynd NOUN nvfn Case=Nom|Definite=Ind|Gender=Fem|Number=Plur 4 nsubj _ _
3 höfðu hafa AUX sfg3fþ Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin|Voice=Act 4 aux _ _
4 breyst breyta VERB ssm VerbForm=Sup|Voice=Mid 0 root _ _
5 svo svo ADV aa _ 6 advmod _ _
6 gríðarlega gríðarlega ADV aa _ 4 advmod _ _
7 að að SCONJ c _ 11 mark _ _
8 fjölskylduáhorfendur fjölskylduáhorfandi NOUN nkfn Case=Nom|Definite=Ind|Gender=Masc|Number=Plur 11 nsubj _ _
9 voru vera AUX sfg3fþ Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin|Voice=Act 10 aux _ _
10 orðnir verða VERB sþgkfn Case=Nom|Gender=Masc|Number=Plur|Tense=Past|VerbForm=Part|Voice=Act 11 cop _ _
11 afhuga afhuga ADJ lkfnof Case=Nom|Degree=Pos|Gender=Masc|Number=Plur 4 advcl _ _
12 Hollywood Hollywood PROPN e _ 11 obl:arg _ _
13 . . PUNCT . _ 4 punct _ _
14 “ “ PUNCT “ _ 4 punct _ _
Það sem HJ kallar location copula virkar ekki rétt hjá okkur.
Sjá dæmi:
# sent_id = 2008.ofsi.nar-sag.psd_1152_72954
# IcePaHC_ID = ID 2008.OFSI.NAR-SAG,.1152
# text = við getum alltaf sest að í Eyjafirðinum, hérna handan fjallgarðsins, á einhverju stórbýlinu þar þar er okkar bakland, sem til tilheyrum Sturlungaflokknum.
1 við ég PRON PRO-N _ 4 nsubj _ _
2 getum geta AUX MDPI _ 4 aux _ _
3 alltaf alltaf ADV ADV _ 4 advmod _ _
4 sest setjast VERB VBN _ 0 root _ _
5 að að SCONJ C _ 20 mark _ _
6 í í ADP P _ 7 case _ _
7 Eyjafirðinum eyjafjörður PROPN NPR-D _ 20 obl _ SpaceAfter=No
8 , , PUNCT , _ 7 punct _ _
9 hérna hérna ADV ADV _ 11 advmod _ _
10 handan handan ADP P _ 11 case _ _
11 fjallgarðsins fjallgarður NOUN N-G _ 7 obl _ SpaceAfter=No
12 , , PUNCT , _ 7 punct _ _
13 á á ADP P _ 15 case _ _
14 einhverju einhver ADJ Q-D _ 15 amod _ _
15 stórbýlinu stórbýli NOUN N-D _ 7 obl _ _
16 þar þar ADV ADV _ 15 advmod _ _
17 þar þar ADV ADV _ 20 advmod _ _
18 er vera AUX BEPI _ 20 cop _ _
19 okkar ég PRON PRO-G _ 20 nmod:poss _ _
20 bakland bakland NOUN N-N _ 4 ccomp/xcomp _ SpaceAfter=No
21 , , PUNCT , _ 20 punct _ _
22 sem sem SCONJ C _ 24 mark _ _
23 til til ADP RP _ 24 compound:prt _ _
24 tilheyrum tilheyra VERB VBPI _ 20 acl:relcl _ _
25 Sturlungaflokknum sturlungaflokkur PROPN NPR-D _ 24 obj _ SpaceAfter=No
26 . . PUNCT . _ 4 punct _ _
Í "þar er okkar bakland" ætti 'þar' að vera hausinn, sbr. fig. A.22 hjá HJ
Eins og er eru hafa og vera alhfæfðar sem hjálpar- og aukasagnir og eru aldrei rót setningar. Auk þess er erfitt að gera greinarmun á auka- og aðalsögnum á réttan hátt eins og algrímið er sett upp núna.