thorunna / UDConverter

A treebank format converter for converting PPCHE-style treebanks into UD treebanks.
Apache License 2.0
4 stars 0 forks source link

joiners.py - Klára að implementa join_various_nodes() fallið (hitt og þetta sem er aðskilið með $). #5

Open hinrikur opened 4 years ago

hinrikur commented 4 years ago

Sumar samsetningar eru einfaldar en aðrar eru flóknari, t.d. í "óþolinmæðis-$ og gáleysi$ $sorð”, eru fyrstu orðhlutarnir í sér NP-POS lið. Þarf að meðhöndla sérstaklega.

Listi yfir samsetningar sem þarf að skoða (dæmi úr skriptu):

di_nodes = [
            ('Páls\$', '\$messu'),
            ('Staðar\$', '\$Kolbeins'),
            ('Staðar\$', '\$Böðvars'),
            ('Staðar<dash/>\$', '\$Böðvars'),
            ('vígsakar\$', '\$aðilinn'),
            ('tíunda\$', '\$skipti'),
            ('Helga\$', '\$son'),
            ('lögmáls\$', '\$lesturinn'),
            ('fórnfæringar\$', '\$sauðum'),
            ('leóns\$', '\$haus'),
            ('kirkju\$', '\$embættið'),
            ('guðssonar\$', '\$blóði'),
            ('öngvan\$', '\$eg\$'),
            ('Kirkjubóls\$', '\$ferð\$'),
            ('hvers\$', '\$kyns'),
            ('hnífs\$', '\$lag'),
            ('fram\$', '\$parti'),
            ('af\$', '\$reisu'),
            ('alls\$', '\$konar'),
            ('kirkju\$', '\$göngu\$'),
            ('Móðals\$', '\$felli'),
            ('einu\$', '\$sinni'),
            ('nokkurs\$', '\$staðar'),
            ('Árna\$', '\$nesi'),
            ('húss\$', '\$móðir\$'),
            ('Hallgríms\$', '\$son'),
            ('hagleiks\$', '\$gáfu'),
            ('mátt\$', '\$leysi'),
            ('hagleiks\$', '\$maður'),
            ('utan\$', '\$lands'),
            ('þess\$', '\$háttar'),
            ('gáleysis\$', '\$orð'),
            ('klausturs\$', '\$stapp'),
            ('frost\$', '\$veður'),
            ('Eiríks\$', '\$sonar'),
            ('bónda\$', '\$garði'),
            ('þrætu\$', '\$efni'),
            ('utan\$', '\$bæjar'),
            ('riddara\$', '\$sögum'),
            ('Íslendinga\$', '\$sögum'),
            ('ofbeldis\$', '\$gaur'),
            ('trúar\$', '\$lífinu'),
            ('Postulíns\$', '\$hundar'),
            ('glæpa\$', '\$beltinu'),
            ('gjör\$', '\$svo\$')
        ]