dkpro / dkpro-core

Collection of software components for natural language processing (NLP) based on the Apache UIMA framework.
https://dkpro.github.io/dkpro-core
Other
195 stars 67 forks source link

Support discontinuity in DKPro Core #895

Open reckart opened 8 years ago

reckart commented 8 years ago

Once more, let's look into how we can support discontinuity in DKPro Core.

For a start, I suggest that we implement a common practice of how discontinuity should be represented: a pattern:

First case for us to implement would be adding the fragments feature to SemPred and SemArg and allow TigerXML reader to read discontinuous semantic annotations.

Any comments?

judithek commented 8 years ago

what does "once more" refer to? any previous mailing list discussions about this topic?

reckart commented 8 years ago

That refers to discussions years ago that I believe date back to before DKPro Core was ever released as open source ;) If there have been any mailing list discussions, I have forgotten about them.

judithek commented 8 years ago

there are many cases of discontinuous SemPreds (verb particle constructions, light verb constructions). It might be useful to have a Fragment feature where "type" information can be kept in order represent transparent heads of such SemPreds (as in light (aka support) verb constructions where the verb is not the semantic center).

What would be examples of discontinuous SemArgs? Did you find some in Tiger?

reckart commented 8 years ago

Not in Tiger, but e.g. in the dataset of the IGGSA shared task (http://iggsasharedtask2016.github.io/welcome.html). Hm. I was thinking that the "Fragment" solution should really only serve as a means of extending the span of the primary annotation. As such, they would not have any further semantics and it would not be required to qualify in which way the fragment would relate to the primary annotation. The fragment solution would only address the problem that UIMA offers only a single begin/end pair for annotations instead of supporting multiple begin/end pairs.

reckart commented 8 years ago

An example would be

Im Fokus des Berichts steht ...

where the annotated semantic expression is "Im Fokus steht" which is a subjective expression.

reckart commented 8 years ago

I guess that would be a "light verb construction" (https://de.wikipedia.org/wiki/Funktionsverb).

judithek commented 8 years ago

yes, it is not an example of a discontinuous SemArg (might be annotated as one in IGGSA though ...)

maxxkia commented 8 years ago

@judithek Discontinuous SemArgs were reported by mistake. I checked the data and have not been able to find such instances yet.

However, I paste here some examples of discontinuous SemPreds (subjective expressions in our case) I encountered:

Example 1

s32: Die Kommission unterstützt die Bric-Strategie weitgehend und sprach in den Beratungen mit der Aussenministerin auch die Fragen an , die sich zu den einzelnen dieser Länder in Bezug auf die Einhaltung der Menschenrechte stellen .

Target of [s32_f2] frame consists of noncontiguous tokens! Tokens are: (s32_8,sprach)(s32_18,an)

Example 2

s36: Gleichzeitig macht er die erfolgreiche Weiterführung des bilateralen Ansatzes von der Erfüllung dreier Bedingungen abhängig : erstens von einem verbleibenden Handlungsspielraum der Schweiz zur Durchführung der eigenen Politiken , zweitens von einer für die Schweiz vorteilhaften wirtschaftlichen Beziehung mit der EU und drittens von der Bereitschaft der EU , die bisherige Partnerschaft in diesem Sinne weiterzuführen .

Target of [s36_f3] frame consists of noncontiguous tokens! Tokens are: <s36_2,macht> <s36_15,abhängig>

Example 3

s29: Im Bericht lässt er jedoch offen , welche Bereiche die länderspezifischen Strategien beinhalten , namentlich beispielsweise im Hinblick auf die für die Schweiz zentrale Frage der Energieversorgung .

Target of [s29_f1yya3] frame consists of noncontiguous tokens! Tokens are: <s29_3,lässt> <s29_6,offen>

Example 4

s28: In diesem Bereich erarbeitet der Bundesrat eine Gesamtstrategie zu den Beziehungen mit diesen einzelnen Staaten .

Target of [s28_f1] frame consists of noncontiguous tokens! Tokens are: <s28_4,erarbeitet> <s28_8,Gesamtstrategie>

Example 5

s27: Zum Inhalt des vorliegenden Berichtes : Auf zwischenstaatlicher , bilateraler Ebene bilden die Beziehungen zu den folgenden Staaten einen Schwerpunkt der Aussenpolitik : Vereinigte Staaten von Amerika , China , Russland , Japan , Indien , Brasilien und Südafrika .

Target of [s27_f3] frame consists of noncontiguous tokens! Tokens are: <s27_12,bilden> <s27_19 s27_20,einen Schwerpunkt>

Example 6

s11: Mit der Unterstützung dieses Eventualantrages geben Sie das positive Zeichen , dass die Schweiz als Teil der Weltgemeinschaft weiterhin solidarisch und glaubwürdig an der Lösung von regionalen und globalen Problemen und Krisen mitwirken will und dass es ihr um mehr geht als nur darum , ihre Sitze in den Bretton-Woods-Organisationen zu sichern .

Target of [s11_f1yya3] frame consists of noncontiguous tokens! Tokens are: <s11_6,geben> <s11_9 s11_10,positive Zeichen>

Example 7

s7: Für unsere internationale Glaubwürdigkeit ist es aber wichtig , ein Zeichen zu setzen , dass wir gewillt sind , bei der Erreichung der Millenniumsziele eine aktive Rolle zu übernehmen .

Target of [s7_f3] frame consists of noncontiguous tokens! Tokens are: <s7_25 s7_26 s7_27,eine aktive Rolle> <s7_29,übernehmen>

maxxkia commented 8 years ago

@judithek Ok, looks like I was not wrong. I found several discontinuous SemArg instances.

In IGGSA dataset, I could find one source of a subjective expression which is discontinuous: Example 1 The following subjective expression

Ich glaube , wir sind uns aber einig - und das hat auch die Diskussion zum Ordnungsantrag gezeigt - , dass Aus- und Weiterbildung etwas vom Wichtigsten für unsere Gesellschaft sind und dass die gutausgebildeten Arbeitskräfte wahrscheinlich einer der wichtigsten Standortvorteile unseres Landes überhaupt sind .

has the source annotated as:

Ich glaube , wir sind uns aber einig - und das hat auch die Diskussion zum Ordnungsantrag gezeigt - , dass Aus- und Weiterbildung etwas vom Wichtigsten für unsere Gesellschaft sind und dass die gutausgebildeten Arbeitskräfte wahrscheinlich einer der wichtigsten Standortvorteile unseres Landes überhaupt sind .

And more than 700 instances of discontinuous targets. I list some of the examples here. Example 2 The following subjective expression

s594: Ich möchte dazu Stellung nehmen , weshalb wir Grüne gegen die Kürzung - es geht um 800000 Franken - sind , die beantragt wurde .

has the target annotated as:

s594: Ich möchte dazu Stellung nehmen , weshalb wir Grüne gegen die Kürzung - es geht um 800000 Franken - sind , die beantragt wurde .

Example 3 The following subjective expression

s161: Wir können nicht das gleiche Geld mehrmals ausgeben , und wenn ich heute jetzt diese zusätzlichen Steuerabzüge anschaue - man rechnet da etwa mit 50 bis 60 Millionen Franken zusätzlicher Mindereinnahmen - , dann muss ich einfach sagen , dass ich gerne zuerst in Bezug auf dieses Geld abgewogen hätte , welche Instrumente am effizientesten sind , welche es am meisten braucht .

has the target annotated as:

s161: Wir können nicht das gleiche Geld mehrmals ausgeben , und wenn ich heute jetzt diese zusätzlichen Steuerabzüge anschaue - man rechnet da etwa mit 50 bis 60 Millionen Franken zusätzlicher Mindereinnahmen - , dann muss ich einfach sagen , dass ich gerne zuerst in Bezug auf dieses Geld abgewogen hätte , welche Instrumente am effizientesten sind , welche es am meisten braucht .

Example 4 The following subjective expression

s162: Und wie erreichen wir die Ziele , die wir eben am stärksten anpeilen wollen ?

has the target annotated as:

s162: Und wie erreichen wir die Ziele , die wir eben am stärksten anpeilen wollen ?

judithek commented 8 years ago

thanks for posting the examples. IMO, using SemPred and SemArg for the subjective expressions (as defined in IGGSA -- I had a look at the guidelines https://sites.google.com/site/iggsasharedtask/task-1/STEPS_guide.pdf?attredirects=0 ) is a bit problematic (can at least be questioned) because these subjective expressions are much less constrained than predicate-argument structures annotated in SRL or FrameNet-like frames.

Using the Fragment type in combination with SemPred / SemArg certainly solves the issue technically.