banditelol / amr-id-2.0

Dataset Building untuk AMR berbahasa Indonesia
0 stars 0 forks source link

Ide Improvement #1

Open banditelol opened 2 years ago

banditelol commented 2 years ago

Ide Pengembangan Reanotasi

Pergi dan Berangkat

Beberapa kata bisa meminjam roleset dari propbank frames sehingga bisa menggunakan ARG3 dan ARG4 secara lebih kontekstual, seperti:

Pembentukan Verb dari kata dasar

Bahasa Indonesia memiliki karakter yang mudah membentuk verb dari kata dasar yang bukan verb, seperti kebalikannya gerund di bahasa inggris (untuk gerund bahasa inggris di indonesia ada padanannya seperti tanam -> tanaman

banditelol commented 2 years ago

Bingung:

Train

banditelol commented 2 years ago

Solved

Person Name

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L199-L202 untuk kata depan Om, Bu, Pak dan sejenisnya akan menjadi nama, dan tidak mengubah konsep utama dari entitasnya (orang)

Not solved but Has Clear Idea

Handling aksi implisit

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L166-L170 Ini usulan untuk aksi yang tidak ada di kalimat, misalnya siswa sedang upacara, itu rootnya diubah dari upacara (noun) menjadi melakukan (v).

Kata sifat dengan ontonotes

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L8677-L8684 berdasarkan guideline, kita bisa menggunakan ontonotes untuk kata sifat, dalam kasus ini kami haus bisa menjadi

(h / haus
  :ARG1 (k / kami))

karena yang terkena haus adalah kami, bukan kami yang membuat orang lain haus.

Handling Named location

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L8278-L8282 ini bisa diganti menjadi

(u / universitas :name (n / name :op1 "Universitas" :op2 "Conecticut"))

Non-predikat sebagai root

Salah parent

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L11856-L11865 contohnya dalam kalimat Kak Mira menanam tanaman obat modifier obat malah memiliki parent predikat tanam, bukan konsep tanaman.

Role Terbalik

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L10316-L10324 Ini masalah ARG0 dan ARG1 terbalik

Not solved and Confused

Ambigu karena kata dasar dan cara bahasa Indonesia membentuk kata kerja

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L11687-L11689 tinggal bisa berarti live in atau bisa juga menjadi meninggal yang berarti dead atau meninggalkan yang berarti leave apakah masing-masing sense ini bisa dipisahkan menjadi tinggal.0, .. tinggal.n ?

Contoh lain bisa dilihat di kata baik yang bisa berarti good atau membaik yang berarti get well atau memperbaiki yang berarti fix https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L10687-L10689

Handling Plural

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L166-L170 Karena sebenarnya AMR tidak ada aturan mengenai plural, sebenarnya para siswa bisa diubah menjadi siswa saja, tapi apakah maknanya berubah?

Kalimat pasif yang kurang lengkap

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L183 kalimat pasifnya apakah tidak lebih baik menggunakan dilakukan atau dihadiri? karena upacara oleh para siswa relatif ambigu

Nama occupation

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L215-L223 apakah akan seperti ini atau mengikuti aturan AMR menjadi

- (p / petani)
+ (o / orang :ARG0-of (t / tani))

contoh lain bisa diamati pada konsep pencuri: https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L12221-L12224

Nama orang atau sebutan?

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L225-L233 dalam kasus ini Pak Tani apakah nama orang atau sebutan orang yang bertani? karena akan berbeda konsep yang dihasilkannya

- (o / orang :name (n / name :op1 "Pak" :op2 "Tani"))
+ (o / orang :ARG0-of (t / tani))

Contoh lain bisa dilihat pada kata Pak Camat yang merupakan jabatan seseorang, apakah bisa masuk ke konsep (o / orang :ARG0-of (p / pimpin :domain (c / camat))) saja?

Lokasi sebagai tempat kejadian, tempat asal atau tujuan?

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L235-L244 Dalam kasus ini Kantor adalah tempat tujuan, sehingga sebenarnya cenderung lebih berkaitan dengan konsep dasar pergi dan bisa jadi mendapat relasi :ARG4 seperti pada frame go.1 sehingga partikel tambahanke, di, dan dari tidak dibutuhkan. Atau partikel tsb mau dileverage sebagai relasi end-point, starting-point, location

Contoh lain yang menggunakan relasi location sesuai dengan AMR guide: https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L268-L277 karena di dapur adalah keterangan lokasi yang menunjukkan kejadiannya terjadi dimana, tidak berkaitan langsung dengan predikatnya

Kebingungan antara role ARG yang tepat

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L12533-L12536 dalam kasus ini pemenang adalah penerima dari pemberian, jadi lebih tepat sebagai ARG2 dari beri namun belum bisa di resolve dengan baik karena tidak ada referensi mengenai relasi mana yang tepat untuk predikat ini

Hal ini terlihat pada penggunaan role pada predikat tembak berikut mengenai doer, victim, dan cara doing nya https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L10178-L10186

Penggunaan mod untuk ARG > 2

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L11550-L11553 Apakah by design untuk hal-hal diluar ARG0 dan ARG1 untuk menjadi mod saja? apakah ini mau di retain?

Kata dasar atau konsep lain?

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L8390-L8393 apakah lebih baik menggunakan kata dasar atau menggantinya dengan konsep lain yang lebih kontekstual sepert dalam kasus ini berari pakai, ini mirip dengan permasalahan penggunaan frame untuk menentukan makna.

Bisa dilihat juga pada kata nanti di kalimat berikut yang bisa digantikan menjadi tunggu https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L9619-L9621

Penggunaan Domain

https://github.com/banditelol/amr-id-2.0/blob/1048a507f38266f24e1ec41d29d145357008a537/simple/split_features/train.txt.features#L8206-L8216 Nah ini yang cukup kompleks anotasinya kalau mau mengikutii guideline, karena verb be menggunakan domain dan Dodol disini sebagai suatu nama saja bukan konsep sendiri

(d / khas
  :domain (m / makanan :name (n / name :op1 "Dodol"))
  :location (c / city :name (n / name :op1 "Garut"))) 
banditelol commented 2 years ago

Kata Majemuk vs Compound Word

Saat ini kata majemuk seperti rumah sakit di treat sebagai rumah dengan modifier sakit, namun dalam bahasa inggris kalimat majemuk biasanya digabungkan, misal fore + see = foresee. Sehingga untuk anotasi apakah sebaiknya mengumpulkan kata-kata majemuk dalam bahasa Indonesia dan di treat sehingga dianggap sebagai satu konsep? Misal:

# ::id 664c
# ::snt Ibu yang pergi ke rumah sakit
(p / pergi
      :ARG0 (i / ibu)
-      :location (r / rumah
-            :mod (s / sakit)))
+      :location (r / rumah sakit))

Ternyata hal ini ada dan di handle dengan joins.txt yang berupa korpus mengenai kata majemuk di Bahasa Inggris dengan handling seperti pada AMR # ::id DF-199-193694-586_5859.18 ::date 2013-08-29T08:08:56 ::annotator SDL-AMR-09 ::preferred :

# ::id 664c
# ::snt Ibu yang pergi ke rumah sakit
(p / pergi
      :ARG0 (i / ibu)
-      :location (r / rumah
-            :mod (s / sakit)))
+      :location (r / rumah-sakit))