banditelol / amr-id-2.0

Dataset Building untuk AMR berbahasa Indonesia
0 stars 0 forks source link

Data AMR Bahasa Indonesia V2

Using Utilities and Notebook

Notebooks dan utils digunakan untuk melakukan eksplorasi terutama untuk melakukan re-anotasi terhadap named-entity, dengan bantuan NER dan POS tags (NNP)

Contributors:

History

2021-10-18

Reanotasi untuk mempermudah rekategorisasi, terutama fokus pada named-entity :

# ::snt Bunga ditanam Bu Ani
(t / tanam
-       :ARG0 (b1 / bu
-               :name (a / ani))
+       :ARG0 (o / orang
+               :name (n / name :op1 "Bu" :op2 "Ani"))
        :ARG1 (b / bunga))

Secara programatik ini dilakukan dengan menggunakan regex berikut (belum handle nama dnegan satu kata saja):

Menghilangkan modifier redundan

Terutama partikel ke, 'itu' dan di

(b1 / berangkat
      :ARG0 (o / orang
            :name (n / name :op1 "Om" :op2 "Andi"))
+     :ARG1 (s / sekolah)
-     :ARG1 (s / sekolah
-           :mod (k / ke))        
      :time (b2 / besok))

Menambahkan Date Entity

dan beberapa modifiernya (konsider untuk tidak menggunakan modifier kompleks)

(p / pergi
      :ARG0 (k1 / kami
            :mod (k2 / keluarga))
      :ARG1 (t / tamasya)
+     :time (d / date-entity
+           :weekday (m / minggu)))
-     :time (h / hari
-           :mod (m / minggu)))

Handle Location Entity

Menjadi location (jenis location) named op

Handle Quantity Entity

Renumber nodes

Karena programmatic, pastiin nodenya juga direnumber dengan sesuai

2021-08-13

Ini berdasarkan data yang digunakan oleh riset Amany dengan properties:

Issues pada versi ini