Oiya kemarin lupa ditulis disini, untuk saat ini progresnya:
Hasil training masih belum memuaskan, walaupun sudah tidak ada hasil parsing yang identik (isu yang ID nya sama), tapi kata graf yang dihasilkan masih belum masuk akal. Yang sekarang sedang dilakukan:
Pastikan pengaruh dari hasil lematisasi adylan (ada suffix angka 1 di lemmanya)
Periksa kembali kualitas saat evaluasi dev
Membedah modelnya untuk mengetahui hasil tiap2 langkah yang bisa di interpretasikan (seperti probability distribution saat node prediction, etc)
Membuat script untuk preprocessing yang khusus untuk stog bahasa Indonesia (terutama untuk recatorizing mengurangi search space)
Menggunakan Glove yang Full Bahasa Indonesia (sekarang menggunakan multilingual defaultnya zhang)
Selain itu saya menemukan beberapa hal yang sepertinya perlu diperiksa kembali mengenai konvensi AMR bahasa Indonesia yang digunakan di dataset sekarang, karena:
Untuk named entity saat ini beberapa memiliki pola seperti berikut :op (_ / Jawa Tengah) sehingga error saat dibaca menggunakan AMRCodec Penman, karena ekspektasinya :op "Jawa Tengah"
Beberapa named entity berupa node sendiri seperti :ARG0 (a / Ani) sehingga walaupun secara processing kalimat bisa ditemukan sebagai Named Entity, namun saat pemrosesan graf sulit untuk direcategorize. Karena ekspektasinya :ARG0 (o/ orang :name (n/ name : op "Ani")) sehingga saat recategorize graf nya bisa direduksi menjadi :ARG0 (o/ orang :name (n/ PERSON_1))
Oiya kemarin lupa ditulis disini, untuk saat ini progresnya:
Hasil training masih belum memuaskan, walaupun sudah tidak ada hasil parsing yang identik (isu yang ID nya sama), tapi kata graf yang dihasilkan masih belum masuk akal. Yang sekarang sedang dilakukan:
Selain itu saya menemukan beberapa hal yang sepertinya perlu diperiksa kembali mengenai konvensi AMR bahasa Indonesia yang digunakan di dataset sekarang, karena: