Closed wahyubram82 closed 4 years ago
Sebenarnya kalau mau membuat pemenggalan suku kata yang baik, kita bisa mengikuti PUEBI (Pedoman Umum Ejaan Bahasa Indonesia), dimana dalam melakukan pemenggalan suku kata, maka perlu dipertimbangkan kata dasarnya.
Karena approach yang dipilih oleh package ini tidak menggunakan kata dasar, tapi hanya melihat fonologi (vokal-konsonan) dari karakternya, jadi memang wajar ada kasus yang jadi pengecualian.
Kasus reboisasi
ini gagal karena ada diftong vokal -ai, -au, -ei, -oi sehingga kalau tanpa fix single vokal
sebenarnya akan diperoleh re-bo-i-sa-si.
Tapi akibatnya kasus lain seperti boikot akan menjadi bo-i-kot.
Usulan pertama: pecahan mana saja yang menghasilkan pasangan 2 kata Maaf mas @wahyubram82, ini maksudnya kita cek atau cocokkan dengan daftar kata-kata kah? Wira belum nangkap ide nya.
Usulan kedua sebenarnya itu sudah dicover di algoritma yang wira buat, termasuk di rule yang lama
_Usulan ketiga Boleh kasih contoh kata yang harusnya ada suku kata 1 huruf konsonannya? Soalnya kalau di rule yang wira buat justru tidak boleh ada konsonan yang berdiri sendiri.
Kalau dari mas @wahyubram82 butuh, boleh dimatikan fix_syllable
nya di versi terbaru
s.syllabelize(kata, fix_syllable=False)
maksud saya mas wira..., misalnya reboisasi, kan jadi re-bo-i-sa-si
suku kata, yg diperlakukan khusus maksudnya...untuk suku kata boi kata re, sa dan si, klu dilihat dari akhir kata (diakhir vokal), maka sudah tepat... si (kv) kemudian suku lain, juga sudah tepat...re (kv) dan sa(kv).
nah, klu dapat di deteksi bahwa ada suku kata yang tepat susunanya seperti diatas dan kemudian sisanya susunannya kkv, atau kvv atau vkv, dll, dalam reboisasi, boi, kita bisa membuat pengaturan2 khusus. terhadap suku kata yg agak kompleks.
tapi sudah mas wira jawab kok, saya coba pakai `fix_syllable=False.
tapi benar juga, klu yg lain pakai untuk kepentingan lain, misalnya NLP maka harus benar menurut PUEBI.
yang ketiga, maksudnya saya ceritakan, ketemunya bug itu bagaimana...misalnya kmrn gratis menjadi g-ra-tis, skrg sudah ok kok...bahkan kata serapan, misalnya nama bill (karena gunakan dataset common_voice, namanya jadi banyak ala barat), bisa dianggap satu suku kata, kmrn saya perbaiki secara manual (transkripsinya saya ubah menjadi bil).
Iya saya setuju. Karena package ini didesain untuk bahasa Indonesia. Maka kata yang berbahasa inggris perlu dinormalisasi terlebih dahulu.
Baik, wira rasa thread ini sudah bisa ditutup ya. Apabila masih ada yang perlu didiskusikan bisa dibuka kembali.
Terima kasih dan semoga bermanfaat.
mas wira bagaimana klu dengan rule yang sekarang, ditambahkan dengan metode:
misalnya dengan rule skrg: reboisasi-> re - apapun hasilnya - sa - si
misalnya vkv, kvv dan kkv, tentunya beda perlakukan dan untuk kkv, dan sepertinya acuan untuk kkv, adalah jenis huruf k yang ditengah, misalnya r, h, s, dll.