lafzi / lafzi-indexer

Pengindeksan fonetis teks Al-Quran
10 stars 3 forks source link

Indexing menangani ambiguitas hamzah #2

Open abrari opened 7 years ago

abrari commented 7 years ago

Merujuk ke ambiguitas apakah diftong atau hamzah, waktu indexing (dari kode fonetik -> index) perlu dibuat semua kemungkinan kalau ada yang potensial ambigu.

Misalnya "FAXULAXIKAHUMUL" maka pas ngindeks dibikin jadi dua kemungkinan:

Terus di posting list indeks di-merge.

harunalfat commented 7 years ago

Mau tanya, untuk kasus apabila AXU atau AXI muncul di dekat akhir fonetik,

misal AZABISAXIR, itu salah satu trigram baru yang terbentuk untuk karakter setelahnya jadi YR\n. Apakah ini bug atau memang diharapkan seperti itu ya? :smiley:

abrari commented 7 years ago

Wah harusnya sih nggak begitu. Harusnya mencapai end of string bukan newline, dan karena end of string ya gak sampe situ trigramnya (cuma AYR aja).