veer66 / thailang4r

Thai language utility for Ruby
Apache License 2.0
26 stars 8 forks source link

Transliteration issues #6

Open dim321 opened 2 years ago

dim321 commented 2 years ago

Hello, Vee! Thanks for your accept my PR. I hope you are well. Now I'm testing your great gem and I have a some confusing results, take a look, please: สมศักดิ์ expected: Somsak result: Som Sakt กัญญา expected: Kanya result: Kann อนงค์ expected: Anong result: Nng กมล expected: Kamon result: Kmn อินทิรา expected: Intira result: I Ntin Could you comment this results, please ? It's correct ?

Also, sometimes we have non-ASCII chars in result:

ไทเกอร์มวยไทย 7/35 ซอยท่าเอียด ตำบลฉลอง อำเภอเมือง จังหวัดภูเก็ต 83000 result: Thเ Ko Muaitai, 7/35, Toit (third char is non-ASCII)

บริษัท ไปรษณีย์ไทย จำกัด 228/24-25 ถนนลาดพร้าว จอมพร, จตุจักร กรุงเทพ 10900 result: Bnitat Pnaitn Thai Ch ำka D, 228/24 25, Tnnnatp (non-ASCII chars in the middle Ch ำka)

Also, gem just drop ASCII chars from mixed text. It is bugs? Can I help you to fix it?

veer66 commented 2 years ago

สมศักดิ์ expected: Somsak result: Som Sakt กัญญา expected: Kanya result: Kann อนงค์ expected: Anong result: Nng กมล expected: Kamon result: Kmn อินทิรา expected: Intira result: I Ntin

They are incorrect. Perhaps we can port another module from PyThaiNLP.

ไทเกอร์มวยไทย 7/35 ซอยท่าเอียด ตำบลฉลอง อำเภอเมือง จังหวัดภูเก็ต 83000 result: Thเ Ko Muaitai, 7/35, Toit (third char is non-ASCII)

บริษัท ไปรษณีย์ไทย จำกัด 228/24-25 ถนนลาดพร้าว จอมพร, จตุจักร กรุงเทพ 10900 result: Bnitat Pnaitn Thai Ch ำka D, 228/24 25, Tnnnatp (non-ASCII chars in the middle Ch ำka)

This case looks even more serious. I will check if PyThaiNLP has any updates.