tlwg / libthai

GNU Lesser General Public License v2.1
70 stars 19 forks source link

Request ไลบรารี่ libthai ให้ มีรุ่น mini ตัดคำไทย สำหรับใช้งานบน MCU ต่างๆ ได้ครับ #29

Open TridentTD opened 5 months ago

TridentTD commented 5 months ago

ตามมาจาก github PyThaiNLP ที่ใช้ตัดคำไทยด้วยภาษา python ได้แนะนำมา ที่ thailib ตัดคำไทยสำหรับภาษา c

หาก ตัดคำไทย มีรุ่น mini สำหรับใช้งานบน MCU ต่างๆ ด้วย จะดีมากๆครับ

image

thep commented 5 months ago

ตัว libthai ที่ build เป็น binary แล้ว ไม่ได้ต้องการ iconv ในการทำงานนะครับ ที่ต้องใช้ iconv คือ libdatrie ที่เป็น dependency ซึ่งก็ไม่ได้ใช้โดยตัว libdatrie เองอีกเช่นกัน แต่ใช้โดย trietool ที่เป็น command line tool เท่านั้นครับ

สรุปคือ ไม่มี iconv ใน libthai runtime ครับ

TridentTD commented 5 months ago

มีแบบ mini_thaicut.c สำหรับให้ mcu ขนาดเล็กสามารถ build ได้บ้างไหมครับ หรือ วิธี นำมา compile ใช้ บน platform Arduino ได้

thep commented 4 months ago

ที่จะเป็นปัญหากับแพลตฟอร์มเล็กๆ น่าจะเป็นเรื่องการใช้ memory ครับ เพราะ libdatrie รุ่นปัจจุบันได้ simplify ด้วยการโหลด dictionary เข้าหน่วยความจำทั้งตัว ถ้าจะให้กิน memory น้อยลงก็อาจต้องทำ paging โดยสลับเนื้อหาไฟล์เข้าออก memory ตามการ access ครับ ซึ่งก็อาจใช้เวลารื้อโค้ดพอสมควรครับ

TridentTD commented 4 months ago

สำหรับ MCU ที่ mem ไม่มาก การโหลด dictionary ทั้งหมด มาไว้ที่ mem อาจจะไม่พอ เป็นไปได้ไหม ที่ dictionary เป็น binary file ที่ฝากไว้ บน SD card แล้วใช้ file binary seek ที่ binary dictionary file ในการหาคำมาเพื่อใช้ในการตัดคำครับ

จะได้ช่วยลดการจอง mem ที่มีไม่มากได้ครับ