sohaibafifi / languagetool

A fork of languagetool to maintain Arabic
https://languagetool.org
GNU Lesser General Public License v2.1
18 stars 1 forks source link

Improve stemming for nouns #5

Closed linuxscout closed 4 years ago

linuxscout commented 4 years ago
في ملف الوسم arabic Tagger يعتمد على قاموس مورفولوجيك، هذا القاموس الذي ولدناه مباشرة من مشروع الراموز، لكن عدد أشكال الكلمات العربية ضخم جدا فاق 800 ميغابايت لذا قمت باستعمال نماذج لبعض الأشكال الكثيرة المتشابهة 1- مثلا شكل الكلمة المتصل بضمير يمكن أن يولد منه حالات عديدة اسمك، اسمكما، اسمكم، اسمكن، اسمه... لذا ولدت فقط شكلا واحدا نموذجيا ينوب عن البقية التي نصنعها برمجيا الشكل النموذجي للضمير المتصل هو "اسمك" أي المتصل بالكاف، ثم يستبدل الكاف بأي ضمير آخر. 2- الشكل النموذجي لحرف الجر المتصل ممثل فقط بالباء، يبقى الكاف واللام "ببلاد" 3- الشكل لا يحتوي على حرف العطف المتصل، والسبب أنه يضاعف عدد الأشكال ثلاث مرات، لأنه يأتي بالواو أو الفاء أو لا شيء لذا نعالجه برمجيا. المشاكل ===== - [ ] المشكلة التي لم أحلها بعد هو تركيب السوابق واللواحق: مثلا "وكبلادك" . - [ ] مشكلة أيضا في عرض الجذع stem يعني لا يعطي الكلمة الأصلية في حالة الأسماء التي نعالجها برمجيا بواسطة َArabic Tagger. مثلا للبلاد المفروض يعطي بلاد
linuxscout commented 4 years ago

تمام

linuxscout commented 4 years ago

تمام

sohaibafifi commented 4 years ago

Fixed in https://github.com/sohaibafifi/languagetool/commit/a382ae9efd3fdc8c452c336a06c66926a6cbe4b8