في ملف الوسم arabic Tagger
يعتمد على قاموس مورفولوجيك،
هذا القاموس الذي ولدناه مباشرة من مشروع الراموز، لكن عدد أشكال الكلمات العربية ضخم جدا فاق 800 ميغابايت
لذا قمت باستعمال نماذج لبعض الأشكال الكثيرة المتشابهة
1- مثلا شكل الكلمة المتصل بضمير يمكن أن يولد منه حالات عديدة
اسمك، اسمكما، اسمكم، اسمكن، اسمه...
لذا ولدت فقط شكلا واحدا نموذجيا ينوب عن البقية التي نصنعها برمجيا
الشكل النموذجي للضمير المتصل هو "اسمك" أي المتصل بالكاف، ثم يستبدل الكاف بأي ضمير آخر.
2- الشكل النموذجي لحرف الجر المتصل ممثل فقط بالباء، يبقى الكاف واللام
"ببلاد"
3- الشكل لا يحتوي على حرف العطف المتصل، والسبب أنه يضاعف عدد الأشكال ثلاث مرات، لأنه يأتي بالواو أو الفاء أو لا شيء
لذا نعالجه برمجيا.
المشاكل
=====
- [ ] المشكلة التي لم أحلها بعد هو تركيب السوابق واللواحق:
مثلا "وكبلادك" .
- [ ] مشكلة أيضا في عرض الجذع stem
يعني لا يعطي الكلمة الأصلية في حالة الأسماء التي نعالجها برمجيا بواسطة
َArabic Tagger.
مثلا
للبلاد
المفروض يعطي بلاد