linuxscout / pyarabic

pyarabic
GNU General Public License v3.0
450 stars 85 forks source link

اضافة خاصية tokenize مع حفظ مواقع الكلمات #55

Closed tarek-berkane closed 3 years ago

linuxscout commented 3 years ago

New feature added

       >>> text = "حدثنا ابن أبي عامر، قال: رايت مناما"
        >>> tokens = araby.tokenize_with_location(text)
        >>> print u"\\n".join(tokens)
         [{'token': 'حدثنا', 'start': 0,  'end': 5},
          {'token': 'ابن',   'start': 6,  'end': 9}, 
          {'token': 'أبي',   'start': 10, 'end': 13}, 
          {'token': 'عامر',  'start': 14, 'end': 18}, 
          {'token': 'قال',   'start': 20, 'end': 23}, 
          {'token': 'رايت',  'start': 25, 'end': 29},
           {'token': 'مناما','start': 30, 'end': 35}
           ]