ICTRC / Parsivar

A Language Processing Toolkit for Persian
MIT License
226 stars 34 forks source link

عدم تشابه خروجی بنده با خروجی شما برای جملات یکسان #5

Open Abbas645 opened 3 years ago

Abbas645 commented 3 years ago

با سلام بنده با کدهای زیر ابزار شما رو تست کردم `normalizer = Normalizer(statistical_space_correction=True) tokenizer = Tokenizer() tagger = POSTagger(tagging_model="wapiti") chunker = FindChunks()

text = 'این سمینار تا 13 شهریور ادامه می‌یابد' normal_text = normalizer.normalize(text) text_tokens = tokenizer.tokenize_words(normal_text) print('Tags:\n') text_tags = tagger.parse(text_tokens) print(text_tags) print('\nChunks:\n') chunks = chunker.chunk_sentence(text_tags) print(chunker.convert_nestedtree2rawstring(chunks))`

خروجی من به صورت زیر است: `Tags: [('این', 'DET'), ('سمینار', 'N'), ('تا', 'PO'), ('13', 'N'), ('شهریور', 'N'), ('ادامه', 'N'), ('می\u200cیابد', 'V_PR')] Chunks:

[این سمینار DNP] تا [13 شهریور ادامه NP] [می‌یابد VP]`

ولی خروجی که شما بیان کردید اینگونه است: `Tags: [('این', 'DET'), ('سمینار', 'N_SING'), ('تا', 'P'), ('13', 'NUM'), ('شهریور', 'N_SING'), ('ادامه', 'N_SING'), ('می\u200cیابد', 'V_PRS'), ('.', '.')] Chunks:

[این سمینار DNP] [تا 13 شهریور NPP] [ادامه می‌یابد VP]`

با دقت نگاه کنید متوجه می شوید که تفاوت ها زیاد است مثلا 13 برای من با لیبل N و برای شما با لیبل Num مشخص شده است

دلیل این تفاوت چیست و چه کنم تا به خروجی شبیه به شما برسم؟