shenkarlab / Off-The-record

מה מעסיק את חבריי הכנסת שלנו ומה דעותיהם בתחומים שונים, דרך המילים בהן הם בוחרים להשתמש ברשתות החברתיות
1 stars 1 forks source link

The system counts word fractions as full words #34

Open mushon opened 9 years ago

mushon commented 9 years ago

Search for: אנו

Returns:

  1. בין אם מדובר בהתארגנויות מקומיות ובין אם מדובר בתשתיות טרור מאורגנות, אנו עדים פעם אחר פעם לניסיונות של גורמי טרור פלסטיניים לפגוע בריבונותה של מדינת ישראל בירושלים ולהרוג כמה שיותר יהודים רק משום שהם יהודים.
  2. מזיכרוננו לא משים חמישים ימים של ערבות הדדית נדירה, אחווה שאין שנייה לה, חיבור מרשים ומרגש של כל קצות העם והארץ, עוצמה אנושית ולאומית שתירשם באותיות זהב בספרי ההיסטוריה של מדינת ישראל.
  3. אם ראשי חמאס חושבים שיתישו אותנו, או סבורים שאנו מציבים לעצמנו לוח זמנים כזה או אחר – הם טועים .

The first case is the basic, it's good - the word is surrounded by spaces. The second case is bad, it is not the right word. The third case is actually good as in some cases in hebrew we want to count the word when it is prepended by: ו, כ , ש, ל , מ , ב וכדומה and by combinations of these letters like: וב, מה, כש וכדומה

The regular expression that calculates the words should be more precise. It should prevent cases like the second case and then allow the third cases.

AlexGr2 commented 9 years ago

צריך גם לבדוק המנגנון של חיפוש המילה בתוך הפסוט על ידי ID כשהוא מראה את המילה כשלוחצים עליה, אם הוא מחפש עם regex ואם זה first found אז יכול להיות שהוא מוצא מילה בתוך מילה לפני שמגיע למילה עצמה.

mushon commented 9 years ago

@AlexGr2 נקודה חשובה @nir-jackson לבדיקתך

nir-jackson commented 9 years ago

זה בעיה שאני מכיר והסתכתי איתה מלא בעבר. אני אביא דוגמא למה זה בעייתי

נגיד חיפשו את המילה "סתם" אז אני מחפש בהודעה המקורים את המיקום של "סתם " (אני מוסיף רווח בסוף לסמן שזה סוף המילה ככה הוא מוצא רק את המילה באופן מלא. הבעיה שהקוד של אלקס רואה פיסוקים בתור סוף המילה כלומר אם בהודעה המקורית כתוב "סתם." אז כשאני אחפש "סתם " אני לא ימצע כלום.

אני כרגע באמת לא יודע איך לפתור את זה

mushon commented 9 years ago

אז אתה צריך לחפש את התוצאה הראשונה שאתה מקבל מתוך: סתם סתם. סתם, סתם? סתם! סתם) סתם- סתם״ סתם׳

או פשוט את הסתם הראשון שאין אחריו אות