There are some words which have identical spelling to names, and simple text based matching can't distinguish. For example:
אתפללה אל אל ערבית ושחרית.
דני הלך אל הגן
שדי חמד
The first and third אל would be wrongly matched, as well as the word שְׂדֵי. Distinguishing between these words requires syntactic understanding of the Hebrew language.
Dicta is an organization specializing in Hebrew linguistic tools. They have tools that have this understanding, and were open to providing us with an API. The API is private (we have a dedicated API key), so we would need our own server to serve as a proxy between clients and the Dicta API.
Integrating this technology would give the plugin a real advantage over manual searching, especially for long documents.
תודרה רבה ל @NoamShveber שעשה התחלה טובה בpull request #9 . אלה הצעדים הבאים שסיכמנו עליהם בפגישה:
לבדוק כמה זמן בדיוק לוקח לבקשה מהAPI לחזור, ולהחליט האם זה ריאלי להשתמש בו. אפשר לנסות לחסוך בבקשות כדי למהר את התהליך. למשל אפשר לשלוח רק משפטים שמכילים את המילה אל, ולשלוח את כל המשפטים האלו בבקשה יחידה.
במקביל, כדאי גם לבדוק האם יש אופציה לעשות ניתוח כזה בלי גישה לשרת. אם יש ספריה כלשהי שיכולה לעשות ניתוח כזה לוקאלית זה יכול מאוד לעזור. יכול להיות אפילו שאנשי דיקטה יוכלו לעזור לנו עם זה.
המתכונת הנוכחית של בקשות ישירות מהתוסף לAPI לא אפשרית, כי הAPI של דיקטה הוא פרטי ואנחנו לא יכולים להפיץ את הAPI Key עם התוסף. צריך לבנות שרת בסיסי שיעמוד בין התוסף לדיקטה. בדקתי וניתן להשתמש בפתרון כמו Google Cloud Functions שמאפשר לבנות שרת קטן כזה מאוד בקלות, ויהיה חינמי לגמרי בכמות הבקשות שצפויות לנו.
There are some words which have identical spelling to names, and simple text based matching can't distinguish. For example:
The first and third אל would be wrongly matched, as well as the word שְׂדֵי. Distinguishing between these words requires syntactic understanding of the Hebrew language.
Dicta is an organization specializing in Hebrew linguistic tools. They have tools that have this understanding, and were open to providing us with an API. The API is private (we have a dedicated API key), so we would need our own server to serve as a proxy between clients and the Dicta API.
Integrating this technology would give the plugin a real advantage over manual searching, especially for long documents.