hasadna / standalone-tasks

standalone tasks
11 stars 2 forks source link

הוספת תהליך שיאנדקס טקסט של פרוטוקולים של הכנסת לשרת חיפוש #39

Open OriHoch opened 6 years ago

OriHoch commented 6 years ago

מטרה

בפרוייקט כריית הנתונים על הכנסת (כנסת פתוחה) אנחנו מעבדים פרוטוקולים של הכנסת בפורמט וורד ומייצרים מהם שני קבצים - קובץ טקסט - שמכיל את הטקסט בלבד וקובץ טבלאי שמכיל את הפרוטוקול מחולק לדוברים.

אנחנו מעוניינים לאפשר לחפש בתוך הטקסט של הפרוטוקולים באמצעות שרת חיפוש

השרת שאנו מעוניינים לעבוד איתו הוא - ElasticSearch

מה צריך לעשות?

ידע נדרש

המשימה דורשת היכרות עם או רצון ללמוד עצמאית את הנושאים הבאים

הוראות מפורטות

התקנת סביבת העבודה והיכרות עם המערכת

בשלב זה נבצע התקנה ראשונית של סביבת העבודה ונריץ כמה תהליכי עיבוד שרלוונטיים למשימה לצורך היכרות עם המערכת

התקנת סביבת פיתוח והרצת בדיקות אוטומטיות

המשך הפיתוח

לחצו כאן לעבור להמשך הפיתוח במשימה הרלוונטית