בפרוייקט כריית הנתונים על הכנסת (כנסת פתוחה) אנחנו מעבדים פרוטוקולים של הכנסת בפורמט וורד ומייצרים מהם שני קבצים - קובץ טקסט - שמכיל את הטקסט בלבד וקובץ טבלאי שמכיל את הפרוטוקול מחולק לדוברים.
אנחנו מעוניינים לאפשר לחפש בתוך הטקסט של הפרוטוקולים באמצעות שרת חיפוש
השרת שאנו מעוניינים לעבוד איתו הוא -
ElasticSearch
מה צריך לעשות?
לכתוב קוד כחלק מתשתית כריית הנתונים של כנסת פתוחה שיאנדקס את הפרוטוקולים בשרת החיפוש
להוסיף תשתית של שרת החיפוש לקבצי הדוקר של הפרוייקט
ידע נדרש
המשימה דורשת היכרות עם או רצון ללמוד עצמאית את הנושאים הבאים
Python 3.6
PostgreSQL DB
Docker
Basic Linux shell scripting / terminal usage
Git / GitHub
הוראות מפורטות
התקנת סביבת העבודה והיכרות עם המערכת
בשלב זה נבצע התקנה ראשונית של סביבת העבודה ונריץ כמה תהליכי עיבוד שרלוונטיים למשימה לצורך היכרות עם המערכת
מטרה
בפרוייקט כריית הנתונים על הכנסת (כנסת פתוחה) אנחנו מעבדים פרוטוקולים של הכנסת בפורמט וורד ומייצרים מהם שני קבצים - קובץ טקסט - שמכיל את הטקסט בלבד וקובץ טבלאי שמכיל את הפרוטוקול מחולק לדוברים.
אנחנו מעוניינים לאפשר לחפש בתוך הטקסט של הפרוטוקולים באמצעות שרת חיפוש
השרת שאנו מעוניינים לעבוד איתו הוא - ElasticSearch
מה צריך לעשות?
ידע נדרש
המשימה דורשת היכרות עם או רצון ללמוד עצמאית את הנושאים הבאים
הוראות מפורטות
התקנת סביבת העבודה והיכרות עם המערכת
בשלב זה נבצע התקנה ראשונית של סביבת העבודה ונריץ כמה תהליכי עיבוד שרלוונטיים למשימה לצורך היכרות עם המערכת
bin/start.sh
postgresql://postgres:123456@localhost:5432/postgres
bin/dpp.sh
bin/dpp.sh --help
bin/dpp.sh run ./committees/committees
committees-committees
DB tablepostgresql://postgres:123456@localhost:5432/postgres
and check the datadocker-compose exec app sh -c 'OVERRIDE_COMMITTEE_IDS=2,3 dpp run ./committees/committee-meetings'
committee-meetings
tabledocker-compose exec app sh -c 'OVERRIDE_COMMITTEE_IDS=2,3 dpp run ./committees/committee-meeting-protocols'
.data-docker/committee-meeting-protocols/
.data-docker/committee-meeting-protocols-parsed/
התקנת סביבת פיתוח והרצת בדיקות אוטומטיות
bin/install.sh
bin/test.sh
המשך הפיתוח
לחצו כאן לעבור להמשך הפיתוח במשימה הרלוונטית