בפרוייקט כריית הנתונים על הכנסת (כנסת פתוחה) אנחנו מעבדים פרוטוקולים של הכנסת בפורמט וורד ומייצרים מהם שני קבצים - קובץ טקסט - שמכיל את הטקסט בלבד וקובץ טבלאי שמכיל את הפרוטוקול מחולק לדוברים.
במהלך ריצת התהליך נתקלנו בקובץ מסויים שאינו עובר עיבוד
מה צריך לעשות?
לבדוק מה הסיבה שהקובץ לא עובר עיבוד
במידה והקובץ תקין - לתקן את התהליך כך שיתמוך גם בקובץ מסוג זה
הקוד צריך להיכתב כחלק מהתשתית של פרוייקט כריית הנתונים של כנסת פתוחה
ידע נדרש
המשימה דורשת היכרות עם או רצון ללמוד עצמאית את הנושאים הבאים
Python 3.6
PostgreSQL DB
Docker
Basic Linux shell scripting / terminal usage
Git / GitHub
הוראות מפורטות
התקנת סביבת העבודה והיכרות עם המערכת
בשלב זה נבצע התקנה ראשונית של סביבת העבודה ונריץ כמה תהליכי עיבוד שרלוונטיים למשימה לצורך היכרות עם המערכת
postgresql DB (default password 123456): postgresql://postgres:123456@localhost:5432/postgres
run the dpp cli command inside the docker environment
bin/dpp.sh
this should show all the available pipelines
bin/dpp.sh --help
run the committees pipeline (shouldn't take more then 1-2 minutes)
bin/dpp.sh run ./committees/committees
this populates the committees-committees DB table
you can connect to the DB at postgresql://postgres:123456@localhost:5432/postgres and check the data
run the committee meetings pipeline to get some committee meeting in DB
this command should give some old rtf meetings -
docker-compose exec app sh -c 'OVERRIDE_COMMITTEE_IDS=5 OVERRIDE_COMMITTEE_MEETING_FROM_DAYS=-2000 dpp run ./committees/committee-meetings'
this should give you meeting id 576879 (committee id 5) - you can check in the DB committee-meetings table
run the committee meeting protocols pipelines to download and parse this meeting's file
docker-compose exec app sh -c 'OVERRIDE_COMMITTEE_IDS=5 OVERRIDE_COMMITTEE_MEETING_IDS=576879 dpp run ./committees/committee-meeting-protocols'
the protocol file was downloaded to .data-docker/committee-meeting-protocols/5/576879.doc
the parsed files should be in .data-docker/committee-meeting-protocols-parsed/5/576879.txt and .data-docker/committee-meeting-protocols-parsed/5/576879.csv - but they are not
התקנת סביבת פיתוח והרצת בדיקות אוטומטיות
you should be inside a Python 3.6 activated virtualenv
Pythonz can be used to install a specific Python version.
מטרה
בפרוייקט כריית הנתונים על הכנסת (כנסת פתוחה) אנחנו מעבדים פרוטוקולים של הכנסת בפורמט וורד ומייצרים מהם שני קבצים - קובץ טקסט - שמכיל את הטקסט בלבד וקובץ טבלאי שמכיל את הפרוטוקול מחולק לדוברים.
במהלך ריצת התהליך נתקלנו בקובץ מסויים שאינו עובר עיבוד
מה צריך לעשות?
ידע נדרש
המשימה דורשת היכרות עם או רצון ללמוד עצמאית את הנושאים הבאים
הוראות מפורטות
התקנת סביבת העבודה והיכרות עם המערכת
בשלב זה נבצע התקנה ראשונית של סביבת העבודה ונריץ כמה תהליכי עיבוד שרלוונטיים למשימה לצורך היכרות עם המערכת
bin/start.sh
postgresql://postgres:123456@localhost:5432/postgres
bin/dpp.sh
bin/dpp.sh --help
bin/dpp.sh run ./committees/committees
committees-committees
DB tablepostgresql://postgres:123456@localhost:5432/postgres
and check the datadocker-compose exec app sh -c 'OVERRIDE_COMMITTEE_IDS=5 OVERRIDE_COMMITTEE_MEETING_FROM_DAYS=-2000 dpp run ./committees/committee-meetings'
committee-meetings
tabledocker-compose exec app sh -c 'OVERRIDE_COMMITTEE_IDS=5 OVERRIDE_COMMITTEE_MEETING_IDS=576879 dpp run ./committees/committee-meeting-protocols'
.data-docker/committee-meeting-protocols/5/576879.doc
.data-docker/committee-meeting-protocols-parsed/5/576879.txt
and.data-docker/committee-meeting-protocols-parsed/5/576879.csv
- but they are notהתקנת סביבת פיתוח והרצת בדיקות אוטומטיות
bin/install.sh
bin/test.sh
המשך הפיתוח
לחצו כאן לעבור להמשך הפיתוח במשימה הרלוונטית