בפרוייקט כריית הנתונים על הכנסת (כנסת פתוחה) אנחנו מעבדים פרוטוקולים של הכנסת בפורמט וורד ומייצרים מהם שני קבצים - קובץ טקסט - שמכיל את הטקסט בלבד וקובץ טבלאי שמכיל את הפרוטוקול מחולק לדוברים.
אנו עושים זאת מצויין עבור ישיבות ועדה מהשנים האחרונות אבל ישנם גם פרוטוקולים ישנים יותר שאנחנו לא מעבדים.
מה צריך לעשות?
לכתוב קוד שיקבל קובץ בפורמט הישן ויחזיר שני קבצים - קובץ טקסט נקי וקובץ טבלאי
הקוד צריך להיכתב כחלק מהתשתית של פרוייקט כריית הנתונים של כנסת פתוחה
ידע נדרש
המשימה דורשת היכרות עם או רצון ללמוד עצמאית את הנושאים הבאים
Python 3.6
PostgreSQL DB
Docker
Basic Linux shell scripting / terminal usage
Git / GitHub
הוראות מפורטות
התקנת סביבת העבודה והיכרות עם המערכת
בשלב זה נבצע התקנה ראשונית של סביבת העבודה ונריץ כמה תהליכי עיבוד שרלוונטיים למשימה לצורך היכרות עם המערכת
postgresql DB (default password 123456): postgresql://postgres:123456@localhost:5432/postgres
run the dpp cli command inside the docker environment
bin/dpp.sh
this should show all the available pipelines
bin/dpp.sh --help
run the committees pipeline (shouldn't take more then 1-2 minutes)
bin/dpp.sh run ./committees/committees
this populates the committees-committees DB table
you can connect to the DB at postgresql://postgres:123456@localhost:5432/postgres and check the data
run the committee meetings pipeline to get some committee meeting in DB
this command should give some old rtf meetings -
docker-compose exec app sh -c 'OVERRIDE_COMMITTEE_IDS=2 OVERRIDE_COMMITTEE_MEETING_FROM_DAYS=-8000 OVERRIDE_COMMITTEE_MEETING_TO_DAYS=-2000 dpp run ./committees/committee-meetings'
this should give you meeting id 333351 (committee id 2) - you can check in the DB committee-meetings table
run the committee meeting protocols pipelines to download and parse the rtf meeting file
docker-compose exec app sh -c 'OVERRIDE_COMMITTEE_IDS=2 OVERRIDE_COMMITTEE_MEETING_IDS=333351 dpp run ./committees/committee-meeting-protocols'
the rtf protocol file was downloaded to .data-docker/committee-meeting-protocols/2/333351.rtf
you can open this with open office to see the protocol
the parsed files should be in .data-docker/committee-meeting-protocols-parsed/2/333351.txt and .data-docker/committee-meeting-protocols-parsed/2/333351.csv - but they are not
התקנת סביבת פיתוח והרצת בדיקות אוטומטיות
you should be inside a Python 3.6 activated virtualenv
Pythonz can be used to install a specific Python version.
מטרה
בפרוייקט כריית הנתונים על הכנסת (כנסת פתוחה) אנחנו מעבדים פרוטוקולים של הכנסת בפורמט וורד ומייצרים מהם שני קבצים - קובץ טקסט - שמכיל את הטקסט בלבד וקובץ טבלאי שמכיל את הפרוטוקול מחולק לדוברים.
אנו עושים זאת מצויין עבור ישיבות ועדה מהשנים האחרונות אבל ישנם גם פרוטוקולים ישנים יותר שאנחנו לא מעבדים.
מה צריך לעשות?
ידע נדרש
המשימה דורשת היכרות עם או רצון ללמוד עצמאית את הנושאים הבאים
הוראות מפורטות
התקנת סביבת העבודה והיכרות עם המערכת
בשלב זה נבצע התקנה ראשונית של סביבת העבודה ונריץ כמה תהליכי עיבוד שרלוונטיים למשימה לצורך היכרות עם המערכת
bin/start.sh
postgresql://postgres:123456@localhost:5432/postgres
bin/dpp.sh
bin/dpp.sh --help
bin/dpp.sh run ./committees/committees
committees-committees
DB tablepostgresql://postgres:123456@localhost:5432/postgres
and check the datadocker-compose exec app sh -c 'OVERRIDE_COMMITTEE_IDS=2 OVERRIDE_COMMITTEE_MEETING_FROM_DAYS=-8000 OVERRIDE_COMMITTEE_MEETING_TO_DAYS=-2000 dpp run ./committees/committee-meetings'
committee-meetings
tabledocker-compose exec app sh -c 'OVERRIDE_COMMITTEE_IDS=2 OVERRIDE_COMMITTEE_MEETING_IDS=333351 dpp run ./committees/committee-meeting-protocols'
.data-docker/committee-meeting-protocols/2/333351.rtf
.data-docker/committee-meeting-protocols-parsed/2/333351.txt
and.data-docker/committee-meeting-protocols-parsed/2/333351.csv
- but they are notהתקנת סביבת פיתוח והרצת בדיקות אוטומטיות
bin/install.sh
bin/test.sh
המשך הפיתוח
לחצו כאן לעבור להמשך הפיתוח במשימה הרלוונטית