hasadna / knesset-data

APIs and documentation to allow getting data from the Israeli Parliament (Knesset)
MIT License
10 stars 12 forks source link

Queries #130

Open maryLoi opened 7 years ago

maryLoi commented 7 years ago

בכנסת פתוחה הצטבר אוסף גדול של פרוטוקולים מדיונים בוועדות הכנסת. אנחנו רוצים לעשות ניתוחים עומק על פרוטוקולים אלה וליישם אלגוריתמים של עיבוד שפה טבעית ולמידת מכונה. מטרת הפרוייקט היא לפתח מתודה להערכה וכימות של עבודת הפיקוח הפרלמנטרי הנעשית בוועדות הכנסת. למטה מופיעה רשימת שאלות מעניינות שהתגבשה מתוך שיחות עם עובדי ארגונים חברתיים שמתמחים בעבודה עם הכנסת. בהמשך נערוך ראיונות עם ח"כים כדי לנסח שאלות נוספות.

הסבר על עבודת ועדות הכנסת

ועדות הכנסת מבצעות שני תפקידים עיקריים - חקיקה ופיקוח פרלמנטרי. בחקיקה - מגבשים ומעבדים נוסחים של הצעות חוק, תקנות וצווים בפיקוח פרלמנטרי - מפקחים על עבודת משרדי ממשלה: מזמנים פקידים, דורשים מהם להציג נתונים על ביצוע החלטות ממשלה, דו"חות על שימוש בתקציב וכו'. מזמינים בעלי עניין מהחברה האזרחית - ארגוני סנגור, איגודים מקצועיים וגורמים פרטיים. ידוע, כי מבחינה מבנית, במאזן הכוחות בין הפרלמנט לרשות המבצעת בישראל, ידה של הממשלה על העליונה. לכנסת יש מעט מאוד כלים מערכתיים כדי לעשות עבודת פיקוח משמעותית. בפרוייקט המחקר הזה אנחנו רוצות, בין היתר, לחשוף את החולשה של הכנסת, דווקא כדי לסייע לחכ"ים שרוצים לעשות עבודה טובה. בהמשך נראיין ח"כים כדי להבין איך הם מגדירים עבודת פיקוח משמעותית. וננסה לבנות כלי שמודד אותם לפי עבודה זו, ולאו דווקא על פי נוכחות גרידא או הצבעה, שידוע שהיא נתונה בסד המשמעת הקואליציונית. העובדה שעבודה פרלמנטרית, שלעיתים קרובות היא עבודת עומק לטווח ארוך לא מתגמלת, תוכל לקבל חשיפה ולזכות ח"כים בקרדיט מול הציבור - תחזק אותם ואת הכנסת.

גישה לדאטה

You can run SQL in our redash - the interface that we use for running, storing and sharing queries (just connect with your google account, its open). If you are writing queries, please document them in this issue like this, because redash is horrible for finding and cataloging things.

The tables are not well documented, but if you play around with Open Knesset, you will get the feel for how the data is organized. Here is a list of the more important tables, documentation is work in progress:

image

The tables you'll mostly use are those starting with 'committees', particularly 'committees_committeemeeting' and 'committees_protocolpart'. The protocol is stored in sections, each section attributed to speaker. See this issue on explanation how to identify speakers.

Example queries and code

Here are some good queries to start from:

https://github.com/hasadna/Open-Knesset/wiki/Running-SQL-queries-on-Open-Knesset-database-using-re:dash

שולף את כל הדיונים בועדת הכספים בין תאריכים נתונים, כשנושא הדיון עוסק בשינויים בתקציב. סופר לכל ח"כ שהשתתף בדיון את מספר המילים. תוך כדי פותר את הבעיה של כתיב לא קונסיסטנטי לשמות חכים http://data.obudget.org/queries/998/source#table there is a 'speaker_id' column in 'committees_protocolpart' table that references the id column in 'persons_person' table, but unfortunately it has many NULLs, so it can't be used. This query kept the string matching and took the names from 'mks_member.name' so we get all unified names and parties (no duplicates such as 'מירב בן ארי/ח"כ מירב בן ארי/מירב בן-ארי, etc). The 'speaker_id' will be fixed in the future.

Python code that extracts from a protocol the full name and position of all guests who attended a committee meeting

4.

דיון בפייסבוק על כלים לניתוח עברית https://www.facebook.com/groups/543283492502370

נושאי מחקר

מגדר

  1. לפלח את יוזמי החוק מגדרית ולראות אם יש מאפיין מיוחד להצ"ח שיש יותר נשים בין יוזמיהם . למשל, אם בחוקים הבטחוניסטיים יהיו יותר מציעים גברים.
  2. לבדוק נוכחות ח"כים בוועדות לפי מגדר, אם ח"כיות נוכחות יותר בוועדות מסויימות

נושאי דיון

  1. לפלח כותרות של דיונים לנושאים עיקריים. מה הנושאים החמים לדיון
  2. היסטוגרמה של מופעי צמדי מילים. לראות איך היא משתנה בין השנים, בין הכנסות
  3. פילוח דיוני מעקב - כמה יש, על איזה נושאים, באילו ועדות, באילו מרווחי זמן
  4. התפלגות הנושאים לפי זמן
  5. לאפיין את הנושאים שמאפיינים כל ח"כ, בכל וועדה, בכל שנה

נוכחות

  1. באילו ועדות יש הכי הרבה לוביסטים, באילו דיונים
  2. להצליב מאגר אירגונים חברתיים של מידות עם רשימת נוכחים. לראות באילו ועדות ואילו נושאי דיון יש יותר נוכחות ארגוני חברה אזרחית
  3. ממוצע נוכחות ח"כים בוועדות השונות
  4. האם ח"כים מגזרים נוטים יותר להגיע לדיונים בנושאים מסוימים
  5. אילו נציגי ממשלה מזומנים? האם נציג זוטר או בכיר מתייצב?
  6. מי נכנס/יצא באמצע הדיון? מי נכח באיזה חלק מהדיון?

כללי

  1. האם יש דפוס בתגובות של נציגי ממשלה מרשויות שונות
  2. מה הסיבות הכי נפוצות שנציגי הממשלה מביאים כדי לתרץ בעיות בביצוע - למשל האשמת משרד אחר או בעיית תכלול בין גורמים, מחסור בתקציב, מכשול משפטי, בעיה עם האוכלוסיה (למשל בדואים שמוציאים ילדים מבית הספר למרעה
  3. כמה זמן הבעיה הנדונה הקיימת עד שמגיעה לדיון בכנסת
  4. האם יש שימוש מוגזם בעדויות אישיות של אזרחים
  5. האם נשאלה שאלה רלוונטית
  6. האם התקבלה תשובה
  7. האם התקבלה תשובה עניינית? לזהות נסיונות התחמקות משאלה
  8. כמה זמן ניתן לאיזה ארגון אזרחי לדבר?
  9. פילוג זמן הדיבור של ח"כ ע"פ מגדר/מגזר/השתייכות סיעתית '
OriHoch commented 7 years ago

expected outcome from this issue

this is an ongoing epic issue for which new issues should be opened for the specific missing data