hasadna / knesset-data-pipelines

Main repository for Open Knesset project - contains the knesset data scrapers and processing pipelines
https://oknesset.org/
MIT License
14 stars 26 forks source link

Classify protocol parts according to speaker #178

Closed OriHoch closed 1 year ago

OriHoch commented 4 years ago

Identify the following speaker types:

classification / identification methods:

  1. for newer protocols (after ~knesset 15) the invitees section is parsed and exposes the names and roles of invitees. this data is available in package people/committees/meeting-attendees. This data can be used to classify speakers according to their names.
  2. for chairman - there is prefix on each protocol part which is prefixed with הי"ור
  3. for MKs - the party appears in brackets after the name, in each protocol part
  4. improve the parsing of invitees section to detect additional role names - הגדרת היועץ המשפטי לוועדה משתנה בין פרוטוקולים. זה יכול להיות "יועץ משפטי" או "יועצת משפטית" או "ייעוץ משפטי" או "עוזרת ליועצת המשפטית" או "יועצות משפטיןת" / בדרך כלל מופיע שם המוזמן – (מקף) תפקיד , משרד ממשלתי או בסדר הפוך משרד ממשלתי ואז תפקיד. לעיתים לפני שם המוזמן יכול להופיע עו"ד או תואר אחר והתואר לא יופיע אחר כך שהדובר מצוטט. לדוגמא "עו"ד מני מזוז – משרד המשפטים" ובטקסט בגוף הפרוטוקול יופע "מני מזוז:" או " עו"ד סגן-ניצב נורית זיו" ופרוטוקול "נורית זיו:"

expected results:

Tabular data with the following fields:

OriHoch commented 4 years ago

Latest data: show notebook

most of the points were done, some more testing and fixes are probably needed