Open akariv opened 8 years ago
מקור נתונים נוסף שניתן לעשות לו סקרייפינג וניתוח סמנטי הוא ילקוט הפרסומים (שבו מדווחים בין היתר כל המינויים בממשלה ילקוט הפרסומים מתפרסם באתר המשפטים. מ2005 בפורמט דיגיטלי:
http://index.justice.gov.il/Units/Reshomot/publications/Pages/OfficialGazette.aspx
ריכזנו כאן את הרעיונות שלנו: https://docs.google.com/spreadsheets/d/1xfoKiU4M18FIYc2mRM2wdKKzTcKVlghuf1r_IVjdPok/edit?usp=sharing
כריתי את הנתונים מכלכליסט וthe Marker בהאקטון, לא ידעתי איפב לשים. תנו לי כתובת מייל ואני אשלח לכם את הסקריפטים והנתונים. \
אפשר לשלוח ל:
adam@obudget.org
On Fri, May 27, 2016 at 4:41 PM Guyy notifications@github.com wrote:
כריתי את הנתונים מכלכליסט וthe Marker בהאקטון, לא ידעתי איפב לשים. תנו לי כתובת מייל ואני אשלח לכם את הסקריפטים והנתונים. \
— You are receiving this because you authored the thread.
Reply to this email directly, view it on GitHub https://github.com/hasadna/hackathon-tasks/issues/2#issuecomment-222149166, or mute the thread https://github.com/notifications/unsubscribe/AAQMdbe3XLQ7lbnPNeRI1LAfHIsjwBfPks5qFvR1gaJpZM4IaT_p .
omerbartal@gmail.com
On Fri, May 27, 2016, 16:41 Guyy notifications@github.com wrote:
כריתי את הנתונים מכלכליסט וthe Marker בהאקטון, לא ידעתי איפב לשים. תנו לי כתובת מייל ואני אשלח לכם את הסקריפטים והנתונים. \
— You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub https://github.com/hasadna/hackathon-tasks/issues/2#issuecomment-222149166, or mute the thread https://github.com/notifications/unsubscribe/AKnxmmDg49OpAwBp2sMp-bMDGsdnrrQkks5qFvR2gaJpZM4IaT_p .
מטרה
מערכת שמאפשרת חיפוש של בעלי תפקידים במשק ובממשלה. למה צריך את זה? למשל: עיתונאי מוצא תרומה גדולה של אדם למועמד פוליטי. אפשר לחפש את השם שלו ולראות אם אותו אדם הוא חבר דירקטוריון בחברה שקשורה לאותו המועמד. בנוסף, ניתן לעקוב אחר הדלת המסתובבת של פקידי ממשל ופוליטיקאים לשעבר שנכנסים לתפקידים בכירים במשק וגם לקבל במהירות רשימה של בעלי תפקידים בחברה כלשהי.
מה צריך לעשות?
בפרויקט הזה נעשה שימוש במקורות מידע שונים וננסה לרכז אותם למסד נתונים פשוט, שכולל את השדות:
לא תמיד נדע את כל הפרטים, זה לא נורא.
את המידע המתקבל נרכז במסד נתונים שמאפשר חיפוש. על מסד הנתונים הזה נריץ שרת עם ממשק נתונים. לסיכום נבנה אתר אינטרנט פשוט שמשתמש בממשק נתונים זה בשביל לבצע חיפושים.
הוראות מפורטות
[ ] כתיבת סקריפט פייתון לסריקת מקורות מידע שונים ושליפת הנתונים לדוגמא :
אפשר להשתמש בספריות סטנדרטיות, כגון: scrapy, selenium, pyquery, beautifulsoup ובדוגמאות של סקרייפרים שכבר נכתבו https://github.com/hasadna/who-is-who-scrapers
על הסקריפט לקבל כפרטמר כמה זמן אחורה לסרוק במאגרים (כשזה רלוונטי), על מנת שנוכל להריץ אותו על בסיס תקופתי.
איך להתחיל
לבחור מקור נתונים מתוך הטבלה https://docs.google.com/spreadsheets/d/1xfoKiU4M18FIYc2mRM2wdKKzTcKVlghuf1r_IVjdPok/edit#gid=1432691248
ולדחוף את הקוד שלכם לכאן https://github.com/hasadna/who-is-who-scrapers
זו משימת פיתוח מאפס, אז יש הרבה גמישות. הדגש העיקרי הוא לא לבחור בטכנולוגיות איזוטריות מדי או בכאלו שדורשות חתונה עם ספק ספציפי.