hasadna / standalone-tasks

standalone tasks
11 stars 2 forks source link

״סיאנס״ - הצלבת ישויות בין מאגרי מידע שונים #8

Open akariv opened 8 years ago

akariv commented 8 years ago

מטרה

משרד האוצר מפרסם נתונים רבים על תמיכות, התקשרויות, פטור ממכרז וכד׳.

אחד הנתונים המעניינים ביותר הוא מי קיבל את הכסף - עמותה, חברה, עוסק מורשה וכו׳. הבעיה היא שלרוב מופיע שם הספק בלבד, ללא מספר מזהה ייחודי. במקרים אחרים, מופיע המספר המזהה אולם הוא לא תמיד נכון (מוזן ידנית)

מה צריך לעשות?

אנו רוצים לבנות אלגוריתם אמין ויציב שיודע לקחת את המזהים ה״רועשים״ הללו ולהאים אותם למקור מידע אמין. (במקרה שלנו, מקור מידע אמין הוא רשימת כל החברות וכל העמותות המפורסמת על ידי משרד המשפטים)

הוראות מפורטות

אפשר להתחיל מהקוד הקיים ואפשר לכתוב אותו מאפס צריך לקחת את הקבצים לדוגמה שיצורפו למשימה זו ולנסות לבצע התאמות מול הרשימות המלאות. האלגוריתם הסופי צריך להיות מהיר, יעיל בזיכרון ובעיקר לא לטעות (כלומר, עדיף לא להתאים מאשר לעשות טעות)

התוצר צריך להיות סקריפט פייתון גנרי שמקבל מספר מקורות ומוציא התאמות שונות.

איך להתחיל

מי שמעוניין במשימה שידבר עם @akariv

Lemore commented 8 years ago

אני מעוניינת לעבוד על הפרויקט הזה