TechnionTDK / jbs-text2json

A command-line tool for turning raw text into json
0 stars 0 forks source link

Create a Parser for Midrash Raba #40

Closed omishali closed 7 years ago

omishali commented 7 years ago

About Packages Json:

omishali commented 7 years ago

Note that the books tanach-midrashraba-x (x=30...34) have a bit different structure that is listed at the top of the raw text. Additional thinking should be made on how to fit their structure to the URI.

shilonoa commented 7 years ago

in the RDFS_LABLE the structure is מדרש רבה - שם הסדר - אות הפרשה - אות הסעיף? and if so shouldnt it be: מדרש רבה חומש בראשית א א?

omishali commented 7 years ago

The number of the סדר is not part of the URI since some files do not have that part. Regarding to rdfs:label, indeed there should be a slight change: if the files contains a סדר (like the first 5 files) then it should be e.g. מדרש רבה נח א א. Note that here the name of the ספר is omitted (נח relates to the name of the סדר).

shilonoa commented 7 years ago

אין בעיה, אני נתקלת בבעיות עם הספר ה-32 (איכה רבתי) יש שם לפני הפרשה הראשונה חלק שלם שנקרא "פתיחתא דחכימי" שאני לא כל כך יודעת איך להתייחס אליו (אם בכלל)

omishali commented 7 years ago

Treat this part as parasha number 0 (Zero).

בתאריך 24 באפריל 2017 בשעה 17:30, מאת noa shilo notifications@github.com:

אין בעיה, אני נתקלת בבעיות עם הספר ה-32 (איכה רבתי) יש שם לפני הפרשה הראשונה חלק שלם שנקרא "פתיחתא דחכימי" שאני לא כל כך יודעת איך להתייחס אליו (אם בכלל)

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/TechnionTDK/jbs-text2json/issues/40#issuecomment-296686490, or mute the thread https://github.com/notifications/unsubscribe-auth/AC4uL9doIMzcI5C3ilW6gBxBqHojykv8ks5rzLIIgaJpZM4NF1M_ .

shilonoa commented 7 years ago

added the midrash raba files and parser + tests, please take a look and correct me if needed.

thanks!

omishali commented 7 years ago

Comments:

shilonoa commented 7 years ago

היי אורן, אני חושבת שהצלחתי להבין מה הפירוש של האותיות בסוגריים בחלק מהכתובים (איפה שה-URIים חוזרים על עצמם) אולי יש כמה סטים של פירושים כי אחרי כל פעם שמופיעה האות בסוגריים מתאפסת הספירה של הסעיפים. תסתכל לדוגמה על פרשה ב בשיר השירים רבה http://www.ateret4u.com/online/f_01638.html

אני לא בטוחה איך להתייחס לזה, אולי כדאי להוסיף עוד מספר לURI? (אבל אם כן מה המשמעות שלו) מחכה להתייחסותך

נועה שילה

2017-04-26 11:16 GMT+03:00 Oren Mishali notifications@github.com:

Comments:

  • Please add an additional JBO_SEDER attribute where applicable (first 5 books). The value should be the URI of the corresponding Parasha in the Torah, e.g., jbr:tanach-parasha-1 (see the Tanach mefarshim parser). BTW, in that opportunity, correct the URI of the parashot in the Tanach mefarshim parser to jbr:tanach-parasha-x (and not jbr:parasha-x).
  • File 30 - I see some problems at the end of file 30 (different elements with the same URI). The cause is the raw file which requires editing. Leave that for the meeting.
  • File 31 - wrong numbering of the parashot.
  • File 32 - last element is missing (jbr:tanach-midrashraba-32-5-22)
  • File 33 - same like File 30.
  • File 34 - like File 31.
  • File 34 - like File 33.

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub https://github.com/TechnionTDK/jbs-text2json/issues/40#issuecomment-297284610, or mute the thread https://github.com/notifications/unsubscribe-auth/AWFDhtrvalyBFmvZDnpYRGPUWvqU5Sdhks5rzv1YgaJpZM4NF1M_ .

omishali commented 7 years ago

You should treat only the letter in the סוגריים as the letter of the סעיף.