שדרוג השימוש בקבצי פד"ף 'צורת הדף' בהקבלה לקבצי הטקסט

Bshlomecha commented 2 weeks ago

הרב @Sivan22 שליט"א [בכל פעם ראוי לחזור ולהודות מכל הלב על היוזמה הנפלאה ולברכך בהצלחה וסייע"ד להגדיל תורה ולהאדירה]

מסתמא אינך צריך לדידי ולדכוותי לסוג כזה של רעיונות, אבל אולי כדאי להטמיע בתוכנה את הכלים הבאים: א. קורא הפד"ף העברי - של [@pcinfogmach] (https://mitmachim.top/uid/19257) - כאן: https://mitmachim.top/topic/76359/%D7%9C%D7%94%D7%95%D7%A8%D7%93%D7%94-mypdf-%D7%AA%D7%95%D7%9B%D7%A0%D7%94-%D7%97%D7%93%D7%A9%D7%94-%D7%9C%D7%94%D7%A6%D7%92%D7%AA-%D7%9E%D7%A1%D7%9E%D7%9B%D7%99-pdf-%D7%91%D7%A2%D7%91%D7%A8%D7%99%D7%AA-%D7%9E%D7%9C%D7%90%D7%94/62

ב. לוכד הכיתוב ומפענח OCR - גם כן שלו - כאן: https://mitmachim.top/topic/76494/%D7%9C%D7%94%D7%95%D7%A8%D7%93%D7%94-%D7%AA%D7%95%D7%9B%D7%A0%D7%94-%D7%9C%D7%9C%D7%9B%D7%99%D7%93%D7%AA-%D7%98%D7%A7%D7%A1%D7%98-%D7%93%D7%95%D7%92%D7%9E%D7%AA-%D7%90%D7%95%D7%A6%D7%A8-%D7%94%D7%97%D7%9B%D7%9E%D7%94

ואולי - אם הדבר אפשרי מבחינה טכנית - מחיבור שניהם יחד אפשר להתקדם לאין שיעור, [יתכן שזה אפשרי גם כיום?] בכל הספרים הכפולים - שיש בהם גם קבצי טקסט וגם קבצי פד"ף מפוענחים ב־OCR - א"כ כשיוצרים תיאום וסנכרון בין קבצי הפד"ף לבין קבצי הטקסט - מרוויחים ריווח כפול ומכופל:

א) שתהיה אפשרות לעבור מזה לזה בהקבלה. ב) עוד יותר מכן - אולי יהיה אפשר שהתוכנה תזהה כותרות וראשי־פרקים ודיבורי־המתחיל לפי הצורה של הופעתם ב'צורת הדף', ועי"ז יהיו קבצי הטקסט ערוכים ומסודרים יותר. ושוב לאידך גיסא - יהיה אפשר להתקין סימניות לניווט בקבצי הפד"ף לפי ציונים וכותרות. ג) ואולי - אם הפענוח יהיה אמין ומדוייק - יהיה אפשר להגיה את קבצי הטקסט באמצעות קבצי הפד"ף [כלומר - בשלבי הכנת התוכנה, יהיה אפשר להריץ את ההשוואה, והמחשב יציע תיקון במקומות שיש הבדל בין הספרים, כמו בהשוואת מהדורות בוורד וכיו"ב].

Sivan22 commented 2 weeks ago

לא הבנתי את כל הרעיונות אבל בגרסה הבאה בעזרת השם יהיה אפשר לעבור מטקסט לpdf ולהפך בצורה חלקה. ייתווסף גם שס בצורת הדף. תודות ל @IEUDI

בתאריך יום ה׳, 7 בנוב׳ 2024, 00:41, מאת Bshlomecha ‏< @.***>:

הרב @Sivan22 https://github.com/Sivan22 שליט"א [בכל פעם ראוי לחזור ולהודות מכל הלב על היוזמה הנפלאה ולברכך בהצלחה וסייע"ד להגדיל תורה ולהאדירה]

מסתמא אינך צריך לדידי ולדכוותי לסוג כזה של רעיונות, אבל אולי כדאי להטמיע בתוכנה את הכלים הבאים: א. קורא הפד"ף העברי - של @.*** https://github.com/pcinfogmach] (https://mitmachim.top/uid/19257) - כאן: https://mitmachim.top/topic/76359/%D7%9C%D7%94%D7%95%D7%A8%D7%93%D7%94-mypdf-%D7%AA%D7%95%D7%9B%D7%A0%D7%94-%D7%97%D7%93%D7%A9%D7%94-%D7%9C%D7%94%D7%A6%D7%92%D7%AA-%D7%9E%D7%A1%D7%9E%D7%9B%D7%99-pdf-%D7%91%D7%A2%D7%91%D7%A8%D7%99%D7%AA-%D7%9E%D7%9C%D7%90%D7%94/62

ב. לוכד הכיתוב ומפענח OCR - גם כן שלו - כאן: https://mitmachim.top/topic/76494/%D7%9C%D7%94%D7%95%D7%A8%D7%93%D7%94-%D7%AA%D7%95%D7%9B%D7%A0%D7%94-%D7%9C%D7%9C%D7%9B%D7%99%D7%93%D7%AA-%D7%98%D7%A7%D7%A1%D7%98-%D7%93%D7%95%D7%92%D7%9E%D7%AA-%D7%90%D7%95%D7%A6%D7%A8-%D7%94%D7%97%D7%9B%D7%9E%D7%94

ואולי - אם הדבר אפשרי מבחינה טכנית - מחיבור שניהם יחד אפשר להתקדם לאין שיעור, [יתכן שזה אפשרי גם כיום?] בכל הספרים הכפולים - שיש בהם גם קבצי טקסט וגם קבצי פד"ף מפוענחים ב־OCR - א"כ כשיוצרים תיאום וסנכרון בין קבצי הפד"ף לבין קבצי הטקסט - מרוויחים ריווח כפול ומכופל:

א) שתהיה אפשרות לעבור מזה לזה בהקבלה. ב) עוד יותר מכן - אולי יהיה אפשר שהתוכנה תזהה כותרות וראשי־פרקים ודיבורי־המתחיל לפי הצורה של הופעתם ב'צורת הדף', ועי"ז יהיו קבצי הטקסט ערוכים ומסודרים יותר. ושוב לאידך גיסא - יהיה אפשר להתקין סימניות לניווט בקבצי הפד"ף לפי ציונים וכותרות. ג) ואולי - אם הפענוח יהיה אמין ומדוייק - יהיה אפשר להגיה את קבצי הטקסט באמצעות קבצי הפד"ף [כלומר - בשלבי הכנת התוכנה, יהיה אפשר להריץ את ההשוואה, והמחשב יציע תיקון במקומות שיש הבדל בין הספרים, כמו בהשוואת מהדורות בוורד וכיו"ב].

1.

— Reply to this email directly, view it on GitHub https://github.com/Sivan22/otzaria/issues/316, or unsubscribe https://github.com/notifications/unsubscribe-auth/AVHE7PJN3SYSUK2KE7BICQTZ7KLIRAVCNFSM6AAAAABRJ43WXCVHI2DSMVQWIX3LMV43ASLTON2WKOZSGYZTSNBQHEYDSMI . You are receiving this because you were mentioned.Message ID: @.***>

Bshlomecha commented 1 week ago

סליחה שהיה ארוך ומסובך. אני מקווה שהפעם יהיה ממוקד ומוסבר:

א. אם התוכנה תוכל לזהות בקבצי הפד"ף ['צורת הדף'] - כותרות [וכן דיבורי־המתחיל], לפי הצורה של הופעתם והעיצוב שלהם וכד' - ובאופן אוטומטי תגדיר על פי זה את אותן הכותרות בקובץ הטקסט. . ב. באותה מידה יהיה אפשר להתקין סימניות לניווט בקבצי הפד"ף לפי ציונים וכותרות.

ג. מלבד זאת אם הפענוח יהיה אמין ומדוייק - יהיה אפשר להגיה את קבצי הטקסט באמצעות קבצי הפד"ף [כלומר - בשלבי הכנת התוכנה, יהיה אפשר להריץ את ההשוואה, והמחשב יציע תיקון במקומות שיש הבדל בין הספרים, כמו בהשוואת מהדורות בוורד וכיו"ב].

Danthig commented 1 week ago

א. התוכנה אינה עושה OCR לספרים. ב. התוכנה מזהה סימניות הקיימות בקבצי PDF, עיין ערך תלמוד בבלי שבספרייה האחרונה. תוכל להוסיף כל ספר אם הוא יהיה עם אותו שם, ועם אותם כותרות כמו בקובץ טקסט, תוכל לגשת אליו ויפתח במיקום שבו הטקסט נמצא. ג. חלום רחוק שלא נראה לי שיתגשם כל כך מהר. הOCR אינו מתקדם כל כך כמו שאתה חושב... (תוכל לנסות לנסות בABBYY חפש במתמחים טופ ).

‫בתאריך יום ד׳, 13 בנוב׳ 2024 ב-2:06 מאת ‪Bshlomecha‬‏ <‪ @.***‬‏>:‬

סליחה שהיה ארוך ומסובך. אני מקווה שהפעם יהיה ממוקד ומוסבר:

א. אם התוכנה תוכל לזהות בקבצי הפד"ף ['צורת הדף'] - כותרות [וכן דיבורי־המתחיל], לפי הצורה של הופעתם והעיצוב שלהם וכד' - ובאופן אוטומטי תגדיר על פי זה את אותן הכותרות בקובץ הטקסט. . ב. באותה מידה יהיה אפשר להתקין סימניות לניווט בקבצי הפד"ף לפי ציונים וכותרות.

ג. מלבד זאת אם הפענוח יהיה אמין ומדוייק - יהיה אפשר להגיה את קבצי הטקסט באמצעות קבצי הפד"ף [כלומר - בשלבי הכנת התוכנה, יהיה אפשר להריץ את ההשוואה, והמחשב יציע תיקון במקומות שיש הבדל בין הספרים, כמו בהשוואת מהדורות בוורד וכיו"ב].

— Reply to this email directly, view it on GitHub https://github.com/Sivan22/otzaria/issues/316#issuecomment-2471948057, or unsubscribe https://github.com/notifications/unsubscribe-auth/BGSEV6WG353OKHH25RXJ5S32AKJZJAVCNFSM6AAAAABRJ43WXCVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDINZRHE2DQMBVG4 . You are receiving this because you are subscribed to this thread.Message ID: @.***>

Bshlomecha commented 1 week ago

נכון. לכן סמכתי את הצעתי הזו - על התוכנה של של [@pcinfogmach] (https://mitmachim.top/uid/19257) - כמו שכתבתי בהודעה הפותחת:

מסתמא אינך צריך לדידי ולדכוותי לסוג כזה של רעיונות, אבל אולי כדאי להטמיע בתוכנה את הכלים הבאים: א. קורא הפד"ף העברי -כאן: https://mitmachim.top/topic/76359/%D7%9C%D7%94%D7%95%D7%A8%D7%93%D7%94-mypdf-%D7%AA%D7%95%D7%9B%D7%A0%D7%94-%D7%97%D7%93%D7%A9%D7%94-%D7%9C%D7%94%D7%A6%D7%92%D7%AA-%D7%9E%D7%A1%D7%9E%D7%9B%D7%99-pdf-%D7%91%D7%A2%D7%91%D7%A8%D7%99%D7%AA-%D7%9E%D7%9C%D7%90%D7%94/62

ב. לוכד הכיתוב ומפענח OCR - גם כן שלו - כאן: https://mitmachim.top/topic/76494/%D7%9C%D7%94%D7%95%D7%A8%D7%93%D7%94-%D7%AA%D7%95%D7%9B%D7%A0%D7%94-%D7%9C%D7%9C%D7%9B%D7%99%D7%93%D7%AA-%D7%98%D7%A7%D7%A1%D7%98-%D7%93%D7%95%D7%92%D7%9E%D7%AA-%D7%90%D7%95%D7%A6%D7%A8-%D7%94%D7%97%D7%9B%D7%9E%D7%94

ואולי - אם הדבר אפשרי מבחינה טכנית - מחיבור שניהם יחד אפשר להתקדם לאין שיעור, [יתכן שזה אפשרי גם כיום?] בכל הספרים הכפולים - שיש בהם גם קבצי טקסט וגם קבצי פד"ף מפוענחים ב־OCR -

תכל'ס, אם אי אפשר - אי אפשר.

Y-PLONI commented 1 week ago

התוכנה שלו לא ניתנת למימוש באוצריא, מחמת שהיא בנוייה בקוד שונה לגמרי.

pcinfogmach commented 1 week ago

לא באמת. התוכנה בנויה על pdf.js זו ספרייה שנוייה לחלוטין בjs ואפשר לטעון אותה בכל דפדפן ולכן עקרונית אתה יכול להתשמש איתה גם באוצריא

On Fri, Nov 15, 2024 at 2:26 AM Y-PLONI @.***> wrote:

התוכנה שלו לא ניתנת למימוש באוצריא, מחמת שהיא בנוייה בקוד שונה לגמרי.

— Reply to this email directly, view it on GitHub https://github.com/Sivan22/otzaria/issues/316#issuecomment-2477685973, or unsubscribe https://github.com/notifications/unsubscribe-auth/BINTOVGZWBMGT3ERAPTVHYL2AU5RRAVCNFSM6AAAAABRJ43WXCVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDINZXGY4DKOJXGM . You are receiving this because you were mentioned.Message ID: @.***>

Y-PLONI commented 1 week ago

היא בנויה בJS, כפי שציינת, אך אך לא ניתן לממש אותה בflutter. שים לב שאני לא מבין כלום בתכנות, כך כתב לי סיון.

Sivan22 / otzaria

שדרוג השימוש בקבצי פד"ף 'צורת הדף' בהקבלה לקבצי הטקסט #316