עמוד 1 מתוך 1

פענוח OCR מדויק ע"י משתמשים

פורסם: ו' מרץ 13, 2020 4:18 pm
על ידי נחי
הצעתי היא, שהיות והרבה פעמים פענוח התוכנה היא לא מספיק מדויקת, והמשתמש צריך להגיה את הפענוח. לכן יהיה כדאי שכל משתמש יוכל להכניס למאגר את הפענוח המדויק, ועי"ז לעזור למשתמשים הבאים אחריו, שיקבלו פענוח מדויק.

Re: פענוח OCR מדויק ע"י משתמשים

פורסם: ד' נובמבר 18, 2020 5:41 pm
על ידי תא חזי
בהמשך לכך, יעויין באשכול אחר שעתה הציגו לראווה את הממשק החדש של אוצר החכמה 19.
viewtopic.php?p=674452#p674452
ומן הראוי היה שבאמת תהיה אפשרות בהתקנה שהמשתמש יוכל לסמן אם התוכנה יכולה לשאוב ולשלוח למאגר את פענוחי הOCR שהוא עושה כשהוא מסמן משהו בספר ואח"כ משנה את מה שקיבל בOCR. דהיינו נניח שאדם מסמן איזה קטע בספר והוא מתפענח אוטומטית ומופיע הטקסט מול הגזיר המקביל לו, והמשתמש עורך את הפענוח ומתקן אותו מול הגזיר, התוכנה תיקח את הנוסח המתוקן (דהיינו כאשר המשתמש סוגר את החלון של הפענוח) ותצרף אותו כפענוח יותר מדוייק בקטע הבא, ובעדכון הבא כלל המשתמשים יקבלו פענוח ואינדקס יותר מדוייק לקטע, לעמוד, או לספר כולו.

Re: פענוח OCR מדויק ע"י משתמשים - חכמת ההמונים (Wisdom of the crowd)

פורסם: ד' נובמבר 18, 2020 5:52 pm
על ידי תא חזי
כמו כן, איני יודע איך בדיוק ובאיזה תוכנת ושיטת OCR עברית/רש"י משתמשים באוצר החכמה, אבל אני משער שכיוון שמדובר באלפי ספרים כל שנה, אם לא יותר, וכן ספרים (בפרט דפוסים ישנים) שהכניסו כבר לפני 13+ שנה ויותר, כשהטכנולוגיה לא היתה מתקדמת כמו היום, הרי שיש ספרים שקשה מאוד לחפש בהם. ואולי היה אפשר לתת אופציה למשתמשים "לְאַמֶן" את התוכנה לפענח כראוי את הא"ב של אותו ספר ספציפי (לדוגמא אותיות של דפוסי ונציא, או דפוסי שאלוניקי, דפוס קארעץ וכעזה"ד), והפענוח יישמר בתיקיית המשתמש, ולא ידרוס את הפענוח של אוצה"ח עצמו, אלא ישמש כעוד שכבה מעליו. וכיון שאין כל משתמש הוגה בכל ה110000 ספרים, וכן אין מוטל על כל משתמש להכניס לאוצר כל שנה כרבבת ספרים, אלא כל אחד יש לו איזה כמה ספרים שמעיין בהם בתכיפות, ויוכל אולי להשקיף קצת לטובה עליהם ולאמן התוכנה לפענחם במדוייק, וזה יהיה הן לו לתועלת, ואם יסכים שהתוכנה תשלח את הקבצים האלה למאגר הכולל (שאח"כ יתעדכן לכולם בעדכון הבא) - אזי גם יועיל לציבור.

וזה מה שנקרא "חכמת ההמונים" הידוע מאריסט"ו שר"י (בחיבורו "פוליטיקא") וז"ל (בתרגום חופשי שלי): "לעתים יתכן שהאנשים הרבים, הגם שאין כל אחד מהם מעולה בפני עצמו, ובכל זאת כשהם מתכנסים עשויים הם להיות טובים יותר מן היחידים, ולא שכל אחד ואחד מתעלה לעצמו, אלא עילויים הוא מחמת התחברות הכלל ועירוב דעותיהם, כשם שסעודת הרבים ערבה יותר, ואף זולה יותר, מן סעודתו של יחיד הטורח בה לבדו"

Re: פענוח OCR מדויק ע"י משתמשים

פורסם: א' נובמבר 22, 2020 1:28 pm
על ידי aharoni111
יש בתכנון לעשות את כל הפענוח מחדש, זה יצריך הרבה חשיבה, וכמובן חכמת ההמונים תוכל לעזור ולהוסיף לזה כשליצא, בנתיים זה רק בתכנון, אבל כשנתחיל לעשות את זה אני אעדכן