עיבוד תווים אופטי באמצעות Tesseract OCR
מועד הגשה: 19/12/2024
מטרת המטלה
מטרת התרגיל היא להתנסות בתהליך של עיבוד תווים אופטי (OCR) ולהבין את האתגרים והמגבלות של הטכנולוגיה בזיהוי טקסטים מודפסים.
שלבי העבודה
- בחירת הטקסט
- יש לבחור טקסט מודפס באורך של שני עמודים לפחות
- הטקסט יכול להיות בעברית או באנגלית
- מומלץ לבחור טקסט בעל איכות הדפסה סבירה, אך לא מושלמת
- סריקת הטקסט
- ניתן לסרוק באמצעות סורק או לצלם בטלפון הנייד
- יש להקפיד על תאורה טובה ויציבות בצילום
- הקובץ הסרוק צריך להיות בפורמט PDF או JPEG באיכות גבוהה
- ביצוע OCR
- מומלץ להשתמש בתוכנת Tesseract OCR (התקנה לווינדווז, התקנה למק מפורטת במסמכים של טסרקט)
- לנוחות העבודה ניתן להשתמש בממשק הגרפי Scribe OCR (לא עובד בעברית כרגע), או באתר pdf2text-ocr (ממיר רק קבצי PDF), או בכלי דפדפן Image to Text for ChatGPT (נא לקרוא לפני על אופן ההפעלה)
- יש לשמור את הטקסט המזוהה בקובץ טקסט נפרד
- סימון וניתוח שגיאות
- יש להשוות בין הטקסט המקורי לטקסט שזוהה
- סימון השגיאות יתבצע באופן הבא:
- צבע אדום - החלפת תו בתו שגוי
- צבע צהוב - השמטת תווים
- צבע ירוק - הוספת תווים מיותרים
- יש לכלול טבלת סיכום של סוגי השגיאות והתפלגותן
דרישות ההגשה (יש להגיש בקישור הבא)
- קובץ PDF של הטקסט המקורי הסרוק
- קובץ טקסט של פלט ה-OCR
- מסמך Word הכולל:
- ניתוח השגיאות עם הסימונים המבוקשים
- טבלת סיכום השגיאות
- הסבר קצר (עד 500 מילה) על האתגרים המרכזיים שזוהו בתהליך
הערות חשובות
- יש להקפיד על שמירת העותק המקורי של הטקסט הסרוק
- מומלץ לבצע גיבוי של כל הקבצים
- ניתן להתייעץ עם צוות המעבדה בנוגע לבעיות טכניות בהפעלת התוכנות
קריטריונים להערכה
- דיוק בזיהוי וסימון השגיאות (10%)
- איכות הניתוח וההסברים (80%)
- הגשה מסודרת ועמידה בלוח הזמנים (10%)