עיבוד תווים אופטי באמצעות Tesseract OCR

מטרת התרגיל היא להתנסות בתהליך של עיבוד תווים אופטי (OCR) ולהבין את האתגרים והמגבלות של הטכנולוגיה בזיהוי טקסטים מודפסים.

בחירת הטקסט
- יש לבחור טקסט מודפס באורך של שני עמודים לפחות
- הטקסט יכול להיות בעברית או באנגלית
- מומלץ לבחור טקסט בעל איכות הדפסה סבירה, אך לא מושלמת
סריקת הטקסט
- ניתן לסרוק באמצעות סורק או לצלם בטלפון הנייד
- יש להקפיד על תאורה טובה ויציבות בצילום
- הקובץ הסרוק צריך להיות בפורמט PDF או JPEG באיכות גבוהה
ביצוע OCR
- מומלץ להשתמש בתוכנת Tesseract OCR (התקנה לווינדווז, התקנה למק מפורטת במסמכים של טסרקט)
- לנוחות העבודה ניתן להשתמש בממשק הגרפי Scribe OCR (לא עובד בעברית כרגע), או באתר pdf2text-ocr (ממיר רק קבצי PDF), או בכלי דפדפן Image to Text for ChatGPT (נא לקרוא לפני על אופן ההפעלה)
- יש לשמור את הטקסט המזוהה בקובץ טקסט נפרד
סימון וניתוח שגיאות
- יש להשוות בין הטקסט המקורי לטקסט שזוהה
- סימון השגיאות יתבצע באופן הבא:
  - צבע אדום - החלפת תו בתו שגוי
  - צבע צהוב - השמטת תווים
  - צבע ירוק - הוספת תווים מיותרים
- יש לכלול טבלת סיכום של סוגי השגיאות והתפלגותן

קובץ PDF של הטקסט המקורי הסרוק
קובץ טקסט של פלט ה-OCR
מסמך Word הכולל:
- ניתוח השגיאות עם הסימונים המבוקשים
- טבלת סיכום השגיאות
- הסבר קצר (עד 500 מילה) על האתגרים המרכזיים שזוהו בתהליך