עיבוד תווים אופטי באמצעות Tesseract OCR

מועד הגשה: 19/12/2024

מטרת המטלה

מטרת התרגיל היא להתנסות בתהליך של עיבוד תווים אופטי (OCR) ולהבין את האתגרים והמגבלות של הטכנולוגיה בזיהוי טקסטים מודפסים.

שלבי העבודה

  1. בחירת הטקסט
    • יש לבחור טקסט מודפס באורך של שני עמודים לפחות
    • הטקסט יכול להיות בעברית או באנגלית
    • מומלץ לבחור טקסט בעל איכות הדפסה סבירה, אך לא מושלמת
  2. סריקת הטקסט
    • ניתן לסרוק באמצעות סורק או לצלם בטלפון הנייד
    • יש להקפיד על תאורה טובה ויציבות בצילום
    • הקובץ הסרוק צריך להיות בפורמט PDF או JPEG באיכות גבוהה
  3. ביצוע OCR
    • מומלץ להשתמש בתוכנת Tesseract OCR (התקנה לווינדווז, התקנה למק מפורטת במסמכים של טסרקט)
    • לנוחות העבודה ניתן להשתמש בממשק הגרפי Scribe OCR (לא עובד בעברית כרגע), או באתר pdf2text-ocr (ממיר רק קבצי PDF), או בכלי דפדפן Image to Text for ChatGPT (נא לקרוא לפני על אופן ההפעלה)
    • יש לשמור את הטקסט המזוהה בקובץ טקסט נפרד
  4. סימון וניתוח שגיאות
    • יש להשוות בין הטקסט המקורי לטקסט שזוהה
    • סימון השגיאות יתבצע באופן הבא:
      • צבע אדום - החלפת תו בתו שגוי
      • צבע צהוב - השמטת תווים
      • צבע ירוק - הוספת תווים מיותרים
    • יש לכלול טבלת סיכום של סוגי השגיאות והתפלגותן

דרישות ההגשה (יש להגיש בקישור הבא)

  • קובץ PDF של הטקסט המקורי הסרוק
  • קובץ טקסט של פלט ה-OCR
  • מסמך Word הכולל:
    • ניתוח השגיאות עם הסימונים המבוקשים
    • טבלת סיכום השגיאות
    • הסבר קצר (עד 500 מילה) על האתגרים המרכזיים שזוהו בתהליך

הערות חשובות

  • יש להקפיד על שמירת העותק המקורי של הטקסט הסרוק
  • מומלץ לבצע גיבוי של כל הקבצים
  • ניתן להתייעץ עם צוות המעבדה בנוגע לבעיות טכניות בהפעלת התוכנות

קריטריונים להערכה

  • דיוק בזיהוי וסימון השגיאות (10%)
  • איכות הניתוח וההסברים (80%)
  • הגשה מסודרת ועמידה בלוח הזמנים (10%)