מהי טכנולוגיית ה-OCR?
כשאנו צריכים להזין כמות גדולה של נתונים אל המחשב, אנו נאלצים לא פעם להקליד את הכל בצורה ידנית. זו אחת העבודות השחורות ביותר ובעידן המחשבים המשוכללים, במאה ה-21, סביר שיהיה משהו שחוסך את הטרחה הזו. האם יש? - בוודאי!
OCR היא טכנולוגיה של זיהוי אופטי של אותיות ומספרים, שנסרקו על ידי סורק, מתמונה, מדף טקסט מודפס או מכתב יד, לקובץ או מסמך דיגיטלי, ממוחשב, שניתן להמשיך ולערוך אותו במחשב. באמצעות תוכנת OCR אנו יכולים לסרוק, או לצלם, כל מסמך שיש בו טקסטים והתוכנה ממירה אותם לטקסט שניתן לחפש בו במחשב, לערוך ולתקן אותו וכדומה.
המושג הוא בעצם ראשי תיבות של "Optical Character Recognition" או בעברית: זיהוי תווים אופטי.
הניסיונות המוקדמים ביותר ללמד את המחשב לקרוא, נעשו כבר בשנות ה-50 של המאה הקודמת. היה אז צורך לסייע למחשב "לקרוא" נכון את האותיות השונות. לשם כך השתמשו בשיטה של השוואת דוגמאות. הרעיון בשיטה זו, היה ללמד את המחשב את הצורות השונות של האותיות ומרגע שהיו בו צורות שונות של כל אות, המחשב עשה השוואה של האות שסרק מהתמונה, לכל הדוגמאות שנשמרו בו, של האותיות השונות. כשנמצאה האות הדומה ביותר - היא זוהתה. המחשב עבר לאות הבאה וחוזר חלילה. אבל השיטה הזו אינה טובה מספיק לגדלים שונים של כל אות ואינה מבחינה בין האות לבין לכלוך או כתם על הנייר הסרוק. לכן פיתחו גם שיטה לניתוח טופולוגי, שבה המחשב "למד" כיצד בנויה האות והמחשב מצא כל אות שסרק במאגר המידע של טופולוגיית האותיות. אבל גם שיטה זו התקשתה לעמוד בכמויות הפונטים שבהם מודפסים הטקסטים. לכן, השיטות המתקדמות של ימינו משלבות גם אינטליגנציה מלאכותית, תוכנה לומדת, רשתות נוירונים, הגיון מטושטש ושיטות שונות שנוספו במהלך השנים ומשפרות את תפקוד התוכנות הללו מאד. למעשה מלמדים את התוכנה לאגור בעצמה צורות חדשות של האותיות כל הזמן והיא מתנהגת כמו הזיכרון האנושי, שלנו. פלא שהיא מצליחה לקרוא ולזהות את הטקסט?
כשאנו צריכים להזין כמות גדולה של נתונים אל המחשב, אנו נאלצים לא פעם להקליד את הכל בצורה ידנית. זו אחת העבודות השחורות ביותר ובעידן המחשבים המשוכללים, במאה ה-21, סביר שיהיה משהו שחוסך את הטרחה הזו. האם יש? - בוודאי!
OCR היא טכנולוגיה של זיהוי אופטי של אותיות ומספרים, שנסרקו על ידי סורק, מתמונה, מדף טקסט מודפס או מכתב יד, לקובץ או מסמך דיגיטלי, ממוחשב, שניתן להמשיך ולערוך אותו במחשב. באמצעות תוכנת OCR אנו יכולים לסרוק, או לצלם, כל מסמך שיש בו טקסטים והתוכנה ממירה אותם לטקסט שניתן לחפש בו במחשב, לערוך ולתקן אותו וכדומה.
המושג הוא בעצם ראשי תיבות של "Optical Character Recognition" או בעברית: זיהוי תווים אופטי.
הניסיונות המוקדמים ביותר ללמד את המחשב לקרוא, נעשו כבר בשנות ה-50 של המאה הקודמת. היה אז צורך לסייע למחשב "לקרוא" נכון את האותיות השונות. לשם כך השתמשו בשיטה של השוואת דוגמאות. הרעיון בשיטה זו, היה ללמד את המחשב את הצורות השונות של האותיות ומרגע שהיו בו צורות שונות של כל אות, המחשב עשה השוואה של האות שסרק מהתמונה, לכל הדוגמאות שנשמרו בו, של האותיות השונות. כשנמצאה האות הדומה ביותר - היא זוהתה. המחשב עבר לאות הבאה וחוזר חלילה. אבל השיטה הזו אינה טובה מספיק לגדלים שונים של כל אות ואינה מבחינה בין האות לבין לכלוך או כתם על הנייר הסרוק. לכן פיתחו גם שיטה לניתוח טופולוגי, שבה המחשב "למד" כיצד בנויה האות והמחשב מצא כל אות שסרק במאגר המידע של טופולוגיית האותיות. אבל גם שיטה זו התקשתה לעמוד בכמויות הפונטים שבהם מודפסים הטקסטים. לכן, השיטות המתקדמות של ימינו משלבות גם אינטליגנציה מלאכותית, תוכנה לומדת, רשתות נוירונים, הגיון מטושטש ושיטות שונות שנוספו במהלך השנים ומשפרות את תפקוד התוכנות הללו מאד. למעשה מלמדים את התוכנה לאגור בעצמה צורות חדשות של האותיות כל הזמן והיא מתנהגת כמו הזיכרון האנושי, שלנו. פלא שהיא מצליחה לקרוא ולזהות את הטקסט?