שלום,
נראה שכבר הכרתם את אאוריקה. בטח כבר גיליתם כאן דברים מדהימים, אולי כבר שאלתם שאלות וקיבלתם תשובות טובות.
נשמח לראות משהו מכם בספר האורחים שלנו: איזו מילה טובה, חוות דעת, עצה חכמה לשיפור או כל מה שיש לכם לספר לנו על אאוריקה, כפי שאתם חווים אותה.
»
«
זיהוי תווים אופטי
מה זה OCR וטכנולוגיית זיהוי התווים האופטי?
כשאנו צריכים להזין כמות גדולה של נתונים אל המחשב, אנו נאלצים לא פעם להקליד את הכל בצורה ידנית. זו אחת העבודות השחורות ביותר ובעידן המחשבים המשוכללים, במאה ה-21, סביר שיהיה משהו שחוסך את הטרחה הזו. האם יש? - בוודאי!
OCR היא טכנולוגיה של זיהוי אופטי של אותיות ומספרים, שנסרקו על ידי סורק, מתמונה, מדף טקסט מודפס או מכתב יד, לקובץ או מסמך דיגיטלי, ממוחשב, שניתן להמשיך ולערוך אותו במחשב. באמצעות תוכנת OCR אנו יכולים לסרוק, או לצלם, כל מסמך שיש בו טקסטים והתוכנה ממירה אותם לטקסט שניתן לחפש בו במחשב, לערוך ולתקן אותו וכדומה.
המושג הוא בעצם ראשי תיבות של "Optical Character Recognition" או בעברית: זיהוי תווים אופטי.
הניסיונות המוקדמים ביותר ללמד את המחשב לקרוא, נעשו כבר בשנות ה-50 של המאה הקודמת. היה אז צורך לסייע למחשב "לקרוא" נכון את האותיות השונות. לשם כך השתמשו בשיטה של השוואת דוגמאות. הרעיון בשיטה זו, היה ללמד את המחשב את הצורות השונות של האותיות ומרגע שהיו בו צורות שונות של כל אות, המחשב עשה השוואה של האות שסרק מהתמונה, לכל הדוגמאות שנשמרו בו, של האותיות השונות. כשנמצאה האות הדומה ביותר - היא זוהתה. המחשב עבר לאות הבאה וחוזר חלילה. אבל השיטה הזו אינה טובה מספיק לגדלים שונים של כל אות ואינה מבחינה בין האות לבין לכלוך או כתם על הנייר הסרוק. לכן פיתחו גם שיטה לניתוח טופולוגי, שבה המחשב "למד" כיצד בנויה האות והמחשב מצא כל אות שסרק במאגר המידע של טופולוגיית האותיות. אבל גם שיטה זו התקשתה לעמוד בכמויות הפונטים שבהם מודפסים הטקסטים. לכן, השיטות המתקדמות של ימינו משלבות גם אינטליגנציה מלאכותית, תוכנה לומדת, רשתות נוירונים, הגיון מטושטש ושיטות שונות שנוספו במהלך השנים ומשפרות את תפקוד התוכנות הללו מאד. למעשה מלמדים את התוכנה לאגור בעצמה צורות חדשות של האותיות כל הזמן והיא מתנהגת כמו הזיכרון האנושי, שלנו. פלא שהיא מצליחה לקרוא ולזהות את הטקסט?
הנה OCR:
https://youtu.be/jO-1rztr4O0
קטע מתכנית מחשבים בעברית, שבה מסבירים לקיציס מה זה OCR:
https://youtu.be/j87b_fOo8EE?t=5m28s&end=11m13s
כיום יש OCR מובנה במכונות צילום משוכללות שונות:
https://youtu.be/Gq8usubMZgE?t=22s
ואפילו באפליקציה של גוגל תרגום, שמתרגמת שלטים משפה לשפה מיד:
https://youtu.be/Ro-HfETpzhc
כשאנו צריכים להזין כמות גדולה של נתונים אל המחשב, אנו נאלצים לא פעם להקליד את הכל בצורה ידנית. זו אחת העבודות השחורות ביותר ובעידן המחשבים המשוכללים, במאה ה-21, סביר שיהיה משהו שחוסך את הטרחה הזו. האם יש? - בוודאי!
OCR היא טכנולוגיה של זיהוי אופטי של אותיות ומספרים, שנסרקו על ידי סורק, מתמונה, מדף טקסט מודפס או מכתב יד, לקובץ או מסמך דיגיטלי, ממוחשב, שניתן להמשיך ולערוך אותו במחשב. באמצעות תוכנת OCR אנו יכולים לסרוק, או לצלם, כל מסמך שיש בו טקסטים והתוכנה ממירה אותם לטקסט שניתן לחפש בו במחשב, לערוך ולתקן אותו וכדומה.
המושג הוא בעצם ראשי תיבות של "Optical Character Recognition" או בעברית: זיהוי תווים אופטי.
הניסיונות המוקדמים ביותר ללמד את המחשב לקרוא, נעשו כבר בשנות ה-50 של המאה הקודמת. היה אז צורך לסייע למחשב "לקרוא" נכון את האותיות השונות. לשם כך השתמשו בשיטה של השוואת דוגמאות. הרעיון בשיטה זו, היה ללמד את המחשב את הצורות השונות של האותיות ומרגע שהיו בו צורות שונות של כל אות, המחשב עשה השוואה של האות שסרק מהתמונה, לכל הדוגמאות שנשמרו בו, של האותיות השונות. כשנמצאה האות הדומה ביותר - היא זוהתה. המחשב עבר לאות הבאה וחוזר חלילה. אבל השיטה הזו אינה טובה מספיק לגדלים שונים של כל אות ואינה מבחינה בין האות לבין לכלוך או כתם על הנייר הסרוק. לכן פיתחו גם שיטה לניתוח טופולוגי, שבה המחשב "למד" כיצד בנויה האות והמחשב מצא כל אות שסרק במאגר המידע של טופולוגיית האותיות. אבל גם שיטה זו התקשתה לעמוד בכמויות הפונטים שבהם מודפסים הטקסטים. לכן, השיטות המתקדמות של ימינו משלבות גם אינטליגנציה מלאכותית, תוכנה לומדת, רשתות נוירונים, הגיון מטושטש ושיטות שונות שנוספו במהלך השנים ומשפרות את תפקוד התוכנות הללו מאד. למעשה מלמדים את התוכנה לאגור בעצמה צורות חדשות של האותיות כל הזמן והיא מתנהגת כמו הזיכרון האנושי, שלנו. פלא שהיא מצליחה לקרוא ולזהות את הטקסט?
הנה OCR:
https://youtu.be/jO-1rztr4O0
קטע מתכנית מחשבים בעברית, שבה מסבירים לקיציס מה זה OCR:
https://youtu.be/j87b_fOo8EE?t=5m28s&end=11m13s
כיום יש OCR מובנה במכונות צילום משוכללות שונות:
https://youtu.be/Gq8usubMZgE?t=22s
ואפילו באפליקציה של גוגל תרגום, שמתרגמת שלטים משפה לשפה מיד:
https://youtu.be/Ro-HfETpzhc