सामग्री पर जाएँ

ओसीआर

चित्र:OCR-block-diagram.jpg
छपी हुई सामग्री को टेक्स्ट में बदलने की पूरी प्रक्रिया का ब्लॉक-आरेख

हस्तलिखित, टाइप किए हुए या प्रिन्ट किए हुए पाठ्यांश (टेक्स्ट) की छवि का कम्प्यूटर द्वारा पढ़े जाने योग्य पाठ्यांश रूप में परिवर्तन प्रकाशिक सम्प्रतीक अभिज्ञान (प्रकाश द्वारा सम्प्रतीकों की पहचान/Optical Character Recognition/ओसीआर) कहलाती है। आजकल यह छवि-प्रसंस्करण पर आधारित कम्प्यूटर क्रमादेशों / प्रोग्रामों द्वारा आसानी से सम्भव हो गया है किन्तु इसे यांत्रिक तरीकों से भी करना सम्भव है।

वस्तुत: यह प्रतिरूप की पहचान, कृत्रिम बुद्धि और मशीनी-दृष्टि (machine vision) के क्षेत्र में अनुसंधान का एक क्षेत्र है। पहले ओसीआर क्रमादेशों / प्रोग्रामों को प्रशिक्षित करना पड़ता था किन्तु अब बहुत से 'बुद्धिमान' प्रोग्राम भी बना दिए गए हैं जो अधिकांश फांटों को बहुत अधिक शुद्धता के साथ पहचान लेते हैं।

उपयोग

ओसीआर का मुख्य उपयोग प्रिन्ट की गई पुस्तकों के पृष्ठों के क्रमवीक्षण छवियों को लेकर उससे 'पाठ्यांश' में बदलना है। पाठ्यांश में बदलने से कई लाभ हैं—

  • पाठ्यांश संचिका (फाइल) का आकार प्रतिबिंब संचिका से बहुत कम होता है।
  • पाठ्यांश में खोजना एवं अन्य प्रसंस्करण बहुत आसान हैं, जैसे उसका अनुवाद करना, उस पाठ्यांश की लिपि बदलना, उस पाठ्यांश को ध्वनि में बदलना, तथा उस पाठ्यांश से अन्य सूचनाएँ निकाल पाना आदि।
  • गाड़ियों के नम्बर प्लेट की स्वचालित पहचान
  • प्रिन्ट रूप में मौजूद इलेक्ट्रॉनिक दस्तावेजों की छवियों को खोजने लायक बनाना (जैसे गूगल पुस्तकें)

प्रमुख ओसीआर प्रोग्राम

निःशुल्क ओसीआर

गूगल ओसीआर, GOCR, SimpleOCR, TopOCR, FreeOCR आदि।

देवनागरी ओसीआर

इन्हें भी देखें

बाहरी कड़ियाँ