Définition de l'OCR

La Reconnaissance optique de caractères (ROC), en anglais Optical Character Recognition (OCR), ou océrisation, désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte.

Un ordinateur réclame pour l'exécution de cette tâche un logiciel d'OCR. Celui-ci permet de récupérer le texte dans l'image d'un texte imprimé et de le sauvegarder dans un fichier pouvant être exploité dans un traitement de texte pour enrichissement, et stocké dans une base de données ou sur un autre support exploitable par un système informatique.

Source : Wikipédia

Un exemple

Exemple de la récupération du texte d'une page de manuel scolaire d'histoire.

Cette page extraite d'un manuel scolaire a été préalablement numérisée au format PDF. Le texte lui a été intégré à un traitement de texte pour pouvoir le formater par la suite.