Définition de l'OCR
La Reconnaissance optique de caractères (ROC), en anglais Optical Character Recognition (OCR), ou océrisation, désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte.
Un ordinateur réclame pour l'exécution de cette tâche un logiciel d'OCR. Celui-ci permet de récupérer le texte dans l'image d'un texte imprimé et de le sauvegarder dans un fichier pouvant être exploité dans un traitement de texte pour enrichissement, et stocké dans une base de données ou sur un autre support exploitable par un système informatique.
Source : Wikipédia
Un exemple
Exemple de la récupération du texte d'une page de manuel scolaire d'histoire.
Cette page extraite d'un manuel scolaire a été préalablement numérisée au format PDF. Le texte lui a été intégré à un traitement de texte pour pouvoir le formater par la suite.
PDF-image & PDF-TXT, quelle différence ?⚓
Quelle différence entre un PDF-image et PDF-TXT
Visuellement, il n'y a aucune différence. La différence apparaît lorsque l'on souhaite récupérer le texte d'un document PDF ou le faire lire par une synthèse vocale. ceci n'est possible qu'avec un PDF dit « texte ».
Comment reconnaître un PDF « texte » ?
Contrairement à un PDF « image », il est possible de sélectionner le texte sur un PDF « texte ».
Des solutions d'OCR⚓
LE logiciel PDF-Xchange⚓
PDF-Xchange
PDF-Xchange est un outil PC qui permet, en plus d'annoter un PDF, de l'OCRiser pour rendre accessible le texte du document.
Démonstration de l'OCR de PDF-Xchange
Le logiciel d'OCR gImageReader⚓
gImageReader
gImageReader
Les fonctionnalités comprennent :
- importer des documents et des images PDF à partir du disque, des appareils de numérisation, du presse-papiers et des captures d'écran ;
- traiter plusieurs images et documents en une seule fois ;
- définition de la zone de reconnaissance manuelle ou automatique ;
- reconnaître en texte brut ou en documents hOCR ;
- texte reconnu affiché directement à côté de l'image ;
- post-traiter le texte reconnu, y compris la vérification orthographique ;
- générer des documents PDF à partir de documents hOCR ;
- reconnaissance automatique des langues.
Pour accéder et télécharger gImageReader
FreeOCR⚓
La souris scan⚓
La souris scan d'IRIScan
La société IRIS développe des outils numériques permettant de scanner et d'OCRiser un document papier pour obtenir un texte numérique disponible dans un traitement de texte.
Ces outils peuvent également convertir une image papier en image numérique.
La souris scan
Vous pouvez visionner une démonstration ici
La souris scan peut être utilisée comme une souris ordinaire de PC et possède en plus un bouton latéral gauche qui permet de déclencher le scan d'un document papier. Ce scan s'effectue en balayant le document avec la souris.
(Il existe des versions de souris sans fil)
Il existe également une « barre scan » pour scanner une page.
Ces solutions « souris scan » ou « barre scan » sont vendues avec le logiciel d'OCR.
Pour en savoir plus