OCR ou reconnaissance optique de caractères

La reconnaissance optique de caractères, ou OCR en anglais pour optical character recognition, ou encore océrisation, est l’opération qui consiste à transformer l’image d’un texte en une série d’informations pouvant être stockées dans des fichiers informatiques. Un logiciel d’OCR traduit une image en un fichier texte : pour chaque caractère correspond une transcription, et le document peut être par ailleurs divisé en zones de texte identifiées facilitant ensuite son traitement.

Les logiciels d’OCR utilisent plusieurs technologies permettant la reconnaissance de textes plus ou moins lisibles ou connus : bases de données, dictionnaires, apprentissage machine ou intelligence artificielle. Les textes manuscrits sont les plus difficiles à interpréter, et le recours à des relecteurs et relectrices est courant dans de larges opérations de numérisation et d’OCR.