Liste des 25 termes du glossaire OCR & IDP

OCR (Optical Character Recognition)
HCR (Handwritten Character Recognition)
ICR (Intelligent Character Recognition)
OMR (Optical Mark Recognition)
Computer Vision
Dots per Inch (DPI)
Deskew / Skew correction
Character Error Rate (CER)
Word Error Rate (WER)
Confidence score
Confidence threshold
Parsing
Fuzzy matching
Tokens
Lemmatization
Word embedding
IDP (Intelligent Document Processing)
Human in the loop
Straight Through Processing (STP)
RPA (Robotic Process Automation)
ML (Machine Learning)
DL (Deep Learning)
NLP (Natural Language Processing)
NER (Named Entity Recognition)
LLM (Large Language Model)

Le monde de l’OCR (Optical Character Recognition) et de l’IDP (Intelligent Document Processing) évolue rapidement. Pour beaucoup, ce vocabulaire technique peut sembler complexe, alors qu’il est au cœur de l’automatisation documentaire moderne. Ce glossaire présente 25 définitions clés, allant des bases de l’OCR aux briques avancées d’intelligence artificielle, pour vous aider à mieux naviguer dans l’univers de la gestion documentaire intelligente.

Comprenez l’essentiel de l’OCR et de l’automatisation documentaire : définitions claires, comparatifs et bonnes pratiques. De quoi accélérer vos workflows et fiabiliser vos processus dès aujourd’hui.

Les bases de l’OCR et ses variantes

1 - OCR (Optical Character Recognition)

L’OCR est la technologie qui permet de convertir du texte présent dans une image ou un PDF en données numériques exploitables.

Par exemple, il peut extraire automatiquement le numéro d’une facture ou la date d’expiration d’une carte d’identité. L’OCR est la brique fondamentale de l’automatisation documentaire, car il rend les informations "lisibles" par un ordinateur.

À noter : la précision de l’OCR dépend fortement de la qualité du document scanné (résolution, contraste, absence de bruit).

2 - HCR (Handwritten Character Recognition)

Le HCR est une technologie dédiée à la reconnaissance de caractères manuscrits isolés. On la retrouve par exemple dans les formulaires administratifs ou bancaires où l’on demande d’écrire en majuscules, lettre par lettre, dans des cases. C’est une approche fiable dans les environnements très structurés, mais elle reste limitée dès qu’il s’agit d’écritures cursives ou de phrases entières.

2 - ICR (Intelligent Character Recognition)

L’ICR est une évolution plus avancée du HCR. Il s’appuie sur des algorithmes de machine learning pour reconnaître des écritures plus complexes, qu’elles soient cursives ou manuscrites libres. Contrairement au HCR, il peut apprendre et s’améliorer grâce aux corrections humaines. On l’utilise par exemple pour lire des notes manuscrites, des ordonnances médicales ou des annotations sur des factures.

4- OMR (Optical Mark Recognition)

L’OMR est une technologie qui détecte la présence de marques visuelles sur un document, comme des cases cochées ou des ronds remplis. C’est elle qui est utilisée dans les questionnaires à choix multiples, les sondages papier ou encore certaines feuilles de présence.

Qualité d’image et précision

5- Computer Vision

La vision par ordinateur est un domaine de l’intelligence artificielle qui permet aux machines de comprendre et d’analyser des images et des vidéos. Elle est à la base de nombreuses applications de l’OCR, puisqu’elle permet d’identifier la structure d’un document, de repérer des zones de texte ou encore de différencier texte, tableaux et images.

6- Dots per Inch (DPI)

Le DPI (points par pouce) mesure la résolution d’une image scannée. Plus la valeur est élevée, plus l’image contient de détails, ce qui améliore la précision de l’OCR.

En pratique, un scan à 300 DPI est souvent recommandé pour les factures ou documents d’identité afin d’obtenir des extractions fiables.

À noter : au-delà de 600 DPI, la qualité d’extraction n’augmente plus vraiment, mais la taille des fichiers devient beaucoup plus lourde.

7- Deskew / Skew correction

Lorsqu’un document est scanné de travers, les lignes de texte sont inclinées, ce qui réduit la qualité de l’extraction. Le deskew consiste à redresser automatiquement le document pour que l’OCR puisse travailler sur une base alignée. Cette étape de prétraitement est essentielle pour éviter des erreurs de lecture.

À noter : cette étape est invisible pour l’utilisateur final, mais elle impacte fortement le taux de reconnaissance.

8- Character Error Rate (CER)

Le CER est un indicateur qui mesure le taux d’erreurs de reconnaissance au niveau des caractères. Par exemple, si un OCR confond régulièrement le "O" majuscule avec le chiffre "0", cela augmente le CER. Plus cet indicateur est bas, meilleure est la performance du système.

9 -Word Error Rate (WER)

Le WER fonctionne comme le CER, mais au niveau des mots entiers. Il est souvent utilisé pour évaluer la qualité de la transcription d’un document ou d’un fichier audio. Dans un usage professionnel, un faible WER est indispensable pour garantir des extractions fiables et exploitables.

10 - Confidence score

Le score de confiance est une note attribuée par un moteur OCR pour estimer la fiabilité de la reconnaissance d’un caractère, d’un mot ou d’un champ. Par exemple, si un champ "Montant TTC" est extrait avec 98 % de confiance, il est très probablement correct.

À noter : un bon paramétrage du score permet de réduire le volume de vérifications manuelles.

11- Confidence threshold

Le seuil de confiance est la valeur minimale à partir de laquelle une donnée extraite est considérée comme acceptable. En dessous de ce seuil, le système peut demander une vérification manuelle. Cela permet de combiner automatisation et contrôle qualité.

À noter : si le seuil est trop bas, on laisse passer des erreurs ; s’il est trop haut, on multiplie les validations manuelles.

Traitement linguistique et sémantique

12 - Parsing

Le parsing est le processus d’analyse d’un texte afin de le structurer et d’en extraire des éléments exploitables. Dans le contexte de l’OCR, il peut s’agir de repérer un montant dans une facture ou une date dans un contrat, même si le format du document varie.

À noter : sans parsing, l’OCR ne produit qu’un “copié-collé” de texte, difficilement exploitable.

13 - Fuzzy matching

Le fuzzy matching permet de comparer deux chaînes de caractères même si elles ne correspondent pas exactement. Par exemple, "Société Générale" et "Societe Generale" seront reconnues comme identiques malgré les différences d’accent ou de casse. Cette approche est très utilisée pour le rapprochement de données bancaires ou KYC.

À noter : le fuzzy matching ne garantit pas toujours une correspondance parfaite : il existe un risque de “faux positifs” si le seuil de similarité est mal paramétré.

14- Tokens

Les tokens sont les unités de base d’un texte, obtenues après découpage en mots, sous-mots ou caractères. Le tokenization est une étape préalable au NLP, qui permet de traiter le langage sous une forme plus structurée.

15- Lemmatization

La lemmatisation consiste à ramener un mot à sa forme de base (le lemme). Par exemple, "couraient" et "couriront" deviennent "courir". Cela permet aux systèmes d’IA de mieux comprendre le sens général d’un texte sans être perturbés par les variations grammaticales.

À noter : elle se distingue du “stemming” qui coupe simplement les suffixes, avec parfois des résultats moins précis.

16- Word embedding

Le word embedding est une technique qui transforme les mots en vecteurs numériques. Ces représentations permettent aux machines de comprendre les relations entre les mots, comme la proximité entre "facture" et "paiement". Les embeddings sont utilisés dans les modèles modernes de NLP pour améliorer la compréhension contextuelle.

À noter : cette technique est à la base des modèles modernes comme Word2Vec, GloVe ou BERT.

Automatisation intelligente des documents

17- IDP (Intelligent Document Processing)

L’IDP est une solution qui combine OCR, IA et NLP pour extraire, classer et valider les données issues de documents complexes. Contrairement à l’OCR seul, il intègre une logique métier (par exemple : vérifier qu’une facture contient un numéro de TVA valide) et permet de traiter automatiquement des volumes importants de documents.

18 - Human in the loop

L'approche Human in the loop consiste à inclure une intervention humaine dans un processus automatisé pour corriger ou valider certaines données. Elle est particulièrement utile lorsque l’OCR rencontre des documents de mauvaise qualité ou atypiques.

19 - Straight Through Processing (STP)

Le STP désigne un traitement automatisé complet, sans aucune intervention humaine. Il est très recherché dans les processus financiers (par exemple, validation automatique d’une facture fournisseur correctement formatée).

À noter : atteindre un STP à 100 % est rare ; la plupart des organisations combinent STP et vérifications manuelles.

20 - RPA (Robotic Process Automation)

La RPA permet d’automatiser des tâches répétitives en utilisant des robots logiciels. Combinée à l’OCR et à l’IDP, elle peut automatiser des workflows entiers : réception de factures, extraction, saisie dans l’ERP, puis archivage automatique.

IA et traitement du langage naturel

21 - ML (Machine Learning)

Le machine learning est une branche de l’IA qui permet à un système d’apprendre à partir de données et d’améliorer ses performances au fil du temps. Dans l’OCR, il est utilisé pour améliorer la reconnaissance de caractères ou pour adapter l’extraction à de nouveaux formats documentaires.

22 - DL (Deep Learning)

Le deep learning est un sous-ensemble du machine learning basé sur des réseaux de neurones profonds. Il est particulièrement performant pour des tâches complexes comme la reconnaissance d’images, la lecture de textes manuscrits ou la compréhension contextuelle des documents.

Pour mieux comprendre les différences entre ces deux approches, consultez notre article sur le Machine Learning vs Deep Learning

23 - NLP (Natural Language Processing)

Le NLP regroupe les techniques qui permettent aux machines de comprendre et d’analyser le langage humain. Associé à l’OCR, il rend possible l’extraction de sens dans des documents non structurés comme des contrats ou des e-mails.

24- NER (Named Entity Recognition)

La reconnaissance d’entités nommées est une technique du NLP qui identifie des éléments précis dans un texte : noms de personnes, dates, montants, numéros de compte, etc. C’est une fonctionnalité clé pour automatiser la vérification KYC et la conformité réglementaire.

25- LLM (Large Language Model)

Les LLM sont des modèles d’IA entraînés sur d’immenses volumes de textes.

Ils sont capables de comprendre, résumer ou générer du langage naturel. Dans l’IDP, ils apportent une couche supplémentaire d’intelligence, en permettant par exemple de contextualiser une extraction ou de vérifier la cohérence d’un document.

À noter : les LLM sont puissants mais peuvent “halluciner” des réponses ; un contrôle est donc indispensable en contexte professionnel.