List of 25 Key Terms in OCR & IDP

  1. OCR (Optical Character Recognition)
  2. HCR (Handwritten Character Recognition)
  3. ICR (Intelligent Character Recognition)
  4. OMR (Optical Mark Recognition)
  5. Computer Vision
  6. Dots per Inch (DPI)
  7. Deskew / Skew Correction
  8. Character Error Rate (CER)
  9. Word Error Rate (WER)
  10. Confidence Score
  11. Confidence Threshold
  12. Parsing
  13. Fuzzy Matching
  14. Tokens
  15. Lemmatization
  16. Word Embedding
  17. IDP (Intelligent Document Processing)
  18. Human in the Loop
  19. Straight Through Processing (STP)
  20. RPA (Robotic Process Automation)
  21. ML (Machine Learning)
  22. DL (Deep Learning)
  23. NLP (Natural Language Processing)
  24. NER (Named Entity Recognition)
  25. LLM (Large Language Model)

OCR & IDP-Glossar: 25 zentrale Begriffe, die Sie kennen sollten

Letzte Aktualisierung:

January 10, 2026

5 Minuten

Die Welt der OCR (Optical Character Recognition) und IDP (Intelligent Document Processing) verändert sich rasant. Für viele mag dieses technische Vokabular komplex erscheinen, obwohl es das Herzstück der modernen Dokumentenautomatisierung ist. Dieses Glossar enthält 25 wichtige Definitionen, die von den Grundlagen der OCR bis hin zu fortgeschrittenen Bausteinen der künstlichen Intelligenz reichen, um Ihnen zu helfen, sich in der Welt des intelligenten Dokumentenmanagements besser zurechtzufinden.

OCR & IDP Glossar: 25 Schlüsselbegriffe zur Dokumentenautomatisierung einfach erklärt.

Glossargrafik – 25 Begriffe zu OCR und IDP mit Symbolen für Dokumenten-Automatisierung.

Grundlagen der OCR und ihre Varianten

1 - OCR (Optical Character Recognition)

OCR ist die Technologie, die es ermöglicht, Text aus einem Bild oder PDF in nutzbare digitale Daten umzuwandeln.

Zum Beispiel kann sie automatisch die Rechnungsnummer oder das Ablaufdatum eines Ausweises erkennen. OCR ist das Fundament der Dokumentenautomatisierung, da sie Informationen für Computer „lesbar“ macht.

2 - HWR (Handwritten Character Recognition)

Die Handschrifterkennung ist eine Technologie, die auf die Erkennung von einzelnen handgeschriebenen Zeichen spezialisiert ist. Sie findet sich zum Beispiel in Verwaltungs- oder Bankformularen, bei denen Sie Buchstaben in Kästchen schreiben müssen. Diese Methode ist in streng strukturierten Umgebungen zuverlässig, aber begrenzt, wenn es um Schreibschrift oder ganze Sätze geht.

3 - ICR (Intelligent Character Recognition)

Die ICR ist eine weiterentwickelte Form der HWR. Sie verwendet maschinelles Lernen, um komplexere Handschriften zu erkennen – sowohl Druck- als auch Schreibschrift. Im Gegensatz zur HWR kann sie durch menschliche Korrekturen dazulernen und sich verbessern. Sie wird beispielsweise verwendet, um handschriftliche Notizen, Rezepte oder Rechnungsvermerke zu lesen.

4 - OMR (Optical Mark Recognition)

OMR ist eine Technologie, die visuelle Markierungen auf einem Dokument erkennt, wie z. B. angekreuzte Kästchen oder ausgefüllte Kreise. Sie wird in Multiple-Choice-Tests, Papierumfragen oder Anwesenheitslisten eingesetzt.

5 - Computer Vision

Computer Vision ist ein Bereich der künstlichen Intelligenz, der Maschinen das Verstehen und Analysieren von Bildern und Videos ermöglicht. Sie ist die Grundlage vieler OCR-Anwendungen, da sie hilft, die Struktur eines Dokuments zu erkennen, Textbereiche zu identifizieren oder Text, Tabellen und Bilder voneinander zu unterscheiden.

6 - Punkte pro Zoll (DPI)

DPI (dots per inch) misst die Auflösung eines gescannten Bildes. Je höher der Wert, desto mehr Details enthält das Bild – und desto genauer arbeitet die OCR.

In der Praxis wird für Rechnungen oder Ausweisdokumente oft ein Scan mit 300 DPI empfohlen, um zuverlässige Ergebnisse zu erzielen.

7 - Schräglagenkorrektur (Deskew)

Wenn ein Dokument schief eingescannt wird, verlaufen die Textzeilen schräg, was die Erkennung erschwert. Die Schräglagenkorrektur richtet das Dokument automatisch aus, damit die OCR auf einer geraden Basis arbeiten kann. Dieser Vorverarbeitungsschritt ist entscheidend, um Lesefehler zu vermeiden.

8 - Zeichenfehlerquote (CER)

Die CER misst den Anteil der Erkennungsfehler auf Zeichenebene. Wenn eine OCR beispielsweise regelmäßig das große „O“ mit der Zahl „0“ verwechselt, steigt die CER. Je niedriger dieser Wert, desto besser die Leistung des Systems.

9 - Wortfehlerquote (WER)

Die WER funktioniert ähnlich wie die CER, jedoch auf Wortebene. Sie wird oft verwendet, um die Qualität der Transkription eines Dokuments oder einer Audiodatei zu bewerten. In professionellen Anwendungen ist eine niedrige WER entscheidend für zuverlässige Ergebnisse.

10 - Vertrauensscore

Der Vertrauensscore ist eine Bewertung, die eine OCR-Engine vergibt, um die Zuverlässigkeit der Erkennung eines Zeichens, Wortes oder Feldes einzuschätzen. Wenn z. B. ein Feld „Gesamtbetrag inkl. MwSt.“ mit 98 % Vertrauen extrahiert wird, ist das Ergebnis sehr wahrscheinlich korrekt.

11 - Vertrauenstoleranz (Threshold)

Der Vertrauenstoleranzwert ist der Mindestwert, ab dem erkannte Daten als akzeptabel gelten. Liegt der Wert darunter, kann eine manuelle Überprüfung erforderlich sein. Dies ermöglicht eine Kombination aus Automatisierung und Qualitätskontrolle.

12 - Parsing

Das Parsing ist der Prozess der Textanalyse, um ihn zu strukturieren und nutzbare Elemente zu extrahieren. Im OCR-Kontext bedeutet das beispielsweise, einen Betrag auf einer Rechnung oder ein Datum in einem Vertrag zu erkennen – selbst bei variierenden Dokumentformaten.

13 - Fuzzy Matching

Das Fuzzy Matching ermöglicht den Vergleich zweier Zeichenketten, auch wenn sie nicht exakt übereinstimmen. Beispielsweise werden „Société Générale“ und „Societe Generale“ trotz fehlender Akzente als identisch erkannt. Diese Technik wird häufig in der Bankenabstimmung oder KYC-Prozessen eingesetzt.

14 - Tokens

Tokens sind die Grundeinheiten eines Textes, die durch Aufteilung in Wörter, Teilwörter oder Zeichen entstehen. Die Tokenisierung ist ein vorbereitender Schritt für NLP, um Sprache strukturierter zu verarbeiten.

15 - Lemmatisierung

Die Lemmatisierung bringt ein Wort auf seine Grundform (Lemma) zurück. Zum Beispiel werden „lief“ und „wird laufen“ zu „laufen“. Dadurch kann ein KI-System den allgemeinen Sinn eines Textes besser verstehen, unabhängig von grammatikalischen Varianten.

16 - Wort-Einbettung

Wort-Einbettung (Word Embedding) ist eine Technik, bei der Wörter in numerische Vektoren umgewandelt werden. Diese Darstellungen ermöglichen es Maschinen, Beziehungen zwischen Wörtern zu verstehen – etwa die Nähe zwischen „Rechnung“ und „Zahlung“. Embeddings werden in modernen NLP-Modellen verwendet, um das Kontextverständnis zu verbessern.

17 - IDP (Intelligent Document Processing)

Das IDP kombiniert OCR, KI und NLP, um Daten aus komplexen Dokumenten zu extrahieren, zu klassifizieren und zu validieren. Im Gegensatz zur reinen OCR integriert IDP Geschäftslogik (z. B. die Überprüfung einer gültigen Mehrwertsteuernummer) und ermöglicht die automatische Verarbeitung großer Dokumentenmengen.

18 - Human in the Loop

Der Human-in-the-Loop-Ansatz integriert menschliche Überprüfung in automatisierte Prozesse, um Daten zu korrigieren oder zu bestätigen. Er ist besonders nützlich bei schlechter Qualität oder untypischen Dokumenten.

19 - Straight Through Processing (STP)

STP bezeichnet eine vollständig automatisierte Verarbeitung ohne menschliches Eingreifen. Diese Methode wird insbesondere in Finanzprozessen angestrebt, z. B. bei der automatischen Validierung korrekt formatierter Lieferantenrechnungen.

20 - RPA (Robotic Process Automation)

Die RPA automatisiert wiederkehrende Aufgaben mithilfe von Software-Robotern. In Kombination mit OCR und IDP können ganze Workflows automatisiert werden: Rechnungseingang, Datenerfassung, ERP-Eintragung und automatische Archivierung.

21 - ML (Machine Learning)

Maschinelles Lernen ist ein Teilbereich der KI, der es Systemen ermöglicht, aus Daten zu lernen und ihre Leistung im Laufe der Zeit zu verbessern. Im OCR-Bereich wird es verwendet, um die Zeichenerkennung zu optimieren oder neue Dokumentformate zu erlernen.

22 - DL (Deep Learning)

Deep Learning ist eine Unterkategorie des maschinellen Lernens, die auf tiefen neuronalen Netzen basiert. Es ist besonders effektiv für komplexe Aufgaben wie Bilderkennung, Handschriftlesen oder kontextuelles Textverständnis.

23 - NLP (Natural Language Processing)

NLP umfasst Techniken, die Maschinen das Verstehen und Analysieren menschlicher Sprache ermöglichen. In Kombination mit OCR hilft es, aus unstrukturierten Dokumenten wie Verträgen oder E-Mails Bedeutung zu extrahieren.

24 - NER (Named Entity Recognition)

Die Erkennung benannter Entitäten ist eine NLP-Technik, die spezifische Elemente in einem Text identifiziert – z. B. Namen, Daten, Beträge oder Kontonummern. Sie ist ein Schlüsselelement bei der Automatisierung von KYC-Prüfungen und der Einhaltung von Vorschriften.

25 - LLM (Large Language Model)

Die LLMs sind KI-Modelle, die auf riesigen Textmengen trainiert wurden. Sie können natürliche Sprache verstehen, zusammenfassen oder erzeugen. Im Rahmen von IDP fügen sie eine zusätzliche Intelligenzschicht hinzu, indem sie z. B. Extraktionen kontextualisieren oder Dokumentenkonsistenz prüfen.

Wechseln Sie zur Dokumentenautomatisierung

Automatisieren Sie mit Koncile Ihre Extraktionen, reduzieren Sie Fehler und optimieren Sie Ihre Produktivität dank KI OCR mit wenigen Klicks.

Author and Co-Founder at Koncile
Jules Ratier

Mitbegründer von Koncile - Verwandeln Sie jedes Dokument mit LLM in strukturierte Daten - jules@koncile.ai

Jules leitet die Produktentwicklung bei Koncile und konzentriert sich darauf, wie unstrukturierte Dokumente in Geschäftswert umgewandelt werden können.

Ressourcen von Koncile