Doppelte Dokumente erkennen
Warum sollten Dubletten erkannt werden?
Ein Duplikat ist nicht immer eine identische Datei. Es können zwei unterschiedliche Dateien sein, die tatsächlich denselben Inhalt darstellen – zum Beispiel zwei Fotos desselben Dokuments oder ein Scan und ein Foto derselben Papierseite.
Die gleichen Dokumente können mehrfach im Umlauf sein, ohne dass es jemand bemerkt. Das passiert beispielsweise, wenn:
• eine Datei von mehreren Personen gesendet wird
• ein Lieferant dieselbe Rechnung mehrfach verschickt
• ein Nutzer eine neue Version hochlädt, ohne die alte zu löschen
• ein Dokument zweimal gescannt wird
• ein automatisierter Workflow unbeabsichtigte Kopien erzeugt
Diese Dubletten führen zu Fehlern, zusätzlichen Kosten, Datenchaos und Zeitverlust bei manuellen Prüfungen.
Die automatische Dublettenerkennung sorgt für einen sauberen und zuverlässigen Dokumentenfluss.

Wie hilft die automatische Dublettenerkennung?
Die OCR-Software von Koncile analysiert jedes Dokument in dem Moment, in dem es importiert wird. Wenn das Dokument einem bereits verarbeiteten Datei stark ähnelt, wird es als Dublette erkannt.
So können Sie:
• vermeiden, dass dasselbe Dokument mehrfach extrahiert oder verarbeitet wird,
• doppelte Einsendungen eines Lieferanten schnell erkennen,
• Fehler in Ihren finanziellen oder administrativen Prozessen reduzieren,
• eine konsistente Dokumentbasis aufrechterhalten,
• Ihre Teams bei Unregelmäßigkeiten automatisch warnen.
Wie funktioniert die Dublettenerkennung?
Die Erkennung basiert auf mehreren kombinierten Techniken:
- Inhaltsanalyse: Texte, Zahlen, Seitenstruktur, extrahierte Felder
- Layoutanalyse: Anordnung, Blöcke, Bilder, Tabellen
- Ähnlichkeitsbewertung: Berechnung des Ähnlichkeitsgrades zu vorhandenen Dokumenten
- Kontextprüfung: Daten, Lieferanten, Identifikatoren, Schlüsselzonen
- Automatische Warnung: Überschreitet die Ähnlichkeit einen definierten Schwellenwert, erscheint das Dokument in der Dublettenliste
Sie können den Vertrauenswert einsehen, die Warnung ignorieren oder die Dublette bestätigen.
Konkrete Anwendungsbeispiele
Häufige Situationen, in denen die Dublettenerkennung Ihren Alltag erleichtert:
• Ein Lieferant sendet dieselbe Rechnung dreimal am selben Tag
• Die Buchhaltung scannt denselben Lieferschein doppelt
• Ein generisches Postfach erhält mehrfach dieselbe Datei
• Ein Nutzer teilt mehrere Versionen desselben Vertrags
• Ein internes System erzeugt mehrmals denselben PDF-Bericht
• Ein Dokument wird umbenannt, obwohl sich der Inhalt nicht geändert hat
Ein Koncile-Kunde aus der Baubranche entdeckte 2025 über 100.000 € an doppelten Rechnungen und erhielt diesen Betrag vom Lieferanten zurück.
Typ: Automatisierung
Nutzer: Unternehmen
Komplexität: Niedrig
L'outil qui automatise vos documents

Alle Fragen zur Dublettenerkennung
Koncile ist ein Tool zur Dokumentenextraktion und -automatisierung. Es wandelt Rechnungen, Angebote, Berichte, Bestellungen, Ausweise, Rezepte, Verträge und vieles mehr in strukturierte Daten um, die exportiert oder direkt in Ihre Systeme übertragen werden können.
Die Dublettenerkennung ist automatisch aktiv, sobald Sie ein Dokument in Koncile importieren – ganz ohne vorherige Konfiguration. So funktioniert es in der Praxis:
Automatischer Prozess in 3 Schritten:
- Dokumentimport: Sie laden Ihre Datei (PDF, Bild, Scan) über die Weboberfläche, die API oder per E-Mail hoch.
- Sofortige Analyse: Koncile analysiert Inhalt, Struktur und Metadaten in 2–3 Sekunden.
- Warnung bei Duplikaten: Wenn ein ähnliches Dokument bereits existiert, erscheint sofort eine Benachrichtigung.
Wo Sie erkannte Duplikate sehen können:
• In der Spalte „Status“ Ihres Koncile-Dashboards
• Klicken Sie auf das Dokument, um das/die zugehörige(n) Duplikat(e) zu sehen und zu vergleichen
Verfügbare Aktionen:
• Bestätigen: Endgültig als Dublette markieren (das Dokument wird nicht verarbeitet)
• Ignorieren: Bestätigen, dass es sich nicht um ein Duplikat handelt (normale Verarbeitung)
Die Erkennung funktioniert auch dann zuverlässig, wenn Sie Hunderte von Dokumenten im Batch verarbeiten:
Jede Datei wird einzeln analysiert und innerhalb weniger Sekunden mit Ihrer gesamten Dokumentbasis abgeglichen.
Sie können außerdem die Funktion der intelligenten Dokumententrennung in einem einzigen PDF aktivieren, wenn Ihre Datei mehrere Dokumente enthält.
Die Dublettenerkennung ist kostenlos und in allen Koncile-Tarifen enthalten.
Sie bezahlen ausschließlich für die OCR. Die Dublettenerkennung verbraucht keine Credits.
Preislogik:
• Sie kaufen Seiten-Credits (z. B. 1000 Seiten/Monat)
• Jede verarbeitete Seite verbraucht 1 Credit (Pro) oder 0,5 Credits (Lite)
• Dublettenerkennung: 0 Credits
• Auch bei 30 % Dubletten zahlen Sie nur die ursprüngliche OCR
Viele Wettbewerber verlangen 50–200 €/Monat für Dublettenerkennung oder zusätzliche Credits. Bei Koncile ist es standardmäßig inklusive.
Ja, absolut. Genau darin liegt die Stärke von Koncile im Vergleich zu klassischen Tools zur Suche nach doppelten Dateien. Unsere Technologie analysiert den tatsächlichen Inhalt und die Struktur des Dokuments – nicht nur die Dateimetadaten (Name, Größe, Erstellungsdatum).
Situationen, in denen Koncile Dubletten erkennt:
• Dieselbe Rechnung zweimal fotografiert (unterschiedliche Winkel, Beleuchtung)
• Dokument einmal gescannt und einmal fotografiert (PDF- und JPG-Format)
• Umbenannte Dateien (facture_v1.pdf vs facture_finale.pdf mit identischem Inhalt)
• Unterschiedliche Bildqualität (300-DPI-Scan vs. Smartphone-Foto)
• Unterschiedliche Formate (PDF, PNG, JPG, TIFF als Dubletten erkannt)
• Verschiedene Ausrichtungen (Hochformat, Querformat, 90-Grad-Drehung)
• Unterschiedliche Auflösungen (komprimiert vs. hohe Qualität)
• Leichtes Zuschneiden (unterschiedliche Ränder oder beschnittene Kanten)
Wie funktioniert das technisch?
Koncile nutzt mehrere kombinierte Analyseebenen:
• Fortgeschrittene OCR: Extraktion des vollständigen Textes, auch handschriftlich
• Strukturerkennung: Analyse des Layouts (Tabellen, Kopfzeilen, Logos)
• Pattern-Erkennung: Identifizierung von Schlüsselelementen (Rechnungsnummern, Daten, Beträge)
• Ähnlichkeitsalgorithmen: Berechnung eines Ähnlichkeitsscores von 0 % bis 100 %
• Machine Learning: Kontinuierliche Verbesserung basierend auf Ihren Bestätigungen
Beispiel:
Eine EDF-Rechnung, die mit einem Smartphone fotografiert wurde (2,3 MB, JPG, 12 MP) und dieselbe Rechnung als PDF gescannt (450 KB, 150 DPI), werden mit einem Ähnlichkeitsscore von 98 % als Dubletten erkannt, selbst wenn:
• die Dateinamen unterschiedlich sind
• die Formate unterschiedlich sind (JPG vs. PDF)
• die Dateigrößen stark variieren
• eine Version farbig und die andere schwarz-weiß ist
Einschränkung:
Wenn das Dokument tatsächlich geändert wurde (z. B. korrigierte Version, andere Beträge), erkennt Koncile es als neues Dokument – wie es sein sollte.
Windows/Mac-Tools vs. Koncile:
Native Tools (Windows Duplicate Finder, Mac Duplicate Finder) vergleichen ausschließlich den MD5/SHA-Hash, den Dateinamen und die Dateigröße.
Wenn Sie eine Datei umbenennen oder ein einziges Pixel ändern, wird sie nicht mehr als Duplikat erkannt.
Koncile erreicht eine Erkennungsrate von über 98 % bei standardisierten Geschäftsdokumenten (Rechnungen, Angebote, Verträge, Bestellungen), mit einer Fehlerrate von weniger als 2 %. Diese Leistung basiert auf mehr als drei Jahren Forschung und Entwicklung sowie der Analyse von über 12 Millionen Dokumenten.
Welche Faktoren beeinflussen die Genauigkeit?
Sehr hohe Genauigkeit (98–99 %):
• Strukturierte Dokumente: Rechnungen, Angebote, Bestellungen
• Standardformate: native PDFs, hochwertige Scans
• Gedruckter Text: computergenerierte Dokumente
Hohe Genauigkeit (93–97 %):
• Halbstrukturierte Dokumente: Verträge, Berichte
• Fotos mittlerer Qualität: modernes Smartphone
• Gut lesbare Handschrift: handschriftlich ausgefüllte Formulare
Gute Genauigkeit (85–92 %):
• Stark degradierte Dokumente: alte Scans, mehrfach kopierte Unterlagen
• Schwierige Handschrift: komplexe oder ungleichmäßige Schrift
• Stark annotierte Dokumente: zahlreiche handschriftliche Ergänzungen
Wie verbessern wir die Genauigkeit kontinuierlich?
• Überwachtes Machine Learning: Jede Validierung (Bestätigen/Ignorieren) verbessert die Modelle
• Spezialisierte Modelle: Training pro Dokumenttyp und Branche
• Monatliche Updates: Optimierung der Modelle basierend auf Nutzerfeedback
• Personalisierung: Das System lernt Ihre Präferenzen und Ihre Dokumentenstruktur
Koncile startet einen intelligenten Validierungs-Workflow:
1. Sofortige Warnung:
• Hinweis „Duplikat erkannt“
• Optional E-Mail-Benachrichtigung
• Dashboard-Zähler
• Webhook-Event für Ihre Systeme
2. Automatischer Verarbeitungsstopp:
Das Dokument wird angehalten und nicht verarbeitet, bis Sie es bestätigen.
• Keine Extraktio
• Kein Export in ERP/Finanzsysteme
• Keine Buchung
• Verknüpfung mit dem Originaldokument
Damit werden doppelte Zahlungen oder doppelte Buchungen verhindert.
Ja — dank Handschrift-OCR (ICR) und Layoutanalyse erkennt Koncile Dubletten auch bei handschriftlichen Dokumenten.
Konkrete Beispiele:
Handgeschriebenes medizinisches Rezept
• Vorgegebenes Formular + Handschrift des Arztes
• Erkennung: 97 % Genauigkeit
• Koncile identifiziert: gleicher Arzt, gleicher Patient, gleiches Datum, gleiche Verschreibung
• Anwendungsfall: verhindert, dass dieselbe Verordnung zweimal verarbeitet wird (einmal gescannt, einmal fotografiert)
Handschriftlich ausgefüllter Bestellschein
• Standardformular des Unternehmens
• Erkennung: 92 % Genauigkeit
• Koncile identifiziert: gleiche Bestellnummer, gleicher Lieferant, gleiche Mengen
• Anwendungsfall: vermeidet Dubletten zwischen dem Scan des Verantwortlichen und der Kopie der Buchhaltung
Freihändige handschriftliche Notiz
• Kursive Handschrift auf leerem Blatt
• Erkennung: 85 % Genauigkeit
• Koncile stützt sich hauptsächlich auf den extrahierten Textinhalt
• Anwendungsfall: doppelt erstellte Meeting-Protokolle erkennen
Eine Dublette ist ein Dokument, das mehrfach empfangen oder importiert wurde.
Ein Duplicata ist eine neue, absichtlich erstellte Version (z. B. korrigierte Rechnung).
Koncile erkennt Dubletten automatisch, überlässt Ihnen aber die endgültige Entscheidung.
.png)


