Fonctionnalités logiciel
Gestion document

Détecter des doublons de document

Identifiez facilement les documents dupliqués dans votre flux documentaire, recevez des alertes, et trouver les anomalies.

Pourquoi détecter les doublons

Dans de nombreuses organisations, les mêmes documents circulent plusieurs fois sans qu’on s’en rende compte. Cela peut arriver lorsque :

  • un fichier est envoyé par plusieurs personnes,
  • un fournisseur renvoie plusieurs fois la même facture,
  • un utilisateur importe une nouvelle version sans supprimer l’ancienne,
  • un document est scanné deux fois,
  • un flux automatisé crée des copies involontaires.

Ces doublons entraînent des risques d’erreurs, des surcoûts, une surcharge documentaire et une perte de temps lors des vérifications manuelles. La détection automatique des doublons vous permet de garder un flux documentaire propre et fiable.

La détection automatique des doublons peut vous aider

Koncile analyse chaque document au moment où il est importé. Si le document ressemble fortement à un fichier déjà traité, il est détecté comme doublon. Vous pouvez ainsi :

  • éviter d’extraire ou de traiter plusieurs fois le même document,
  • repérer rapidement les envois en double d’un fournisseur,
  • réduire les erreurs dans vos processus financiers ou administratifs,
  • maintenir une base documentaire cohérente,
  • alerter vos équipes en cas d’anomalie.

Comment fonctionne la détection des doublons

La détection s’appuie sur plusieurs techniques combinées :

  1. Analyse du contenu : textes, chiffres, structure des pages, champs extraits.
  2. Analyse de la mise en page : disposition, blocs, images, tableaux.
  3. Calcul de similarité : mesure du pourcentage de ressemblance avec les documents existants.
  4. Vérification du contexte : dates, fournisseurs, identifiants, zones clés.
  5. Alerte automatique : si un document dépasse le seuil de similarité défini, il apparaît dans la section des doublons.

Vous pouvez décider d’ignorer l’alerte ou confirmer la détection.

Exemples concrets d’utilisation

Voici des situations fréquentes où la détection de doublons simplifie votre quotidien :

  • un fournisseur renvoie la même facture trois fois dans la même journée,
  • un service comptable scanne deux fois le même bon de livraison,
  • une boîte email générique reçoit plusieurs fois le même document en copie,
  • un utilisateur partage plusieurs fois la même version d’un contrat,
  • un rapport PDF généré automatiquement par un système interne se duplique,
  • un document est modifié mais renommé sans aucun changement réel de contenu.

Type : Automatisation

Utilisateur : Entreprise

Complexité : Moyenne

L'outil qui automatise vos documents

Découvrez comment Koncile peut transformer vos documents en valeur ajoutée.

Toutes vos questions sur le détecteur de doublons de documents

Tout ce que vous devez savoir sur la détection des doublons.
Qu'est-ce que Koncile ?

Koncile est un outil d'extraction et d'automatisation de vos documents. Il permet de transformer des factures, devis, rapports, bons de commande, documents d'identité, ordonnances, contrats, etc. en données exploitables, sous format Excel ou de les injecter directement dans vos outils.

Comment puis-je détecter les doublons avec Koncile ?

La détection de doublons est active automatiquement dès que vous importez un document dans Koncile, sans aucune configuration préalable nécessaire. Voici comment cela fonctionne en pratique :

Processus automatique en 3 étapes :

  1. Import du document : Vous uploadez votre fichier (PDF, image, scan) via l'interface web, l'API, ou par email
  2. Analyse instantanée : Koncile analyse le contenu, la structure et les métadonnées en 2-3 secondes
  3. Alerte en cas de doublon : Si un document similaire existe déjà, une notification apparaît immédiatement,

Où voir les doublons détectés :

  • Dans la colonne "Statut" de votre tableau de bord Koncile
  • Cliquez sur le document pour voir le(s) doublon(s) associé(s) et comparer

Actions disponibles :

  • Confirmer : Marquer définitivement comme doublon (le document n'est pas traité)
  • Ignorer : Valider qu'il ne s'agit pas d'un doublon (traitement normal)

La détection fonctionne même si vous traitez des centaines de documents en lot : chaque fichier est analysé individuellement et comparé à votre base documentaire complète en quelques secondes. Vous pouvez également activer la fonctionnalité de séparation intelligente des documents dans un même PDF si votre fichier contient plusieurs documents. 

Combien coûte la détection des doublons ?

La détection de doublons est totalement gratuite et incluse par défaut dans tous les forfaits Koncile, sans aucun surcoût ni frais caché. Vous ne payez que pour l'OCR (la numérisation des pages), et la détection de doublons s'active automatiquement en arrière-plan sans consommer de crédit supplémentaire.

Fonctionnement du pricing :

  • Vous achetez des crédits de pages (exemple : 1000 pages/mois)
  • Chaque page numérisée consomme 1 crédit (Koncile Pro) ou 0,5 crédits (Koncile Lite) pour l'OCR + extraction
  • La détection de doublon se fait en simultané, sans décompter de crédit additionnel
  • Même si 30% de vos documents sont des doublons, vous ne payez que l'OCR initial

Pour plus de détail, vous pouvez consulter nos tarifs

Exemple concret si vous traitez 1000 factures par mois :

  • 150 sont détectées comme doublons
  • Coût total : 1000 crédits (pas 1150)
  • Économie vs concurrent : 0€ au lieu de ~75€/mois pour la détection

Comparaison marché : La plupart des solutions concurrentes facturent la détection de doublons comme une option premium (entre 50€ et 200€/mois selon le volume), ou décomptent des crédits supplémentaires pour chaque vérification. Avec Koncile, ce service est inclus nativement dans notre moteur d'analyse, sans impact financier.

Koncile peut-il détecter des doublons même si les fichiers ne sont pas identiques ?

Oui, absolument. C'est justement la force de Koncile par rapport aux outils classiques de recherche de fichiers en double. Notre technologie analyse le contenu réel et la structure du document, pas simplement les métadonnées du fichier (nom, taille, date de création).

Situations où Koncile détecte les doublons :

  • Même facture photographiée deux fois (angles différents, luminosité variable)
  • Document scanné puis photographié (formats PDF et JPG différents)
  • Fichier renommé (facture_v1.pdf vs facture_finale.pdf avec contenu identique)
  • Qualités d'image différentes (scan 300 DPI vs photo smartphone)
  • Formats différents (PDF, PNG, JPG, TIFF détectés comme doublons)
  • Orientations différentes (portrait vs paysage, rotation 90°)
  • Résolutions variables (document compressé vs haute qualité)
  • Recadrages légers (marges différentes, bordures coupées)

Comment ça marche techniquement :

Koncile utilise plusieurs couches d'analyse combinées :

  1. OCR avancé : Extraction du texte intégral, même manuscrit
  2. Reconnaissance de structure : Analyse de la mise en page (tableaux, en-têtes, logos)
  3. Détection de patterns : Identification des éléments clés (numéros de facture, dates, montants)
  4. Algorithmes de similarité : Calcul d'un score de ressemblance de 0% à 100%
  5. Machine learning : Amélioration continue basée sur vos validations

Exemple : Une facture EDF photographiée avec un smartphone (fichier 2.3 Mo, JPG, 12MP) et la même facture scannée en PDF (450 Ko, 150 DPI) seront détectées comme doublons avec un score de similarité de 98%, même si :

  1. Les noms de fichiers sont différents
  2. Les formats sont différents (JPG vs PDF)
  3. Les tailles de fichiers sont très différentes
  4. L'une est en couleur, l'autre en noir et blanc

Limite : Si le document a été réellement modifié (avenant, nouvelle version avec changements de montants), Koncile le détectera comme un document différent, ce qui est le comportement attendu.

Outil Windows/Mac vs Koncile : Les outils natifs (recherche de doublons Windows, Duplicate Finder Mac) comparent uniquement le hash MD5/SHA du fichier, la taille et le nom. Si vous renommez un fichier ou changez 1 pixel, ils ne le détectent plus.

Quel est le taux de précision de la détection de doublons ?

Koncile atteint un taux de détection supérieur à 98% sur les documents professionnels standards (factures, devis, contrats, bons de commande), avec un taux de faux positifs inférieur à 2%. Ces performances sont le fruit de plus de 3 ans de R&D et l'analyse de plus de 12 millions de documents.

Quels sont les facteurs qui influençent la précision ?

Très haute précision (98-99%) :

  • Documents structurés : factures, devis, bons de commande
  • Formats standards : PDF natif, scans de qualité
  • Texte imprimé : documents générés par ordinateur

Haute précision (93-97%) :

  • Documents semi-structurés : contrats, rapports
  • Photos de qualité moyenne : smartphone récent
  • Texte manuscrit lisible : formulaires remplis à la main

Précision correcte (85-92%) :

  • Documents très dégradés : scans anciens, photocopies de photocopies
  • Manuscrit difficile : écritures complexes
  • Documents annotés : nombreuses modifications manuscrites

Comment nous améliorons continuellement la précision :

  1. Machine learning supervisé : Chaque validation (confirmer/ignorer) affine les algorithmes
  2. Modèles spécialisés : Entraînement spécifique par type de document et secteur
  3. Mise à jour mensuelle : Amélioration des modèles basée sur les retours utilisateurs
  4. Personnalisation : Le système apprend vos préférences et votre typologie documentaire
Que se passe-t-il quand Koncile détecte un doublon ?

Lorsqu'un doublon est identifié, Koncile met en place un workflow de validation intelligent pour vous alerter immédiatement tout en vous laissant le contrôle final de la décision. Voici le processus complet :

1. Alerte instantanée (en temps réel)

Dès qu'un document similaire est détecté :

  • Notification dans l'interface : Badge sur le document avec mention "Doublon détecté"
  • Email optionnel : Alert email vers les personnes concernées (paramétrable)
  • Tableau de bord : Compteur mis à jour dans votre dashboard ("3 doublons cette semaine")
  • API webhook : Event envoyé à votre système pour automatisation (si intégration API)

2. Blocage automatique du traitement

Le document doublon est mis en pause et ne sera PAS traité automatiquement tant que vous n'avez pas validé :

  • Pas d'extraction des données
  • Pas d'envoi vers votre ERP/comptabilité
  • Pas de comptabilisation
  • Lien établi avec le document d'origine. 

Pourquoi ce choix ? Pour éviter tout risque de double paiement ou double saisie. La sécurité prime sur l'automatisation.

La détection de doublons fonctionne-t-elle sur les documents manuscrits ?

Oui, Koncile détecte les doublons même sur les documents manuscrits, grâce à notre moteur d'OCR écriture manuscrite (ICR - Intelligent Character Recognition) couplé à l'analyse structurelle. Cependant, la précision varie selon la qualité de l'écriture et le type de document.

Exemples concrets :

Ordonnance médicale manuscrite

  • Formulaire pré-imprimé + écriture du médecin
  • Détection : 97% de précision
  • Koncile identifie : même médecin, même patient, même date, mêmes prescriptions
  • Cas d'usage : éviter de traiter deux fois la même ordonnance scannée puis photographiée

Bon de commande rempli à la main

  • Formulaire standard de l'entreprise
  • Détection : 92% de précision
  • Koncile identifie : même numéro de BC, même fournisseur, mêmes quantités
  • Cas d'usage : éviter les doublons entre scan du responsable et copie du service comptable

Note manuscrite libre

  • Écriture cursive sur page blanche
  • Détection : 85% de précision
  • Koncile s'appuie surtout sur le contenu textuel une fois extrait
  • Cas d'usage : détecter des comptes-rendus de réunion rédigés deux fois
Quelle est la différence entre un doublon et un duplicata ?

Un doublon est un même document reçu ou importé plusieurs fois, souvent de façon involontaire.

Un duplicata est une nouvelle version volontaire du même document (exemple : facture rectificative).

Koncile détecte les doublons automatiquement, mais vous laisse décider si un document est réellement un doublon ou un duplicata.

Découvrez les fonctionnalités de Koncile

Transformez tous vos documents en données grâce à un outil complet de gestion des documents. Testez les fonctionnalités pour automatiser vos tâches manuelles.  
Catégorisation intelligente
Séparez vos fichiers contenus dans un même document
OCR
Ecriture manuscrite
Séparez vos fichiers contenus dans un même document
OCR
Envoi par mail
Séparez vos fichiers contenus dans un même document
OCR
Trennung von Dokumenten
Séparez vos fichiers contenus dans un même document
OCR
Dokument umbenennen
Séparez vos fichiers contenus dans un même document
OCR