<script type="application/ld+json">
{
 "@context": "https://schema.org",
 "@graph": [
   {
     "@type": "HowTo",
     "inLanguage": "en",
     "name": "How to extract bank statement data into Excel using OCR + LLM (2025)",
     "description": "Step-by-step workflow to convert bank statements into structured CSV/Excel with high accuracy using a hybrid OCR + LLM approach.",
     "image": "https://example.com/images/bank-statement-ocr-howto.jpg",
     "totalTime": "PT10M",
     "estimatedCost": {
       "@type": "MonetaryAmount",
       "currency": "USD",
       "value": "0.3"
     },
     "supply": [
       {
         "@type": "HowToSupply",
         "name": "Bank statement (PDF/JPG/TIFF)"
       }
     ],
     "tool": [
       {
         "@type": "HowToTool",
         "name": "OCR engine (e.g., Koncile OCR)"
       },
       {
         "@type": "HowToTool",
         "name": "LLM processor"
       },
       {
         "@type": "HowToTool",
         "name": "Spreadsheet app (Excel/Google Sheets)"
       }
     ],
     "yield": {
       "@type": "QuantitativeValue",
       "value": "150-300",
       "unitText": "transactions per statement"
     },
     "performer": {
       "@type": "Organization",
       "name": "Koncile"
     },
     "step": [
       {
         "@type": "HowToStep",
         "name": "Prepare the file",
         "text": "Scan at 300 DPI, straighten pages, and prefer grayscale for better contrast if the PDF is image-based."
       },
       {
         "@type": "HowToStep",
         "name": "Upload the statement",
         "text": "Import the file into your OCR solution and select the Bank Statement template."
       },
       {
         "@type": "HowToStep",
         "name": "Choose fields",
         "text": "Map repeated fields (transactions: date, posting date, description, debit, credit, balance) and unique fields (opening balance, closing balance, totals)."
       },
       {
         "@type": "HowToStep",
         "name": "Run extraction",
         "text": "Start OCR for character recognition, then apply LLM parsing to detect the transaction table and ignore headers/footers."
       },
       {
         "@type": "HowToStep",
         "name": "Validate totals",
         "text": "Check that closing balance = opening balance + credits − debits; review any low-confidence fields."
       },
       {
         "@type": "HowToStep",
         "name": "Export to Excel/CSV",
         "text": "Export with a semicolon (;) separator for better Excel compatibility, or push data to your accounting app via API."
       },
       {
         "@type": "HowToStep",
         "name": "Categorize spending (optional)",
         "text": "Apply a categorization instruction per transaction to build dashboards automatically."
       }
     ]
   },
   {
     "@type": "VideoObject",
     "name": "OCR + LLM Tutorial: Extract bank statement data into Excel",
     "description": "Learn how to automatically extract data from a bank statement and structure it in Excel using OCR and LLM.",
     "thumbnailUrl": "https://example.com/images/bank-statement-ocr-thumbnail.jpg",
     "uploadDate": "2025-10-31T00:00:00+00:00",
     "duration": "PT4M12S",
     "embedUrl": "https://www.youtube.com/embed/uwOEJRRBWnk",
     "publisher": {
       "@type": "Organization",
       "name": "Koncile",
       "logo": {
         "@type": "ImageObject",
         "url": "https://www.koncile.com/logo.png"
       }
     }
   }
 ]
}
</script>

OCR-Datenextraktion für Kontoauszüge: Der vollständige Leitfaden

Letzte Aktualisierung:

December 5, 2025

5 Minuten

Möchten Sie Ihre US-Bankauszüge in verwertbare Excel-Daten umwandeln? Ich empfehle die Nutzung eines Tools, das OCR- und LLM-Technologien kombiniert. Aufgrund der komplexen Layouts von Bankauszügen liefert dieser Ansatz die besten Ergebnisse in Bezug auf Genauigkeit und Geschwindigkeit, verglichen mit herkömmlichen OCR-Methoden oder der ausschließlichen Nutzung von LLM.

OCR erkennt Bankdaten automatisch. KI validiert Transaktionen und erstellt präzise Finanzübersichten.

Kontoauszug auf Bildschirm – OCR extrahiert Bankdaten automatisch und validiert sie.

Das Problem: Kontoauszugsformate sind berüchtigt komplex. Wahrscheinlich hast du schon versucht, Daten nach Excel oder CSV zu kopieren – nur um festzustellen, dass das Layout völlig zerstört ist. Viele PDFs sind zudem gesperrt, was sogar einfache Textauswahl verhindert. Und wenn du mit gescannten Bildern arbeitest, enthalten Tools wie macOS Preview zwar eine einfache OCR-Funktion, aber die kopierten Daten sind oft durcheinander.

Als Head of Product bei Koncile habe ich mit Hunderten Unternehmen und Einzelpersonen über Extraktionsprobleme gesprochen. Ich habe jede nur denkbare Formatvariante von US-Banken gesehen – und alle lassen sich mit dem richtigen Ansatz lösen.

Warum eine Kontoauszugs-OCR verwenden?

Ein guter Prozess zur Datenerfassung aus Kontoauszügen ermöglicht Folgendes:

  • Automatisierte Datenerfassung über Hunderte von Kontoauszügen, unabhängig von Layout oder Format.
  • Ausgabenauswertung durch intelligente Kategorisierung
  • Befüllung deiner Software mit hochwertigen Daten (eine API-Verbindung kann erforderlich sein)
  • Abstimmung der Auszüge mit der Buchhaltung, insbesondere bei Anfangs- und Endsaldo
  • Erkennung von Anomalien und Unregelmäßigkeiten, um potenziellen Betrug oder Datenfehler frühzeitig zu entdecken.

Welche Daten lassen sich aus Kontoauszügen extrahieren?

Zu verstehen, welche Daten OCR erfassen kann, hilft dir, die richtige Methode zu wählen. Bei der Datenerfassung sollte man zwischen wiederholten Feldern (z. B. Transaktionen) und einmaligen Feldern unterscheiden. Wiederholte Felder sind die Zeilen mit einzelnen Buchungen. Einmalige Felder dagegen enthalten Informationen, die nur einmal im Dokument erscheinen – etwa Summen, Name des Kontoinhabers oder Abrechnungszeitraum.

Allgemeine Informationen extrahieren: der einfache Teil

Dies sind einmalige Felder, die nur einmal im Dokument vorkommen. Sie lassen sich im Allgemeinen leichter erfassen als Tabellen, da keine komplexe Layout-Erkennung erforderlich ist.

  • Anfangssaldo
  • Endsaldo (besonders nützlich für Buchhaltungsabgleiche)
  • Gesamtgebühren
  • Zeitraum des Kontoauszugs
  • Kundencodes
  • Kontonummer
  • Kontotyp (Girokonto, Sparkonto)
  • Gesamtausgaben
  • Gesamteinnahmen

Du kannst auch erkennen, ob Unterschriften auf dem Dokument vorhanden sind oder fehlen.

Transaktionstabellen extrahieren: der schwierige Teil

Im Gegensatz zu allgemeinen Informationen erscheinen Transaktionsdaten in Tabellen, die jede Bewegung auf dem Konto auflisten. Jede Zeile steht für eine einzelne Buchung und enthält in der Regel mehrere wichtige Felder wie:

  • Bezeichnung jeder Transaktion mit Betrag
  • Buchungsdatum: wann die Transaktion tatsächlich stattfand
  • Wertstellungsdatum: wann die Bank die Transaktion verbucht hat

Hier scheitern viele Extraktionsmethoden: Transaktionen können sich über mehrere Zeilen erstrecken, Beträge in unterschiedlichen Spalten stehen, und die Tabellenlayouts variieren stark zwischen Banken.

Drei Methoden zur Datenerfassung aus Kontoauszügen

Sehen wir uns drei Methoden an, um Kontoauszüge zu verarbeiten – von der einfachsten bis zur fortschrittlichsten.

Methode Genauigkeit Geschwindigkeit Am besten geeignet für Adobe-Export 70–80 % Schnell Gelegentliche manuelle Extraktion Nur LLM 80–90 % Mittel Freelancer, Entwickler:innen OCR + LLM 95–99 % Langsam Unternehmen, Fintechs, Kreditgeber

Methode 1: Export nach Excel mit Adobe Reader

Der Adobe PDF Reader bietet eine kostenlose Option, um Dokumente mithilfe seiner integrierten OCR-Engine ins Excel-Format zu exportieren. Bei durchsuchbaren PDFs liest Adobe den Text als Metadaten und erkennt Tabellenlayouts.

So funktioniert es: Öffne das PDF in Adobe Reader, gehe zu Datei > Exportieren nach > Tabellenkalkulation > Microsoft Excel-Arbeitsmappe.

Hauptprobleme: Mehrere Transaktionszeilen werden oft zusammengeführt und müssen manuell bereinigt werden. Adobe extrahiert zudem ALLE Informationen von der Seite, einschließlich Kopf- und Fußzeilen sowie Werbung, die du manuell löschen musst. Das Ergebnis ist brauchbar, erfordert aber erhebliche Nachbearbeitung.

Kosten: Während Adobe Reader kostenlos ist, kostet das Abonnement für Adobe Acrobat mit erweiterten Exportfunktionen etwa 20–30 $ pro Monat.

Am besten geeignet für: Nutzer:innen mit durchsuchbaren PDFs, die kein Problem damit haben, 15–20 Minuten pro Kontoauszug für die Nachbearbeitung aufzuwenden.

Methode 2: Daten mit GPT, Gemini oder LLMs extrahieren

Da große Sprachmodelle (LLMs) mittlerweile fortgeschrittene Dokumentenlesefähigkeiten besitzen, kannst du Kontoauszüge direkt in ChatGPT, Gemini oder Claude hochladen.

Nützlicher Prompt für korrekte Extraktion:

Diesen Prompt kannst du in jedes LLM kopieren:

Extrahiere alle Transaktionen aus diesem PDF-Kontoauszug und exportiere sie in eine Excel-kompatible Tabelle.
Jede Zeile soll eine Transaktion darstellen mit den Spalten:
Buchungsdatum, Wertstellungsdatum (falls vorhanden), Beschreibung, Soll, Haben und Saldo.
Normiere Datumsangaben auf JJJJ-MM-TT, entferne Währungssymbole und halte Zahlenformate konsistent.
Schließe Kopf- und Fußzeilen sowie Zusammenfassungen („Anfangssaldo“, „Endsaldo“) aus.
Wenn Daten fehlen (z. B. Saldo), lasse das Feld leer.

Stärken: LLMs strukturieren Daten präzise und verstehen den Kontext. Sie können Transaktionen von irrelevanten Textteilen unterscheiden.

Schwächen: LLMs sind keine OCR-Engines – sie verstehen Text, aber erkennen keine Zeichen präzise. Dadurch können Zahlen falsch gelesen oder erfunden werden, insbesondere bei unscharfen Scans oder bildbasierten PDFs.

Achtung beim Export: Wenn du ein CSV-Format anforderst, gib das Trennzeichen an. Verwende Semikolons (;) für bessere Kompatibilität mit europäischen Excel-Versionen.

Am besten geeignet für: Nutzer:innen mit klaren, durchsuchbaren PDFs, die flexible Ausgabeformate wünschen und kleine Ungenauigkeiten tolerieren können.

Methode 3: OCR-Lösungen mit LLM-Unterstützung (empfohlen)

Dies ist der Ansatz, den ich für konsistente und präzise Ergebnisse empfehle.

OCR-Lösungen, die mit LLMs kombiniert sind, vereinen die Präzision klassischer OCR mit der Intelligenz von Sprachmodellen. Dieser hybride Ansatz, wie er in moderner Kontoauszugs-OCR-Software verwendet wird, meistert die Hauptprobleme: mehrere Tabellen, Werbeblöcke und Hinweise – aber du erhältst nur die Transaktionstabelle, mit genau einer Zeile pro Buchung.

So funktioniert es: Das Tool nutzt klassische OCR zur Zeichenerkennung, danach interpretiert ein LLM den Text, erkennt Tabellen und extrahiert nur relevante Daten. Es unterscheidet Summen von Transaktionszeilen, behält Datum-Betrag-Beziehungen bei und exportiert saubere, verwendbare Tabellen.

Warum das am besten funktioniert: Reine OCR kämpft mit Layouts, reine LLMs mit Zeichengenauigkeit. Gemeinsam erreichen sie über 95 % Genauigkeit – selbst bei schwierigen Dokumenten.

Am besten geeignet für: Regelmäßige Kontoauszugsverarbeitung, Unternehmen, Fintechs oder Nutzer:innen mit hohem Qualitätsanspruch.

Anwendungsfälle für Kontoauszugs-OCR

Private Finanzen: Eigene Ausgabenauswertung

Wie behält man sein Budget im Griff? Kontoauszugs-OCR verwandelt alle Auszüge in ein strukturiertes Dashboard mit sinnvollen Kategorien.

Mit KI-gestützter Kategorisierung kannst du Ausgaben automatisch zuordnen. Für jede Transaktion: füge eine Anweisung hinzu, die Kategorie basierend auf der Beschreibung zu wählen.

Wähle die passende Kategorie: Lebensmittel, Wohnen, Transport, Gesundheit, Freizeit, Sport, Abonnements, Reisen, Kleidung, Hygiene & Schönheit, Bildung, Geschenke & Spenden, Kredite, Ersparnisse, Versicherungen, Steuern & Gebühren, Bankgebühren, größere Anschaffungen, Einkommen/Rückzahlungen, Überweisungen, Sonstiges, Unklassifiziert.

Mit der Koncile-App kannst du jede Transaktion automatisch extrahieren und kategorisieren. Nach dem Export nach Excel lassen sich Ausgaben gruppieren und als Diagramme darstellen – so erkennst du Muster und Sparpotenziale.

Kredit- und Hypothekenprüfung: Einkommen vs. Ausgaben

Kreditgeber in den USA nutzen Kontoauszugs-OCR, um Einkommen und finanzielle Stabilität automatisch zu prüfen. Das beschleunigt die Kreditentscheidung drastisch: Alle Transaktionen werden extrahiert und kategorisiert, um wiederkehrende Einnahmen, Ausgaben und Ausreißer sichtbar zu machen.

Das reduziert Bearbeitungszeiten von Tagen auf Stunden und eliminiert menschliche Tippfehler.

KYC-Prüfung: Adresse verifizieren und Fälschungen erkennen

Kontoauszugs-OCR dient nicht nur der Datenerfassung, sondern auch der Betrugserkennung. Manipulierte Dokumente lassen sich entlarven, weil Zahlen oft nicht zusammenpassen: Der Endsaldowert muss Anfangssaldo + Gutschriften – Abbuchungen entsprechen.

Füge zur Überprüfung automatische Validierungen hinzu, z. B.:

Überprüfe diese Transaktion und markiere Auffälligkeiten wie fehlende Werte, widersprüchliche Daten, negative Salden, Duplikate, Beträge über 10.000 $, falsche Datumsreihenfolge oder unplausible Summen.

Wie funktioniert eine KI-gestützte Kontoauszugs-OCR?

Eine moderne OCR kombiniert mehrere KI-gesteuerte Schritte, um Kontoauszüge in strukturierte Daten zu verwandeln:

1. Bildvorverarbeitung

Das System erkennt Textbereiche, korrigiert Schräglagen, Helligkeit und Rauschen – damit selbst Scans oder unscharfe Dokumente lesbar werden.

2. Zeichenerkennung (OCR)

Die OCR-Engine wandelt sichtbare Zeichen in digitalen Text um. Moderne Engines erreichen über 99 % Genauigkeit bei klar gedrucktem Text.

3. Layouterkennung

Tabellen, Spalten und Strukturen werden erkannt, um die ursprüngliche Datenorganisation zu bewahren. So bleiben Beträge und Datumswerte richtig zugeordnet.

4. LLM-Verarbeitung

Das erkannte Textmaterial wird an ein Sprachmodell übergeben, das den Kontext versteht – es erkennt Summen, Transaktionen und deren Beziehungen. Bei komplexen Dokumenten nutzt es Layout und Text gemeinsam für bessere Präzision.

5. Datenexport

Die bereinigten Daten werden anschließend nach Excel, CSV, JSON oder per API an Buchhaltungssysteme exportiert – strukturiert, validiert und sofort nutzbar.

Implementierung in deinem Unternehmen

Kosten verstehen

Die Kosten variieren je nach Ansatz. On-Premise-Lösungen verursachen Entwicklungsaufwand, während SaaS-Tools meist pro Seite abrechnen – von 0,30 $/Seite bei geringem Volumen bis 0,05 $/Seite für Großkunden.

OCR-Genauigkeit messen

Erweiterte OCR-Systeme mit LLM-Unterstützung erreichen über 99 % Genauigkeit. Sie vergeben Vertrauenswerte für jedes Feld, sodass nur unklare Fälle manuell geprüft werden müssen.

  • Zielgenauigkeit (mind. 95 %)
  • Durchschnittliche Bearbeitungszeit pro Dokument
  • Anteil manueller Korrekturen
  • Kosten pro verarbeiteter Seite

Datensicherheit und Anbieterwahl

Seriöse Anbieter verschlüsseln Daten (End-to-End), sind DSGVO- und SOC 2-konform und bieten Dokumentation zur Datenspeicherung. Prüfe vor dem Hochladen:

  • Wo und wie lange werden Daten gespeichert?
  • Wer hat Zugriff?
  • Werden Daten zum Training verwendet?
  • Welche Zertifizierungen bestehen (SOC 2, ISO 27001)?
  • Gibt es On-Premise-Optionen?

Formatkompatibilität

Moderne OCRs unterstützen PDF (nativ & gescannt), JPG, PNG und TIFF. Sie funktionieren am besten mit klar gedruckten Dokumenten, teils auch mit sauberer Handschrift.

Scan-Tipps:

  • Mindestens 300 DPI
  • Gleichmäßige Beleuchtung
  • Gerade Ausrichtung
  • Farbe oder Graustufen für besseren Kontrast

OCR mit API verbinden

Erweiterte Lösungen bieten API-Integrationen zu Buchhaltungssoftware (QuickBooks, Xero, Sage). So wird die Extraktion zum vollautomatischen Workflow. Viele Tools erlauben auch E-Mail-Importe direkt aus Gmail oder Outlook.

Integrationsszenarien und Workflow-Automatisierung

Durch die Anbindung von OCR an bestehende Systeme werden stundenlange manuelle Aufgaben zu automatisierten Workflows. Beispiele:

E-Mail → OCR → QuickBooks

Kontoauszüge, die per Mail eingehen, werden automatisch weitergeleitet, verarbeitet und in QuickBooks importiert. 3 Stunden Handarbeit werden zu 10 Minuten Review.

Dropbox → OCR → Google Sheets

Freelancer speichern PDFs in einem beobachteten Dropbox-Ordner, OCR extrahiert Transaktionen und schreibt sie in ein Google Sheet – inklusive automatischer Archivierung.

Scanner → OCR → ERP-System

Unternehmen mit 50–500 Auszügen pro Monat scannen Stapel, OCR extrahiert Daten und sendet sie ans ERP (SAP, Oracle, NetSuite). Das spart bis zu 80 % Zeit.

Mobile App → OCR → Ausgaben-Tracker

Datenschutzorientierte Nutzer:innen können Kontoauszüge fotografieren oder weiterleiten; die App verarbeitet sie via OCR und kategorisiert Ausgaben automatisch.

API → OCR → Individuelles Dashboard

Für Fintechs: Die App lädt Auszüge hoch, ruft die OCR-API auf, erhält strukturierte JSON-Daten, berechnet Kennzahlen und trifft Entscheidungen automatisch.

Fazit

Die Extraktion von Kontodaten muss keine Stunden dauern. Mit der richtigen OCR-Lösung – insbesondere mit LLM-gestützter Technologie – erreichst du über 95 % Genauigkeit und reduzierst den Aufwand um 80 %.

Ob für persönliche Finanzen, Kreditanalyse oder Fintech-Produkte: Automatisierte Kontoauszugsverarbeitung spart Zeit, verringert Fehler und liefert tiefe Einblicke.

Starte mit der Methode, die zu deinem Volumen und deiner Technik passt – und skaliere, wenn dein Bedarf wächst.

Wechseln Sie zur Dokumentenautomatisierung

Automatisieren Sie mit Koncile Ihre Extraktionen, reduzieren Sie Fehler und optimieren Sie Ihre Produktivität dank KI OCR mit wenigen Klicks.

Author and Co-Founder at Koncile
Jules Ratier

Mitbegründer von Koncile - Verwandeln Sie jedes Dokument mit LLM in strukturierte Daten - jules@koncile.ai

Jules leitet die Produktentwicklung bei Koncile und konzentriert sich darauf, wie unstrukturierte Dokumente in Geschäftswert umgewandelt werden können.

Ressourcen von Koncile