DocumentAI

Steuerdokumenten-KI

OCR + LLM-Scanner für KMU-Buchhaltung

Gebaut von Nicholas Falshaw · OCR + LLM für KMU-Buchhaltung · Produktiv seit 2025

Das Problem

Kleine Firmen ertrinken in Belegen, Rechnungen und PDF-Kontoauszügen. Manuelle Zuordnung gegen SKR03/SKR04 frisst jeden Monat Stunden. Generische OCR-Dienste liefern Rohtext — der Buchhalter tippt dann doch alles neu ab.

Was ich gebaut habe

Eine Eingangs-Pipeline, die PDFs, Bilder und E-Mail-Anhänge annimmt, layout-bewusstes OCR macht, Positionen per LLM strukturiert extrahiert, gegen Geschäftsregeln validiert, gegen den Kontenrahmen kategorisiert und einen buchhalter-fertigen Batch exportiert — DATEV-kompatibles CSV oder vorausgefüllte Buchungs-PDFs.

Architektur

  • Eingang

    Web-Upload, E-Mail-Anhang oder Ordner-Watcher; MIME-Erkennung und Virenscan

  • OCR-Schicht

    Tesseract für einfache Belege, PaddleOCR für komplexe mehrspaltige Rechnungen, deutsche Sprachmodelle

  • LLM-Extraktion

    Ollama-Modell mit Structured-Output-Prompts für JSON-Positionen (Datum, Gegenüber, Mehrwertsteuer, Netto/Brutto, Konto-Hinweis)

  • Validierung

    Deterministische Regeln für MwSt-Plausibilität, Dubletten-Erkennung, Datumsprüfung

  • Speicher

    PostgreSQL mit Volltextsuche über alle extrahierten Dokumente

  • Export

    DATEV-CSV, buchhalter-fertige PDF-Übersicht oder direkter Push ins Buchhaltungssystem

Tech-Stack

React 19FastAPIPython 3.11PostgreSQL 16TesseractPaddleOCROllamallava:13b

Ergebnis

Monatliche Buchhaltungsvorbereitung schrumpft von Stunden auf Minuten. Funktioniert mit deutschen Belegen und Rechnungen. Der Buchhalter bekommt einen vorkategorisierten Batch mit Confidence-Werten und einer Flag-Queue für alles, was die Pipeline nicht auto-lösen konnte.

Rogue AI • Production Systems •