Ein Kunde rief mich an. Er hatte gerade einen KI-gestützten Assistenten eingeführt – Retrieval-Augmented Generation, kurz RAG, auf dem internen Dokumentenserver. Klingt modern. Klingt sinnvoll. Und funktioniert auch prima, solange man nicht fragt, was der Assistent eigentlich antwortet.
Die KI war präzise. Die KI war eloquent. Die KI war falsch.
Nicht weil das Modell schlecht war. Sondern weil die Grundlage, auf der es arbeitete, aus fünf Jahren Ablagestruktur nach dem Prinzip „irgendwo ist gut genug“ bestand.
Das eigentliche Problem: Garbage In, Garbage Out – aber auf hohem Niveau
Den alten Informatiker-Spruch kennen die meisten: „Garbage in, garbage out.“ Was viele unterschätzen: Mit modernen Sprachmodellen wird aus diesem Grundsatz etwas deutlich Gefährlicheres. Früher hat eine schlechte Datengrundlage zu offensichtlich falschen Ergebnissen geführt. Heute liefert sie flüssige, gut formulierte, inhaltlich plausibel klingende Antworten – die trotzdem falsch sind.
Das ist das eigentliche Risiko.
Beim Kunden lagen auf dem Server Angebote aus 2019, überarbeitete Versionen davon ohne klare Benennung, eine Preisliste, die zweimal existierte – einmal aktuell, einmal veraltet, beide ohne Datum im Dateinamen. Dazu Mails als PDF exportiert, interne Notizen im Word-Format, ein paar Scans ohne OCR. Der Assistent hat fleißig in diesem Archiv gewühlt und dem Vertriebsmitarbeiter erklärt, welcher Rabatt für Großkunden gilt. Leider mit Zahlen aus dem Stand 2020.
Der Mitarbeiter hat es beinahe ungeprüft weitergegeben.
Was ich dann gemacht habe – und warum das keine KI-Aufgabe ist
Bevor wir irgendetwas mit KI weitergemacht haben, haben wir aufgeräumt. Nicht glamourös, nicht besonders technisch – aber notwendig.
Konkret: Ich habe mit dem Kunden gemeinsam einen Datenbestand-Audit gemacht. Welche Dokumente sind überhaupt relevant? Was hat ein Verfallsdatum? Was ist Duplikat, was ist Quelle? Anschließend haben wir Konventionen festgelegt – Dateinamen mit Datum, klare Ordnerstruktur, ein definiertes Verzeichnis als „Single Source of Truth“ für alles, was in den KI-Kontext einfließen darf.
Erst dann – und wirklich erst dann – haben wir das RAG-System auf diesen bereinigten Bestand losgelassen. Das Ergebnis war kein Wunder, aber es war verlässlich. Die KI hat Antworten geliefert, die wir nachvollziehen konnten, weil wir wussten, wo sie herkamen.
Der Workflow-Kern dabei war simpel: Power Automate überwacht den bereinigten Ordner, neue oder geänderte Dokumente werden automatisch indexiert, veraltete Versionen landen in einem Archivpfad, der aus dem aktiven RAG-Index ausgeschlossen ist. Kein Hexenwerk – aber ohne diesen Schritt wäre jede KI-Antwort ein Glücksspiel geblieben.
Strukturierte Daten sind keine Kür, sondern Pflicht
Es gibt eine romantische Vorstellung von KI, die besagt: Die KI ist so klug, sie findet das Richtige schon selbst. Das stimmt schlicht nicht. Sprachmodelle sind sehr gut darin, aus einem gegebenen Kontext kohärente Texte zu erzeugen. Sie sind nicht gut darin, schlechte Daten als schlechte Daten zu erkennen. Sie haben keinen Qualitätssinn. Sie fragen nicht nach.
Das bedeutet: Die Verantwortung für die Datenqualität liegt beim Menschen. Vor der KI-Einführung, nicht danach.
Das ist keine schlechte Nachricht. Es ist eine Chance. Denn wer seine Datenstrukturen aufräumt, profitiert davon unabhängig von der KI – bessere Auffindbarkeit, weniger Doppelarbeit, klarere Verantwortlichkeiten. Die KI ist dann der nächste sinnvolle Schritt, nicht das Pflaster über einem strukturellen Problem.
Fazit: Erst das Fundament, dann der Copilot
KI-gestützte Suche und Dokumentenassistenten sind mächtige Werkzeuge. Aber sie sind Werkzeuge – und kein Werkzeug arbeitet besser als das Material, das man ihm gibt.
Mein Rat an jeden KMU-Entscheider, der gerade über einen internen KI-Assistenten nachdenkt: Bevor Sie das System einrichten, verbringen Sie einen halben Tag damit, Ihren Dokumentenbestand ehrlich anzuschauen. Was liegt da eigentlich? Wie alt ist es? Wer hat zuletzt aufgeräumt?
Und die entscheidende Frage zum Schluss: Was passiert, wenn euer Copilot eure Ablage von 2019 durchsucht?



