KI im KMU ist mehr als ein Chat-Fenster. Der eigentliche Hebel heißt RAG – Retrieval-Augmented Generation. Hier erfährst Du, was das ist, warum es für Dein Unternehmen den Unterschied macht, und welche Lösungen es heute gibt. Cloud, lokal, europäisch, chinesisch – pragmatisch eingeordnet.
Was ist RAG – und warum sollte Dich das interessieren?
Du kennst ChatGPT, Claude oder Copilot. Du tippst eine Frage ein, bekommst eine Antwort. Das klingt praktisch – bis Du merkst: Die KI kennt Dein Unternehmen nicht. Sie weiß nichts über Deine Kunden, Deine Produkte, Deine internen Abläufe. Sie halluziniert sich etwas zusammen, das plausibel klingt, aber mit Deiner Realität wenig zu tun hat.
Genau hier kommt RAG ins Spiel.
RAG steht für Retrieval-Augmented Generation – auf Deutsch etwa „abrufgestützte Textgenerierung“. Das Prinzip ist einfach: Bevor die KI eine Antwort formuliert, durchsucht sie erst Deine eigenen Dokumente, Datenbanken oder Dateien nach relevanten Informationen. Nur was sie dort findet, fließt in die Antwort ein.
Der Ablauf in drei Schritten:
- Retrieval (Abruf): Deine Frage wird in eine Suchanfrage umgewandelt. Das System durchsucht Deine Firmendaten – PDFs, Word-Dokumente, SQL-Datenbanken, SharePoint-Ordner – und findet die passenden Textabschnitte.
- Augmented (Angereichert): Die gefundenen Abschnitte werden zusammen mit Deiner Frage an das Sprachmodell übergeben. Die KI bekommt also Kontext, den sie sonst nicht hätte.
- Generation (Erzeugung): Erst jetzt formuliert die KI ihre Antwort – und zwar gestützt auf Dein tatsächliches Firmenwissen.
Das Ergebnis: weniger Halluzinationen, mehr Relevanz, nachvollziehbare Quellen.
Warum ist das DER Unterschied zu ChatGPT & Co. im Arbeitsalltag?
Ein nacktes Sprachmodell – egal ob GPT, Claude oder Llama – ist wie ein brillanter Berater, der am ersten Tag ins Unternehmen kommt: klug, eloquent, aber komplett ahnungslos über Deine Abläufe. RAG gibt diesem Berater Zugriff auf Dein Firmenarchiv. Er liest sich ein, bevor er antwortet.
Ohne RAG fragt ein Mitarbeiter: „Was ist unsere Kulanzregelung bei verspäteter Lieferung?“ – und bekommt eine generische Antwort aus dem Internet. Mit RAG bekommt er die tatsächliche Regelung aus Eurem Handbuch, mit Verweis auf das Dokument.
Das ist keine Spielerei. Das ist der Unterschied zwischen einem teuren Gadget und einem nützlichen Werkzeug.
Cloud oder lokal? Zwei Welten – ein Ziel
Wer RAG im Unternehmen einsetzen will, steht vor einer grundsätzlichen Entscheidung: Lässt Du Deine Daten zu einem Cloud-Anbieter fließen – oder bleibt alles auf Deinem eigenen Server?
Cloud-basierte RAG-Lösungen
Bei Cloud-Lösungen übernimmt der Anbieter die gesamte Infrastruktur: Sprachmodell, Vektordatenbank, Embedding-Pipeline, Updates. Du verbindest Deine Datenquellen über Konnektoren, und die KI antwortet auf Basis Deiner Dokumente.
Vorteile: Kein eigener Server nötig, kein GPU-Invest, schneller Start, automatische Updates, professioneller Support.
Nachteile: Deine Daten verlassen Dein Unternehmen. Auch wenn Anbieter vertraglich zusichern, nicht mit Deinen Daten zu trainieren – sie liegen auf fremden Servern. Laufende Kosten pro Nutzer. Abhängigkeit vom Anbieter (Vendor Lock-in).
Lokale RAG-Lösungen (On-Premise)
Bei lokalen Lösungen läuft alles auf Deiner eigenen Hardware: das Sprachmodell, die Vektordatenbank, die Dokumentenverarbeitung. Kein Byte verlässt Dein Netzwerk.
Vorteile: Volle Datenkontrolle, DSGVO-konform by Design, keine laufenden Lizenzkosten für Cloud-Dienste, keine Abhängigkeit von US-Anbietern.
Nachteile: Du brauchst Hardware (GPU-Server), technisches Know-how für Einrichtung und Wartung, und die Sprachmodelle sind (noch) nicht ganz auf dem Niveau der großen Cloud-Modelle.
Die ehrliche Mitte
Für viele KMU liegt die Wahrheit dazwischen: Man nutzt eine europäische Plattform wie Langdock, die als DSGVO-konforme Middleware auf deutschen Servern läuft, aber im Hintergrund auf die APIs großer Modelle zugreift – mit vertraglicher Absicherung, dass keine Trainingsdaten abfließen. Oder man kombiniert: Copilot für den Office-Alltag, eine lokale Lösung für sensible Daten.
Die Lösungen im Überblick
Microsoft 365 Copilot – RAG im Microsoft-Ökosystem
Copilot nutzt den Microsoft Graph und einen semantischen Index, um KI-Antworten in den Unternehmensdaten zu verankern – SharePoint, OneDrive, Outlook, Teams. Das ist im Kern RAG, nur dass Microsoft die komplette Pipeline fertig bereitstellt.
Datenanbindung: Nativ an alle Microsoft-365-Quellen. Über Copilot Studio und Graph Connectors lassen sich auch externe Systeme anbinden, darunter Salesforce, ServiceNow und Azure SQL Server. Seit 2025 unterstützt Copilot Studio außerdem das Model Context Protocol (MCP).
Kosten: Copilot Business kostet ca. 19,70 € pro Nutzer und Monat als Add-on (Jahresabrechnung). Voraussetzung ist mindestens Microsoft 365 Business Standard (~12 €/Monat). In Summe also rund 30 € pro Nutzer und Monat. Aktuell gibt es Einführungsrabatte bis März 2026.
Besonderheit: Für Unternehmen, die bereits voll im Microsoft-Ökosystem leben, ist das der schnellste Weg zu RAG mit Firmendaten. Die Grenze: SQL-Server-Datenbanken und Fileshares außerhalb von SharePoint sind nicht out-of-the-box angebunden.
Claude for Work (Team / Enterprise) – RAG über Projects und Connectors
Claude nutzt in seinen „Projects“ ein RAG-System, das bei großen Dokumentenmengen automatisch aktiviert wird. Man lädt Dokumente hoch oder verbindet Datenquellen über Connectors – Google Drive, Gmail, Slack, GitHub und weitere.
Besonderheit: Bezahlte Nutzer können Custom Connectors über eine MCP-Server-URL einrichten. Das ermöglicht die Anbindung proprietärer interner Systeme. Anfang 2026 hat Anthropic mit Claude Cowork ein umfassendes Update geliefert – mit privaten Plugin-Marktplätzen, abteilungsspezifischen Plugins und 13 neuen MCP-Connectors.
Kosten: Team-Plan ab 25 $/Nutzer/Monat (Jahresabrechnung), Minimum 5 Nutzer. Enterprise: individuelle Preisgestaltung.
Stärke: Die KI-Qualität von Claude (besonders Opus) ist bei komplexen Analysen und Texten führend. Flexibler als Copilot bei der Anbindung eigener Systeme über MCP.
Langdock – Die deutsche DSGVO-Middleware
Langdock ist eine Plattform aus Berlin, die den Zugang zu verschiedenen KI-Modellen (GPT, Claude, Mistral, Llama) in einer Oberfläche bündelt. Die Infrastruktur läuft auf deutschen Servern.
RAG-Fähigkeiten: Native Konnektoren zu Google Drive, SharePoint, OneDrive, Confluence und Notion. Zusätzlich ein automatischer PII-Redaction-Layer, der personenbezogene Daten schwärzt, bevor sie an ein Modell gehen.
Besonderheit: Modellunabhängig – Du wechselst zwischen GPT, Claude und Mistral, je nach Aufgabe. Eine Rechnung, alle Modelle.
Ehrliche Einschätzung: Für Unternehmen ohne eigene IT, die DSGVO-konform arbeiten wollen, eine starke Option. Die RAG-Funktion basiert aber auf Dokumenten – eine direkte SQL-Server-Anbindung gibt es nicht. Und: Die Qualität der Antworten hängt direkt an der Qualität der hochgeladenen Dokumente. Chaotische Ablagestruktur rein, chaotische Antworten raus.
AnythingLLM – Das Schweizer Taschenmesser (lokal)
AnythingLLM ist eine Open-Source-Plattform (über 53.000 GitHub-Stars), die RAG, KI-Agents und Dokumenten-Chat in einer Anwendung vereint. Komplett lokal installierbar, Docker-basiert, mit Mehrbenutzerverwaltung.
Datenanbindung: Dokumente hochladen (PDF, DOCX, CSV, Markdown), plus ein eingebauter SQL-Agent für direkte Abfragen gegen MySQL und PostgreSQL; SQL Server auch, aber noch hakelig. Unterstützt über 30 LLM-Provider, darunter Ollama für komplett lokalen Betrieb.
Besonderheit: Die Kombination aus Dokumenten-RAG und SQL-Agent in einer Oberfläche ist einzigartig. Man kann dem Agent sagen: „Zeig mir die Umsätze vom Mai“ – und er führt eine echte SQL-Abfrage aus.
Ehrliche Einschätzung: Die SQL-Anbindung funktioniert, hat aber noch Stabilitätsprobleme. Nutzer berichten von gelegentlichen Verbindungsabbrüchen. Für interne Wissensdatenbanken brauchbar, für produktionskritische Systeme noch nicht ausgereift genug.
Open WebUI + Ollama – Der leichte Einstieg (lokal)
Open WebUI ist eine Chat-Oberfläche, Ollama die lokale LLM-Engine. Zusammen ergeben sie den einfachsten Einstieg in lokale KI. Open WebUI bringt rudimentäre RAG-Funktionen mit – Dokumente hochladen, Embedding, Suche.
Besonderheit: Innerhalb einer Stunde lauffähig. Guter erster Proof-of-Concept mit PDFs und Textdateien.
Grenze: Keine SQL-Anbindung, keine automatisierte Dokumenten-Ingestion, kein Rechtekonzept. Für den produktiven Einsatz im Team braucht man zusätzliche Komponenten.
n8n + Ollama – Die Workflow-Lösung (lokal)
n8n ist ein Open-Source-Workflow-Automatisierer (vergleichbar mit Zapier, aber self-hosted). In Kombination mit Ollama lässt sich eine komplette RAG-Pipeline visuell zusammenklicken: Dokumente einlesen, embedden, in eine Vektordatenbank schreiben, bei Anfragen relevante Abschnitte retrieven und an Ollama weiterleiten.
Besonderheit: Visuelle Oberfläche für Workflows. Auch Nicht-Entwickler können Automatisierungen bauen. Ideal für KMU, die bereits Prozessautomatisierung nutzen.
Grenze: Höchster Setup-Aufwand aller lokalen Lösungen. Man baut sich die RAG-Pipeline selbst aus Bausteinen zusammen.
PrivateGPT – RAG-first, komplett lokal
PrivateGPT (über 57.000 GitHub-Stars) ist eine Open-Source-Lösung, die speziell für Dokumenten-Q&A gebaut wurde. Du lädst Dokumente hoch, PrivateGPT indexiert sie und beantwortet Fragen ausschließlich auf Basis dieser Dokumente.
Besonderheit: Fokussiert auf genau einen Use-Case: „Frag Deine Dokumente.“ Unterstützt Ollama, llama.cpp, vLLM und Cloud-APIs. Docker-basiert, läuft auf CPU und GPU.
Grenze: Kein SQL-Agent, keine Workflow-Automatisierung. Reines Dokumenten-RAG.
Exkurs: Chinesische Open-Source-Modelle als lokale Alternative
Wer lokal arbeitet, wählt das Sprachmodell frei. Neben Meta’s Llama und Mistral aus Frankreich haben sich zwei chinesische Modellfamilien als starke Alternativen etabliert:
DeepSeek (China)
DeepSeek hat mit seinen V3- und R1-Modellen die KI-Welt aufgemischt. Die Besonderheit: DeepSeek-R1 ist ein Reasoning-Modell, das seinen Denkprozess Schritt für Schritt offenlegt – vergleichbar mit OpenAI o1, aber Open Source. Über Ollama lässt sich DeepSeek-R1 lokal betreiben. Die kleineren destillierten Varianten (7B, 14B, 32B Parameter) laufen auf einer einzelnen NVIDIA RTX 3090/4090.
Stärke für RAG: DeepSeek-R1 eignet sich besonders, wenn die KI nicht nur Fakten aus Dokumenten extrahieren, sondern logisch schlussfolgern soll – etwa bei technischen Analysen oder juristischen Fragestellungen.
Lizenz: Open Source (MIT-Lizenz), kommerziell nutzbar.
Qwen (Alibaba, China)
Die Qwen-Familie von Alibaba ist das „Schweizer Taschenmesser“ unter den Open-Source-Modellen. Es gibt Varianten von 0,5B bis 72B Parametern, Versionen für Text, Code und Vision, plus eigene Embedding- und Reranking-Modelle – also genau die Bausteine, die man für eine RAG-Pipeline braucht.
Stärke für RAG: Qwen liefert nicht nur das Sprachmodell, sondern auch die Embedding-Modelle, die für die Vektorisierung der Dokumente nötig sind. Man kann die komplette RAG-Pipeline mit Qwen-Komponenten bauen – alles lokal, alles Open Source.
Lizenz: Apache 2.0, kommerziell nutzbar.
Ein Wort zur Einordnung
Beide Modellfamilien sind technisch hervorragend und laufen problemlos auf europäischer Hardware. Die geopolitische Diskussion um chinesische KI-Modelle ist berechtigt, betrifft aber primär die Cloud-Dienste dieser Anbieter. Wenn Du DeepSeek oder Qwen lokal auf Deinem eigenen Server betreibst, verlässt kein einziges Byte Dein Netzwerk. Die Modellgewichte sind öffentlich einsehbar. Trotzdem sollte man sich der Herkunft bewusst sein und die Modelle im eigenen Kontext evaluieren.
Pragmatische Einordnung: Welche Lösung für welches KMU?
| Lösung | Typ | RAG mit Docs | SQL-Zugriff | Setup (Beratertage) | Lfd. Kosten/Nutzer/Monat | Für wen? |
|---|---|---|---|---|---|---|
| Copilot (M365) | Cloud (Microsoft) | Ja, nativ | Via Graph Connectors | 2–5 Tage | ~30 € (inkl. M365-Basis) | KMU im Microsoft-Ökosystem |
| Claude Team | Cloud (Anthropic) | Ja, Projects | Via Custom MCP | 3–6 Tage | ~25 $ (nur Claude) | Teams mit KI-Power-Usern |
| Langdock | Cloud (DE) | Ja, Konnektoren | Nein (nur Docs) | 1–3 Tage | Ab ~20 €/Nutzer | KMU ohne IT, DSGVO-sensibel |
| AnythingLLM + Ollama | 100 % lokal | Ja, eingebaut | Ja (MySQL, PG) | 5–8 Tage | 0 € Software, nur Strom + HW | KMU mit IT-Affinität |
| Open WebUI + Ollama | 100 % lokal | Rudimentär | Nein | 1–2 Tage | 0 € Software | Erster Proof-of-Concept |
| n8n + Ollama | 100 % lokal | Ja, per Workflow | Ja (per Workflow) | 8–12 Tage | 0 € Software | KMU mit Automatisierungsbedarf |
| PrivateGPT | 100 % lokal | Ja, Kernfunktion | Nein | 3–5 Tage | 0 € Software | Reines Dokumenten-Q&A |
Zu den Hardware-Kosten bei lokalen Lösungen: Ein gebrauchter Server oder eine Workstation mit NVIDIA RTX 3090 oder 4090 (16–24 GB VRAM) kostet einmalig ca. 1.500–3.000 €. Das reicht für Modelle mit 7B bis 14B Parametern, die flüssig laufen und 80 % der typischen Unternehmensanfragen abdecken. Ohne GPU geht es auch – nur deutlich langsamer.
DSGVO und der DSK-Rahmen: Rückenwind für lokale RAG
Im Oktober 2025 hat die Datenschutzkonferenz (DSK) – also die Vereinigung der deutschen Datenschutzbehörden – eine Orientierungshilfe zu RAG-basierten KI-Systemen veröffentlicht. Die wichtigsten Aussagen:
RAG wird als risikomindernde Maßnahme anerkannt. Die DSK sieht RAG positiv: Die Technik kann Halluzinationen reduzieren, weil die KI gezwungen wird, ihre Antworten auf vorgegebene Referenzdokumente zu stützen. Außerdem können Betroffenenrechte (Auskunft, Löschung, Berichtigung) in der Vektordatenbank umgesetzt werden – anders als im trainierten Modell, wo das nahezu unmöglich ist.
Lokaler Betrieb wird ausdrücklich empfohlen. Die DSK betont, dass RAG-Systeme eigenständig entwickelt und betrieben werden können. Der lokale Betrieb (On-Premise) vermeidet die Übermittlung personenbezogener Daten an Hyperscaler und bildet den Grundsatz „Datenschutz by Design“ ab.
Es gibt keine Pauschalfreigabe. Die Erstellung von Embeddings und die Speicherung in einer Vektordatenbank sind eigene Verarbeitungsschritte, die eine Rechtsgrundlage nach der DSGVO benötigen. Jeder Anwendungsfall muss einzeln bewertet werden.
Was konkret nötig ist: Eine Datenschutz-Folgenabschätzung (DSFA) gemäß Art. 35 DSGVO. Ein Rechte- und Rollenkonzept mit Zugriffsbeschränkungen auf die Vektordatenbank. Mandantentrennung, wenn mehrere Abteilungen oder Kunden betroffen sind. Regelmäßige Prüfung der Qualität und Aktualität der Referenzdokumente. Und die Sicherstellung, dass personenbezogene Daten, die für den Zweck nicht erforderlich sind, entfernt werden (Datenminimierung).
Wichtig: Ein rechtswidrig trainiertes LLM bleibt auch mit RAG rechtswidrig. RAG löst nicht die Grundprobleme des Modell-Trainings – aber es mindert die Risiken im Betrieb erheblich.
Fazit: Struktur vor KI
RAG ist kein Buzzword. Es ist die Technologie, die KI vom allwissenden Orakel zum nützlichen Werkzeug macht – einem Werkzeug, das Dein Firmenwissen kennt und nutzt.
Aber – und das ist der entscheidende Punkt – RAG funktioniert nur so gut wie die Daten, die Du ihm gibst. Chaotische Ordnerstrukturen, inkonsistente Dokumentennamen, fehlende Berechtigungen: Die KI wird all das gnadenlos offenlegen. Wer RAG einführt, muss zuerst seine Datenstruktur in Ordnung bringen.
Genau deshalb gilt: Struktur vor KI. Ordnung vor Automatisierung. Wirtschaftlichkeit vor Technologie.
Die Technik ist da. Die Bausteine existieren. Was fehlt, ist jemand, der die Brücke baut zwischen den vorhandenen Unternehmensdaten und der KI, die sie nutzen soll. Jemand, der SQL-Server, Dokumentenablage und Geschäftsprozesse versteht – und daraus eine Lösung ableitet, die zum Unternehmen passt.
Du willst wissen, welcher Weg für Dein Unternehmen der richtige ist? Lass uns darüber sprechen – in einem kostenlosen Erstgespräch.
Quellen und weiterführende Links
- Microsoft: „Knowledge in Microsoft Copilot Studio“ (März 2025) – microsoft.com/en-us/power-platform/blog
- Microsoft Learn: „Enhance AI responses with RAG – Copilot Studio“ – learn.microsoft.com
- Microsoft Learn: „Microsoft 365 Copilot Retrieval API Overview“ – learn.microsoft.com
- Anthropic: „RAG for Projects“ – support.claude.com
- Anthropic: „Use connectors to extend Claude’s capabilities“ – support.claude.com
- WinBuzzer: „Anthropic Adds 13 Enterprise Plugins to Claude Cowork“ (Februar 2026) – winbuzzer.com
- CIO.com: „Anthropic targets core business systems with new Claude plug-ins“ (März 2026) – cio.com
- Langdock: Plattform und Preise – langdock.com/de
- mdmki.de: „Langdock: Die Middleware-Plattform für KI-Modelle“ (Dezember 2025) – mdmki.de
- AnythingLLM: Dokumentation und Agent Usage – docs.useanything.com
- DataCamp: „AnythingLLM: Complete Guide to Setup, RAG, and Use Cases“ – datacamp.com
- DSK: „Orientierungshilfe zu KI-Systemen mit RAG-Methode“ (Oktober 2025) – datenschutzkonferenz-online.de
- Datenschutzticker: „DSK: Datenschutzkonformer Einsatz von KI mit der RAG-Methode“ – datenschutzticker.de
- JUN Legal: „KI-RAG-Systeme als Datenschutz-Lösung?“ – jun.legal
- Martin Kässler: „Lokale LLM: Die besten Plattformen und Use-Cases 2026″ – martinkaessler.com
- Red Hat Developer: „The state of open source AI models in 2025″ – developers.redhat.com
- MongoDB Developer: „Local-first and Reasoning-enhanced RAG With DeepSeek“ – mongodb.com/developer
- Computech: „Microsoft 365 Copilot für KMU: Der komplette Ratgeber“ – computech.gmbh


