Was steckt dahinter, was bringt es – und lohnt sich das für dein KMU?

Von Sönke Schäfer, Datenschäfer – sesoft.de

Claude Code ist ein leistungsfähiges Werkzeug. Aber es läuft normalerweise über Anthropics Cloud – jede Anfrage geht raus, die Antwort kommt zurück, der Takt läuft. Das ist bequem. Aber es erzeugt Kosten, und es bedeutet: Deine Daten verlassen deinen Rechner.

Seit Januar 2026 gibt es einen anderen Weg. Ollama – ein lokaler KI-Runner für Windows, macOS und Linux – unterstützt jetzt die Anthropic Messages API. Das bedeutet: Claude Code kann mit einem Modell reden, das auf deinem eigenen Rechner läuft. Kein Internet erforderlich. Keine API-Kosten. Keine Daten nach außen.

Klingt gut. Aber es hat seinen Preis – nicht im Abo, sondern in der Hardware.

Wie die Verbindung technisch funktioniert

Ollama läuft im Hintergrund als lokaler Server auf Port 11434. Claude Code spricht normalerweise die Anthropic API an – aber du kannst es mit drei Umgebungsvariablen auf deinen lokalen Ollama-Server umleiten:

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434

Dann startest du Claude Code mit einem lokal laufenden Modell:

claude --model qwen3-coder

Das war es. Claude Code denkt, es redet mit der Anthropic API – tatsächlich redet es mit deinem lokalen Modell. Deine Dateien, dein Kontext, deine Daten bleiben auf dem Rechner.

Wer lieber eine Konfigurationsdatei nutzt, schreibt das in ~/.claude/settings.json:

{
  "env": {
    "ANTHROPIC_BASE_URL": "http://localhost:11434",
    "ANTHROPIC_AUTH_TOKEN": "ollama",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
  }
}

Das letzte Flag verhindert, dass Claude Code Telemetrie oder Update-Checks nach außen schickt – sinnvoll, wenn der Betrieb wirklich offline sein soll.

Welche Modelle eignen sich?

Nicht jedes Open-Source-Modell kann mit Claude Code umgehen. Claude Code schickt einen komplexen System-Prompt von ca. 16.000 Tokens – das Modell muss damit klarkommen und außerdem Tool-Calling beherrschen (Datei lesen, Code ausführen, Dateien schreiben).

Die Community-Favoriten Stand März 2026:

GLM 4.7 Flash – 128k Kontextfenster, optimiert für Tool-Calling, läuft gut auf 16 GB VRAM. Aktuell der beliebteste Einstieg.

Qwen3-Coder – Aktuell der Goldstandard für Open-Source-Coding. In der 32B-Variante sehr leistungsfähig, in der 7B-Variante auch auf schwächerer Hardware nutzbar.

Codestral (Mistral) – Sehr gut für Python und komplexe Logik. Hardware-hungrig.

Modelle laden per Befehl:

ollama pull qwen3-coder
ollama pull glm4:7b-flash

Empfehlung für den Einstieg: Mit glm4:7b-flash anfangen – läuft auf moderater Hardware, Tool-Calling funktioniert zuverlässig.

Vorteile

Datenschutz – der wichtigste Punkt für deutsche KMU

Deine Daten verlassen den Rechner nicht. Kein Anthropic-API-Logging, kein Training auf deinem Code, kein Risiko, dass vertrauliche Kundenstrukturen oder Geschäftsdaten in einer fremden Infrastruktur landen. Für Betriebe mit sensiblen Daten – Produktionspläne, Patientendaten, Mandanteninformationen, firmeninternes Know-how – ist das kein theoretisches Argument. Es ist die einzige DSGVO-saubere Lösung für KI-gestützte Automatisierung.

Keine laufenden API-Kosten

Claude Code mit dem Max-Plan kostet 100–200 Dollar im Monat. Mit Ollama läuft es kostenlos – abgesehen vom Stromverbrauch. Wer Claude Code intensiv nutzt, rechnet hier schnell mit einer Amortisation der Hardware-Investition.

Offline-Betrieb

Kein Internet nötig. Relevant für Produktionsumgebungen ohne externe Anbindung, gesicherte Netze oder einfach für den Fall, dass der Provider mal ausfällt.

Modell-Freiheit

Heute Qwen, morgen DeepSeek, übermorgen das nächste Open-Source-Modell. Kein Vendor-Lock-in, kein Kündigungsaufwand.

Nachteile

Qualität bleibt hinter den Top-Modellen zurück

Die besten Open-Source-Modelle sind gut – aber sie kommen nicht an Claude Opus 4.6 oder Sonnet 4.6 heran. Für einfache Aufgaben, Automatisierungen und Routinearbeit reicht es. Für komplexe mehrstufige Analysen oder anspruchsvolle Codegenerierung merkt man den Unterschied.

Geschwindigkeit ohne starke GPU ist schmerzhaft

Auf einem normalen Büro-PC ohne dedizierte GPU: Eine einfache Antwort kann Minuten dauern, nicht Sekunden. Das ist kein Tippfehler. Auf einem M1 Max MacBook Pro mit 64 GB RAM dauert ein simples „Hi“ rund 55 Sekunden, das Auflisten von Dateien ca. 2 Minuten. Ohne passende Hardware ist lokale KI kein Werkzeug – es ist eine Geduldsprobe.

Wartungsaufwand

Modelle müssen aktuell gehalten werden. Ollama muss laufen. Konfiguration muss gepflegt werden. Das übernimmt niemand außer dir.

Hardware-Anforderungen und grobe Preise

Das ist der Kern der Frage. Was muss der Rechner leisten – und was kostet das?

Hardware-Ausstattung	Nutzbarkeit	Geeignete Modelle	Grobe Kosten (nur GPU bzw. Komplettsystem)
16 GB RAM, keine dedizierte GPU	Sehr langsam, kaum praxistauglich	Qwen 7B auf CPU	vorhandener PC, 0 € Zusatzkosten
32 GB RAM, RTX 3060 12 GB VRAM	Akzeptabel für leichte Aufgaben	GLM 4.7 Flash, Qwen 14B	GPU gebraucht ca. 200–350 €
32 GB RAM, RTX 3090 24 GB VRAM	Gut	Qwen 32B, GLM 4.7 Flash	GPU gebraucht ca. 400–700 €
64 GB RAM, RTX 4090 24 GB VRAM	Sehr gut	Qwen 32B, Codestral	GPU neu ca. 2.000–3.300 €
Apple M3 Pro/Max 36–64 GB RAM	Sehr gut (unified memory)	Qwen 32B, Devstral	MacBook/Mac Studio ab ca. 2.500 €

Hinweise zu den Preisen: Die RTX 4090 ist durch KI-Nachfrage stark im Preis gestiegen – neue Karten kosten aktuell je nach Modell 2.000 bis über 3.000 Euro. Gebrauchte RTX 3090 (24 GB VRAM) sind der bessere Einstieg für KMU: Für 400–700 Euro bekommst du ein Modell, das für lokale KI-Workloads sehr gut geeignet ist. Die RTX 3060 mit 12 GB VRAM ist der günstigste sinnvolle Einstieg, hat aber Grenzen bei größeren Modellen.

Wer einen kompletten Arbeitsrechner neu aufbauen will: Realistisches Budget für einen produktionstauglichen lokalen KI-Rechner (inkl. CPU, RAM, Mainboard, SSD, RTX 3090 gebraucht) liegt bei ca. 1.500–2.500 Euro.

Lohnt sich das für ein KMU in Deutschland?

Ja, wenn:

Sensible Daten verarbeitet werden, die das Haus nicht verlassen dürfen
Bereits ein leistungsfähiger PC mit starker GPU vorhanden ist
Die Nutzung intensiv genug ist, um die Hardware über eingesparte API-Kosten zu amortisieren
Ein technisch versierter Mitarbeiter oder Dienstleister die Einrichtung und Pflege übernimmt
DSGVO-Dokumentation für KI-gestützte Verarbeitung gefordert wird

Nein, wenn:

Keine passende Hardware vorhanden ist und erst investiert werden muss
Niemand im Betrieb Zeit hat, das System zu warten
Die verarbeiteten Daten nicht so sensibel sind, dass eine Cloud-Lösung ein Problem wäre
Die Nutzung sporadisch ist – dann ist Claude Pro für 20 Dollar im Monat wirtschaftlicher

Die Faustformel: Wer eine RTX 3090 oder besser bereits im Haus hat und DSGVO-Gründe für lokale Verarbeitung mitbringt – ja, lohnt sich. Wer erst Hardware kaufen muss, nur um Abo-Kosten zu sparen: Die Amortisation gegenüber einem Pro-Plan dauert Jahre.

Für die meisten KMU in Schleswig-Holstein, die mit normaler Büro-Hardware arbeiten, bleibt Claude.ai Pro mit Remote Control der pragmatischere Weg. Gut, günstig, sofort nutzbar – und ohne eigene Infrastruktur.

Wer aber wirklich auf Datenschutz angewiesen ist und die Hardware hat: Das Setup funktioniert. Es ist nicht einfach, aber es funktioniert.

Kurzanleitung: Einrichtung in 5 Schritten

1. Ollama installieren

Windows und macOS: Installer von ollama.com herunterladen und ausführen. Linux:

curl -fsSL https://ollama.com/install.sh | sh

2. Modell herunterladen

ollama pull glm4:7b-flash

Oder für mehr Leistung (braucht 24 GB VRAM):

ollama pull qwen3-coder

3. Ollama-Server starten (läuft nach Installation meist automatisch)

ollama serve

4. Claude Code installieren (Node.js Voraussetzung)

npm install -g @anthropic-ai/claude-code
claude /login

5. Claude Code auf Ollama umleiten

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434
claude --model glm4:7b-flash

Fertig. Claude Code läuft jetzt vollständig lokal.

Fazit

Lokal geht. Mit der richtigen Hardware sogar gut. Aber „die richtige Hardware“ fängt erst bei einer RTX 3090 oder 32+ GB unified memory an – und das ist eine Investition, die gute Gründe braucht.

Für KMU, die sensible Daten verarbeiten und ohnehin in leistungsfähige Hardware investieren, ist das eine echte Option. Für alle anderen: Cloud-KI ist billiger, einfacher und für die meisten Aufgaben gut genug.

Struktur zuerst. Dann entscheiden, welches Werkzeug passt. Und dann – erst dann – die Hardware kaufen.

Sönke Schäfer ist selbstständiger IT-Berater und Datenbankarchitekt in Neustadt in Holstein. Unter dem Namen „Datenschäfer“ begleitet er KMU in Schleswig-Holstein bei der Digitalisierung ihrer Datenprozesse. Mehr auf sesoft.de

Quellen:

docs.ollama.com/integrations/claude-code
ollama.com/blog/claude
towardsdatascience.com: Run Claude Code for Free with Local and Cloud Models from Ollama
datacamp.com: Using Claude Code With Ollama Local Models
Geizhals.de: GPU-Preise März 2026