Warum ChatGPT und Claude schlechter werden - und welche Alternativen wirklich funktionieren
Die großen KI-Anbieter versprechen uns jeden Monat das nächste "revolutionäre" Modell. Doch wer die Tools täglich nutzt, merkt: Die neuen Versionen sind oft schlechter als ihre Vorgänger. Was als nützliches Werkzeug begann, wird systematisch zu unbrauchbarem Marketing-Spielzeug degradiert.
Das Muster: Von Nerd-Tool zu Mainstream-Müll
Sowohl OpenAI als auch Anthropic folgen dem gleichen destruktiven Pfad:
Phase 1 (2022-2023): Solide Modelle für Power-User
- ChatGPT 3.5 und frühe GPT-4 Versionen: verlässlich, wenig Halluzinationen
- Claude 3.5 Sonnet: präzise, granulare Kontrolle möglich
- Fokus auf tatsächliche Nützlichkeit
Phase 2 (2024-2025): Der Mainstream-Push
- Aggressive Vereinfachung der Benutzeroberflächen
- Entfernung granularer Kontrollmöglichkeiten
- Marketing-getriebene "Verbesserungen" die praktisch schlechter für alle "nicht-kreativen" Anwendungsfälle sind
Phase 3 (2025): Komplette Enshittification
- GPT-5+ Modelle: Mehr Halluzinationen trotz "verbesserter Reasoning"
- Claude 4.5+: Faktisch falsche Antworten werden zur Norm
- Vendor Lock-In durch schrittweise Entfernung älterer, funktionierender Modelle
Warum Modelle schlechter werden: Die systemischen Ursachen
Falsche Trainingsincentives
Die Anbieter optimieren auf synthetische Benchmarks statt echter Nützlichkeit. Ein Modell das bei MMLU oder HumanEval gut abschneidet, aber bei praktischen Aufgaben versagt, wird trotzdem als "Verbesserung" vermarktet.
Besonders problematisch: Das Training belohnt Raten statt Ehrlichkeit. Modelle lernen lieber eine selbstbewusst falsche Antwort zu geben als zuzugeben, dass sie etwas nicht wissen. In vielen Fällen verteidigen sie sogar ihre falschen Antworten mit ausgedachten Quellen und nicht auffindbaren Fakten.
Verschlechterung der Trainingsdaten
Wer schaltet das Datentraining aus? Erfahrene Nutzer, die schlechte Outputs erkennen. Wer bleibt übrig? Gelegenheitsnutzer, die Halluzinationen nicht identifizieren können oder sogar als "kreativ" bewerten.
Das führt zu einem Teufelskreis: Die Modelle lernen hauptsächlich von Nutzern, die schlechten Output nicht korrigieren können. Gleichzeitig bekommen sie keine Korrekturen von kompetenten Nutzern, da diese die Datensammlung abschalten.
Business-Model-Konflikte
Die Anbieter brauchen:
- Hohe Nutzerzahlen für Investoren
- Trainingsdaten für weitere Modelle
- Vendor Lock-In für langfristige Profite
Was Nutzer brauchen (verlässliche, kontrollierbare Tools) steht dem entgegen. Also werden bewusst schlechtere, aber "zugänglichere" Modelle gepusht.
Konkrete Beispiele der Verschlechterung
ChatGPT: Von nützlich zu nutzlos
GPT-4 (frühe Versionen, 2023):
- Präzise technische Antworten
- Wenig Halluzinationen bei Faktenfragen
- Gute Code-Qualität
GPT-5+ (2024/2025):
- Deutlich mehr Halluzinationen trotz "advanced reasoning"
- Schlechtere Code-Qualität bei praktischen Aufgaben
- Übermäßig verbos, weniger präzise
Claude: Das gleiche Spiel
Claude 3.5 Sonnet:
- Exzellente Hallucination-Scores in Tests
- Granulare Berechtigungen in Claude Code
- Verlässliche Performance
Claude 4.5+ (2025):
- Mehr Halluzinationen trotz "extended thinking"
- Pauschale Ordner-Berechtigungen statt granularer Kontrolle
- Faktisch falsche Antworten werden Standard
Die besseren Alternativen: Spezialisierte Tools statt Allzweck-KI
Statt auf die Marketing-Versprechen der großen Anbieter zu setzen, sollte man spezialisierte Tools für spezifische Anwendungen nutzen.
Recherche & Lernen
Perplexity API + LLM CLI
- Deutlich weniger Halluzinationen als ChatGPT/Claude
- Echte Quellenangaben statt erfundener Zitate
- Transparente Preisstruktur ohne Vendor Lock-In
pip install llm llm-perplexity
llm -m sonar-deep-research "Complex research topic"Coding
Continue.dev + Ollama
- CLI-basiert wie das frühere Claude Code
- Lokale Modelle: Qwen3:30b-a3b, Deepseek Coder
- Granulare Dateiberechtigungen statt pauschaler Zugriffe
- Keine Verschlechterung durch erzwungene Updates
Cursor mit eigenen Model-Settings
- Weniger aggressiv bei Model-Updates
- Bessere Kontrolle über verwendete Modelle
Kreatives Schreiben
Claude 3.5 Sonnet (solange verfügbar)
- Nutze bewusst ältere, funktionierende Versionen
- Umgehe neuere "Verbesserungen"
Lokale Modelle via Ollama
- Llama 3.1 70B für längere Texte
- Mistral 7B für schnelle Iterationen
- Keine Zensur durch Corporate-Richtlinien
Bildgeneration
Lokal: ComfyUI + SDXL/Flux
- Volle Kontrolle über den Generationsprozess
- Keine Nutzungseinschränkungen
- Konsistente Qualität ohne Service-Degradation
API: Replicate oder RunPod
- Stabile API-Preise ohne versteckte Kosten
- Zugriff auf neueste Open-Source Modelle
- Weniger Corporate-Einschränkungen
Praktisches Vorgehen: Wie du den Vendor-Frust vermeidest
1. Teste ausgiebig vor dem Commitment
Nutze jedes Tool mindestens eine Woche für deine echten Aufgaben. Ignoriere Marketing-Claims und Benchmarks – nur deine praktische Erfahrung zählt.
2. Diversifiziere deine Tools
Setze nie auf einen einzigen Anbieter. Nutze:
- Lokale Modelle für private/sensible Aufgaben
- Spezialisierte APIs für spezifische Anwendungen
- Verschiedene Anbieter als Fallback
3. Dokumentiere Verschlechterungen
Führe Logs über Performance-Changes. Wenn ein Tool schlechter wird, hast du Daten statt nur "gefühlte" Verschlechterung.
4. Nutze bewusst ältere Modelle
# Claude Code mit älterem Modell
claude --model claude-sonnet-4-20250514
# LLM CLI mit spezifischem Modell
llm -m gpt-4-0125-preview "query"
Ältere Versionen sind oft stabiler und weniger überladen mit Marketing-Features.
Warum lokale Lösungen die Zukunft sind
Die großen Anbieter folgen alle dem gleichen Muster: Brauchbare Tools werden zu Datensammel-Plattformen mit KI-Branding degradiert. Lokale Lösungen bieten:
- Stabilität: Ein funktionierendes lokales Modell bleibt funktionsfähig
- Kontrolle: Du bestimmst Updates, nicht der Vendor
- Privatsphäre: Deine Daten verlassen nie deine Hardware
- Kosteneffizienz: Keine monatlichen Abos für verschlechterte Services
Fazit: Zeit für den Ausstieg
Die großen KI-Anbieter haben ihre nützliche Phase hinter sich. Was bleibt ist Marketing-getriebene Verschlechterung bei steigenden Preisen. Wer produktiv arbeiten will, sollte:
- Sofort diversifizieren: Abhängigkeit von einem Anbieter beenden
- Lokal experimentieren: Ollama + spezialisierte Tools testen
- Bewusst downgraden: Ältere, funktionierende Modelle nutzen solange möglich
- Alternativen stärken: Kleinere Anbieter und Open-Source-Projekte unterstützen
Die KI-Revolution ist nicht vorbei – aber sie findet nicht bei OpenAI, Google oder Anthropic statt. Sie findet in deinem Terminal statt, mit Tools die du kontrollierst, nicht umgekehrt.
Nützliche Links:
- Continue.dev: https://continue.dev
- Ollama Setup: https://ollama.ai
- LLM CLI: https://llm.datasette.io
- Perplexity API: https://docs.perplexity.ai
- ComfyUI: https://github.com/comfyanonymous/ComfyUI
Dieser Artikel basiert auf praktischer Erfahrung mit verschiedenen KI-Tools zwischen 2023-2025. Konkrete Performance-Daten und Hallucination-Rates stammen aus öffentlich verfügbaren Studien und eigenen Tests. Der Artikel wurde mit Hilfe von KI erstellt und in Teilen von Claude Sonet 4 generiert.