Accesskeys: Mit n zur Navigation, mit c zum Inhalt

Diese Webseite verwendet Cookies zum Spamschutz, zur dauerhaften Sprachauswahl, zum dauerhaften einloggen und für Statistiksoftware.

Mit Nutzung dieser Webseite erklären Sie sich damit einverstanden. Datenschutzerklärung

Warum ChatGPT und Claude schlechter werden - und welche Alternativen wirklich funktionieren

Die großen KI-Anbieter versprechen uns jeden Monat das nächste "revolutionäre" Modell. Doch wer die Tools täglich nutzt, merkt: Die neuen Versionen sind oft schlechter als ihre Vorgänger. Was als nützliches Werkzeug begann, wird systematisch zu unbrauchbarem Marketing-Spielzeug degradiert.

Das Muster: Von Nerd-Tool zu Mainstream-Müll

Sowohl OpenAI als auch Anthropic folgen dem gleichen destruktiven Pfad:

Phase 1 (2022-2023): Solide Modelle für Power-User

  • ChatGPT 3.5 und frühe GPT-4 Versionen: verlässlich, wenig Halluzinationen
  • Claude 3.5 Sonnet: präzise, granulare Kontrolle möglich
  • Fokus auf tatsächliche Nützlichkeit

Phase 2 (2024-2025): Der Mainstream-Push

  • Aggressive Vereinfachung der Benutzeroberflächen
  • Entfernung granularer Kontrollmöglichkeiten
  • Marketing-getriebene "Verbesserungen" die praktisch schlechter für alle "nicht-kreativen" Anwendungsfälle sind

Phase 3 (2025): Komplette Enshittification

  • GPT-5+ Modelle: Mehr Halluzinationen trotz "verbesserter Reasoning"
  • Claude 4.5+: Faktisch falsche Antworten werden zur Norm
  • Vendor Lock-In durch schrittweise Entfernung älterer, funktionierender Modelle

Warum Modelle schlechter werden: Die systemischen Ursachen

Falsche Trainingsincentives

Die Anbieter optimieren auf synthetische Benchmarks statt echter Nützlichkeit. Ein Modell das bei MMLU oder HumanEval gut abschneidet, aber bei praktischen Aufgaben versagt, wird trotzdem als "Verbesserung" vermarktet.

Besonders problematisch: Das Training belohnt Raten statt Ehrlichkeit. Modelle lernen lieber eine selbstbewusst falsche Antwort zu geben als zuzugeben, dass sie etwas nicht wissen. In vielen Fällen verteidigen sie sogar ihre falschen Antworten mit ausgedachten Quellen und nicht auffindbaren Fakten.

Verschlechterung der Trainingsdaten

Wer schaltet das Datentraining aus? Erfahrene Nutzer, die schlechte Outputs erkennen. Wer bleibt übrig? Gelegenheitsnutzer, die Halluzinationen nicht identifizieren können oder sogar als "kreativ" bewerten.

Das führt zu einem Teufelskreis: Die Modelle lernen hauptsächlich von Nutzern, die schlechten Output nicht korrigieren können. Gleichzeitig bekommen sie keine Korrekturen von kompetenten Nutzern, da diese die Datensammlung abschalten.

Business-Model-Konflikte

Die Anbieter brauchen:

  • Hohe Nutzerzahlen für Investoren
  • Trainingsdaten für weitere Modelle
  • Vendor Lock-In für langfristige Profite

Was Nutzer brauchen (verlässliche, kontrollierbare Tools) steht dem entgegen. Also werden bewusst schlechtere, aber "zugänglichere" Modelle gepusht.

Konkrete Beispiele der Verschlechterung

ChatGPT: Von nützlich zu nutzlos

GPT-4 (frühe Versionen, 2023):

  • Präzise technische Antworten
  • Wenig Halluzinationen bei Faktenfragen
  • Gute Code-Qualität

GPT-5+ (2024/2025):

  • Deutlich mehr Halluzinationen trotz "advanced reasoning"
  • Schlechtere Code-Qualität bei praktischen Aufgaben
  • Übermäßig verbos, weniger präzise

Claude: Das gleiche Spiel

Claude 3.5 Sonnet:

  • Exzellente Hallucination-Scores in Tests
  • Granulare Berechtigungen in Claude Code
  • Verlässliche Performance

Claude 4.5+ (2025):

  • Mehr Halluzinationen trotz "extended thinking"
  • Pauschale Ordner-Berechtigungen statt granularer Kontrolle
  • Faktisch falsche Antworten werden Standard

Die besseren Alternativen: Spezialisierte Tools statt Allzweck-KI

Statt auf die Marketing-Versprechen der großen Anbieter zu setzen, sollte man spezialisierte Tools für spezifische Anwendungen nutzen.

Recherche & Lernen

Perplexity API + LLM CLI

  • Deutlich weniger Halluzinationen als ChatGPT/Claude
  • Echte Quellenangaben statt erfundener Zitate
  • Transparente Preisstruktur ohne Vendor Lock-In
pip install llm llm-perplexity
llm -m sonar-deep-research "Complex research topic"

Coding

Continue.dev + Ollama

  • CLI-basiert wie das frühere Claude Code
  • Lokale Modelle: Qwen3:30b-a3b, Deepseek Coder
  • Granulare Dateiberechtigungen statt pauschaler Zugriffe
  • Keine Verschlechterung durch erzwungene Updates

Cursor mit eigenen Model-Settings

  • Weniger aggressiv bei Model-Updates
  • Bessere Kontrolle über verwendete Modelle

Kreatives Schreiben

Claude 3.5 Sonnet (solange verfügbar)

  • Nutze bewusst ältere, funktionierende Versionen
  • Umgehe neuere "Verbesserungen"

Lokale Modelle via Ollama

  • Llama 3.1 70B für längere Texte
  • Mistral 7B für schnelle Iterationen
  • Keine Zensur durch Corporate-Richtlinien

Bildgeneration

Lokal: ComfyUI + SDXL/Flux

  • Volle Kontrolle über den Generationsprozess
  • Keine Nutzungseinschränkungen
  • Konsistente Qualität ohne Service-Degradation

API: Replicate oder RunPod

  • Stabile API-Preise ohne versteckte Kosten
  • Zugriff auf neueste Open-Source Modelle
  • Weniger Corporate-Einschränkungen

Praktisches Vorgehen: Wie du den Vendor-Frust vermeidest

1. Teste ausgiebig vor dem Commitment

Nutze jedes Tool mindestens eine Woche für deine echten Aufgaben. Ignoriere Marketing-Claims und Benchmarks – nur deine praktische Erfahrung zählt.

2. Diversifiziere deine Tools

Setze nie auf einen einzigen Anbieter. Nutze:

  • Lokale Modelle für private/sensible Aufgaben
  • Spezialisierte APIs für spezifische Anwendungen
  • Verschiedene Anbieter als Fallback

3. Dokumentiere Verschlechterungen

Führe Logs über Performance-Changes. Wenn ein Tool schlechter wird, hast du Daten statt nur "gefühlte" Verschlechterung.

4. Nutze bewusst ältere Modelle

# Claude Code mit älterem Modell
claude --model claude-sonnet-4-20250514

# LLM CLI mit spezifischem Modell  
llm -m gpt-4-0125-preview "query"

Ältere Versionen sind oft stabiler und weniger überladen mit Marketing-Features.

Warum lokale Lösungen die Zukunft sind

Die großen Anbieter folgen alle dem gleichen Muster: Brauchbare Tools werden zu Datensammel-Plattformen mit KI-Branding degradiert. Lokale Lösungen bieten:

  • Stabilität: Ein funktionierendes lokales Modell bleibt funktionsfähig
  • Kontrolle: Du bestimmst Updates, nicht der Vendor
  • Privatsphäre: Deine Daten verlassen nie deine Hardware
  • Kosteneffizienz: Keine monatlichen Abos für verschlechterte Services

Fazit: Zeit für den Ausstieg

Die großen KI-Anbieter haben ihre nützliche Phase hinter sich. Was bleibt ist Marketing-getriebene Verschlechterung bei steigenden Preisen. Wer produktiv arbeiten will, sollte:

  1. Sofort diversifizieren: Abhängigkeit von einem Anbieter beenden
  2. Lokal experimentieren: Ollama + spezialisierte Tools testen
  3. Bewusst downgraden: Ältere, funktionierende Modelle nutzen solange möglich
  4. Alternativen stärken: Kleinere Anbieter und Open-Source-Projekte unterstützen

Die KI-Revolution ist nicht vorbei – aber sie findet nicht bei OpenAI, Google oder Anthropic statt. Sie findet in deinem Terminal statt, mit Tools die du kontrollierst, nicht umgekehrt.


Nützliche Links:

  • Continue.dev: https://continue.dev
  • Ollama Setup: https://ollama.ai
  • LLM CLI: https://llm.datasette.io
  • Perplexity API: https://docs.perplexity.ai
  • ComfyUI: https://github.com/comfyanonymous/ComfyUI

Dieser Artikel basiert auf praktischer Erfahrung mit verschiedenen KI-Tools zwischen 2023-2025. Konkrete Performance-Daten und Hallucination-Rates stammen aus öffentlich verfügbaren Studien und eigenen Tests. Der Artikel wurde mit Hilfe von KI erstellt und in Teilen von Claude Sonet 4 generiert.

Tim
25.11.2025

< Cookies sind mir egal!  

Kommentar schreiben

Gravatar Unterstützung

* benötigt


Die E-Mail Adresse wird versteckt und nur genutzt um Dein Gravatar an zu zeigen, wenn Du eins hast.

Abmelden