Warum ChatGPT und Claude schlechter werden - und welche Alternativen wirklich funktionieren
Die großen KI-Anbieter versprechen uns jeden Monat das nächste "revolutionäre" Modell. Doch wer die Tools täglich nutzt, merkt: Die neuen Versionen sind oft schlechter als ihre Vorgänger. Was als nützliches Werkzeug begann, wird systematisch zu unbrauchbarem Marketing-Spielzeug degradiert.
Das Muster: Von Nerd-Tool zu Mainstream-Müll
Sowohl OpenAI als auch Anthropic folgen dem gleichen destruktiven Pfad:
Phase 1 (2022-2023): Solide Modelle für Power-User
- ChatGPT 3.5 und frühe GPT-4 Versionen: verlässlich, wenig Halluzinationen
- Claude 3.5 Sonnet: präzise, granulare Kontrolle möglich
- Fokus auf tatsächliche Nützlichkeit
Phase 2 (2024-2025): Der Mainstream-Push
- Aggressive Vereinfachung der Benutzeroberflächen
- Entfernung granularer Kontrollmöglichkeiten
- Marketing-getriebene "Verbesserungen" die praktisch schlechter für alle "nicht-kreativen" Anwendungsfälle sind
Phase 3 (2025): Komplette Enshittification
- GPT-5+ Modelle: Mehr Halluzinationen trotz "verbesserter Reasoning"
- Claude 4.5+: Faktisch falsche Antworten werden zur Norm
- Vendor Lock-In durch schrittweise Entfernung älterer, funktionierender Modelle
Warum Modelle schlechter werden: Die systemischen Ursachen
Falsche Trainingsincentives
Die Anbieter optimieren auf synthetische Benchmarks statt echter Nützlichkeit. Ein Modell das bei MMLU oder HumanEval gut abschneidet, aber bei praktischen Aufgaben versagt, wird trotzdem als "Verbesserung" vermarktet.
Besonders problematisch: Das Training belohnt Raten statt Ehrlichkeit. Modelle lernen lieber eine selbstbewusst falsche Antwort zu geben als zuzugeben, dass sie etwas nicht wissen. In vielen Fällen verteidigen sie sogar ihre falschen Antworten mit ausgedachten Quellen und nicht auffindbaren Fakten.
Verschlechterung der Trainingsdaten
Wer schaltet das Datentraining aus? Erfahrene Nutzer, die schlechte Outputs erkennen. Wer bleibt übrig? Gelegenheitsnutzer, die Halluzinationen nicht identifizieren können oder sogar als "kreativ" bewerten.
Das führt zu einem Teufelskreis: Die Modelle lernen hauptsächlich von Nutzern, die schlechten Output nicht korrigieren können. Gleichzeitig bekommen sie keine Korrekturen von kompetenten Nutzern, da diese die Datensammlung abschal
[...] weiterlesen & kommentieren...