Was Zürich bewegt

News zu Politik, Gesellschaft & Lebensqualität

Südstarts geradeaus
Keine Südstarts geradeaus

KI-Skalierung am Limit: Die Suche nach dem nächsten Durchbruch

Jahrelang folgte die Entwicklung künstlicher Intelligenz einem simplen Prinzip: Größer ist besser. Mehr Parameter, mehr Daten, mehr Rechenleistung – die sogenannten Skalierungsgesetze versprachen stetige Verbesserungen. Doch diese Ära könnte sich dem Ende zuneigen. Die KI-Industrie sucht nach neuen Wegen, um die nächste Leistungsstufe zu erreichen.

Das Ende einer Ära?

Die klassischen Skalierungsgesetze besagen, dass KI-Modelle mit zunehmender Größe vorhersehbar besser werden. Diese Erkenntnis trieb einen Wettkampf der Giganten an: GPT-3 hatte 175 Milliarden Parameter, GPT-4 vermutlich über eine Billion. Doch die Kosten explodieren. Das Training modernster Modelle verschlingt Hunderte Millionen Dollar, und die Verbesserungen pro investiertem Dollar nehmen ab.

Zudem wird hochwertiges Trainingsmaterial knapp. Das Internet ist weitgehend „abgegrast“, und synthetische Daten bergen das Risiko des „Model Collapse“ – wenn KI-Modelle zu sehr von ihren eigenen Outputs lernen, können sie degenerieren.

Test-Time Compute: Denken statt Wachsen

Eine vielversprechende Alternative ist die Verlagerung von Rechenleistung vom Training zur Inferenz. Statt immer größere Modelle zu bauen, lässt man sie während der Antwortgenerierung länger nachdenken. OpenAIs o1-Modelle demonstrieren diesen Ansatz: Sie durchlaufen mehrere Reasoning-Schritte, bevor sie antworten, und erzielen damit in komplexen Aufgaben bessere Resultate als ihre größeren Vorgänger.

Der Vorteil: Diese Methode skaliert flexibel. Für einfache Fragen reichen schnelle Antworten, für schwierige Probleme kann das Modell mehr Zeit investieren.

Die Qualitätsoffensive

Parallel setzen Forscher auf Datenqualität statt Quantität. Kuratierte, spezialisierte Datensätze können effizienter sein als wahllos gesammelte Internetinhalte. Multimodale Ansätze, die Text, Bild, Video und Audio kombinieren, versprechen tieferes Verständnis ohne reine Größensteigerung.

Auch algorithmische Innovationen spielen eine Rolle. Mixture-of-Experts-Architekturen aktivieren für jede Anfrage nur relevante Teilnetzwerke, was die Effizienz dramatisch steigert. Knowledge Distillation überträgt das Wissen großer Modelle auf kleinere, handhabbare Versionen.

Ein hybrider Weg

Die Zukunft der KI liegt wahrscheinlich nicht in der Ablösung, sondern in der Ergänzung der Skalierung. Größere Modelle bleiben wichtig, aber kombiniert mit intelligenteren Trainingsmethoden, effizienterem Reasoning und besseren Daten. Die Ära des blinden „Bigger is Better“ weicht einem differenzierteren Ansatz – einer KI-Entwicklung, die klüger statt nur größer wird.