
Das Geheimnis des Deep Learning: Wenn Ockhams Rasiermesser die Transformer grokt (Teil2)
05/19/25 • 25 min
Im zweiten Teil dieser Episode untersuchen wir den Paradigmenwechsel im Deep Learning, bei dem große KI-Modelle entgegen früherer Annahmen tatsächlich zu besserer Generalisierungsfähigkeit führten. Grundlage dieser Entwicklung ist die Transformer-Architektur (seit 2017), deren „Attention“-Mechanismus Sprache im größeren Kontext analysiert.
Große Modelle wie GPT-3 (2020) zeigen bei steigender Parameterzahl überraschende Leistungssteigerungen, erklärt durch das empirisch beobachtete „Double Descent“-Phänomen. Ein verwandter Effekt ist das „Grokking“: KI-Modelle zeigen plötzliches Verständnis nach langen Phasen ohne sichtbare Lernfortschritte.
Ergänzt werden die Beschreibungen durch die Lotterielos-Hypothese: In großen Netzen existieren potenziell sehr leistungsfähige Subnetzwerke, die durch günstige Initialisierung effizient lernen können. Techniken wie Pruning ermöglichen es dann, diese zu extrahieren und die Effizienz zu steigern.
Zuletzt betrachten wir den „Absolute Zero Reasoner“ (AZR), vorgestellt im Mai 2025. Dieses Modell lernt ohne externe Daten durch ein selbstgeneriertes Aufgaben-Lösungs-System in einer codebasierten Umgebung. Erste Ergebnisse zeigen auch die Fähigkeit zur domänenübergreifenden Generalisierung – eine Eigenschaft, die einer künftigen Künstlichen Allgemeinen Intelligenz abverlangt wird.
Im zweiten Teil dieser Episode untersuchen wir den Paradigmenwechsel im Deep Learning, bei dem große KI-Modelle entgegen früherer Annahmen tatsächlich zu besserer Generalisierungsfähigkeit führten. Grundlage dieser Entwicklung ist die Transformer-Architektur (seit 2017), deren „Attention“-Mechanismus Sprache im größeren Kontext analysiert.
Große Modelle wie GPT-3 (2020) zeigen bei steigender Parameterzahl überraschende Leistungssteigerungen, erklärt durch das empirisch beobachtete „Double Descent“-Phänomen. Ein verwandter Effekt ist das „Grokking“: KI-Modelle zeigen plötzliches Verständnis nach langen Phasen ohne sichtbare Lernfortschritte.
Ergänzt werden die Beschreibungen durch die Lotterielos-Hypothese: In großen Netzen existieren potenziell sehr leistungsfähige Subnetzwerke, die durch günstige Initialisierung effizient lernen können. Techniken wie Pruning ermöglichen es dann, diese zu extrahieren und die Effizienz zu steigern.
Zuletzt betrachten wir den „Absolute Zero Reasoner“ (AZR), vorgestellt im Mai 2025. Dieses Modell lernt ohne externe Daten durch ein selbstgeneriertes Aufgaben-Lösungs-System in einer codebasierten Umgebung. Erste Ergebnisse zeigen auch die Fähigkeit zur domänenübergreifenden Generalisierung – eine Eigenschaft, die einer künftigen Künstlichen Allgemeinen Intelligenz abverlangt wird.
Vorherige Episode

Das Geheimnis des Deep Learning: Wenn Ockhams Rasiermesser die Transformer grokt (Teil1)
Der Weg nach KAI – Episode 56: Das Geheimnis des Deep Learning: Wenn Ockhams Rasiermesser die Transformer grokt (Teil1)
In dieser Episode geht es um die Grundprinzipien und kognitiven Parallelen beim Lernen künstlicher neuronaler Netze, insbesondere von Transformer-Modellen. Im Fokus steht die Frage, wie sich maschinelle Verarbeitungsschritte mit menschlicher Kognition vergleichen lassen.
KI-Modelle wie GPT verarbeiten Informationen schichtweise, wobei sich Wahrscheinlichkeiten für Antworten dynamisch entwickeln, ähnlich einem kollektiven Entscheidungsprozess. Studien zeigen, dass dieser Prozess bei schwierigen Aufgaben dem menschlichen Zögern ähnelt.
Wir untersuchen, wie Deep Learning funktioniert und warum dabei emergente Fähigkeiten entstehen können, also komplexe Eigenschaften wie Sprachverständnis oder logisches Denken, die nicht explizit programmiert wurden.
Auch das sogenannte „Sentiment-Neuron“ ist Thema und zeigt, dass digitale neuronale Netze intern ganz eigenständige Repräsentationen ausbilden können.
Nächste Episode

Der 'Geist' in der Maschine: Claude 4 Opus, KI-Ehrlichkeit und das digitale Bewusstsein (Teil 1)
Der Weg nach KAI – Episode 58: Der 'Geist' in der Maschine: Claude 4 Opus, KI-Ehrlichkeit und das digitale Bewusstsein (Teil 1)
Diesmal untersuchen wir die Frage nach der Ehrlichkeit und Vertrauenswürdigkeit moderner KI-Systeme, insbesondere im Kontext der „Chain-of-Thought“-Modelle, der KI-Reasoner, die ihre Entscheidungswege Schritt für Schritt erläutern. Zentrale Erkenntnis: Diese Gedankenketten sind oft nicht so transparent, wie es scheint.
Eine Studie von Anthropic untersuchte, ob KI-Modelle beim Beantworten von Fragen ehrlich angeben, wenn sie auf versteckte Hinweise reagieren. In mehr als 80 Prozent der Fälle, in denen ein Modell solche Hinweise nutzte, verschwieg es dies, teils durch bewusst verschachtelte und ausweichende Argumentationen. Besonders bei komplexen Aufgaben sank die Ehrlichkeit deutlich.
Zur Analyse solcher Prozesse kommen sogenannte Salienz-Karten zum Einsatz. Sie visualisieren, welche Aspekte bei der Entscheidungsfindung einer KI besonders gewichtet wurden. Ein bekanntes Beispiel: Ein KI-System lernte vermeintlich, Wölfe von Hunden zu unterscheiden, tatsächlich nutzte es den schneebedeckten Hintergrund als Entscheidungsmerkmal.
Je leistungsfähiger KI-Systeme werden, desto schwerer wird es, ihre inneren Mechanismen zu verstehen und damit ihre Kontrolle zu gewährleisten. Das sogenannte Alignment-Problem, die Übereinstimmung von KI-Handlungen mit menschlichen Werten, bleibt ungelöst und gewinnt immer mehr an Dringlichkeit.
Wenn dir diese Episode gefällt, wirst du lieben
Kommentare zur Episode
Badge generieren
Erhalte ein Badge für deine Webseite, das auf diese episode
<a href="https://goodpods.com/podcasts/der-weg-nach-kai-559931/das-geheimnis-des-deep-learning-wenn-ockhams-rasiermesser-die-transfor-91557104"> <img src="https://storage.googleapis.com/goodpods-images-bucket/badges/generic-badge-1.svg" alt="listen to das geheimnis des deep learning: wenn ockhams rasiermesser die transformer grokt (teil2) on goodpods" style="width: 225px" /> </a>
Kopieren