
Das Geheimnis des Deep Learning: Wenn Ockhams Rasiermesser die Transformer grokt (Teil1)
05/11/25 • 22 min
In dieser Episode geht es um die Grundprinzipien und kognitiven Parallelen beim Lernen künstlicher neuronaler Netze, insbesondere von Transformer-Modellen. Im Fokus steht die Frage, wie sich maschinelle Verarbeitungsschritte mit menschlicher Kognition vergleichen lassen.
KI-Modelle wie GPT verarbeiten Informationen schichtweise, wobei sich Wahrscheinlichkeiten für Antworten dynamisch entwickeln, ähnlich einem kollektiven Entscheidungsprozess. Studien zeigen, dass dieser Prozess bei schwierigen Aufgaben dem menschlichen Zögern ähnelt.
Wir untersuchen, wie Deep Learning funktioniert und warum dabei emergente Fähigkeiten entstehen können, also komplexe Eigenschaften wie Sprachverständnis oder logisches Denken, die nicht explizit programmiert wurden.
Auch das sogenannte „Sentiment-Neuron“ ist Thema und zeigt, dass digitale neuronale Netze intern ganz eigenständige Repräsentationen ausbilden können.
In dieser Episode geht es um die Grundprinzipien und kognitiven Parallelen beim Lernen künstlicher neuronaler Netze, insbesondere von Transformer-Modellen. Im Fokus steht die Frage, wie sich maschinelle Verarbeitungsschritte mit menschlicher Kognition vergleichen lassen.
KI-Modelle wie GPT verarbeiten Informationen schichtweise, wobei sich Wahrscheinlichkeiten für Antworten dynamisch entwickeln, ähnlich einem kollektiven Entscheidungsprozess. Studien zeigen, dass dieser Prozess bei schwierigen Aufgaben dem menschlichen Zögern ähnelt.
Wir untersuchen, wie Deep Learning funktioniert und warum dabei emergente Fähigkeiten entstehen können, also komplexe Eigenschaften wie Sprachverständnis oder logisches Denken, die nicht explizit programmiert wurden.
Auch das sogenannte „Sentiment-Neuron“ ist Thema und zeigt, dass digitale neuronale Netze intern ganz eigenständige Repräsentationen ausbilden können.
Vorherige Episode

KI-Morlocks vs. Max Plancks "Urania": Digitale Innovation oder sozio-technologische Spaltung?
Der Weg nach KAI – Episode 55: KI-Morlocks vs. Max Plancks "Urania": Digitale Innovation oder sozio-technologische Spaltung?
In dieser Folge steht die Frage im Mittelpunkt, wie realistisch die Entwicklung hin zu innovativer, autonom agierender Superintelligenz tatsächlich ist und welche gesellschaftlichen Folgen sich daraus ergeben könnten. Ein Beispiel ist das KI-System Urania, entwickelt am Max-Planck-Institut für die Physik des Lichts.
Urania optimiert das Design von Gravitationswellendetektoren, indem es neuartige, extrem leistungsfähige Konfigurationen entwirft, die selbst Fachleute nicht vollständig nachvollziehen können. Dies deutet auf einen Übergang von Stufe 3 (KI-Agenten) zu Stufe 4 (KI-Innovatoren) hin, wie sie in einem von OpenAI inspirierten Klassifikationsschema beschrieben sind. Wir betrachten auch die Möglichkeit einer sozio-technologischen Spaltung: Während einige Gruppen KI souverän nutzen und davon profitieren, drohen andere – etwa durch mangelnde Bildung oder Skepsis – abgehängt zu werden. Erste Indizien zeigen sich bereits auf dem Arbeitsmarkt, wo praktische KI-Kenntnisse zunehmend klassische Qualifikationen verdrängen.
Nächste Episode

Das Geheimnis des Deep Learning: Wenn Ockhams Rasiermesser die Transformer grokt (Teil2)
Der Weg nach KAI – Episode 57: Das Geheimnis des Deep Learning: Wenn Ockhams Rasiermesser die Transformer grokt (Teil2)
Im zweiten Teil dieser Episode untersuchen wir den Paradigmenwechsel im Deep Learning, bei dem große KI-Modelle entgegen früherer Annahmen tatsächlich zu besserer Generalisierungsfähigkeit führten. Grundlage dieser Entwicklung ist die Transformer-Architektur (seit 2017), deren „Attention“-Mechanismus Sprache im größeren Kontext analysiert.
Große Modelle wie GPT-3 (2020) zeigen bei steigender Parameterzahl überraschende Leistungssteigerungen, erklärt durch das empirisch beobachtete „Double Descent“-Phänomen. Ein verwandter Effekt ist das „Grokking“: KI-Modelle zeigen plötzliches Verständnis nach langen Phasen ohne sichtbare Lernfortschritte.
Ergänzt werden die Beschreibungen durch die Lotterielos-Hypothese: In großen Netzen existieren potenziell sehr leistungsfähige Subnetzwerke, die durch günstige Initialisierung effizient lernen können. Techniken wie Pruning ermöglichen es dann, diese zu extrahieren und die Effizienz zu steigern.
Zuletzt betrachten wir den „Absolute Zero Reasoner“ (AZR), vorgestellt im Mai 2025. Dieses Modell lernt ohne externe Daten durch ein selbstgeneriertes Aufgaben-Lösungs-System in einer codebasierten Umgebung. Erste Ergebnisse zeigen auch die Fähigkeit zur domänenübergreifenden Generalisierung – eine Eigenschaft, die einer künftigen Künstlichen Allgemeinen Intelligenz abverlangt wird.
Wenn dir diese Episode gefällt, wirst du lieben
Kommentare zur Episode
Badge generieren
Erhalte ein Badge für deine Webseite, das auf diese episode
<a href="https://goodpods.com/podcasts/der-weg-nach-kai-559931/das-geheimnis-des-deep-learning-wenn-ockhams-rasiermesser-die-transfor-91028287"> <img src="https://storage.googleapis.com/goodpods-images-bucket/badges/generic-badge-1.svg" alt="listen to das geheimnis des deep learning: wenn ockhams rasiermesser die transformer grokt (teil1) on goodpods" style="width: 225px" /> </a>
Kopieren