#45 Wie funktioniert Einfluss-Analyse bei nicht-normalverteilten Ergebnissen?

03/16/22 • 21 min

Irgendwas mit Daten - Datenanalyse in der Industrie

warum "normal-verteilt" eher nicht normal ist

Wie funktioniert Einfluss-Analyse bei nicht-normalverteilten Ergebnissen?

👉 Warum ist das Ergebnis nicht normal-verteilt?
👉 Wie funktionieren verallgemeinerte lineare Modelle (GLM: Generalized Linear Models)?
👉 Sind Machine Learning Modelle auch GLMs?

Die Normalverteilung von Messwerten wird für viele Methoden vorausgesetzt und sie scheint oft "das Normalste" von der Welt zu sein - bis echte Messwerte aufgenommen werden. Die sind selten normalverteilt und damit stellt sich schnell die Frage, warum die Messwerte nicht aus einer "normalen" Verteilung kommen.

Mögliche Antworten darauf erhalten Sie in der aktuellen Folge. Außerdem geht es darum, wie Auswertungen bei nicht-normalverteilten Messdaten z. B. mit GLMs funktionieren und wie die verallgemeinerten linearen Modelle mit den Methoden des maschinellen Lernens zusammenhängen.

Links

👉 Hilbe, S. (2010) "Generalized Linear Models", Encyclopedia of Mathematics
👉 Great Learnings Team (2021) "Generalized Linear Model | What does it mean?"
👉 Clark, M. (2019) "Generalized Additive Models"

Schreiben Sie mir!

Ich freue mich über Ihre Nachricht! Barbara Bredner, [email protected]

warum "normal-verteilt" eher nicht normal ist

Wie funktioniert Einfluss-Analyse bei nicht-normalverteilten Ergebnissen?

👉 Warum ist das Ergebnis nicht normal-verteilt?
👉 Wie funktionieren verallgemeinerte lineare Modelle (GLM: Generalized Linear Models)?
👉 Sind Machine Learning Modelle auch GLMs?

Schreiben Sie mir!

Ich freue mich über Ihre Nachricht! Barbara Bredner, [email protected]

Vorherige Episode

#44 Korrelation, Regression, ANOVA - Alles das Gleiche?

Unterschiede und Gemeinsamkeiten bei der Zusammenhangs- und Einfluss-Analyse

Korrelation, Regression und ANOVA - alles das Gleiche?

👉 Woher kommen Korrelation und Regression?
👉 Woher kommt die Varianzanalyse (ANOVA)?
👉 Was sind die Gemeinsamkeiten von ANOVA und Regression?

Wenn Korrelation, Regression und Varianzanalyse (ANOVA, Analysis Of Variance) das Gleiche wären, bräuchten wir keine unterschiedlichen Namen für die drei Verfahren - oder? Die Unterschiede sind tatsächlich eher historisch gewachsen und liegen weniger in den Unterschieden zwischen den Verfahren selbst.

Klassischerweise wurde die Regression verwendet, wenn die Einflussgrößen messbar oder variabel sind, z. B. Temperatur und Druck. Die Varianzanalyse oder ANOVA bewertete klassischerweise kategoriale oder attributive Einflüsse wie verschiedene Maschinen oder Werkzeuge. In der praktischen Anwendung gab und gibt es häufig beide Arten von Einflüssen, so dass die ursprünglichen Methoden weiterentwickelt wurden.

Die Folge gibt einen Einblick in die geschichtliche Entwicklung von Korrelation, Regression und ANOVA und zeigt auf, wie diese Verfahren mit dem allgemeinen linearen Modell (general linear model, GLM) zusammehängen.

Links

👉 Kinship & Correlation
👉 Datenanalyse-Methoden & Leben von Ronald A. Fisher
👉 Rutherford, Andres (2000) "Introducing Anova and Ancova: A GLM Approach (Introducing Statistical Methods)" Sage Publications Inc., ISBN 9780761951612
👉 Stigler, Stephen M. (1986) "The History of Statistics: The Measurements of Uncertainity Before 1900" Harvard University Press, ISBN 9780674403406

Ich freue mich über Ihre Ideen & Nachrichten!

Barbara Bredner, [email protected]

Nächste Episode

#46 Wie gut funktionieren Machine Learning Modelle

Kennzahlen für die Modell-Quaität bei messbaren Zielgrößen (Regression)

Wie gut funktionieren Machine Learning Modelle?

👉 Welche Qualitäts-Kriterien gibt es für Machine Learning?
👉 Wie wird Erklär-Qualität bei der Regression bewertet?
👉 Wann ist die Anpassungsgüte R2 groß genug?

Ein Modell mit Methoden des maschinellen Lernens wie z. B. Regression oder Klassifikation zu bauen ist einfach. Solche Modelle können uns beispielsweise optimale Arbeitspunkte liefern oder dabei helfen nachzuweisen, dass die Anforderungen in einem bestimmten Prozessfenster erfüllt werden.

Bevor ein Modell produktiv genutzt wird, sollten Sie zuerst prüfen, ob das Modell gut genug ist. In dieser Folge erhalten Sie Informationen dazu, welche Kenngrößen für die Modell- bzw. Erklär-Qualität genutzt werden und warum die beliebteste Kennzahl, die Anpassungsgüte R2, allein zu wenig ist. Alternative Kennzahlen wie die Prognosegüte liefern weitere wichtige Erkenntnisse über die Qualität des ML Modells.