Mit Hilfe der linearen Regression möchten wir nun die Werte des Stresses anhand der Werte des Alters vorhersagen. Hierfür wollen wir eine Gerade in die Punktewolke legen, die die Punkte (= gemeinsame Verteilung) gut erfasst. Je mehr Punkte eine Regressionsgerade erfassen kann, desto besser unsere Schätzung. Dies bedeutet, dass wir viel Streuung der Punkte anhand des Alters vorhersagen können.
In der Realität werden wir jedoch nie eine Gerade schätzen können, die alle Punkte perfekt erfasst. Stattdessen werden immer einige Punkte abweichen – manche mehr, manche weniger. Im vorliegenden Beispiel sehen wir vor allem im unteren Bereich viele Punkte, die nicht von der Gerade erfasst wurden. Die Abweichungen von der Gerade nennt man Residuen. Sie bilden einen zentralen Teil der Analyse, da viele der Voraussetzungen der linearen Regression sich auf die Verteilung der Residuen beziehen.
Den Anteil der Punkte, die unsere Gerade erfasst, können wir über das Bestimmtheitsmaß R² erfassen. Dieses gibt uns an, welchen Anteil der Varianz der abhängigen Variable wir mit unserer unabhängigen Variable erfassen. R² kann einen Wert von 0 bis 1 annehmen, wobei hohe Werte für eine hohe Varianzaufklärung stehen und kleine Werte für eine geringe Aufklärung. Idealerweise streben wir somit ein möglichst hohes R² an. Habt ihr nur eine unabhängige Variable im Modell, könnt ihr das „normale“ R² interpretieren. Habt ihr mehr als eine unabhängige Variable im Modell (z.B. durch Dummy-Kodierung oder bei einer multiplen linearen Regression), nehmt ihr besser das korrigierte R².
Im Folgenden seht ihr ein Beispiel aus einer linearen Regression mit SPSS. Ihr findet das R² ziemlich am Anfang der Ausgabe in der Tabelle „Modellzusammenfassung“. Bei uns liegt ein R² von .062 vor. Dies bedeutet, dass 6,20 Prozent der Varianz des Stresses durch das Alter erklärt werden. Gleichzeitig bedeutet dies, dass wir 93,70 Prozent unerklärte Varianz haben. Diesen Anteil der Streuung in der Punktewolke konnten wir somit noch nicht erklären.
Das Bestimmtheitsmaß R² hat die Eigenschaft, dass es mit steigender Anzahl Variablen im Modell immer größer wird. Theoretisch könnte ich mein Modell also pushen, indem ich viele Variablen (z.B. Kontrollvariablen) mit aufnehme. Um für die Anzahl der Variablen zu kontrollieren, die sich im Modell befinden, bezieht das korrigierte R² die Anzahl geschätzter Koeffizienten im Verhältnis zur Fallzahl mit in seine Berechnung ein. Das korrigierte R² ist somit i.d.R. geringer als das normale R². Nachlesen könnt ihr die Berechnung des R² auf verständliche Weise in Stoetzer (2017, S. 42). Sobald ihr also mehr als einen Prädiktor habt oder Modelle vergleichen wollt, solltet ihr das korrigierte R² berichten.
Das R² ist ein übliches Maß zur Beurteilung des Modellfits. Ihr solltet es somit unbedingt in eurem Bericht angeben. Ihr könnt das R² im Fließtext nennen oder in Klammern angeben. Hier drei Beispiele:
(1) Das Alter trägt zur Varianzaufklärung des Stresses bei (R² = .062).
(2) Das Modell hat mit .062 eine schwache Varianzaufklärung.
(3) Das Alter erklärt 6,20 Prozent der Varianz des erlebten Stresses.
Cohen (1988, S. 412ff.) gibt folgende Richtwerte zur Interpretation der Höhe des R²-Wertes an: ab R² = .02 liegt eine schwache Varianzaufklärung vor, ab R² = .13 liegt eine mittelstarke Varianzaufklärung vor, ab R² = .26 liegt eine starke Varianzaufklärung vor.
Bei einer einfachen, linearen Regression ist das R² tatsächlich die bivariate Korrelation r zum Quadrat. Bei einer multiplen Regression mit mehreren unabhängigen Variablen ist dies nicht mehr der Fall.
Cohen, Jacob (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale: Erlbaum Associates.
Stoetzer, Matthias-W. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 1: Eine nicht-mathematische Einführung mit SPSS und Stata. Berlin: Springer Gabler Verlag. DOI 10.1007/978-3-662-53824-1