Lineare Regressionsmodelle werden verwendet, um die Beziehung zwischen zwei Variablen oder Faktoren zu zeigen oder vorherzusagen. Der Faktor, der vorhergesagt wird (der Faktor, für den die Gleichung löst), wird als abhängige Variable bezeichnet. Die Faktoren, die verwendet werden, um den Wert der abhängigen Variablen vorherzusagen, werden als unabhängige Variablen bezeichnet.
Bei der linearen Regression besteht jede Beobachtung aus zwei Werten. Ein Wert gilt für die abhängige Variable und ein Wert für die unabhängige Variable. In diesem einfachen Modell nähert sich eine gerade Linie der Beziehung zwischen der abhängigen Variablen und der unabhängigen Variablen an.
Wenn zwei oder mehr unabhängige Variablen in der Regressionsanalyse verwendet werden, ist das Modell nicht mehr einfach linear. Dies wird als multiple Regression bezeichnet.
Formel für ein einfaches lineares Regressionsmodell
Die beiden Faktoren, die an der einfachen linearen Regressionsanalyse beteiligt sind, werden mit x und y bezeichnet. Die Gleichung, die beschreibt, wie y mit x zusammenhängt, wird als Regressionsmodell bezeichnet.
Das einfache lineare Regressionsmodell wird dargestellt durch:
y = β0 +ß1x+ε
Das lineare Regressionsmodell enthält einen Fehlerterm, der durch ε dargestellt wird. Der Fehlerterm wird verwendet, um die Variabilität in y zu berücksichtigen, die nicht durch die lineare Beziehung zwischen x und y erklärt werden kann. Wenn ε nicht vorhanden wäre, würde dies bedeuten, dass die Kenntnis von x genügend Informationen liefern würde, um den Wert von y zu bestimmen.
Es gibt auch Parameter, die die untersuchte Population darstellen. Diese Parameter des Modells werden durch β0 und β1 dargestellt.
Die einfache lineare Regressionsgleichung wird als gerade Linie dargestellt, wobei:
- β0 der y-Schnittpunkt der Regressionsgeraden ist.
- β1 ist die Steigung.
- Ε(y) ist der Mittelwert oder Erwartungswert von y für einen gegebenen Wert von x.
Eine Regressionsgerade kann eine positive lineare Beziehung, eine negative lineare Beziehung oder keine Beziehung zeigen.
- Keine Beziehung: Die grafische Linie in einer einfachen linearen Regression ist flach (nicht geneigt). Es besteht keine Beziehung zwischen den beiden Variablen.
- Positive Beziehung: Die Regressionsgerade fällt nach oben ab, wobei sich das untere Ende der Linie am y-Schnittpunkt (Achse) des Graphen und das obere Ende der Linie nach oben in das Graphenfeld erstreckt, weg vom x-Schnittpunkt (Achse). Es besteht eine positive lineare Beziehung zwischen den beiden Variablen: Wenn der Wert der einen steigt, steigt auch der Wert der anderen.
- Negative Beziehung: Die Regressionsgerade fällt nach unten ab, wobei sich das obere Ende der Linie am y-Schnittpunkt (Achse) des Diagramms und das untere Ende der Linie nach unten in das Diagrammfeld in Richtung des x-Schnittpunkts (Achse) erstreckt. Es besteht eine negative lineare Beziehung zwischen den beiden Variablen: Wenn der Wert der einen zunimmt, nimmt der Wert der anderen ab.
Die geschätzte lineare Regressionsgleichung
Wenn die Parameter der Grundgesamtheit bekannt wären, könnte die einfache lineare Regressionsgleichung (siehe unten) verwendet werden, um den Mittelwert von y für einen bekannten Wert von x zu berechnen.
Ε(y) = β0 +ß1x+ε
In der Praxis sind Parameterwerte jedoch im Allgemeinen nicht bekannt, so dass sie anhand von Daten aus einer Stichprobe der Bevölkerung geschätzt werden müssen. Die Populationsparameter werden anhand von Stichprobenstatistiken geschätzt. Die Stichprobenstatistik wird durch β0 und β1 dargestellt. Wenn die Populationsparameter durch die Stichprobenstatistik ersetzt werden, wird die geschätzte Regressionsgleichung gebildet.
Die geschätzte Regressionsgleichung lautet:
(ŷ) = β0 +ß1x+ε
Hinweis: (ŷ) ist pronouncedy hat.
Der Graph der geschätzten einfachen Regressionsgleichung wird als geschätzte Regressionslinie bezeichnet.
- β0 ist der y-Schnittpunkt der Regressionsgeraden.
- β1 ist die Steigung.
- (ŷ) ist der geschätzte Wert von y für einen gegebenen Wert von x.
Grenzen der einfachen linearen Regression
Selbst die besten Daten erzählen keine vollständige Geschichte.
Die Regressionsanalyse wird häufig in der Forschung verwendet, um festzustellen, dass eine Korrelation zwischen Variablen besteht. Aber Korrelation ist nicht dasselbe wie Kausalität: eine Beziehung zwischen zwei Variablen bedeutet nicht, dass eine die andere verursacht. Selbst eine Linie in einer einfachen linearen Regression, die gut zu den Datenpunkten passt, garantiert möglicherweise keine Ursache-Wirkungs-Beziehung.
Mithilfe eines linearen Regressionsmodells können Sie feststellen, ob überhaupt eine Beziehung zwischen Variablen besteht. Um genau zu verstehen, was diese Beziehung ist und ob eine Variable eine andere verursacht, benötigen Sie zusätzliche Untersuchungen und statistische Analysen.