lineære regressionsmodeller bruges til at vise eller forudsige forholdet mellem to variabler eller faktorer. Den faktor, der forudsiges (den faktor, som ligningen løser for) kaldes den afhængige variabel. De faktorer, der bruges til at forudsige værdien af den afhængige variabel, kaldes de uafhængige variabler.
i lineær regression består hver observation af to værdier. En værdi er for den afhængige variabel, og en værdi er for den uafhængige variabel. I denne enkle model tilnærmer en lige linje forholdet mellem den afhængige variabel og den uafhængige variabel.
når to eller flere uafhængige variabler anvendes i regressionsanalyse, er modellen ikke længere en simpel lineær. Dette er kendt som multipel regression.
formel for en simpel lineær regressionsmodel
de to faktorer, der er involveret i simpel lineær regressionsanalyse, betegnes h og y. Ligningen, der beskriver, hvordan y er relateret til H, kaldes regressionsmodellen.
den simple lineære regressionsmodel er repræsenteret ved:
y = KR0 +kr1k+kr1
den lineære regressionsmodel indeholder et fejludtryk, der er repræsenteret af kr. Fejludtrykket bruges til at redegøre for variabiliteten i y, der ikke kan forklares med det lineære forhold mellem H og y. hvis ikke var til stede, ville det betyde, at kendskab til H ville give tilstrækkelig information til at bestemme værdien af y.
der er også parametre, der repræsenterer den befolkning, der undersøges. Disse parametre af modellen er repræsenteret af KR0 og kr1.
den enkle lineære regressionsligning tegnes som en lige linje, hvor:
- lir0 er y-skæringspunktet for regressionslinjen.
- L. 1 er hældningen.en regressionslinje kan vise et positivt lineært forhold, et negativt lineært forhold eller intet forhold.
- intet forhold: den grafede linje i en simpel lineær regression er flad (ikke skrånende). Der er ingen sammenhæng mellem de to variabler.
- positivt forhold: regressionslinjen skråner opad med den nedre ende af linjen ved grafens y-skæringspunkt (akse) og den øverste ende af linjen, der strækker sig opad i graffeltet væk fra røntgenskæringspunktet (akse). Der er et positivt lineært forhold mellem de to variabler: når værdien af den ene stiger, øges værdien af den anden også.
- negativt forhold: Regressionslinjen skråner nedad med den øverste ende af linjen ved grafens y-skæringspunkt (akse) og den nedre ende af linjen, der strækker sig nedad i graffeltet, mod røntgenskæringspunktet (akse). Der er et negativt lineært forhold mellem de to variabler: når værdien af den ene stiger, falder værdien af den anden.
den estimerede lineære regressionsligning
hvis parametrene for befolkningen var kendt, kunne den enkle lineære regressionsligning (vist nedenfor) bruges til at beregne middelværdien af y for en kendt værdi af H.
L.(y) = L. 0 +L. 1+L. i praksis er parameterværdier dog generelt ikke kendt, så de skal estimeres ved hjælp af data fra en stikprøve af populationen. Populationsparametrene estimeres ved hjælp af stikprøvestatistikker. Stikprøvestatistikken er repræsenteret af KR0 og kr1. Når stikprøvestatistikken erstattes af populationsparametrene, dannes den estimerede regressionsligning.
den estimerede regressionsligning er:
(lir) = lir0 +lir1+lir
Bemærk: (LIR) er pronomen hat.
grafen for den estimerede enkle regressionsligning kaldes den estimerede regressionslinje.
- lir0 er y-skæringspunktet for regressionslinjen.
- L. 1 er hældningen.
- (li) er den estimerede værdi af y for en given værdi af H.
grænser for simpel lineær Regression
selv de bedste data fortæller ikke en komplet historie.
regressionsanalyse bruges ofte i forskning for at fastslå, at der findes en sammenhæng mellem variabler. Men korrelation er ikke det samme som årsagssammenhæng: et forhold mellem to variabler betyder ikke, at den ene får den anden til at ske. Selv en linje i en simpel lineær regression, der passer godt til datapunkterne, garanterer muligvis ikke et årsag-og-virkning-forhold.
brug af en lineær regressionsmodel giver dig mulighed for at opdage, om der overhovedet findes et forhold mellem variabler. For at forstå præcis, hvad dette forhold er, og om en variabel forårsager en anden, skal du have yderligere forskning og statistisk analyse.