Lineaire regressiemodellen worden gebruikt om de relatie tussen twee variabelen of factoren te laten zien of voorspellen. De factor die wordt voorspeld (de factor waarvoor de vergelijking oplost) wordt de afhankelijke variabele genoemd. De factoren die worden gebruikt om de waarde van de afhankelijke variabele te voorspellen worden de onafhankelijke variabelen genoemd.
in lineaire regressie bestaat elke waarneming uit twee waarden. Een waarde is voor de afhankelijke variabele en een waarde is voor de onafhankelijke variabele. In dit eenvoudige model benadert een rechte lijn de relatie tussen de afhankelijke variabele en de onafhankelijke variabele.
wanneer twee of meer onafhankelijke variabelen worden gebruikt in de regressieanalyse, is het model niet langer een eenvoudig lineair model. Dit staat bekend als meervoudige regressie.
formule voor een eenvoudig lineair regressiemodel
de twee factoren die betrokken zijn bij eenvoudige lineaire regressieanalyse worden aangeduid met x en y. De vergelijking die beschrijft hoe y gerelateerd is aan x staat bekend als het regressiemodel.
het enkelvoudige lineaire regressiemodel wordt weergegeven door:
y = β0 +ß1x+ε
Het lineaire regressiemodel bevat een foutterm die wordt weergegeven door ε. De foutterm wordt gebruikt om rekening te houden met de variabiliteit in y die niet kan worden verklaard door de lineaire relatie tussen x en y. Als ε Niet aanwezig was, zou dat betekenen dat het kennen van X voldoende informatie zou opleveren om de waarde van y te bepalen.
Er zijn ook parameters die de bestudeerde populatie vertegenwoordigen. Deze parameters van het model worden weergegeven door β0 en β1.
De eenvoudige lineaire regressievergelijking wordt weergegeven als een rechte lijn, waarbij:
- β0 het y-snijpunt van de regressielijn is.
- β1 is de helling.
- Ε (y) is de gemiddelde of verwachte waarde van y voor een gegeven waarde van x.
een regressielijn kan een positieve lineaire relatie, een negatieve lineaire relatie of geen relatie vertonen.
- geen relatie: de grafische lijn in een eenvoudige lineaire regressie is vlak (niet schuin). Er is geen verband tussen de twee variabelen.
- positieve relatie: de regressielijn helt omhoog met het onderste uiteinde van de lijn op de Y-as (as) van de grafiek en het bovenste uiteinde van de lijn die zich naar boven uitstrekt in het veld van de grafiek, weg van de x-as (as). Er is een positieve lineaire relatie tussen de twee variabelen: als de waarde van de ene toeneemt, neemt ook de waarde van de andere toe.
- negatieve relatie: De regressielijn helt naar beneden met het bovenste uiteinde van de lijn op de Y-as (as) van de grafiek en het onderste uiteinde van de lijn die zich naar beneden uitstrekt in het veld van de grafiek, in de richting van de x-as (as). Er is een negatieve lineaire relatie tussen de twee variabelen: als de waarde van de ene toeneemt, neemt de waarde van de andere af.
de geschatte Lineaire regressievergelijking
indien de parameters van de populatie bekend waren, zou de eenvoudige lineaire regressievergelijking (zie hieronder) kunnen worden gebruikt om de gemiddelde waarde van y te berekenen voor een bekende waarde van x.
Ε (y) = β0 +ß1x+ε
in de praktijk zijn de parameterwaarden echter in het algemeen niet bekend, zodat zij moeten worden geschat aan de hand van gegevens van een steekproef van de populatie. De populatieparameters worden geschat aan de hand van steekproefstatistieken. De steekproefstatistieken worden weergegeven door β0 en β1. Wanneer de steekproefstatistieken voor de populatieparameters worden vervangen, wordt de geschatte regressievergelijking gevormd.
de geschatte regressievergelijking is:
(ŷ) = β0 +ß1x+ε
de grafiek van de geschatte enkelvoudige regressielijn wordt de geschatte regressielijn genoemd.
- β0 is het y-snijpunt van de regressielijn.
- β1 is de helling.
- (ŷ) is de geschatte waarde van y voor een bepaalde waarde van x.
grenzen van eenvoudige lineaire regressie
zelfs de beste gegevens vertellen geen volledig verhaal.
regressieanalyse wordt vaak gebruikt in onderzoek om vast te stellen dat er een correlatie bestaat tussen variabelen. Maar correlatie is niet hetzelfde als oorzakelijk verband: een relatie tussen twee variabelen betekent niet dat de ene de andere veroorzaakt. Zelfs een lijn in een eenvoudige lineaire regressie die past bij de datapunten goed kan niet garanderen een oorzaak-en-gevolg relatie.
met behulp van een lineair regressiemodel kunt u ontdekken of er een relatie tussen variabelen bestaat. Om precies te begrijpen wat die relatie is, en of de ene variabele een andere veroorzaakt, heb je aanvullend onderzoek en statistische analyse nodig.