Les modèles de régression linéaire sont utilisés pour montrer ou prédire la relation entre deux variables ou facteurs. Le facteur prédit (le facteur pour lequel l’équation résout) est appelé variable dépendante. Les facteurs utilisés pour prédire la valeur de la variable dépendante sont appelés variables indépendantes.
En régression linéaire, chaque observation se compose de deux valeurs. Une valeur est pour la variable dépendante et une valeur est pour la variable indépendante. Dans ce modèle simple, une droite se rapproche de la relation entre la variable dépendante et la variable indépendante.
Lorsque deux variables indépendantes ou plus sont utilisées dans l’analyse de régression, le modèle n’est plus un modèle linéaire simple. C’est ce qu’on appelle la régression multiple.
Formule Pour un Modèle de régression Linéaire Simple
Les deux facteurs impliqués dans l’analyse de régression linéaire simple sont désignés x et y. L’équation qui décrit la relation entre y et x est connue sous le nom de modèle de régression.
Le modèle de régression linéaire simple est représenté par :
y = β0 + ß1x + ε
Le modèle de régression linéaire contient un terme d’erreur représenté par ε. Le terme d’erreur est utilisé pour tenir compte de la variabilité de y qui ne peut être expliquée par la relation linéaire entre x et y. Si ε n’était pas présent, cela signifierait que la connaissance de x fournirait suffisamment d’informations pour déterminer la valeur de y.
Il existe également des paramètres qui représentent la population étudiée. Ces paramètres du modèle sont représentés par β0 et β1.
L’équation de régression linéaire simple est représentée par une droite, où :
- β0 est l’ordonnée à l’origine de la droite de régression.
- β1 est la pente.
- Ε(y) est la valeur moyenne ou attendue de y pour une valeur donnée de x.
Une droite de régression peut montrer une relation linéaire positive, une relation linéaire négative ou aucune relation.
- Pas de relation: La droite graphée dans une régression linéaire simple est plate (non inclinée). Il n’y a pas de relation entre les deux variables.
- Relation positive : La droite de régression s’incline vers le haut avec l’extrémité inférieure de la droite à l’ordonnée à l’origine (axe) du graphique et l’extrémité supérieure de la ligne s’étendant vers le haut dans le champ du graphique, loin de l’ordonnée à l’origine (axe). Il existe une relation linéaire positive entre les deux variables: à mesure que la valeur de l’une augmente, la valeur de l’autre augmente également.
- Relation négative: La ligne de régression s’incline vers le bas avec l’extrémité supérieure de la ligne à l’ordonnée (axe) du graphique et l’extrémité inférieure de la ligne s’étendant vers le bas dans le champ du graphique, vers l’ordonnée (axe). Il existe une relation linéaire négative entre les deux variables: à mesure que la valeur de l’une augmente, la valeur de l’autre diminue.
L’Équation de régression linéaire estimée
Si les paramètres de la population étaient connus, l’équation de régression linéaire simple (illustrée ci-dessous) pourrait être utilisée pour calculer la valeur moyenne de y pour une valeur connue de x.
Ε(y) = β0 + ß1x + ε
En pratique, cependant, les valeurs des paramètres ne sont généralement pas connues, elles doivent donc être estimées à l’aide de données provenant d’un échantillon de la population. Les paramètres de population sont estimés à l’aide de statistiques d’échantillonnage. Les statistiques de l’échantillon sont représentées par β0 et β1. Lorsque les statistiques de l’échantillon sont substituées aux paramètres de la population, l’équation de régression estimée est formée.
L’équation de régression estimée est:
(ŷ) = β0 + ß1x + ε
Remarque: ( hat) est un chapeau prononcé.
Le graphique de l’équation de régression simple estimée est appelé la droite de régression estimée.
- β0 est l’ordonnée à l’origine de la droite de régression.
- β1 est la pente.
- (ŷ) est la valeur estimée de y pour une valeur donnée de x.
Limites de la régression linéaire simple
Même les meilleures données ne racontent pas une histoire complète.
L’analyse de régression est couramment utilisée dans la recherche pour établir qu’une corrélation existe entre les variables. Mais la corrélation n’est pas la même que la causalité: une relation entre deux variables ne signifie pas que l’une provoque l’autre. Même une ligne dans une régression linéaire simple qui correspond bien aux points de données peut ne pas garantir une relation de cause à effet.
L’utilisation d’un modèle de régression linéaire vous permettra de découvrir s’il existe une relation entre les variables. Pour comprendre exactement ce qu’est cette relation et si une variable en provoque une autre, vous aurez besoin de recherches et d’analyses statistiques supplémentaires.