Régression linéaire vs logistique
Dans l'analyse statistique, il est important d'identifier les relations entre les variables concernées par l'étude. Parfois, cela peut être le seul objectif de l'analyse elle-même. L'analyse de régression est un outil puissant utilisé pour établir l'existence d'une relation et identifier la relation.
La forme la plus simple d'analyse de régression est la régression linéaire, où la relation entre les variables est une relation linéaire. En termes statistiques, il met en évidence la relation entre la variable explicative et la variable de réponse. Par exemple, en utilisant la régression, nous pouvons établir la relation entre le prix du produit et la consommation sur la base de données collectées à partir d'un échantillon aléatoire. L'analyse de régression produira une fonction de régression de l'ensemble de données, qui est un modèle mathématique qui correspond le mieux aux données disponibles. Cela peut facilement être représenté par un nuage de points. Graphiquement, la régression équivaut à trouver la meilleure courbe d'ajustement pour l'ensemble de données donné. La fonction de la courbe est la fonction de régression. En utilisant le modèle mathématique, l'utilisation d'un produit peut être prédite pour un prix donné.
Par conséquent, l'analyse de régression est largement utilisée dans la prédiction et la prévision. Il est également utilisé pour établir les relations dans les données expérimentales, dans les domaines de la physique, de la chimie et dans de nombreuses disciplines des sciences naturelles et de l'ingénierie. Si la relation ou la fonction de régression est une fonction linéaire, alors le processus est appelé régression linéaire. Dans le nuage de points, il peut être représenté par une ligne droite. Si la fonction n'est pas une combinaison linéaire des paramètres, alors la régression est non linéaire.
La régression logistique est comparable à la régression multivariée et crée un modèle pour expliquer l'impact de plusieurs prédicteurs sur une variable de réponse. Cependant, dans la régression logistique, la variable du résultat final doit être catégorique (généralement divisée, c'est-à-dire une paire de résultats atteignables, comme la mort ou la survie, bien que des techniques spéciales permettent de modéliser des informations plus catégorisées). Une variable de résultat continue peut être transformée en une variable catégorielle, à utiliser pour la régression logistique; cependant, le regroupement des variables continues de cette manière est généralement déconseillé car cela réduit la précision.
Contrairement à la régression linéaire, vers la moyenne, les variables prédictives de la régression logistique n'ont pas à être obligées d'être connectées linéairement, communément distribuées ou d'avoir une variance égale à l'intérieur de chaque cluster. En conséquence, la relation entre le prédicteur et les variables de résultat n'est probablement pas une fonction linéaire.
Quelle est la différence entre la régression logistique et linéaire?
• Dans la régression linéaire, une relation linéaire entre la variable explicative et la variable de réponse est supposée et les paramètres satisfaisant le modèle sont trouvés par analyse, pour donner la relation exacte.
• Une régression linéaire est effectuée pour les variables quantitatives et la fonction résultante est une fonction quantitative.
• Dans la régression logistique, les données utilisées peuvent être catégorielles ou quantitatives, mais le résultat est toujours catégorique.