Fondamentaux de l'analyse des données. L'analyse de régression est une méthode statistique pour étudier la dépendance d'une variable aléatoire à l'égard des variables

L'exemple suivant utilise le fichier de données Pauvreté. sta. Vous pouvez l'ouvrir à l'aide du menu Fichier en sélectionnant la commande Ouvrir ; Très probablement, ce fichier de données se trouve dans le répertoire /Examples/Datasets. Les données sont basées sur une comparaison des résultats des recensements de 1960 et 1970 pour un échantillon aléatoire de 30 comtés. Les noms de comté sont saisis comme identifiants d’observation.

Les informations suivantes pour chaque variable sont fournies dans la feuille de calcul de l'éditeur de spécification de variable (ouverte en sélectionnant la commande Toutes les spécifications de variable... dans le menu Données).

Objectif de l'étude. Nous analyserons les corrélats de la pauvreté (c'est-à-dire les prédicteurs qui sont « fortement » corrélés au pourcentage de familles vivant sous le seuil de pauvreté). Ainsi, nous considérerons la variable 3 (Pt_Poor) comme une variable dépendante ou critère, et toutes les autres variables comme des variables indépendantes ou des prédicteurs.

Analyse initiale. Lorsque vous sélectionnez la commande Régression multiple dans le menu Analyse, la zone de lancement du module Régression multiple s'ouvre. Vous pouvez définir une équation de régression en cliquant sur le bouton Variables dans l'onglet Rapide du panneau de démarrage du module Régression Multiple. Dans la fenêtre Sélectionner les variables qui apparaît, sélectionnez Pt_Poor comme variable dépendante et toutes les autres variables de l'ensemble de données comme variables indépendantes. Dans l'onglet Avancé, cochez également la case Afficher les statistiques descriptives, corr. matrices.



Cliquez maintenant sur OK dans cette boîte de dialogue, ce qui ouvrira la boîte de dialogue Afficher les statistiques descriptives. Ici, vous pouvez afficher les moyennes, les écarts types, les corrélations et les covariances entre les variables. Notez que cette boîte de dialogue est accessible à partir de presque toutes les fenêtres suivantes du module Régression multiple, vous pouvez donc toujours revenir en arrière pour consulter les statistiques descriptives de variables spécifiques.

Distribution des variables. Examinons d’abord la distribution de la variable dépendante Pt_Poor entre les comtés. Cliquez sur Moyennes et écarts types pour afficher un tableau des résultats.


Sélectionnez Histogrammes dans le menu Graphiques pour créer un histogramme pour la variable Pt_Poor (dans l'onglet Avancé de la boîte de dialogue Histogrammes 2M, définissez l'option Nombre de catégories dans la ligne Catégories sur 16). Comme vous pouvez le voir ci-dessous, la distribution de cette variable est quelque peu différente de la distribution normale. Les coefficients de corrélation peuvent être considérablement surestimés ou sous-estimés s'il existe des valeurs aberrantes significatives dans l'échantillon. Cependant, bien que deux comtés (les deux colonnes les plus à droite) aient un pourcentage de familles vivant en dessous du seuil de pauvreté plus élevé que ce à quoi on pourrait s'attendre dans le cadre d'une distribution normale, ils semblent toujours se situer « dans une fourchette approximative ».



Cette décision est quelque peu subjective ; La règle générale est que l'inquiétude ne doit être soulevée que lorsque l'observation (ou les observations) se situent en dehors de l'intervalle spécifié par la moyenne ± 3 écarts types. Dans ce cas, il serait prudent de répéter la partie critique (en termes d’influence des valeurs aberrantes) de l’analyse avec et sans valeurs aberrantes pour s’assurer qu’elles n’influencent pas la nature des corrélations croisées. Vous pouvez également afficher la distribution de cette variable en cliquant sur le bouton Range Plot dans l'onglet Avancé de la boîte de dialogue Afficher les statistiques descriptives et en sélectionnant la variable Pt_Poor. Ensuite, sélectionnez l'option Médiane/Quartiles/Plage dans la boîte de dialogue Graphiques de plage et cliquez sur OK.


(Notez qu'une méthode spécifique de calcul des médianes et des quartiles peut être sélectionnée pour l'ensemble du « système » dans la boîte de dialogue Options du menu Outils.)

Nuages ​​de points. S’il existe des hypothèses a priori sur la relation entre certaines variables, il peut être utile d’en dériver un nuage de points correspondant à ce stade. Par exemple, regardons la relation entre l'évolution démographique et le pourcentage de familles vivant en dessous du seuil de pauvreté. Il serait naturel de s’attendre à ce que la pauvreté conduise à la migration ; il devrait donc y avoir une corrélation négative entre le pourcentage de familles vivant en dessous du seuil de pauvreté et l’évolution de la population.

Revenez à la boîte de dialogue Afficher les statistiques descriptives et cliquez sur le bouton Corrélations dans l'onglet Rapide pour afficher un tableau de résultats avec une matrice de corrélation.



Les corrélations entre les variables peuvent également être affichées dans un nuage de points matriciel. Un nuage de points matriciel pour les variables sélectionnées peut être obtenu en cliquant sur le bouton Tracé matriciel de corrélation dans l'onglet Avancé de la boîte de dialogue Afficher les statistiques descriptives, puis en sélectionnant les variables qui vous intéressent.

Tâche de régression multiple. Pour effectuer une analyse de régression, il vous suffit de cliquer sur OK dans la boîte de dialogue Afficher les statistiques descriptives et d'accéder à la fenêtre Résultats de régression multiple. Une analyse de régression standard (avec terme factice) sera effectuée automatiquement.

Afficher les résultats. Vous trouverez ci-dessous la boîte de dialogue Résultats de régression multiple. L'équation globale de régression multiple est hautement significative (voir le chapitre Statistiques de base pour une discussion sur les tests de signification statistique). Ainsi, connaissant les valeurs des variables indépendantes, on peut mieux « prédire » un prédicteur associé à la pauvreté que de le deviner purement par hasard.



Coefficients de régression. Pour découvrir quelles variables indépendantes contribuent davantage à la prédiction d’un prédicteur lié à la pauvreté, examinez les coefficients de régression (ou B). Cliquez sur le bouton Tableau récapitulatif de régression dans l'onglet Rapide de la boîte de dialogue Résultats de régression multiple pour afficher un tableau de résultats avec ces coefficients.



Ce tableau montre les coefficients de régression standardisés (Beta) et les coefficients de régression conventionnels (B). Les coefficients bêta sont les coefficients qui seraient obtenus si toutes les variables étaient d'abord standardisées à une moyenne de 0 et un écart type de 1. Ainsi, l'ampleur de ces coefficients bêta permet de comparer la contribution relative de chaque variable indépendante à la prédiction de la variable dépendante. Comme le montre le tableau de résultats ci-dessus, les variables Pop_Chng, Pt_Rural et N_Empld sont les prédicteurs les plus importants de la pauvreté ; Parmi ceux-ci, seuls les deux premiers sont statistiquement significatifs. Le coefficient de régression pour Pop_Chng est négatif ; ceux. plus la croissance démographique est faible, plus les familles vivent en dessous du seuil de pauvreté dans le comté correspondant. La contribution à la régression pour Pt_Rural est positive ; ceux. Plus la population est rurale, plus le taux de pauvreté est élevé.

Corrélations partielles. Une autre façon d'examiner la contribution de chaque variable indépendante à la prédiction de la variable dépendante consiste à calculer des corrélations partielles et semi-partielles (cliquez sur le bouton Corrélations partielles dans l'onglet Avancé de la boîte de dialogue Résultats de régression multiple). Les corrélations partielles sont des corrélations entre la variable indépendante correspondante et la variable dépendante, ajustées pour d'autres variables. Il s’agit donc de la corrélation entre les résidus après ajustement des variables indépendantes. La corrélation partielle représente la contribution indépendante de la variable indépendante correspondante à la prédiction de la variable dépendante.



Les corrélations semi-partielles sont des corrélations entre la variable indépendante correspondante, ajustée pour d'autres variables, et la variable dépendante d'origine (non ajustée). Ainsi, une corrélation semi-partielle est la corrélation de la variable indépendante correspondante après ajustement pour d'autres variables, et les valeurs originales non ajustées de la variable dépendante. En d’autres termes, la corrélation semi-partielle au carré est une mesure du pourcentage de variance totale expliquée indépendamment par la variable indépendante correspondante, tandis que la corrélation partielle au carré est une mesure du pourcentage de variance résiduelle prise en compte après ajustement de la variable dépendante pour la variable indépendante correspondante. variables indépendantes.

Dans cet exemple, les corrélations partielles et semi-partielles ont des valeurs similaires. Cependant, leurs valeurs peuvent parfois différer considérablement (la corrélation semi-partielle est toujours plus petite). Si la corrélation semi-partielle est très faible alors que la corrélation partielle est relativement grande, alors la variable correspondante peut avoir une « partie » indépendante dans l'explication de la variabilité de la variable dépendante (c'est-à-dire une « partie » qui n'est pas expliquée par l'autre variables). Cependant, en termes d'importance pratique, cette partie peut être petite, ne représentant qu'une petite fraction de la variabilité totale (pour plus de détails, voir, par exemple, Lindeman, Merenda et Gold, 1980 ; Morrison, 1967 ; Neter, Wasserman et Gold). Kutner, 1985 ; Pedhazur, 1973 ou Stevens, 1986).

Analyse des résidus. Après avoir ajusté une équation de régression, il est toujours utile d'examiner les valeurs prédites et les résidus qui en résultent. Par exemple, des valeurs aberrantes extrêmes peuvent biaiser considérablement les résultats et conduire à des conclusions erronées. Dans l'onglet Résidus/Propositions/Observations, cliquez sur le bouton Analyse des résidus pour ouvrir la boîte de dialogue correspondante.

Tracé ligne par ligne des résidus. Cette option de boîte de dialogue vous donne la possibilité de sélectionner l'un des types de résidus possibles pour tracer le tracé ligne par ligne. En règle générale, la nature des résidus originaux (non standardisés) ou standardisés doit être examinée pour identifier les observations extrêmes. Dans notre exemple, sélectionnez l'onglet Résidus et cliquez sur le bouton Tracés de lignes résiduelles ; par défaut, un graphique des soldes initiaux sera tracé ; cependant, vous pouvez modifier le type de solde dans le champ approprié.



L'échelle utilisée dans le tracé linéaire de la colonne la plus à gauche est donnée en termes de sigma, c'est-à-dire écart type des résidus. Si une ou plusieurs observations se situent en dehors des limites ±3*sigma, alors les observations pertinentes doivent probablement être exclues (cela est facilement réalisé en utilisant des conditions de sélection) et l'analyse est réexécutée pour garantir qu'il n'y a pas de biais dans les résultats clés causés par ces valeurs aberrantes dans les données.

Graphique ligne par ligne des émissions. Un moyen rapide d'identifier les valeurs aberrantes consiste à utiliser l'option Graphique des valeurs aberrantes dans l'onglet Valeurs aberrantes. Vous pouvez choisir d'afficher tous les résidus standard qui se situent en dehors des limites sigma ±2-5, ou vous pouvez choisir d'afficher les 100 principales observations aberrantes sélectionnées dans le champ Type de valeur aberrante de l'onglet Valeurs aberrantes. Lorsque vous utilisez l’option Résidu standard (>2*sigma), dans notre exemple, aucune valeur aberrante n’est perceptible.

Distances de Mahalanobis. La plupart des manuels de statistiques consacrent un certain espace à la discussion du sujet des valeurs aberrantes et des résidus pour la variable dépendante. Cependant, le rôle des valeurs aberrantes dans un ensemble de variables indépendantes est souvent négligé. Du côté des variables indépendantes, il existe une liste de variables impliquées avec différents poids (coefficients de régression) dans la prédiction de la variable dépendante. Les variables indépendantes peuvent être considérées comme des points dans un espace multidimensionnel dans lequel chaque observation peut être localisée. Par exemple, si vous disposez de deux variables indépendantes avec des coefficients de régression égaux, vous pouvez tracer un nuage de points des deux variables et tracer chaque observation sur ce graphique. Vous pouvez ensuite tracer le point moyen des deux variables et calculer les distances entre chaque observation et cette moyenne (maintenant appelée centroïde) dans cet espace bidimensionnel ; c'est l'idée conceptuelle derrière le calcul des distances de Mahalanobis. Examinons maintenant ces distances, triées par magnitude, pour identifier les observations extrêmes sur les variables indépendantes. Dans le champ Type de valeur aberrante, cochez l'option Distances de Mahalanobis et cliquez sur le bouton Tracé des valeurs aberrantes ligne par ligne. Le tracé résultant montre les distances de Mahalanobis triées par ordre décroissant.



Notez que le comté de Shelby semble être quelque peu aberrant par rapport aux autres comtés du graphique. Si vous examinez les données brutes, vous constaterez que le comté de Shelby est en réalité un comté beaucoup plus grand avec un plus grand nombre de personnes employées dans l'agriculture (N_Empld) et une population afro-américaine beaucoup plus importante. Il serait probablement sage d'exprimer ces chiffres sous forme de pourcentages plutôt que de valeurs absolues, auquel cas la distance de Mahalanobis du comté de Shelby par rapport aux autres comtés de cet exemple ne serait pas aussi grande. Cependant, nous avons appris que le comté de Shelby semble clairement être une exception.

Résidus enlevés. Une autre statistique très importante pour évaluer l’ampleur du problème des émissions concerne les résidus éliminés. Ils sont définis comme les résidus standardisés pour les observations correspondantes qui résulteraient si les observations correspondantes étaient exclues de l'analyse. Rappelons que la procédure de régression multiple correspond à une ligne droite pour exprimer la relation entre les variables dépendantes et indépendantes. Si l'une des observations est une valeur aberrante évidente (comme le comté de Shelby dans ces données), alors la droite de régression aura tendance à se « rapprocher » de cette valeur aberrante pour en tenir compte autant que possible. En conséquence, si l’observation correspondante est exclue, une droite de régression (et des coefficients B) complètement différents apparaîtront. Par conséquent, si le résidu supprimé est très différent du résidu standardisé, vous avez des raisons de croire que les résultats de l’analyse de régression sont significativement biaisés par l’observation correspondante. Dans cet exemple, le résidu supprimé pour le comté de Shelby est une valeur aberrante qui affecte considérablement l'analyse. Vous pouvez tracer un nuage de points de résidus par rapport aux résidus supprimés à l'aide de l'option Résidus et supprimés. résiduels dans l’onglet Nuages ​​de points. Ci-dessous, dans le nuage de points, il y a une valeur aberrante claire.


STATISTICA fournit un outil interactif pour supprimer les valeurs aberrantes (Brushsur la barre d'outils graphique ;). Vous permettant d'expérimenter la suppression des valeurs aberrantes et de voir immédiatement leur impact sur la droite de régression. Lorsque cet outil est activé, le curseur se transforme en croix et la boîte de dialogue Ombrage apparaît à côté du graphique. Vous pouvez (temporairement) exclure de manière interactive des points de données individuels du graphique en cochant (1) l'option Mise à jour automatique et (2) la case Exclure du bloc Opération ; puis en cliquant sur le point que vous souhaitez supprimer, en l'alignant avec la croix du curseur.


Notez que les points supprimés peuvent être « renvoyés » en cliquant sur le bouton Annuler tout dans la boîte de dialogue Ombrage.

Graphiques de probabilité normale. Depuis la fenêtre Analyse résiduelle, l'utilisateur reçoit un grand nombre de graphiques supplémentaires. La plupart de ces graphiques sont plus ou moins faciles à interpréter. Cependant, nous donnerons ici une interprétation du diagramme de probabilité normale, car il est le plus souvent utilisé pour analyser la validité des hypothèses de régression.

Comme indiqué précédemment, la régression linéaire multiple suppose une relation linéaire entre les variables de l'équation et les résidus sont normalement distribués. Si ces hypothèses ne sont pas respectées, les conclusions finales pourraient être inexactes. Un diagramme de probabilité normale des résidus montre clairement la présence ou l'absence d'écarts importants par rapport aux hypothèses formulées. Cliquez sur le bouton Normal dans l'onglet Graphiques de probabilité pour créer ce graphique.


Ce graphique est construit comme suit. Tout d’abord, les résidus de régression sont classés. Pour ces résidus ordonnés, des scores z (c'est-à-dire des valeurs standard de la distribution normale) sont calculés, en supposant que les données sont normalement distribuées. Ces scores z sont tracés sur l’axe y du graphique.

Si les résidus observés (tracés le long de l'axe des x) sont normalement distribués, alors toutes les valeurs seront tracées près d'une ligne droite ; Sur ce graphique, tous les points se situent très près d’une ligne droite. Si les résidus ne sont pas distribués normalement, ils s'écarteront de la ligne. Des valeurs aberrantes peuvent également devenir visibles dans ce graphique.

Si le modèle disponible ne s'adapte pas bien aux données et que les données du graphique semblent former une certaine structure (par exemple, le nuage d'observations prend la forme d'un S) autour de la droite de régression, il peut alors être utile d'appliquer une certaine transformation. de la variable dépendante (par exemple, logarithme pour « replier » la queue de la distribution, etc. ; voir aussi la brève discussion sur les transformations Box-Cox et Box-Tidwell dans la section Notes et informations techniques). Une discussion sur de telles techniques dépasse le cadre de ce manuel (Neter, Wasserman et Kutner, 1985, p. 134, proposent une excellente discussion sur les transformations comme moyen de traiter la non-normalité et la non-linéarité). Trop souvent, cependant, les chercheurs acceptent simplement leurs données sans examiner de près leur structure ni les tester par rapport à leurs hypothèses, ce qui conduit à des conclusions erronées. Pour cette raison, l'une des tâches principales des développeurs de l'interface utilisateur du module de régression multiple était de simplifier autant que possible l'analyse (graphique) des résidus.

La principale caractéristique de l'analyse de régression : avec son aide, vous pouvez obtenir des informations spécifiques sur la forme et la nature de la relation entre les variables étudiées.

Séquence des étapes de l'analyse de régression

Considérons brièvement les étapes de l'analyse de régression.

    Formulation du problème. A ce stade, des hypothèses préliminaires sont formulées sur la dépendance des phénomènes étudiés.

    Définition des variables dépendantes et indépendantes (explicatives).

    Collecte de données statistiques. Les données doivent être collectées pour chacune des variables incluses dans le modèle de régression.

    Formulation d'une hypothèse sur la forme de la connexion (simple ou multiple, linéaire ou non linéaire).

    Définition fonctions de régression (consiste à calculer les valeurs numériques des paramètres de l'équation de régression)

    Évaluation de l'exactitude de l'analyse de régression.

    Interprétation des résultats obtenus. Les résultats obtenus de l'analyse de régression sont comparés aux hypothèses préliminaires. L'exactitude et la crédibilité des résultats obtenus sont évaluées.

    Prédire les valeurs inconnues d'une variable dépendante.

Grâce à l'analyse de régression, il est possible de résoudre le problème de la prévision et de la classification. Les valeurs prédites sont calculées en remplaçant les valeurs des variables explicatives dans l'équation de régression. Le problème de classification est résolu de cette manière : la droite de régression divise l'ensemble des objets en deux classes, et la partie de l'ensemble où la valeur de la fonction est supérieure à zéro appartient à une classe, et la partie où elle est inférieure à zéro appartient à une autre classe.

Problèmes d'analyse de régression

Considérons les principales tâches de l'analyse de régression : établir la forme de dépendance, déterminer fonctions de régression, estimation des valeurs inconnues de la variable dépendante.

Établir la forme de dépendance.

La nature et la forme de la relation entre les variables peuvent former les types de régression suivants :

    régression linéaire positive (exprimée par une croissance uniforme de la fonction) ;

    régression positive uniformément croissante ;

    régression positive uniformément croissante ;

    régression linéaire négative (exprimée par une baisse uniforme de la fonction) ;

    régression décroissante négative uniformément accélérée ;

    régression négative uniformément décroissante.

Cependant, les variétés décrites ne se trouvent généralement pas sous forme pure, mais en combinaison les unes avec les autres. On parle dans ce cas de formes combinées de régression.

Définition de la fonction de régression.

La deuxième tâche revient à identifier l'effet sur la variable dépendante des principaux facteurs ou causes, toutes choses égales par ailleurs, et sous réserve d'exclure l'influence d'éléments aléatoires sur la variable dépendante. Fonction de régression est défini sous la forme d’une équation mathématique d’un type ou d’un autre.

Estimation des valeurs inconnues de la variable dépendante.

La solution à ce problème revient à résoudre un problème de l'un des types suivants :

    Estimation des valeurs de la variable dépendante dans l'intervalle considéré des données initiales, c'est-à-dire valeurs manquantes ; dans ce cas, le problème d'interpolation est résolu.

    Estimation des valeurs futures de la variable dépendante, c'est-à-dire rechercher des valeurs en dehors de l'intervalle spécifié des données source ; dans ce cas, le problème de l'extrapolation est résolu.

Les deux problèmes sont résolus en remplaçant les estimations de paramètres trouvées par les valeurs des variables indépendantes dans l'équation de régression. Le résultat de la résolution de l'équation est une estimation de la valeur de la variable cible (dépendante).

Examinons certaines des hypothèses sur lesquelles repose l'analyse de régression.

Hypothèse de linéarité, c'est-à-dire la relation entre les variables considérées est supposée être linéaire. Ainsi, dans cet exemple, nous avons tracé un nuage de points et avons pu observer une relation linéaire claire. Si, sur le diagramme de dispersion des variables, on constate une nette absence de relation linéaire, c'est-à-dire S'il existe une relation non linéaire, des méthodes d'analyse non linéaires doivent être utilisées.

Hypothèse de normalité restes. Il suppose que la distribution de la différence entre les valeurs prédites et observées est normale. Pour déterminer visuellement la nature de la distribution, vous pouvez utiliser des histogrammes restes.

Lors de l’utilisation de l’analyse de régression, sa principale limite doit être prise en compte. Cela réside dans le fait que l'analyse de régression permet de détecter uniquement les dépendances, et non les connexions qui sous-tendent ces dépendances.

L'analyse de régression vous permet d'estimer la force de la relation entre les variables en calculant la valeur estimée d'une variable sur la base de plusieurs valeurs connues.

Équation de régression.

L'équation de régression ressemble à ceci : Y=a+b*X

À l'aide de cette équation, la variable Y est exprimée en termes d'une constante a et de la pente de la droite (ou pente) b, multipliée par la valeur de la variable X. La constante a est également appelée terme d'origine et la pente est le coefficient de régression ou coefficient B.

Dans la plupart des cas (sinon toujours), il existe une certaine dispersion des observations par rapport à la droite de régression.

Reste est l'écart d'un seul point (observation) par rapport à la droite de régression (valeur prédite).

Pour résoudre le problème de l'analyse de régression dans MS Excel, sélectionnez dans le menu Service"Pack d'analyse" et l'outil d'analyse de régression. Nous définissons les intervalles d'entrée X et Y. L'intervalle d'entrée Y est la plage de données analysées dépendantes, il doit inclure une colonne. L'intervalle d'entrée X est la plage de données indépendantes qui doivent être analysées. Le nombre de plages d'entrée ne doit pas dépasser 16.

En sortie de procédure dans la plage de sortie on obtient le rapport donné dans tableau 8.3a-8,3 V.

CONCLUSION DES RÉSULTATS

Tableau 8.3a. Statistiques de régression

Statistiques de régression

Pluriel R

Carré R

R carré normalisé

Erreur type

Observations

Examinons d'abord la partie supérieure des calculs présentés dans tableau 8.3a, - statistiques de régression.

Ampleur Carré R, également appelée mesure de certitude, caractérise la qualité de la droite de régression résultante. Cette qualité s'exprime par le degré de correspondance entre les données sources et le modèle de régression (données calculées). La mesure de la certitude se situe toujours dans l'intervalle.

Dans la plupart des cas, la valeur Carré R se situe entre ces valeurs, dites extrêmes, c'est-à-dire entre zéro et un.

Si la valeur Carré R proche de l'unité, cela signifie que le modèle construit explique la quasi-totalité de la variabilité des variables correspondantes. A l’inverse, le sens Carré R, proche de zéro, signifie une mauvaise qualité du modèle construit.

Dans notre exemple, la mesure de certitude est de 0,99673, ce qui indique un très bon ajustement de la droite de régression aux données d'origine.

pluriel R - coefficient de corrélation multiple R - exprime le degré de dépendance des variables indépendantes (X) et de la variable dépendante (Y).

Pluriel R est égal à la racine carrée du coefficient de détermination ; cette quantité prend des valeurs comprises entre zéro et un.

Dans une analyse de régression linéaire simple pluriel Régal au coefficient de corrélation de Pearson. Vraiment, pluriel R dans notre cas, il est égal au coefficient de corrélation de Pearson de l'exemple précédent (0,998364).

Tableau 8.3b. Coefficients de régression

Chances

Erreur type

statistique t

Intersection en Y

Variable X 1

* Une version tronquée des calculs est fournie

Considérons maintenant la partie médiane des calculs présentés dans tableau 8.3b. Ici, le coefficient de régression b (2,305454545) et le déplacement le long de l'axe des ordonnées sont donnés, c'est-à-dire constante une (2,694545455).

Sur la base des calculs, nous pouvons écrire l’équation de régression comme suit :

Oui= x*2,305454545+2,694545455

Le sens de la relation entre les variables est déterminé en fonction des signes (négatifs ou positifs) des coefficients de régression (coefficient b).

Si le signe du coefficient de régression est positif, la relation entre la variable dépendante et la variable indépendante sera positive. Dans notre cas, le signe du coefficient de régression est positif, donc la relation est également positive.

Si le signe du coefficient de régression est négatif, la relation entre la variable dépendante et la variable indépendante est négative (inverse).

DANS tableau 8.3c. les résultats de sortie sont présentés restes. Pour que ces résultats apparaissent dans le rapport, vous devez cocher la case « Résidus » lors de l'exécution de l'outil « Régression ».

RETRAIT DU RESTE

Tableau 8.3c. Restes

Observation

Y prédit

Restes

Balances standards

En utilisant cette partie du rapport, nous pouvons voir les écarts de chaque point par rapport à la droite de régression construite. Plus grande valeur absolue reste dans notre cas - 0,778, le plus petit - 0,043. Pour mieux interpréter ces données, nous utiliserons le graphique des données originales et la droite de régression construite présentée dans riz. 8.3. Comme vous pouvez le constater, la droite de régression est « ajustée » avec assez de précision aux valeurs des données d'origine.

Il convient de garder à l'esprit que l'exemple considéré est assez simple et qu'il n'est pas toujours possible de construire qualitativement une droite de régression linéaire.

Riz. 8.3. Données sources et droite de régression

Le problème de l'estimation des valeurs futures inconnues de la variable dépendante sur la base des valeurs connues de la variable indépendante est resté ignoré, c'est-à-dire problème de prévision.

Ayant une équation de régression, le problème de prévision se réduit à résoudre l'équation Y= x*2,305454545+2,694545455 avec des valeurs connues de x. Les résultats de la prédiction de la variable dépendante Y avec six étapes d'avance sont présentés dans le tableau 8.4.

Tableau 8.4. Y résultats prévisionnels variables

Y (prédit)

Ainsi, grâce à l’utilisation de l’analyse de régression dans Microsoft Excel, nous :

    construit une équation de régression ;

    établi la forme de dépendance et la direction de la connexion entre les variables - régression linéaire positive, qui s'exprime par une croissance uniforme de la fonction ;

    établi la direction de la relation entre les variables ;

    évalué la qualité de la droite de régression résultante ;

    ont pu constater les écarts entre les données calculées et les données de l'ensemble d'origine ;

    valeurs futures prédites de la variable dépendante.

Si fonction de régression défini, interprété et justifié, et l'évaluation de l'exactitude de l'analyse de régression répond aux exigences, le modèle construit et les valeurs prédites peuvent être considérés comme ayant une fiabilité suffisante.

Les valeurs prédites ainsi obtenues sont les valeurs moyennes auxquelles on peut s'attendre.

Dans ce travail, nous avons passé en revue les principales caractéristiques statistiques descriptives et parmi eux des concepts tels que valeur moyenne,médian,maximum,minimum et d'autres caractéristiques de la variation des données.

Le concept a également été brièvement discuté émissions. Les caractéristiques considérées concernent l’analyse dite exploratoire des données ; ses conclusions peuvent ne pas s’appliquer à la population générale, mais uniquement à un échantillon de données. L'analyse exploratoire des données est utilisée pour obtenir des conclusions primaires et formuler des hypothèses sur la population.

Les bases de l'analyse de corrélation et de régression, leurs tâches et leurs possibilités d'utilisation pratique ont également été discutées.

Qu’est-ce que la régression ?

Considérons deux variables continues x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Plaçons les points sur un nuage de points bidimensionnel et disons que nous avons relation linéaire, si les données sont approximées par une ligne droite.

Si nous croyons que oui dépend de x, et des changements dans oui sont causés précisément par des changements dans x, on peut déterminer la droite de régression (régression oui sur x), qui décrit le mieux la relation linéaire entre ces deux variables.

L'usage statistique du mot régression vient du phénomène connu sous le nom de régression vers la moyenne, attribué à Sir Francis Galton (1889).

Il a montré que même si les pères de grande taille ont tendance à avoir des fils de grande taille, la taille moyenne des fils est plus petite que celle de leurs pères de grande taille. La taille moyenne des fils a « régressé » et « reculé » vers la taille moyenne de tous les pères de la population. Ainsi, en moyenne, les pères de grande taille ont des fils plus petits (mais quand même assez grands), et les pères de petite taille ont des fils plus grands (mais quand même assez petits).

Droite de régression

Une équation mathématique qui estime une droite de régression linéaire simple (par paires) :

x appelée variable indépendante ou prédicteur.

Oui- variable dépendante ou variable réponse. C'est la valeur que nous attendons pour oui(en moyenne) si on connaît la valeur x, c'est-à-dire c'est la "valeur prédite" oui»

  • un- membre libre (intersection) de la ligne d'évaluation ; c'est le sens Oui, Quand x=0(Fig.1).
  • b- pente ou pente de la ligne estimée ; il représente le montant par lequel Oui augmente en moyenne si on augmente x par unité.
  • un Et b sont appelés coefficients de régression de la droite estimée, bien que ce terme soit souvent utilisé uniquement pour b.

La régression linéaire par paires peut être étendue pour inclure plusieurs variables indépendantes ; dans ce cas, on l'appelle régression multiple.

Figure 1. Ligne de régression linéaire montrant l'ordonnée à l'origine a et la pente b (la quantité Y augmente à mesure que x augmente d'une unité)

Méthode des moindres carrés

Nous effectuons une analyse de régression en utilisant un échantillon d'observations où un Et b- des estimations par échantillon des vrais paramètres (généraux), α et β, qui déterminent la droite de régression linéaire dans la population (population générale).

La méthode la plus simple pour déterminer les coefficients un Et b est méthode des moindres carrés(MNC).

L'ajustement est évalué en examinant les résidus (la distance verticale de chaque point à partir de la ligne, par exemple résidu = observé oui- prédit oui, Riz. 2).

La droite de meilleur ajustement est choisie de manière à ce que la somme des carrés des résidus soit minimale.

Riz. 2. Ligne de régression linéaire avec les résidus représentés (lignes pointillées verticales) pour chaque point.

Hypothèses de régression linéaire

Ainsi, pour chaque valeur observée, le reste est égal à la différence et à la valeur prédite correspondante. Chaque reste peut être positif ou négatif.

Vous pouvez utiliser des résidus pour tester les hypothèses suivantes derrière la régression linéaire :

  • Les résidus sont normalement distribués avec une moyenne de zéro ;

Si les hypothèses de linéarité, de normalité et/ou de variance constante sont discutables, nous pouvons transformer ou calculer une nouvelle droite de régression pour laquelle ces hypothèses sont satisfaites (par exemple, utiliser une transformation logarithmique, etc.).

Valeurs anormales (valeurs aberrantes) et points d'influence

Une observation « influente », si elle est omise, modifie une ou plusieurs estimations des paramètres du modèle (c'est-à-dire la pente ou l'origine).

Une valeur aberrante (une observation qui n'est pas cohérente avec la majorité des valeurs d'un ensemble de données) peut être une observation « influente » et peut être facilement détectée visuellement en inspectant un nuage de points bivarié ou un diagramme résiduel.

Tant pour les observations aberrantes que pour les observations « influentes » (points), des modèles sont utilisés, avec ou sans leur inclusion, et une attention particulière est portée aux changements dans les estimations (coefficients de régression).

Lorsque vous effectuez une analyse, vous ne devez pas automatiquement éliminer les valeurs aberrantes ou les points d'influence, car le simple fait de les ignorer peut affecter les résultats obtenus. Étudiez toujours les raisons de ces valeurs aberrantes et analysez-les.

Hypothèse de régression linéaire

Lors de la construction d'une régression linéaire, l'hypothèse nulle est testée selon laquelle la pente générale de la droite de régression β est égale à zéro.

Si la pente de la droite est nulle, il n’y a pas de relation linéaire entre et : le changement n’affecte pas

Pour tester l'hypothèse nulle selon laquelle la vraie pente est nulle, vous pouvez utiliser l'algorithme suivant :

Calculer la statistique de test égale au rapport , qui est soumis à une distribution avec degrés de liberté, où l'erreur type du coefficient


,

- estimation de la dispersion des résidus.

Généralement, si le seuil de signification est atteint, l’hypothèse nulle est rejetée.


où est le point de pourcentage de la distribution avec degrés de liberté, qui donne la probabilité d'un test bilatéral

C'est l'intervalle qui contient la pente générale avec une probabilité de 95 %.

Pour de grands échantillons, par exemple, nous pouvons approximer une valeur de 1,96 (c'est-à-dire que la statistique du test aura tendance à être distribuée normalement)

Évaluation de la qualité de la régression linéaire : coefficient de détermination R 2

En raison de la relation linéaire et nous nous attendons à ce que cela change à mesure que , et appelons cela la variation due ou expliquée par la régression. La variation résiduelle doit être aussi faible que possible.

Si cela est vrai, alors la majeure partie de la variation sera expliquée par la régression et les points se situeront près de la droite de régression, c'est-à-dire la ligne correspond bien aux données.

La proportion de la variance totale expliquée par la régression est appelée coefficient de détermination, généralement exprimé en pourcentage et noté R2(dans la régression linéaire appariée, c'est la quantité r2, carré du coefficient de corrélation), permet d'évaluer subjectivement la qualité de l'équation de régression.

La différence représente le pourcentage de variance qui ne peut être expliqué par la régression.

Il n’existe aucun test formel à évaluer ; nous devons nous fier à un jugement subjectif pour déterminer la qualité de l’ajustement de la droite de régression.

Application d'une ligne de régression à la prévision

Vous pouvez utiliser une droite de régression pour prédire une valeur à partir d’une valeur située à la fin de la plage observée (n’extrapolez jamais au-delà de ces limites).

Nous prédisons la moyenne des observables qui ont une valeur particulière en insérant cette valeur dans l'équation de la droite de régression.

Donc, si nous prédisons comme Utilisez cette valeur prédite et son erreur type pour estimer un intervalle de confiance pour la véritable moyenne de la population.

Répéter cette procédure pour différentes valeurs permet de construire des limites de confiance pour cette ligne. Il s'agit de la bande ou de la zone qui contient la vraie ligne, par exemple à un niveau de confiance de 95 %.

Plans de régression simples

Les plans de régression simples contiennent un prédicteur continu. S'il y a 3 observations avec des valeurs prédictives P, telles que 7, 4 et 9, et que le plan inclut un effet de premier ordre P, alors la matrice du plan X sera

et l'équation de régression utilisant P pour X1 est

Y = b0 + b1P

Si un plan de régression simple contient un effet d'ordre supérieur sur P, tel qu'un effet quadratique, alors les valeurs de la colonne X1 de la matrice de plan seront élevées à la puissance deux :

et l'équation prendra la forme

Y = b0 + b1 P2

Les méthodes de codage contraintes sigma et surparamétrées ne s'appliquent pas aux plans de régression simples et aux autres plans contenant uniquement des prédicteurs continus (car il n'y a tout simplement pas de prédicteurs catégoriels). Quelle que soit la méthode de codage choisie, les valeurs des variables continues sont incrémentées en conséquence et utilisées comme valeurs pour les variables X. Dans ce cas, aucun recodage n’est effectué. De plus, lors de la description des plans de régression, vous pouvez omettre la prise en compte de la matrice de conception X et travailler uniquement avec l'équation de régression.

Exemple : analyse de régression simple

Cet exemple utilise les données présentées dans le tableau :

Riz. 3. Tableau des données initiales.

Données compilées à partir d’une comparaison des recensements de 1960 et 1970 dans 30 comtés sélectionnés au hasard. Les noms de comtés sont présentés sous forme de noms d'observation. Les informations concernant chaque variable sont présentées ci-dessous :

Riz. 4. Tableau des spécifications des variables.

Problème de recherche

Pour cet exemple, la corrélation entre le taux de pauvreté et le degré qui prédit le pourcentage de familles se trouvant en dessous du seuil de pauvreté sera analysée. Par conséquent, nous traiterons la variable 3 (Pt_Poor) comme variable dépendante.

Nous pouvons émettre une hypothèse : l’évolution de la taille de la population et le pourcentage de familles vivant sous le seuil de pauvreté sont liés. Il semble raisonnable de s’attendre à ce que la pauvreté conduise à l’émigration, il y aurait donc une corrélation négative entre le pourcentage de personnes vivant en dessous du seuil de pauvreté et l’évolution de la population. Par conséquent, nous traiterons la variable 1 (Pop_Chng) comme une variable prédictive.

Afficher les résultats

Coefficients de régression

Riz. 5. Coefficients de régression de Pt_Poor sur Pop_Chng.

A l'intersection de la ligne Pop_Chng et de la colonne Param.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

le coefficient non standardisé pour la régression de Pt_Poor sur Pop_Chng est de -0,40374. Cela signifie que pour chaque unité de diminution de la population, il y a une augmentation du taux de pauvreté de 0,40374. Les limites de confiance supérieure et inférieure (par défaut) à 95 % pour ce coefficient non standardisé n'incluent pas zéro, le coefficient de régression est donc significatif au niveau p.

Répartition variable

Les coefficients de corrélation peuvent devenir considérablement surestimés ou sous-estimés si d'importantes valeurs aberrantes sont présentes dans les données. Etudions la répartition de la variable dépendante Pt_Poor par quartier. Pour ce faire, construisons un histogramme de la variable Pt_Poor.

Riz. 6. Histogramme de la variable Pt_Poor.

Comme vous pouvez le constater, la distribution de cette variable diffère sensiblement de la distribution normale. Cependant, même si deux comtés (les deux colonnes de droite) ont un pourcentage de familles se trouvant en dessous du seuil de pauvreté plus élevé que prévu selon une distribution normale, ils semblent se situer « dans la fourchette ».

Riz. 7. Histogramme de la variable Pt_Poor.

Ce jugement est quelque peu subjectif. La règle générale est que les valeurs aberrantes doivent être prises en compte si l'observation (ou les observations) ne se situe pas dans l'intervalle (moyenne ± 3 fois l'écart type). Dans ce cas, il convient de répéter l’analyse avec et sans valeurs aberrantes pour s’assurer qu’elles n’ont pas d’effet majeur sur la corrélation entre les membres de la population.

Nuage de points

Si l’une des hypothèses porte a priori sur la relation entre des variables données, alors il est utile de la tester sur le graphique du nuage de points correspondant.

Riz. 8. Diagramme de dispersion.

Le nuage de points montre une nette corrélation négative (-0,65) entre les deux variables. Il montre également l'intervalle de confiance de 95 % pour la droite de régression, c'est-à-dire qu'il y a une probabilité de 95 % que la droite de régression se situe entre les deux courbes en pointillés.

Critères de signification

Riz. 9. Tableau contenant les critères de signification.<.001 .

Le test du coefficient de régression Pop_Chng confirme que Pop_Chng est fortement lié à Pt_Poor , p

Conclusion

Évaluer la qualité d'une équation de régression à l'aide de coefficients de détermination. Test de l'hypothèse nulle sur la signification de l'équation et des indicateurs de force de la relation à l'aide du test F de Fisher.

Erreurs types des coefficients.

L'équation de régression est :

Oui =3378,41 -494,59X1 -35.00X2 +75.74X3 -15,81X4 +80,10X5 +59,84X6 +
(1304,48) (226,77) (10,31) (277,57) (287,54) (35,31) (150,93)
+127,98X7 -78.10X8 -437,57X9 +451.26X10 -299,91X11 -14,93X12 -369,65X13 (9)
(22,35) (31,19) (97,68) (331,79) (127,84) 86,06 (105,08)

Pour remplir le tableau « Statistiques de régression » (Tableau 9) on trouve :

1. Pluriel R– coefficient de corrélation r entre y et ŷ.

Pour ce faire, utilisez la fonction CORREL en saisissant les tableaux y et ŷ.

Le nombre obtenu 0,99 est proche de 1, ce qui montre une très forte relation entre les données expérimentales et les données calculées.

2. Pour le calcul Carré R on retrouve :

Erreur expliquée 17455259,48,

Erreur inexpliquée .

Par conséquent, R au carré vaut .

En conséquence, 97 % des données expérimentales peuvent être expliquées par l’équation de régression résultante.

3. R carré normalisé trouver par formule

Cet indicateur sert à comparer différents modèles de régression lorsque la composition des variables explicatives change.

4. Erreur type– racine carrée de la variance résiduelle de l’échantillon :

En conséquence, nous obtenons le tableau suivant.

Tableau 9.

Remplir le tableau « Analyse de variance »

La plupart des données ont déjà été obtenues ci-dessus. (Erreur expliquée et inexpliquée).

Calculons t wx:val="Cambria Math"/> 13 = 1342712,27"> .



Nous évaluerons la signification statistique de l'équation de régression dans son ensemble en utilisant F-Critère de Fisher. L'équation de régression multiple est significative (sinon, l'hypothèse H 0 selon laquelle les paramètres du modèle de régression sont égaux à zéro, c'est-à-dire est rejetée) si

, (10)

où est la valeur du tableau du test F de Fisher.

Valeur réelle F- le critère selon la formule sera :

Pour calculer la valeur tabulaire du critère de Fisher, la fonction FRIST est utilisée (Figure 4).

Degré de liberté 1 : p=13

Degré de liberté 2 : n-p-1 = 20-13-1=6

Figure 4. Utilisation de la fonction FRIST dans Excel.

Tableau F = 3,976< 16,88, следовательно, модель адекватна опытным данным.

Signification F calculé à l’aide de la fonction FDIST. Cette fonction renvoie la distribution de probabilité F (distribution de Fisher) et vous permet de déterminer si deux ensembles de données ont des degrés de dispersion différents dans leurs résultats.

Figure 5. Utilisation de la fonction FDIST dans Excel.

Signification F = 0,001.

CONCLUSION DES RÉSULTATS

Tableau 8.3a.
Statistiques de régression
Pluriel R 0,998364
Carré R 0,99673
R carré normalisé 0,996321
Erreur type 0,42405
Statistiques de régression 10

Observations

La valeur R-carré, également appelée mesure de certitude, caractérise la qualité de la droite de régression résultante. Cette qualité s'exprime par le degré de correspondance entre les données sources et le modèle de régression (données calculées). La mesure de la certitude se situe toujours dans l'intervalle.

Dans la plupart des cas, la valeur R au carré se situe entre ces valeurs, appelées valeurs extrêmes, c'est-à-dire entre zéro et un.

Si la valeur R carré est proche de un, cela signifie que le modèle construit explique presque toute la variabilité des variables pertinentes. À l’inverse, une valeur R au carré proche de zéro signifie que la qualité du modèle construit est médiocre.

Dans notre exemple, la mesure de certitude est de 0,99673, ce qui indique un très bon ajustement de la droite de régression aux données d'origine.

Pluriel R- coefficient de corrélation multiple R - exprime le degré de dépendance des variables indépendantes (X) et de la variable dépendante (Y).

Le multiple R est égal à la racine carrée du coefficient de détermination, cette valeur prend des valeurs comprises entre zéro et un.

Dans une analyse de régression linéaire simple, le multiple R est égal au coefficient de corrélation de Pearson. En effet, le multiple R dans notre cas est égal au coefficient de corrélation de Pearson de l'exemple précédent (0,998364).

Tableau 8.3b.
Coefficients de régression Erreur type Chances
statistique t 2,694545455 0,33176878 8,121757129
Intersection en Y 2,305454545 0,04668634 49,38177965
Variable X 1

* Une version tronquée des calculs est fournie

Considérons maintenant la partie médiane des calculs, présentée dans le tableau 8.3b. Ici, le coefficient de régression b (2,305454545) et le déplacement le long de l'axe des ordonnées sont donnés, c'est-à-dire constante une (2,694545455).

Sur la base des calculs, nous pouvons écrire l’équation de régression comme suit :

Oui= x*2,305454545+2,694545455 Le sens de la relation entre les variables est déterminé en fonction des signes (négatifs ou positifs) coefficients de régression

(coefficient b). Si le signe à coefficient de régression

(coefficient b). Si le signe à- positif, la relation entre la variable dépendante et la variable indépendante sera positive. Dans notre cas, le signe du coefficient de régression est positif, donc la relation est également positive.

- négatif, la relation entre la variable dépendante et la variable indépendante est négative (inverse).

Dans le tableau 8.3c. Les résultats du calcul des résidus sont présentés. Pour que ces résultats apparaissent dans le rapport, vous devez cocher la case « Résidus » lors de l'exécution de l'outil « Régression ».

RETRAIT DU RESTE
Observation Tableau 8.3c. Restes Restes
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

En utilisant cette partie du rapport, nous pouvons voir les écarts de chaque point par rapport à la droite de régression construite. Plus grande valeur absolue



Des questions ?

Signaler une faute de frappe

Texte qui sera envoyé à nos rédacteurs :