Utilisation de corrélations pour résumer les relations avec Microsoft Excel
■■ Comment les retours de stock mensuels pour Microsoft, GE, Intel, GM et Cisco sont-ils liés?
Les courbes de tendance sont d’une grande aide pour comprendre comment deux variables sont liées. Souvent, cependant, vous devez comprendre comment plus de deux variables sont liées. L’examen de la corrélation entre n’importe quelle paire de variables peut donner un aperçu de la façon dont plusieurs variables montent et descendent ensemble en valeur.
La corrélation (généralement notée r) entre deux variables (appelons-les x et y) est une mesure sans unité de la force de la relation linéaire entre x et y. La corrélation entre deux variables quelconques est toujours comprise entre –1 et +1. Bien que la formule exacte utilisée pour calculer la corrélation entre deux variables n’est pas très important, pouvoir interpréter la corrélation entre les variables l’est. Une corrélation proche de +1 signifie que x et y ont une forte relation linéaire positive. C’est quand x est supérieur à la moyenne, y a tendance à être supérieur à la moyenne, et lorsque x est inférieur à la moyenne, y a également tendance à être inférieur à la moyenne. Lorsqu’une ligne droite est appliquée aux données, il y aura une ligne droite avec une pente positive qui fait un bon travail d’ajustement des points. Par exemple, pour les données de la figure 56-1 (x = unités produites et y = coût de production mensuel), x et y ont une corrélation de +0,9. (Voir le fichier Correlationexamples.xlsx pour les figures 1 à 3.)
FIGURE 1 Il s’agit d’une corrélation proche de +1, indiquant que deux variables ont une forte relation linéaire positive. Cependant, une corrélation proche de –1 signifie qu’il existe une forte relation linéaire négative entre x et y. Autrement dit, lorsque x est supérieur à la moyenne, y a tendance à être inférieur à la moyenne, et lorsque x est inférieur à la moyenne, y a tendance à être supérieur à la moyenne. Lorsqu’une ligne droite est appliquée aux données, la ligne a une pente négative qui fait un bon travail d’ajustement des points. Par exemple, pour les données de la figure 56-2, x et y ont une corrélation de –0,9.
FIGURE 2 Il s’agit d’une corrélation proche de –1, indiquant que deux variables ont une forte relation linéaire négative. Une corrélation proche de 0 signifie que x et y ont une relation linéaire faible. C’est-à-dire que savoir si x est plus grand ou plus petit que sa moyenne vous dit peu de choses sur si y sera plus grand ou plus petit que sa moyenne. La figure 3 montre un graphique de la dépendance des ventes unitaires (y) par rapport aux années d’expérience en vente (x). Les années d’expérience et les ventes unitaires ont une corrélation de 0,003. Dans cet ensemble de données, l’expérience moyenne est de 10 ans. Vous pouvez voir que lorsqu’une personne a plus de 10 ans d’expérience en vente, ses ventes peuvent être faibles ou élevées. Vous pouvez également voir que lorsqu’une personne a moins de 10 ans d’expérience en vente, les ventes peuvent être faibles ou élevées. Bien que l’expérience et les ventes aient peu ou pas de relation linéaire, il existe une forte relation non linéaire (voir la courbe ajustée) entre les années d’expérience et les ventes. La corrélation ne mesure pas la force des relations non linéaires.
FIGURE 3 Il s’agit d’une corrélation de 0, indiquant une faible relation linéaire entre deux variables. |
|
Quels sont les rapports mensuels sur les stocks de Microsoft, GE, Intel, GM et Cisco?
Le fichier Stockcorrel.xlsx (voir la figure 4) montre les rendements boursiers mensuels de Microsoft, GE, Intel, GM et Cisco au cours des années 1990. Vous pouvez utiliser des corrélations pour comprendre comment les mouvements de ces actions sont liés.
Pour trouver les corrélations entre chaque paire d’actions, cliquez sur Analyse des données dans le groupe Analyse sous l’onglet Données, puis sélectionnez Corrélation. Vous devez installer Analyse du solveur (comme décrit dans l’article 41, «Récapitulation des données à l’aide d’histogrammes» et au L’article 42, «Récapitulation des données à l’aide de statistiques descriptives») avant de pouvoir utiliser cette fonction. Cliquez sur OK, puis remplissez la boîte de dialogue Corrélation, comme illustré à la figure 5.
FIGURE 4 Il s’agit des rendements boursiers mensuels des années 1990.
FIGURE 5 Il s’agit de la boîte de dialogue Corrélation.
La manière la plus simple d’entrer dans la plage d’entrée est de sélectionner la cellule supérieure gauche de la plage (B51), puis d’appuyer sur Ctrl + Maj + flèche droite puis sur Ctrl + Maj + flèche bas. Sélectionnez Étiquettes dans la première ligne si la première ligne de la plage d’entrée contient des étiquettes. Entrez la cellule H52 comme cellule supérieure gauche de la plage de sortie. Après avoir cliqué sur OK, vous obtenez les résultats illustrés à la figure 6.
FIGURE 6 Voici les corrélations de rendement des actions.
La corrélation entre Cisco et Microsoft est de 0,513, par exemple, tandis que la corrélation entre GM et Microsoft est de 0,069. L’analyse montre que les rendements de Cisco, Intel et Microsoft sont les plus étroitement liés. Étant donné que la corrélation entre chaque paire de ces actions est d’environ 0,5, ces actions affichent une relation positive modérée. En d’autres termes, si un stock fait mieux qu’un En moyenne, il est probable (mais pas certain) que les autres actions feront mieux que la moyenne. Étant donné que les rendements boursiers de Cisco, Intel et Microsoft sont étroitement liés aux dépenses technologiques, leur corrélation assez forte n’est pas surprenante. Vous pouvez également voir que les rendements mensuels sur Microsoft et GM ne sont pratiquement pas corrélés. Cette relation indique que lorsque le stock Microsoft fait mieux que la moyenne, vous ne pouvez vraiment pas dire si le stock GM fera mieux ou pire que la moyenne. Encore une fois, cette tendance n’est pas surprenante car GM n’est pas vraiment une entreprise de haute technologie et est plus sensible aux aléas du cycle économique.
Remplir la matrice de corrélation Comme vous pouvez le voir dans cet exemple, Excel a laissé certaines entrées dans la matrice de corrélation vide. Pour l’examen Par exemple, la corrélation entre Microsoft et GE (qui est égale à la corrélation entre GE et Microsoft) est omise. Si vous souhaitez remplir l’intégralité de la matrice de corrélation, cliquez avec le bouton droit sur la matrice, puis cliquez sur Copier. Cliquez avec le bouton droit sur une partie vierge de la feuille de calcul, puis cliquez sur Collage spécial. Dans la boîte de dialogue Collage spécial, sélectionnez Transposer. Cela retourne les données de son côté. Maintenant, cliquez avec le bouton droit sur les données retournées et cliquez sur Copier. Cliquez avec le bouton droit sur la matrice de corrélation d’origine et cliquez à nouveau sur Collage spécial. Dans la boîte de dialogue Collage spécial, sélectionnez Ignorer les blancs, puis cliquez sur OK. Les données transposées sont copiées dans la matrice d’origine, mais le collage des données ne copie pas les cellules vides des données transposées. La matrice de corrélation complète est présentée à la figure 7.
FIGURE 7 Il s’agit de la matrice de corrélation complète.
Utilisation de la fonction CORRELATION
Au lieu d’utiliser la corrélation à partir de utilitaire d’analyse, vous pouvez utiliser la fonction CORREL.
Par exemple, la saisie de la formule CORREL (E52: E181, F52: F181) dans la cellule I49 confirme que la corrélation entre les retours mensuels sur Cisco (indiqué dans la colonne F) et GM (indiqué dans la colonne E) est de 0,159.
Relation entre corrélation et R²
Dans l’article 53, «Estimation des relations linéaires», vous avez trouvé une valeur R² pour les unités produites et coût d’exploitation mensuel de 0,688. Comment cette valeur est-elle liée à la corrélation entre les unités produites et les coûts d’exploitation mensuels? La corrélation entre deux ensembles de données est simplement:
pour la ligne de tendance, où vous choisissez que le signe de la racine carrée soit le même que le signe de la pente de la ligne de tendance. Ainsi, la corrélation entre les unités produites et les coûts d’exploitation mensuels pour les données de l’article 53 est
Corrélation et régression vers la moyenne
Vous avez probablement entendu l’expression «régression vers la moyenne». Essentiellement, cette déclaration signifie que la valeur prédite d’une variable dépendante sera en quelque sorte plus proche de sa valeur moyenne que la variable indépendante. Plus précisément, supposons que vous essayez de prédire une variable dépendante y à partir de une variable indépendante x. Si x est k écarts-types au-dessus de la moyenne, votre prédiction pour y sera écarts-types au-dessus de la moyenne. (Ici, r = corrélation entre x et y.) Parce que r est entre –1 et +1, cela signifie que y est moins d’écarts-types de la moyenne que x. Telle est la véritable définition de la «régression vers la moyenne». Voir le problème 5 pour une application intéressante du concept de régression vers la moyenne.