Utilisation de l’outil de corrélation dans Excel
Pour utiliser l’outil de corrélation, commencez par les données présentées comme indiqué à la figure 4.10.
Figure 4.10. L’outil de corrélation peut gérer les étiquettes. Veillez donc à les utiliser dans la première ligne de votre liste.
Cliquez ensuite sur Analyse des données dans le groupe Analyse de l’onglet Données, puis choisissez Corrélation dans la zone de liste Analyse des données. Cliquez sur OK pour obtenir la boîte de dialogue Corrélation affichée dans la figure 4.11:
Figure 4.11. Si vous avez des étiquettes en haut de votre liste, incluez-les dans la zone Plage d’entrée.
1. Assurez-vous que la zone Plage d’entrée est active. Si c’est le cas, vous verrez un curseur clignotant. Utilisez le pointeur de votre souris pour faire défiler toute la plage où se trouvent vos données.
Note
Pour moi, le moyen le plus rapide de sélectionner la plage de données est de commencer par le coin supérieur gauche de la plage. Je maintiens Ctrl + Shift et appuyez sur la flèche droite pour sélectionner la première rangée entière de cellules peuplées contiguës. Ensuite, sans relâcher Ctrl + Maj, j’appuie sur la flèche vers le bas pour sélectionner toutes les lignes, jusqu’à la fin de la liste ou du tableau.
2. Si vos données sont présentées sous forme de liste, avec différentes variables occupant des colonnes différentes, assurez-vous que le bouton d’option Colonnes est sélectionné.
3. Si vous avez utilisé et sélectionné les en-têtes de colonne fournis dans la Figure 4.11, assurez-vous que la case à cocher Etiquettes dans la première ligne est remplie.
4. Cliquez sur le bouton d’option Plage de sortie si vous souhaitez que les coefficients de corrélation apparaissent sur la même feuille de calcul que les données d’entrée. (Ceci est normalement mon choix.) Cliquez dans la zone d’édition Plage de sortie, puis cliquez sur la cellule de la feuille de calcul où vous souhaitez que la sortie commence. Voir la Mise en garde qui suit cette liste.
5. Cliquez sur OK pour commencer l’analyse.
Mise en garde
La boîte de dialogue Corrélation contient un piège qu’il partage avec plusieurs autres boîtes de dialogue d’analyse de données. Lorsque vous cliquez sur le bouton d’option Plage de sortie, la zone d’édition Plage d’entrée devient active. Si vous ne remarquez pas cela, vous pouvez penser que vous avez spécifié une cellule où vous voulez que la sortie commence, mais en fait vous avez dit à Excel que c’est là que se trouve la plage d’entrée.
Après avoir cliqué sur le bouton d’option Plage de sortie, réactivez sa zone d’édition de plage associée en cliquant dessus.
Presque immédiatement après avoir cliqué sur OK, vous voyez la sortie de l’outil de corrélation, comme illustré à la Figure 4.12.
Figure 4.12. Les nombres montrés dans les cellules G2: J5 sont parfois appelés collectivement une matrice de corrélation.
Vous devez garder certains points à l’esprit concernant l’outil de corrélation. Pour commencer, il vous donne une plage de cellules avec ses résultats (F1: J5 sur la figure 4.12). Chaque ligne de la plage, ainsi que chaque colonne, représente une variable différente de vos données d’entrée. La disposition est un moyen efficace de montrer la matrice des coefficients de corrélation.
Sur la figure 4.12, les cellules G2, H3, I4 et J5 contiennent chacune la valeur 1,00. Chacune de ces quatre cellules spécifiques montre la corrélation de l’une des variables d’entrée avec elle-même. Cette corrélation est toujours 1,00. Les cellules de la figure 4.12, et les cellules analogues dans d’autres matrices de corrélation, sont appelées collectivement la diagonale principale.
Vous ne voyez normalement pas de coefficients de corrélation au-dessus de la diagonale principale, car ils seraient redondants avec ceux situés en dessous. Vous pouvez voir dans la cellule H4 que pour cet échantillon, la corrélation entre la taille et le poids est de 0,72. Excel pourrait montrer la même corrélation dans la cellule I3, mais cela n’ajouterait aucune nouvelle information: La corrélation entre la taille et le poids est la même que la corrélation entre le poids et la taille.
La suppression des coefficients de corrélation au-dessus de la diagonale principale vise principalement à éviter le fouillis visuel. Des analyses statistiques plus avancées telles que l’analyse factorielle nécessitent souvent la matrice carrée entièrement peuplée.
L’outil de corrélation, comme d’autres outils d’analyse de données, affiche des valeurs statiques. Par exemple, dans la figure 4.12, les nombres dans la matrice de corrélation ne sont pas des formules telles que
= COEFFICIENT.CORRELATION(A2: A31, B2: B31)
mais plutôt les résultats statiques des formules. En conséquence, si des nombres dans la plage d’entrée changent ou si vous ajoutez ou supprimez des enregistrements de la plage d’entrée, la matrice de corrélation ne se met pas automatiquement à jour pour refléter la modification. Vous devez réexécuter l’outil de corrélation si vous souhaitez modifier les données d’entrée pour modifier la sortie.
Le complément Data Analysis a des problèmes qui remontent à son introduction dans Excel 95. Premièrement, le problème de plage de sortie est décrit dans la section Précaution de cette section. L’outil ANOVA: Two Factor without Replication utilise une approche démodée pour les mesures répétées impliquant des hypothèses très restrictives. L’ANOVA: Two Factor with Replication vous force à fournir des tailles de cellules égales. Bien que ces plaintes ne soient pas près d’épuiser la liste des inconvénients, le complément d’analyse de données est néanmoins un complément utile, et je vous encourage à l’installer et à l’utiliser au besoin.