Adresses de séries de données

Les graphiques Excel traditionnels: diagrammes à colonnes, diagrammes à barres, diagrammes XY, etc. ont tous des séries de données Excel. Une série de données est constituée de valeurs dans les cellules de la feuille de calcul affichées

sur le graphique Excel. Par exemple, dans la Figure 5.8, les trois colonnes du graphique constituent ensemble une série de données, tout comme les cellules de la feuille de calcul dont les valeurs sont sous-jacentes à ces colonnes, dans la plage E2: E4.Il est caractéristique de ce type de graphique que vous pouvez cliquer sur la série de données dans le graphique et voir l’adresse de la plage sur la feuille de calcul qui contient les valeurs affichées. Toujours dans la figure 5.8, si vous sélectionnez la série de données dans le graphique en cliquant sur l’une des colonnes, vous voyez l’adresse de feuille de calcul des valeurs dans la zone de formule. C’est logique car vous voudrez peut-être changer l’adresse de la série de données, souvent pour la prolonger ou la raccourcir. (Vous pouvez également voir les cellules en surbrillance sur la feuille de calcul elle-même, entourées de frontières appelées télémètre Vous pouvez redimensionner la plage en déplaçant le curseur sur un coin du télémètre, en cliquant dessus, puis en faisant glisser.)

Le graphique statistique, soit un histogramme, soit un diagramme à boîte et à moustaches, est différent. Contrairement aux graphiques Excel traditionnels, un graphique statistique ne trace pas les valeurs que vous trouvez sur la feuille de calcul. Il prend ces valeurs, les soumet à une sorte de manipulation et trace les résultats.
Par exemple, ce chapitre a déjà montré que vous pouvez créer un graphique de statistiques Histogramme directement à partir d’enregistrements individuels. Les données brutes ne fournissent pas à la feuille de calcul le nombre d’enregistrements dans chaque catégorie. Ce calcul est géré par des travaux préliminaires que le code fait en préparant le tableau.
Il se peut donc que rien sur la feuille de calcul ne corresponde au nombre d’enregistrements dans une catégorie donnée. C’est pourquoi vous ne voyez pas une série de données traditionnelle, avec l’adresse des valeurs, lorsque vous cliquez sur une colonne dans un graphique de statistiques Histogramme. En ce qui concerne le graphique, le nombre d’enregistrements d’une catégorie peut n’apparaître nulle part dans la feuille de calcul ou le classeur.

Dans le domaine de l’analyse statistique, Microsoft a l’habitude de fournir à Excel une fonctionnalité qui nécessite un travail supplémentaire avant d’être vraiment prête pour le prime time. La fonction LINEST () est un exemple. Je soupçonne que la charte statistique de l’histogramme s’avérera être une autre. Entre-temps, ma préférence va à l’utilisation de l’approche de la table pivotée décrite plus haut dans ce chapitre. Il se peut que je devrais lier des cellules de feuille de calcul standard aux cellules de la table pivot avant que je puisse créer le graphique, mais c’est une tâche mineure. J’ai souvent d’autres utilisations pour le tableau croisé dynamique, donc ce n’est pas un travail inutile.

Boîtes à moustaches
Le chapitre 1 traite du concept d’asymétrie dans une distribution de fréquence. Une distribution asymétrique est le plus souvent représentée comme une courbe normale qui a été étirée à une queue et qui a plus d’enregistrements que la normale regroupés dans l’autre queue. Si une distribution est étendue vers la droite, elle est appelée asymétrie positive, et si elle s’étend vers la gauche, elle est appelée asymétrie négative. Voir la figure 5.10.
Figure 5.10. Cette distribution fausse le positif.


Vous ne vous inquiétez généralement pas trop d’une asymétrie modérée dans une distribution, mais si l’asymétrie est sévère, vous pouvez très bien vouloir prendre quelques mesures pour la corriger. Encore une fois, le chapitre 1 contient des suggestions sur la façon dont vous pourriez vous y prendre. Si vous avez l’intention de soumettre votre recherche à une revue à comité de lecture, ou même si vous avez seulement l’intention de la publier sur un blog, c’est une bonne idée de signaler le degré d’asymétrie de la distribution.
Ce serait aussi une bonne idée de tracer la distribution en utilisant ce qu’on appelle une parcelle à moustaches. Le statisticien John Tukey a conçu et développé des parcelles à boîte et à moustaches dans les années 1970. Ces graphiques sont utiles de plusieurs façons:

• Ils peuvent vous donner une idée rapide du degré d’asymétrie dans une distribution de fréquence.
• Ils peuvent vous montrer rapidement où se trouvent les valeurs aberrantes, y compris leur distance par rapport au centre de la distribution.
• Ils fournissent un affichage concis de l’emplacement de la moitié centrale de la distribution.
Excel a fourni des tracés de boîtes à moustaches via des compléments pendant plusieurs années. Plus récemment, ils ont été mis à jour pour faire partie de la principale application Excel. Vous spécifiez que vous voulez un tracé de boîte et de favoris en deux étapes rapides:
1. Sélectionnez les enregistrements qui forment la distribution que vous voulez tracer dans un graphique à boîte et à moustaches. Dans la Figure 5.11, ce sont les valeurs de la colonne A, en commençant par la cellule A1 (pour capturer l’étiquette dans cette cellule).
2. Cliquez sur l’onglet Insertion du ruban, cliquez sur le bouton Graphique statistique dans le groupe Graphiques, puis choisissez Zone et Moustache dans la liste déroulante.

La figure 5.11 montre comment les données affichées sur la figure 5.10 apparaissent lorsqu’elles sont représentées sous la forme d’un tracé à boîte et à moustaches.
Figure 5.11. Ce graphique à boîte et moustaches est tourné de 90 degrés par rapport à l’orientation utilisée à la figure 5.10.

 

Dans la Figure 5.10, l’axe horizontal montre chaque catégorie, allant de la gauche vers la droite. La figure 5.11 montre également chaque catégorie, mais elle les montre sur l’axe vertical, allant du bas vers le haut.
Si vous avez déjà vu ou travaillé avec des tracés à boîte et à moustaches, vous avez peut-être vu l’orientation illustrée à la figure 5.11, mais plus généralement le graphique à boîtes et moustaches montre le nombre d’occurrences par catégorie sur l’axe horizontal , comme cela est fait dans la figure 5.10. L’orientation utilisée par le graphique en boîte à moustaches Excel peut prendre un peu de temps pour s’y habituer.
L’idée sous-jacente à l’intrigue à boîte et à moustaches est que vous pouvez dire d’un coup d’œil si la distribution est symétrique ou asymétrique, et vous pouvez avoir une idée générale de l’étendue de l’asymétrie. Avant que nous puissions en discuter raisonnablement, nous avons besoin d’une petite terminologie.
Les deux aspects d’un complot box-and-whisker qui vous sautent à l’esprit sont sa boîte et ses moustaches. Avec l’orientation utilisée par le graphique Excel, le bord inférieur de la boîte indique l’emplacement du 25e percentile de la distribution, et le bord supérieur de la boîte indique l’emplacement du 75e centile. Vous pouvez, bien sûr, vous référer aux premiers et troisièmes quartiles. Beaucoup de gens, y compris Tukey, se réfèrent aux bords de la boîte comme charnières.
Notez le symbole X dans la zone de la Figure 5.11. Il indique l’emplacement de la moyenne arithmétique – la valeur renvoyée par la fonction MOYENNE () d’Excel. La boîte contient également une ligne horizontale, dans ce cas à 14. C’est la médiane, le 50e percentile ou le deuxième quartile, de la distribution.
Les deux lignes qui se prolongent du troisième quartile et du premier quartile sont les moustaches. Les moustaches s’étendent généralement, mais pas toujours, à la valeur minimale de la distribution et à la valeur maximale de la distribution. Je discute des conditions dans lesquelles ce n’est pas nécessairement le cas sous peu.
La distance entre le 25ème et le 75ème percentile est souvent appelée intervalle interquartile, ou IQR.
Vous ne les verrez pas dans chaque parcelle à moustaches, mais les deux points en haut de la parcelle de la figure 5.11 sont aberrants.
Qu’en est-il de la longueur des moustaches? Certaines personnes les aiment jusqu’à atteindre les valeurs minimales et maximales dans la distribution qui est tracée. Tukey s’y prête, mais fait une exception pour les cas où le maximum ou le minimum tombe trop loin de la charnière la plus proche. Tukey recommande qu’une moustache ne dépasse pas 1,5 fois l’IQR de la charnière.
Vous pourriez rencontrer quelques exemples de parcelles à moustaches qui terminent les moustaches aux 10e et 90e centiles. Mais au cours des dernières années, le consensus a largement établi les valeurs minimales et maximales en tant que points d’extrémité des moustaches, sous réserve de la règle discutée dans la section suivante.

Gestion des valeurs aberrantes
Dans la figure 5.11, la charnière inférieure est à 13 et la charnière supérieure à 15. Par conséquent, l’IQR est 15 – 13, ou 2. Multipliant 1,5 fois l’IQR résulte dans une valeur de 3. En utilisant la recommandation de Tukey, alors, le bas Les moustaches ne doivent pas dépasser 13 – 3 ou 10. La moustache supérieure ne doit pas dépasser 15 + 3 ou 18.
La valeur minimale dans l’ensemble de données est 12. Par conséquent, la moustache inférieure peut s’étendre de la charnière inférieure de 13 jusqu’à la valeur minimale de 12. La recommandation de Tukey ne s’applique pas dans ce cas.
car il limiterait le point final du whisker le plus bas à 10, alors que la valeur minimale dans l’ensemble de données est de 12.
La valeur maximale dans l’ensemble de données est 22. Mais la recommandation de Tukey nous dit que la moustache supérieure ne doit pas dépasser 18. Donc, Excel termine la moustache supérieure à 18 et montre des valeurs qui dépassent 18 comme points, ou valeurs aberrantes, au-dessus de la fin de la moustache supérieure.
C’est l’approche utilisée par R et d’autres applications statistiques bien considérées.
Diagnostiquer l’asymétr

Trois indices rapides de la présence d’une asymétrie dans une distribution apparaissent dans un diagramme à boîte et moustaches:
• Les deux moustaches ont des longueurs différentes.
• La distance entre la médiane et la charnière inférieure diffère de la distance entre la médiane et la charnière supérieure.
• La distance entre la médiane et la fin de la moustache supérieure diffère de la distance entre la médiane et la fin de la moustache inférieure.
Et chaque fois que des valeurs aberrantes sont présentes, en particulier à une seule extrémité de la distribution, vous devez soupçonner que votre distribution est asymétrique.
Comparaison des distributions
Il est facile de créer plusieurs tracés de boîtes à moustaches dans Excel. Cela peut être une façon pratique de comparer deux distributions ou plus. Supposons que vous ayez mesuré la taille en pouces sur 1.000 mâles et 1.000 femelles. Comme le montre la Figure 5.12, ces mesures (imaginaires) apparaissent dans les colonnes A et B. Il suffit de sélectionner ces 2 000 valeurs, cliquez sur l’onglet Insertion du ruban et appelez pour un diagramme à moustaches dans le bouton Diagramme statistique du groupe Diagramme. Les résultats apparaissent comme le montre la figure 5.12.
Figure 5.12. Les deux diagrammes à boîte et à moustaches sont sur le même axe, de sorte que les comparaisons sont pratiques.
 

Vous pouvez immédiatement dire en comparant les deux parcelles à boîte et à moustaches que, dans ces échantillons, les femmes ont tendance à être plus courtes que les hommes et la distribution de leurs hauteurs est beaucoup plus symétrique que celle des hauteurs masculines. De plus, la variabilité entre les tailles féminines est considérablement plus grande que chez les hommes.

S’abonner
Notifier de
0 Commentaires
Inline Feedbacks
Voir tous les commentaires

Initiation à Excel

Fonctions Excel

Excel VBA

Macros VBA Utiles

Plus d'outils

Sur Facebook

Sur YouTube

0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x
()
x