Récapitulation des données à l’aide d’histogrammes avec Microsoft Excel

■■ Les gens disent souvent qu’une image vaut mille mots. Puis-je utiliser Excel pour créer une image

(appelé histogramme) qui résume les valeurs d’un ensemble de données?

■■ Quelles sont les formes courantes d’histogrammes?

■■ Que puis-je apprendre en comparant les histogrammes de différents ensembles de données

La capacité de résumer un grand ensemble de données est importante. Les trois outils utilisés le plus souvent pour résumer les données dans Microsoft Excel sont les histogrammes, les statistiques descriptives et les tableaux croisés dynamiques. Ce chapitre traite de l’utilisation d’histogrammes pour résumer les données. Il couvre les statistiques descriptives au chapitre 42, «Récapitulation des données à l’aide de statistiques descriptives» et les tableaux croisés dynamiques au chapitre 43, «Utilisation de tableaux croisés dynamiques et de segments pour décrire les données».

 

Les gens disent souvent qu’une image vaut mille mots. Puis-je utiliser Excel pour créer une image

(appelé histogramme) qui résume les valeurs d’un ensemble de données?

Un histogramme est un outil couramment utilisé pour résumer les données. Essentiellement, un histogramme vous indique combien d’observations (un autre terme pour les points de données) se situent dans différentes plages de valeurs. Par exemple, un histogramme créé à partir des retours mensuels d’actions de Cisco peut indiquer le nombre de retours mensuels de Cisco 0% à 10%, 11% à 20%, etc. Les plages dans lesquelles vous regroupez les données sont appelées plages de bacs.

Regardez comment construire et interpréter des histogrammes qui résument les valeurs des rendements mensuels pour les actions Cisco et GM au cours des années 1990-2000. Vous trouverez ces données (et les retours pour les autres actions) dans le fichier . La figure 1 montre un sous-ensemble des données (dans la feuille de calcul Stockprices). En mars En 1990, par exemple, le stock de Cisco a augmenté de 1,1% en valeur.

FIGURE 1: Cette figure montre les rendements mensuels des actions.

Lors de la construction d’histogrammes avec Excel, vous pouvez laisser Excel définir les plages de bacs, ou vous pouvez définir les plages de bacs vous-même. Si Excel définit les plages de bacs, vous pourriez vous retrouver avec des plages de bacs étranges, telles que –12,53% à 4,52%. Pour cette raison, vous préférerez peut-être définir les plages vous-même.

Un bon moyen de commencer à définir des plages de cases pour un histogramme (vous pouvez penser à définir des plages de cases comme définir des limites) consiste à diviser la plage de valeurs (entre la plus petite et la plus grande) en 8 à 15 catégories également espacées. Tous les rendements mensuels pour Cisco sont compris entre –30% et 40%, alors choisissez des limites de plage de bacs de –30%, –20%, –10%, 0%, etc. jusqu’à 40 pourcent.

Pour créer des plages de bacs, entrez CSCO, .4, .3, .2,…, –.2, –.3 (les limites des plages de bacs) dans les cellules H54: H62. Ensuite, sous l’onglet Données du ruban, dans le groupe Analyse, cliquez sur Analyse des données pour ouvrir la boîte de dialogue Analyse des données; il répertorie les fonctions de Analysis ToolPak, qui contient de nombreuses fonctionnalités statistiques d’Excel.

        Remarque Si la commande Analyse des données n’apparaît pas dans l’onglet Données, cliquez sur l’onglet Fichier, choisissez Options, puis sélectionnez Compléments. Dans la zone Gérer, cliquez sur Compléments Excel et puis cliquez sur Aller. Dans la boîte de dialogue Compléments, sélectionnez Analysis ToolPak (le premier choix, pas Analysis ToolPak VBA), puis cliquez sur OK. Vous pouvez maintenant accéder aux fonctions Analysis ToolPak en cliquant sur Data Analysis dans le groupe Analysis de l’onglet Data.

En cliquant sur Histogramme dans la boîte de dialogue Analyse des données, vous ouvrez la boîte de dialogue Histogramme (avec toutes les entrées vides) illustrée à la figure 2 .

FIGURE 2: Il s’agit de la boîte de dialogue Histogramme de l’histogramme Cisco.

Voici comment remplir la boîte de dialogue comme illustré à la figure ci-dessus:

■■ Sélectionnez la plage d’entrée (F51: F181). (Pour sélectionner la plage F51: F181, vous pouvez sélectionner la cellule F51, puis appuyer sur Ctrl + Maj + flèche vers le bas. Cela vous amène au bas de la colonne.) Cette plage comprend toutes les données que vous souhaitez utiliser pour créer l’histogramme. Incluez l’étiquette CSCO de la cellule F51, car lorsque vous n’incluez pas d’étiquette dans la première ligne, l’axe x de l’histogramme est souvent étiqueté avec un nombre, ce qui peut prêter à confusion.

■■ La gamme de bacs (H54: H62) comprend les limites des plages de bacs. Excel crée des bacs de –30% à –20%, –20% à –10%, et ainsi de suite jusqu’à 30–40%.

■■ Sélectionnez Étiquettes car les premières lignes de la plage de bacs et de la plage d’entrée contiennent des étiquettes.

■■ Choisissez de créer l’histogramme dans une nouvelle feuille de calcul (nommez-le histo).

■■ Sélectionnez Sortie graphique, sinon Excel ne créera pas d’histogramme.

Cliquez sur OK dans la boîte de dialogue Histogramme. L’histogramme Cisco ressemblera à celui illustré dans Figure ci-dessous.

FIGURE 3 : Cet histogramme Cisco a été créé à l’aide d’une fonction Excel Analysis ToolPak.

Lorsque vous créez l’histogramme, vous voyez des écarts entre les barres. Pour supprimer ces lacunes, cliquez avec le bouton droit sur n’importe quelle barre du graphique et choisissez Format de la série de données. Dans le volet Format de la série de données   , faites glisser Gap Width à 0%. Vous pouvez également voir qu’aucune étiquette n’apparaît pour chaque barre. Si toutes les étiquettes n’apparaissent pas, sélectionnez le graphique et faites glisser n’importe quelle poignée dotée de deux flèches pour élargir le graphique. Vous pouvez réduisez également la taille de la police pour faire apparaître une étiquette. Pour réduire la taille de la police, cliquez avec le bouton droit sur l’axe du graphique, puis cliquez avec le bouton droit sur Police. Modifiez la taille de la police à 5. Vous pouvez également modifier le titre du graphique en sélectionnant le texte et en saisissant le titre souhaité. Après avoir effectué certaines de ces modifications, l’histogramme apparaît tel qu’il est illustré à la figure ci-dessous.

FIGURE 4: Vous pouvez modifier le format des différents éléments du graphique.

Notez que les retours de Cisco sont très probablement entre 0 et 10 pour cent par mois, et la hauteur des barres diminue lorsque le graphique s’éloigne de la barre la plus haute. Lorsque vous créez l’histogramme, vous obtenez également le récapitulatif des fréquences de la plage bin illustré à la figure ci-dessous.

FIGURE 5: Il s’agit des fréquences de la gamme bin de Cisco.

À partir des fréquences bin-range, vous pouvez apprendre, par exemple, que pendant deux mois, le retour de Cisco a été supérieur à –30% et inférieur ou égal à –20%; pendant 13 mois, le rendement mensuel était supérieur à –20% et inférieur ou égal à –10%.

Quelles sont les formes courantes d’histogrammes?

Pour la plupart des ensembles de données, un histogramme créé à partir des données sera classé comme l’un des éléments suivants:

■■ Symétrique

■■ Droite asymétrique (positivement asymétrique)

■■ Incliné vers la gauche (biais négatif)

■■ Plusieurs pics

La liste suivante examine chaque type plus en détail. Voir le fichier :

■■ Distribution symétrique Un histogramme est symétrique s’il n’a qu’un seul pic et a à peu près la même apparence à gauche du pic qu’à droite du pic. Les résultats des tests (tels que les tests de QI) sont souvent symétriques. Par exemple, les histogrammes des QI (voir cellule W42) pourraient ressembler à la figure ci-dessous. Notez que la hauteur des barres à une barre de la barre de crête est approximativement la même, la hauteur des barres à deux barres de la barre de crête est approximativement la même chose, et ainsi de suite. La barre étiquetée 105 représente toutes les personnes ayant un QI supérieur à 95 et inférieur ou égal à 105, la barre étiquetée 65 représente toutes les personnes ayant un QI inférieur ou égal à 65, etc. Notez également que les retours mensuels de Cisco sont approximativement symétriques.

FIGURE 6 : Il s’agit d’un histogramme symétrique.

■■ Droite asymétrique (positivement asymétrique) Un histogramme est asymétrique droit (positivement asymétrique) s’il n’a qu’un seul pic et que les valeurs de l’ensemble de données s’étendent beaucoup plus à droite du pic qu’à gauche du pic. De nombreux ensembles de données économiques (comme le revenu familial ou individuel) présentent une asymétrie positive. La figure 7 (voir la cellule T24) montre un exemple d’histogramme asymétrique créé à partir d’un échantillon de revenus familiaux.

FIGURE 7 : Un histogramme asymétrique a été créé à partir des données sur le revenu familial.

■■ Incliné vers la gauche (asymétriquement négatif) Un histogramme est asymétrique vers la gauche (asymétriquement négatif) s’il n’a qu’un seul pic et les valeurs de l’ensemble de données s’étendent beaucoup plus à gauche du pic qu’à droite du pic. Les jours de la conception à la naissance sont biaisés négativement. Un exemple est indiqué dans la cellule Q7 de la figure ci-dessous. La hauteur de chaque barre représente le nombre de femmes dont le temps de la conception à la naissance est tombé dans la plage de bacs donnée. Par exemple, deux femmes ont accouché moins de 180 jours après la conception.

FIGURE 8 : Il s’agit d’un histogramme asymétrique des données traçant les jours de la conception à la naissance.

■■ Pics multiples Lorsqu’un histogramme présente plusieurs pics, cela signifie généralement que les données de deux populations ou plus sont représentées graphiquement ensemble. Par exemple, supposons que le diamètre des rails d’ascenseur produits par deux machines donne l’histogramme illustré à la figure ci-dessous. Voir la cellule Q11 du fichier.

FIGURE 9: Il s’agit d’un histogramme à pics multiples.

Dans cet histogramme, les données sont regroupées en deux groupes. Selon toute vraisemblance, chaque groupe de données correspond aux rails d’ascenseur produits par l’une des machines. Si vous supposez que le diamètre souhaité pour un rail d’ascenseur est de 0,55 pouces, vous pouvez conclure qu’une machine produit des rails d’ascenseur trop étroits, tandis que l’autre machine produit des rails d’ascenseur trop larges. Vous devez poursuivre votre interprétation de cet histogramme en construisant un histogramme représentant les rails d’ascenseur produits par chaque machine. Cet exemple montre pourquoi les histogrammes sont un outil puissant de contrôle qualité.

Que puis-je apprendre en comparant les histogrammes de différents ensembles de données?

Les analystes sont souvent invités à comparer différents ensembles de données. Par exemple, on pourrait vous demander en quoi les rendements mensuels des actions GM et Cisco diffèrent. Pour répondre à une question comme celle-ci, vous pouvez créer un histogramme pour GM en utilisant les mêmes plages de cases que pour Cisco, puis placer un histogramme au-dessus de l’autre, comme illustré à la figure ci-dessous. Voir la feuille de calcul Histogrammes dans le fichier .

FIGURE 10 : Cette figure montre l’utilisation d’histogrammes qui incluent le même dans des gammes pour comparer différents ensembles de données.

En comparant ces deux histogrammes, vous pouvez tirer deux conclusions importantes:

■■ En règle générale, Cisco a obtenu de meilleurs résultats que GM. Vous le savez parce que la barre la plus élevée pour Cisco est une barre à droite de la barre la plus élevée pour GM. De plus, les barres Cisco s’étendent plus à droite que les barres GM.

■■ Cisco avait plus de variabilité, ou de répartition sur la moyenne, que GM. Notez que la barre de pointe de GM contient 59 mois, tandis que la barre de pointe de Cisco ne contient que 41 mois. Cela montre que pour Cisco, la plupart des retours sont en dehors du bac qui représente le retour le plus probable de Cisco. Les retours de Cisco sont plus étalés que les retours de GM.

Dans le  chapitre suivant , vous examinez plus de détails sur les différences entre les rendements mensuels Cisco et GM.

S’abonner
Notifier de
0 Commentaires
Inline Feedbacks
Voir tous les commentaires

Initiation à Excel

Fonctions Excel

Excel VBA

Macros VBA Utiles

Plus d'outils

Sur Facebook

Sur YouTube

0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x
()
x