Synthèse des données à l’aide de statistiques descriptives avec Microsoft Excel
■■ Qu’est-ce qui définit une valeur typique pour un ensemble de données?
■■ Comment puis-je mesurer la répartition d’un ensemble de données par rapport à sa valeur typique?
■■ Ensemble, que m’indiquent la moyenne et l’écart-type d’un ensemble de données sur les données?
■■ Comment puis-je utiliser des statistiques descriptives pour comparer des ensembles de données?
■■ Pour un point de données donné, puis-je trouver facilement son classement en centile dans l’ensemble de données? Par exemple, comment puis-je trouver le quatre-vingt-dixième centile d’un ensemble de données?
■■ Comment puis-je trouver facilement le deuxième plus grand ou le deuxième plus petit nombre dans un ensemble de données?
■■ Comment puis-je classer les nombres dans un ensemble de données?
■■ Quelle est la moyenne tronquée d’un ensemble de données?
■■ Lorsque je sélectionne une plage de cellules, existe-t-il un moyen simple d’obtenir une variété de statistiques décrivant les données de ces cellules?
■■ Pourquoi les analystes financiers utilisent-ils souvent la moyenne géométrique pour résumer le rendement moyen Un stock?
L’article précédent, «Récapitulation des données à l’aide d’histogrammes», a montré comment décrire les ensembles de données en en utilisant des histogrammes. Dans cet article, vous voyez comment décrire un ensemble de données en utilisant des caractéristiques particulières des données telles que la moyenne, la médiane, l’écart-type et la variance – mesures que Microsoft Excel regroupe en tant que statistiques descriptives. Vous pouvez obtenir les statistiques descriptives d’un ensemble de données en cliquant sur Analyse des données dans le groupe Analyse de l’onglet Données, puis en sélectionnant Statistiques descriptives. Après avoir entré les données pertinentes et cliqué sur OK, toutes les statistiques descriptives de vos données sont affichées. Si vous ne voyez pas Data Analysis sous l’onglet Data, installez le complément Data Analysis en suivant les instructions données au chapitre précédent. | |
Qu’est-ce qui définit une valeur typique pour un ensemble de données?
Pour illustrer l’utilisation des statistiques descriptives, revenez aux données de retour mensuel Cisco et GM dans le fichier. Pour créer un ensemble de statistiques descriptives pour ces données, cliquez sur Analyse des données sous l’onglet Analyse, puis sélectionnez Statistiques descriptives. Remplissez la boîte de dialogue Statistiques descriptives comme illustré à la figure.
FIGURE 1 : Cette figure montre la boîte de dialogue Statistiques descriptives.
La plage d’entrée correspond aux retours mensuels de Cisco et GM, situés dans la plage E51: F181 (y compris les étiquettes de la ligne 51). Le reste de la boîte de dialogue Statistiques descriptives a été rempli comme indiqué dans la figure pour les raisons suivantes:
■■ Les colonnes ont été sélectionnées dans les options Regroupées par car chaque ensemble de données est répertorié dans une colonne différente.
■■ Labels In First Row a été sélectionné car la première ligne de la plage de données contient des étiquettes et pas de données.
■■ La cellule I53 de la feuille de calcul actuelle a été sélectionnée comme première cellule de la plage de sortie.
■■ Statistiques récapitulatives a été sélectionné pour garantir que les mesures statistiques descriptives les plus couramment utilisées pour les déclarations mensuelles de GM et de Cisco soient affichées.
Lorsque vous cliquez sur OK, Excel calcule les statistiques descriptives, comme illustré à la figure.
FIGURE 2 : Cette figure montre les résultats des statistiques descriptives pour les stocks Cisco et GM.
Maintenant, interprétez les statistiques descriptives qui définissent une valeur typique (ou un emplacement central) pour les retours de stock mensuels de Cisco. La sortie Statistiques descriptives contient trois mesures de l’emplacement central: moyenne (ou moyenne), médiane et mode:
■■ Moyenne La moyenne d’un ensemble de données est écrite sous la forme x et est simplement la moyenne de toutes les observations de l’échantillon. Si les valeurs des données étaient x1, x2,…, xn, l’équation suivante calcule la moyenne:
Ici, n est égal au nombre d’observations dans l’échantillon, et xi est la ième observation dans le
échantillon. Vous constatez que le rendement mensuel moyen de Cisco est de 5,6% par mois.
Il est toujours vrai que la somme des écarts de toutes les valeurs par rapport à la moyenne est égale à 0. Ainsi, vous pouvez considérer la moyenne d’un ensemble de données comme un point d’équilibre pour les données. Bien sûr, sans utiliser l’option Statistiques descriptives, vous pouvez obtenir la moyenne d’un échantillon dans Excel en appliquant la fonction MOYENNE à la plage de cellules appropriée.
■■ Médiane La médiane d’un échantillon est l’observation intermédiaire lorsque les données sont répertoriées du plus petit au plus grand. Si un échantillon contient un nombre impair d’observations, la médiane est l’observation qui a autant d’observations en dessous qu’au-dessus. Ainsi, pour un échantillon de neuf, la médiane serait la cinquième plus petite (ou la cinquième plus grande) observation. Lorsqu’un échantillon comprend un nombre pair d’observations, vous pouvez simplement faire la moyenne des deux observations intermédiaires. Essentiellement, la médiane est le cinquantième centile des données. Par exemple, le rendement mensuel médian de Cisco est de 5%. Vous pouvez également obtenir ces informations en utilisant la fonction MEDIAN.
■■ Mode Le mode est la valeur la plus fréquente dans l’échantillon. Si aucune valeur n’apparaît plus d’une fois, le mode n’existe pas. Pour GM, aucun retour mensuel n’a eu lieu plus de
une fois pour les années 1990-2000, donc le mode n’existe pas. Pour Cisco, le mode était approximativement 5,14 pourcent. Dans les versions d’Excel antérieures à Excel 2010, vous pouvez également utiliser la fonction MODE pour calculer le mode. Si aucune valeur de données ne s’est produite plus d’une fois, la fonction MODE a renvoyé #N / A.
Le problème est qu’un ensemble de données peut avoir plus d’un mode, et la fonction MODE a simplement renvoyé le premier mode trouvé. Pour cette raison, Excel 2010 a introduit deux fonctions: MODE. SNGL et MODE.MULT. (Voir le fichier )
MODE.SNGL fonctionne exactement comme la fonction MODE effectuée dans les versions antérieures d’Excel. Les versions antérieures d’Excel, cependant, ne reconnaissent pas la fonction MODE.SNGL.
MODE.MULT est une fonction de tableau. Vous en apprendrez plus sur les fonctions de tableau au chapitre 87, “Fonctions et formules de tableau”. Pour utiliser la fonction MODE.MULT (ou toute autre fonction de tableau), vous devez d’abord sélectionner la plage de cellules où la fonction renverra des valeurs. Saisissez ensuite la fonction ou la formule. Enfin, ne vous contentez pas d’appuyer sur Entrée; vous devez maintenir la touche Ctrl enfoncée, puis la touche Maj, puis appuyer sur Entrée. Le problème avec la fonction MODE.MULT est que vous ne savez pas à l’avance le nombre de modes d’un jeu de données, vous ne connaissez donc pas la taille correcte de la plage que vous devez sélectionner.
Le fichier (voir Figure ) montre l’utilisation des trois fonctions impliquant modes.
FIGURE 3 Cette figure montre des exemples de fonctions Excel MODE.
Le mode est rarement utilisé comme mesure de l’emplacement central. Il est intéressant de noter, cependant, que pour un ensemble de données symétriques, la moyenne, la médiane et le mode sont égaux.
Une question naturelle est de savoir si la moyenne ou la médiane est une meilleure mesure de l’emplacement central. Essentiellement, la moyenne est la meilleure mesure de l’emplacement central si l’ensemble de données ne présente pas un biais excessif. Sinon, vous devez utiliser la médiane comme mesure de l’emplacement central. Si un ensemble de données est fortement asymétrique, des valeurs extrêmes faussent la moyenne. Dans ce cas, la médiane est une meilleure mesure d’une valeur d’ensemble de données typique. Par exemple, le gouvernement américain fait état d’un revenu familial médian au lieu d’un revenu familial moyen, car le revenu familial est fortement biaisé.
La mesure de l’asymétrie des rapports de sortie des statistiques descriptives indique si un ensemble de données est fortement asymétrique:
- • Un décalage supérieur à +1 indique un degré élevé de décalage positif.
- • Un biais inférieur à –1 indique un degré élevé de biais négatif.
- • Une asymétrie entre –1 et +1, inclus, indique un ensemble de données relativement symétrique.
Ainsi, les rendements mensuels de GM et Cisco présentent un léger degré d’asymétrie positive. Étant donné que la mesure d’asymétrie pour chaque ensemble de données est inférieure à +1, la moyenne est une meilleure mesure d’un rendement typique que la médiane. Vous pouvez également utiliser la fonction SKEW pour calculer le biais d’un ensemble de données.
■■ Kurtosis Kurtosis, qui ressemble à une maladie, n’est pas une mesure très importante. Kurtosis près de 0 signifie qu’un ensemble de données présente un pic proche de la courbe normale (ou en forme de cloche standard). (La courbe normale est discutée au chapitre 69, «La variable aléatoire normale».) Une kurtosis positive signifie qu’un ensemble de données est plus pointu qu’une variable aléatoire normale, tandis qu’un kurtosis négatif signifie que les données sont moins pointues qu’une variable aléatoire normale . Les rendements mensuels de GM sont plus élevés qu’une courbe normale, tandis que les rendements mensuels de Cisco sont moins élevés qu’une courbe normale.
Comment puis-je mesurer la répartition d’un ensemble de données par rapport à sa valeur typique?
Prenons deux investissements qui rapportent chacun en moyenne 20% par an. Avant de décider quel investissement vous préférez, vous souhaitez connaître la répartition ou le risque de l’investissement. Les mesures les plus importantes de la propagation (ou de la dispersion) d’un ensemble de données à partir de sa moyenne sont la variance de l’échantillon, l’écart-type de l’échantillon et la plage.
■■ Variance d’échantillon et écart-type d’échantillon La variance d’échantillon s² est définie par la formule suivante:
Vous pouvez considérer la variance de l’échantillon comme l’écart quadratique moyen des données par rapport à sa moyenne. Intuitivement, il semble que vous devriez diviser par n pour calculer une véritable déviation quadratique moyenne, mais pour des raisons techniques, vous devez diviser par n – 1.
La division de la somme des écarts au carré par n – 1 garantit que la variance de l’échantillon est une mesure non biaisée de la variance réelle de la population à partir de laquelle les données échantillonnées sont tirées.
L’écart type d’échantillon s n’est que la racine carrée de s².
Voici un exemple de ces calculs pour les trois nombres 1, 3 et 5:
Vous constatez que:
Dans l’exemple du stock, l’écart-type de l’échantillon des rendements mensuels pour Cisco est de 12,2% avec une variance de l’échantillon de 0,015% 2. Naturellement,% 2 est difficile à interpréter, donc vous regardez généralement l’écart type d’échantillon. Pour GM, l’écart type de l’échantillon est de 8,97%.
Dans les versions précédentes d’Excel, la variance d’échantillon de un ensemble de données a été calculé avec la fonction VAR, et l’écart type de l’échantillon a été calculé avec la fonction STDEV. Vous pouvez toujours utiliser ces fonctions dans Excel 2010, mais Excel 2010 a ajouté les fonctions équivalentes, VAR.S et STDEV.S. (Le S signifie échantillon.) Les nouvelles fonctions, VAR.P et STDEV.P, calculent la variance et l’écart-type de la population. Pour calculer une population variance ou écart-type, il suffit de remplacer n – 1 dans le dénominateur de la définition de s² par n.
Voici un exemple de ces calculs pour les trois nombres 1, 3 et 5:
Vous trouvez que:
■■ Plage La plage d’un ensemble de données est le plus grand nombre de l’ensemble de données moins le plus petit nombre. Ici, la fourchette des retours mensuels de Cisco est égale à 54% et la fourchette des retours mensuels de GM est de 52%.
Ensemble, que m’indiquent la moyenne et l’écart-type d’un ensemble de données sur les données?
En supposant qu’un histogramme peut être décrit par un histogramme symétrique, la règle empirique dit ce qui suit:
■■ Environ 68% de toutes les observations se situent entre x – s et x + s.
■■ Environ 95% de toutes les observations se situent entre x – 2s et x + 2s.
■■ Environ 99,7% de toutes les observations se situent entre x – 3s et x + 3s.
Au chapitre 69, vous verrez que les 68 pour cent, 95 pour cent et 99,7 pour cent sont dérivés du
Gaussienne ou variable aléatoire normale.
Par exemple, vous vous attendez à ce qu’environ 95% de tous les retours mensuels de Cisco se situent entre –19% et 30%, comme indiqué ici:
Moyenne – 2s = .056 – 2 × (.122) = –19% et Moyenne + 2s = .056 + 2 × (.122) = 30%
Toute observation à plus de deux écarts-types de la moyenne est appelée une valeur aberrante. Pour les données Cisco, 9 des 130 observations (soit environ 7% de tous les retours) sont des valeurs aberrantes. En règle générale, la règle empirique est moins précise pour les ensembles de données fortement asymétriques mais est généralement très précise pour les ensembles de données relativement symétriques, même si les données ne proviennent pas d’une population normale.
De nombreuses informations précieuses peuvent être obtenues en trouvant les causes des valeurs aberrantes. Les entreprises devraient veiller à ce que les causes des bonnes valeurs aberrantes se produisent plus fréquemment et les causes des mauvaises valeurs aberrantes se produisent moins fréquemment.
Utilisation de la mise en forme conditionnelle pour mettre en évidence les valeurs aberrantes
Vous constaterez qu’il est souvent utile de mettre en évidence toutes les valeurs aberrantes dans un ensemble de données. Un exemple est montré dans la Figure
FIGURE 4: Les valeurs aberrantes pour Cisco sont mises en évidence avec un formatage conditionnel.
Par exemple, pour mettre en évidence les valeurs aberrantes pour les données Cisco, vous devez d’abord calculer le seuil inférieur pour une valeur aberrante (moyenne – 2 s) dans la cellule J69 et le seuil supérieur pour une valeur aberrante (moyenne + 2 s) dans la cellule J70. Ensuite, sélectionnez toute la gamme de retours Cisco (cellules F52: F181). Ensuite, dans la première cellule de la plage (F52), sélectionnez Mise en forme conditionnelle sur l’onglet Accueil et sélectionnez Nouvelle règle. Dans la boîte de dialogue Modifier la règle de formatage, sélectionnez Utiliser une formule pour déterminer les cellules à formater, puis remplissez le reste de la boîte de dialogue, comme illustré à la figure 5.
Cette condition garantit que si la cellule F52 est supérieure ou inférieure de plus de 2 secondes au retour mensuel moyen de Cisco, le format que vous sélectionnez (une couleur de police rouge dans ce cas) sera appliqué à la cellule F52. Cette condition de formatage est automatiquement copiée dans la plage sélectionnée et toutes les valeurs aberrantes s’affichent en rouge.
FIGURE 5:Cette figure montre les règles de mise en forme conditionnelle pour sélectionner les valeurs aberrantes, comme indiqué dans la mise en forme Modifier Boîte de dialogue de règle.
Comment puis-je utiliser des statistiques descriptives pour comparer des ensembles de données?
Vous pouvez utiliser des statistiques descriptives pour résumer les différences entre les ensembles de données, par exemple, entre les déclarations mensuelles de Cisco et de GM. En regardant la forme et les mesures et la répartition d’une valeur typique, vous pouvez conclure ce qui suit:
■■ En règle générale (en examinant la moyenne ou la médiane), les rendements mensuels de Cisco sont supérieurs à GM.
■■ Les rendements mensuels de Cisco sont plus variables (en examinant l’écart-type, la variance et la plage) que les retours mensuels de GM.
■■ Les rendements mensuels de Cisco et de GM présentent des biais légèrement positifs. Les rendements mensuels de GM sont plus élevés qu’une courbe normale, tandis que les rendements mensuels de Cisco sont moins élevés qu’une courbe normale.
Pour un point de données donné, puis-je facilement trouver son classement en centile dans l’ensemble de données? Par exemple, comment puis-je trouver le quatre-vingt-dixième centile d’un ensemble de données?
Avant Excel 2010, les fonctions CENTILE et RANG.POURCENTAGE étaient utiles lorsque vous vouliez déterminer la position relative d’une observation dans un ensemble de données. Quatre nouvelles fonctions connexes ont été ajoutées dans Excel 2010: PERCENTILE.INC, PERCENTILE.EXC, RANG.POURCENTAGE.INCLURE et RANG.POURCENTAGE.INCULRE.
Les fonctions CENTILE.INCLURE et RANG.POURCENTAGE.INCLURE donnent des résultats identiques aux anciennes fonctions PERCENTILE et PERCENTRANK. Notez que les versions précédentes d’Excel ne reconnaissent pas ces nouvelles fonctions. Des exemples du fonctionnement de toutes ces fonctions figurent dans le fichier , illustré à la figure .
FIGURE 6 :Cette figure montre des exemples de fonctions CENTILE et RANG.POURCENTAGE.
Les fonctions CENTILE, CENTILE.INCLURE et CENTILE.EXCLURE renvoient le centile d’un ensemble de données que vous spécifiez. La syntaxe de ces fonctions est de la forme PERCENTILE.INC (données, k), qui renvoie le kème centile des informations dans la plage de cellules spécifiée par data.
Considérons un ensemble de données composé de n éléments de données. L’ancien PERCENTILE et le nouveau CENTILE. Les fonctions INCLURE ont renvoyé le pième centile (0 <p <1) comme élément classé 1 + (n – 1) p dans l’ensemble de données.
Par exemple, dans H13, la formule CENTILE.INCLURE (C4: C18, F13) calcule le quatre-vingt-dixième centile des données dans C4: C18 comme 1 + (15-1) .9, ce qui équivaut à l’élément classé 13,6. En d’autres termes, en supposant que les données sont triées par ordre croissant, Excel calcule un nombre de 60% entre le treizième point de données (130) et le quatorzième point de données (140). Cela donne 136.
La fonction CENTILE.EXCLURE calcule le kème centile comme l’élément classé (n + 1) p dans l’ensemble de données. CENTILE.EXCLURE calcule le quatre-vingt-dixième centile des données comme (15 + 1) (. 9), qui est l’élément classé 14,4. C’est-à-dire que le quatre-vingt-dixième centile (en supposant à nouveau que les données sont triées dans l’ordre croissant) est calculé comme étant à 40% du chemin entre le quatorzième point de données (140) et le quinzième point de données (300). Cela donne (0,60) (140) + (0,40) (300) = 204. Vous pouvez voir que les deux fonctions renvoient des réponses radicalement différentes. Si vous considérez que les données ont été tirées par échantillonnage à partir d’un grand ensemble de données, vous pouvez supposer que, compte tenu des données que vous avez vues, il y a beaucoup plus de 10% de chances qu’un élément de données soit supérieur à 136. Après tout, deux des 15 points de données sont supérieurs à 130, il ne semble donc pas raisonnable de dire que le quatre-vingt-dixième centile des données n’est que de 136. Par conséquent, dire que le quatre-vingt-dixième centile est 204 semble plus raisonnable. Utilisation de la fonction .EXCLURE au lieu de la fonction .INC est fortement recommandée. Notez que la fonction .EXCLURE ne calcule pas un centile pour 0 et 1. Le .EXC signifie que la fonction PERCENTILE.EXC exclut les centiles zéro et centième.
Les fonctions RANG.POURCENTAGE, et RANG.POURCENTAGE .EXCLURE renvoient le classement d’une observation par rapport à toutes les valeurs d’un ensemble de données. La syntaxe de la fonction RANG.POURCENTAGE .EXCLURE, par exemple, est RANG.POURCENTAGE .EXCLURE (données, valeur). Les fonctions RANG.POURCENTAGE et RANG.POURCENTAGE .INCLUREcalculent toutes les deux le rang centile du kième plus petit nombre dans l’ensemble de données comme (k – 1) / (n-1). Ainsi, comme indiqué dans la cellule E4, la fonction CENTILE ou CENTILE.INCLURE donne un rang de 0 pour 10 car k = 1 pour ce point de données. La fonction PERCENTRANK.EXC calcule le rang du kième plus petit point de données comme k / (n + 1). Dans la cellule D4, la fonction RANG.POURCENTAGE .EXCLURE renvoie un classement de 1/16 = 0,0625. Un classement centile de 6,25% semble plus réaliste qu’un classement de 0% car il y a peu de raisons de penser qu’une valeur de 10 est le plus petit point de données dans un ensemble de données plus large à partir duquel ces données ont été échantillonnées.
Remarque Les fonctions CENTILE et RANG.POURCENTAGE sont facilement confondues. Pour simplifier, CENTILE donne une valeur des données, tandis que RANG.POURCENTAGE donne un pourcentage.
Comment puis-je trouver facilement le deuxième plus grand ou le deuxième plus petit nombre dans un ensemble de données?
La formule = GRANDE.VALEUR(range, k) renvoie le kème plus grand nombre dans une plage de cellules. La formule = PETIT.VALEUR (range, k) renvoie le kième plus petit nombre dans une plage de cellules. Par exemple, dans le fichier Trimmean.xlsx, dans la cellule F1, la formule = GRANDE.VALEUR (C4: C62,2) renvoie le deuxième plus grand nombre de la plage de cellules C4: C62 (99), tandis que dans la cellule F2, le = PETIT.VALEUR ( La formule C4: C62,2) renvoie le deuxième plus petit nombre dans la plage de cellules C4: C62 (80). (Voir figure ci-dessous.)
FIGURE 7: Cette figure montre des exemples des fonctions GRANDE.VALEUR et PETIT.VALEUR, des fonctions RANG et MOYENNE.RANG et de la moyenne tronquée.
Comment classer les nombres dans un ensemble de données?
Dans les versions précédentes d’Excel, vous utilisiez la fonction RANK pour classer les nombres dans un ensemble de données. La syntaxe de la fonction RANG est RANG (nombre, tableau, 0). Excel 2010 a introduit une fonction, RANG.EQ, qui renvoie des résultats identiques à la fonction RANG. Cette formule donne le rang d’un nombre dans un tableau donné, où le plus grand nombre du tableau se voit attribuer le rang 1, le deuxième plus grand nombre est le rang 2, etc. La syntaxe RANG (nombre, tableau, 1) ou RANG.EQ (nombre, tableau, 1) entraîne l’attribution d’un rang de 1 au plus petit nombre du tableau, d’un rang de 2 au deuxième plus petit nombre, etc. Dans le fichier Trimmean.xlsx (voir figure 7), copie de la formule RANK.EQ (C4, $ C $ 4, $ C $ 62,0) à partir de la cellule D4
à D5: D62 renvoie le rang de chaque score de test. Par exemple, le score de 100 dans la cellule C7 est le score le plus élevé, tandis que le score de 98 dans les cellules C21 et C22 est à égalité au troisième rang. Notez que la fonction RANG a renvoyé un 3 pour les deux scores de 98.
La fonction Excel RANG.MOYENNE a la même syntaxe que les autres fonctions RANK, mais dans le cas de liens, RANG.MOYENNE renvoie le rang moyen pour tous les points de données liés. Par exemple, parce que les deux scores de 98 se sont classés troisième et quatrième, RANK.AVG renvoie 3,5 pour chacun. Les classements moyens ont été générés en copiant le RANG.MOYENNE (C4, $ C $ 4: $ C $ 62,0) formule de E4 à E5: E62.
Quelle est la moyenne tronquée d’un ensemble de données?
Une asymétrie extrême dans un ensemble de données peut fausser la moyenne de l’ensemble de données. Dans ces situations, les gens utilisent généralement la médiane comme mesure de la valeur typique de l’ensemble de données. Cependant, la médiane n’est pas affectée par de nombreux changements dans les données. Par exemple, comparez les deux ensembles de données suivants:
Jeu 1: –5, –3, 0, 1, 3, 5, 7, 9, 11, 13, 15
Jeu 2: –20, –18, –15, –10, –8, 5, 6, 7, 8, 9, 10
Ces ensembles de données ont la même médiane (5), mais le deuxième ensemble de données devrait avoir une valeur typique inférieure au premier. La fonction Excel TRIMMOYENNE est moins déformée par les valeurs extrêmes que la fonction MOYENNE, mais elle est plus influencée par les valeurs extrêmes que la médiane.= La formule MOYENNE.REDUITE (plage, pourcentage) calcule la moyenne d’un ensemble de données après avoir supprimé les points de données du pourcentage supérieur divisé par 2 et du pourcentage inférieur divisé par 2. Avant qu’Excel détermine le nombre de points de données à supprimer, il arrondit le nombre des points exclus au multiple de 2 le plus proche. Par exemple, l’application de la fonction MOYENNE.REDUITE avec pourcentage = 10% convertit la moyenne après la suppression des 5% supérieurs et 5% inférieurs des données. Dans la cellule F3 du fichier Trimmean.xlsx, la formule = MOYENNE.REDUITE(C4: C62, .10) calcule la moyenne des scores dans C4: C62 après avoir supprimé les deux scores les plus élevés et les deux scores les plus bas. Quatre observations sont supprimées car 0,1 * 59 = 5,9 arrondit à quatre. (Le résultat est 90,04.) Dans la cellule F4, la formule = MOYENNE.REDUITE (C4: C62, .05) calcule (90,02) la moyenne des scores en C4: C62 après avoir supprimé les scores haut et bas. Deux observations sont supprimées car 0,05 * 59 = 2,95 arrondit à deux. (Voir figure .)
Lorsque je sélectionne une plage de cellules, existe-t-il un moyen simple d’obtenir une variété de statistiques décrivant les données de ces cellules?
Pour voir la solution à cette question, sélectionnez la plage de cellules C4: C36 dans le fichier . Dans le coin inférieur droit de votre écran, la barre d’état Excel affiche une corne d’abondance de statistiques décrivant les nombres dans la plage de cellules sélectionnée. (Voir figure 8.) Par exemple, pour la plage de cellules C4: C36, la moyenne est 90,39, il y a 33 nombres, la plus petite valeur est 80 et la plus grande valeur est 100. Si vous cliquez avec le bouton droit sur la barre d’état, vous pouvez changer l’ensemble de statistiques affiché.
FIGURE 8: Cette figure montre les statistiques sur la barre d’état.
Pourquoi les analystes financiers utilisent-ils souvent la moyenne géométrique pour résumer le rendement moyen d’une action?
Le fichier Geommean.xlsx contient les rendements annuels de deux actions fictives. (Voir figure 9.)
La cellule C9 indique que le rendement annuel moyen du stock 1 est de 5% et le rendement annuel moyen du stock 2 est de 10%. Cela semblerait indiquer que le Stock 2 est un meilleur investissement. Si vous y réfléchissez, cependant, ce qui se passera probablement avec Stock 2, c’est qu’un an vous perdrez 50 pourcent et le prochain gagne 70 pour cent. Cela signifie que tous les deux ans, 1,00 $ devient 1 (1,7) (. 5) = 0,85. Parce que Stock 1 ne perd jamais d’argent, vous savez que c’est clairement le meilleur investissement. L’utilisation de la moyenne géométrique comme mesure du rendement annuel moyen permet de conclure correctement que le stock 1 est le meilleur investissement. La moyenne géométrique de n nombres est simplement la nième racine du produit des nombres. Par exemple, la moyenne géométrique de 1 et 4 est la racine carrée de 4 (2), tandis que la moyenne géométrique de 1, 2 et 4 est la racine cubique de 8 (également 2). Pour utiliser la moyenne géométrique pour calculer un rendement annuel moyen sur un investissement, vous ajoutez 1 à chaque rendement annuel et prenez la moyenne géométrique des nombres résultants. Ensuite, soustrayez 1 de ce résultat pour obtenir une estimation du rendement annuel moyen du stock.
FIGURE 9:Cette figure montre la moyenne géométrique.
La formule = GEOMOYENNE(plage) trouve la moyenne géométrique des nombres dans une plage. Ainsi, pour estimer le rendement annuel moyen de chaque action, vous procédez comme suit:
- 1. Calculez 1 + chaque rendement annuel en copiant la formule = 1 + C5 de C12 à C12: D15.
- 2. Copiez la formule = GEOMOYENNE(C12: C15) –1 de C16 à D16.
Le rendement annuel moyen du stock 1 est estimé à 5% et le rendement annuel moyen du stock 2 est de -7,8%. Il est à noter que si l’action 2 donne un rendement moyen de –7,8% pendant deux années consécutives, 1 $ devient 1 (1 –078) 2 = 0,85, ce qui est conforme au bon sens.