Utilisation de TENDANCE () pour la régression multiple dans Excel
Il arrive souvent que vous aimeriez utiliser plusieurs valeurs pour prédire une seule. Bien que cela ne soit pas apparent dans la discussion de ce chapitre, il est possible d’utiliser simultanément plusieurs variables comme prédicteurs.
L’utilisation de deux prédicteurs simultanés ou plus peut souvent améliorer la précision de la prédiction, par rapport au résultat de l’utilisation de l’un ou l’autre prédicteur par lui-même.
Combiner les prédicteurs
Dans le genre de situation qui vient d’être décrite, PENTE () et ORDONNEE.ORIGINE () ne vous aideront pas, car ils n’ont pas été conçus pour gérer plusieurs prédicteurs. Excel vous fournit à la place les fonctions TENDANCE () et DROITEREG (), qui peuvent gérer à la fois le prédicteur unique et les situations de prédicteurs multiples. C’est la raison pour laquelle vous ne verrez pas PENTE () et ORDONNEE.ORIGINE () discuté plus loin dans ce cours. Ils servent d’introduction utile aux concepts impliqués dans la régression, mais ils sont sous-alimentés et leurs capacités sont disponibles dans TENDANCE () et DROITEREG () lorsque vous avez une seule variable prédictive.
Remarque
Il est facile de conclure que TENDANCE () et DROITEREG () sont analogues à PENTE () et ORDONNEE.ORIGINE (), mais ils ne le sont pas. Les résultats de PENTE () et ORDONNEE.ORIGINE () se combinent pour former une équation basée sur un seul prédicteur. DROITEREG prend la place de PENTE () et ORDONNEE.ORIGINE () pour les prédicteurs simples et multiples. TENDANCE () renvoie uniquement les résultats de l’application de l’équation de prédiction. Tout comme dans le cas de la variable de prédicteur unique, vous pouvez utiliser TENDANCE () avec plus d’une variable de prédicteur pour renvoyer les prédictions directement à la feuille de calcul.
DROITEREG () ne renvoie pas les valeurs prédites directement, mais vous fournit l’équation
que TENDANCE () utilise pour calculer les valeurs prédites (et fournit également une variété de statistiques de diagnostic qui sont discutées dans les chapitres 16 et 18). Le nom de la fonction DROITEREG est une contraction de l’estimation linéaire.
La figure 4.18 présente les résultats d’une analyse de régression multiple ainsi que les résultats de deux analyses de régression standard.
Figure 4.18. Les valeurs prédites dans les colonnes E, F et G sont toutes basées sur TENDANCE ().
Dans la Figure 4.18, les colonnes E et F contiennent chacune des valeurs, prédites à partir d’une seule variable, du type dont ce chapitre a déjà discuté. La colonne E montre les résultats de la régression du revenu sur l’éducation et la colonne F montre les résultats de la régression du revenu selon l’âge.
Une façon d’évaluer la précision des valeurs prédites est de calculer leur corrélation avec les prédicteurs, et vous trouverez ces corrélations dans la Figure 4.18, les cellules J2 et J3. Dans cet échantillon, la corrélation entre le niveau de scolarité et le revenu prévu par le niveau de scolarité est de 0,63 et l’âge avec le revenu prévu par âge est de 0,72. Ce sont de bonnes et fortes corrélations et indiquent que l’éducation et l’âge sont des prédicteurs utiles du revenu, mais il est peut-être possible de faire encore mieux. Dans la Figure 4.18, la colonne G contient cette formule matricielle:
= TENDANCE (C2: C31, A2: B31)
Remarquez la différence entre cette formule et, disons celle de la colonne E: = TENDANCE (C2: C31, A2: A31)
Les deux formules utilisent les valeurs de revenu dans C2: C31 comme celles de connu_y. Mais la formule de la colonne E, qui prédit Revenu de l’éducation, n’utilise que les valeurs de l’éducation dans la colonne A comme valeurs connues. La formule de la colonne G, qui prédit le revenu provenant à la fois de l’éducation et de l’âge, utilise les valeurs d’éducation de la colonne A et les valeurs d’âge de la colonne B comme valeurs connues.
La corrélation des valeurs de revenu réelles dans la colonne C avec celles prédites par l’éducation et l’âge dans la colonne G est montrée dans la cellule J4 de la figure 4.18. Cette corrélation, 0,80, est un peu plus forte que la corrélation entre le revenu et le revenu prévu par l’éducation (0,63), ou du revenu avec le revenu prévu par l’âge (0,72). Cela signifie que, dans la mesure où cet échantillon est représentatif de la population, vous pouvez faire un travail plus précis de prévision du revenu lorsque vous utilisez à la fois l’éducation et l’âge que vous ne pouvez utiliser l’une ou l’autre des variables.