Utilisation de la fonction DROITEREG () pour l’équation de régression

La figure 4.19 contient un peu d’informations commençant par les cellules A1: C3, qui montrent la plupart des résultats de l’exécution de DROITEREG () sur les données brutes dans la plage A6: C35.

 


Remarque

DROITEREG () peut renvoyer deux lignes supplémentaires, non représentées dans la Figure 4.19. Ils ont été omis parce que la signification de leur contenu ne deviendra claire qu’après le chapitre 16.
La première ligne de résultats retournée par DROITEREG () inclut les coefficients de régression et l’interception. Comparez le contenu de A1: C1 sur la figure 4.19 avec l’équation donnée vers la fin de la section précédente. La dernière colonne de la première ligne des résultats contient toujours l’interception. Ici, c’est -73.99, trouvé dans la cellule C1.
Toujours dans la première ligne de n’importe quel résultat retourné par DROITEREG (), les colonnes qui précèdent le dernier contiennent toujours les coefficients de régression. Ce sont les valeurs qui sont multipliées par les variables prédictives dans l’équation de régression. Dans cet exemple, il n’y a que deux variables prédictives – éducation et âge – donc il n’y a que deux coefficients de régression, trouvés dans les cellules A1 et B1.

La figure 4.19 utilise les étiquettes b2, b1 et a dans les cellules E1, F1 et G1. Les lettres a et b sont des symboles standard utilisés dans une grande partie de la littérature concernant l’analyse de régression. Je ne vous les inflige que pour que, quand vous les rencontrez ailleurs, vous sachiez à quoi ils se rapportent. (“Ailleurs” n’inclut pas la documentation d’aide de Microsoft sur DROITEREG (), qui est très idiosyncratique.)
Si cet exemple utilise une troisième variable prédictive, les sources standard la désignent par b3. L’interception est normalement appelée a.

La fonction DROITERE () s’exécute en arrière
DROITERE () renvoie les coefficients de régression dans le sens inverse de l’ordre dans lequel ils apparaissent sur la feuille de calcul.
La figure 4.19 montre cela assez clairement. Là, vous trouverez l’éducation dans la première colonne des données d’entrée (A6: A35) et l’âge dans la deuxième colonne (B6: B35). Mais DROITERE () renvoie le coefficient de régression pour Age first (cellule A1) puis Education (cellule B1). Comme nous venons de le noter, DROITERE () renvoie toujours l’interception en dernier, dans la dernière colonne, première ligne de sa sortie (cellule C1).

Cette inversion peut être extrêmement gênante. Il est assez facile à gérer lorsque vous avez seulement quelques variables prédictives. Cependant, lorsque vous en avez cinq ou six, l’utilisation de l’équation sur la feuille de calcul devient très difficile. Supposons que vos données brutes pour les variables de prédicteur se trouvent dans la plage A6: E100, et que vous entrez array dans la fonction DROITERE () dans A1: F3. Pour obtenir une valeur prédite pour le premier enregistrement, vous avez besoin de ceci:
= A1 * E6 + B1 * D6 + C1 * C6 + D1 * B6 + E1 * A6 + F1
Remarquez comment l’ordre des coefficients dans la rangée 1 court d’une manière (A1 à E1) et l’ordre des variables de prédicteur court dans la direction opposée (E6 à A6). Si Microsoft l’avait bien compris dans les années 1990, votre équation aurait pu être dans ce sens (ce qui est beaucoup plus facile à composer et à comprendre):

= A1 * A6 + B1 * B6 + C1 * C6 + D1 * D6 + E1 * E6 + F1
Il n’y a absolument aucune bonne raison, statistique ou programmatique, pour cette situation. C’est le genre de chose qui arrive de temps en temps lorsque les programmeurs et les experts en la matière ne parlent pas le même langage (en supposant qu’ils parlent du tout).
Si Microsoft avait bien compris, nous ne serions pas harcelés par cette absurdité 25 ans plus tard. Mais une fois que la fonction a frappé le marché, Microsoft ne pouvait pas le reprendre. Au moment où la prochaine version est apparue, il y avait trop de classeurs qui dépendaient de la recherche des coefficients de régression de DROITERE () dans un ordre particulier.

TENDANCE () l’obtient correctement et calcule correctement les valeurs prédites, mais TENDANCE () renvoie uniquement les valeurs prédites, pas les coefficients de régression. Le complément Data Analysis dispose d’un outil de régression qui renvoie l’équation de régression avec les coefficients dans le bon ordre. Mais l’outil Régression écrit des valeurs statiques dans la feuille de calcul, donc si vos données changent du tout et que vous voulez voir les résultats, vous devez réexécuter l’outil Régression. Et puis, vous devriez être sûr de documenter quel rapport va avec quel ensemble de données.
L’inversion de l’ordre des coefficients de régression imposés par DROITERE () est la raison pour laquelle vous voyez b2 comme une étiquette dans la cellule E1 de la figure 4.19, et bx dans la cellule F1. Si vous voulez vous-même dériver directement les valeurs prédites à partir des données brutes et des coefficients de régression, et que vous voulez le faire au lieu de compter sur TENDANCE () pour le faire pour vous, vous devez vous assurer de multiplier la variable correcte par le coefficient correct.
La figure 4.19 le fait dans les colonnes E à G. Il ajoute ensuite les valeurs dans ces colonnes pour obtenir le revenu prévu dans la colonne H. Par exemple, la formule dans la cellule E6 est
= A6 * $ F $ 2
En F6:
= B6 * $ E $ 2
Et en G6, tout ce dont vous avez besoin est l’interception:
= $ G $ 2
En H6, vous pouvez les additionner pour obtenir le revenu prévu pour le premier enregistrement:
= E6 + F6 + G6

S’abonner
Notifier de
0 Commentaires
Inline Feedbacks
Voir tous les commentaires

Initiation à Excel

Fonctions Excel

Excel VBA

Macros VBA Utiles

Plus d'outils

Sur Facebook

Sur YouTube

0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x
()
x