ANALYSE DES DONNEES Professeur : Rachid JAHIDI
1
Syllabus MATIERE : Analyse des données NIVEAU : 3ème année PRE-REQUIS : Statistique descriptive Notions d’estimation Notions d’algèbre linéaire PROFESSEUR : M. Rachid JAHIDI
OBJECTIF Le traitement des tableaux de données multidimensionnelles exige des méthodes de description statistique élaborées. L’objectif de ce cours est de présenter les principales méthodes d’Analyse Des Données (ADD) utiles dans les études marketing à base d’enquêtes et sondages. Ce cours propose à la fois ; Une présentation générale et pratique des principales méthodes d’ADD disponibles dans les logiciels Une aide à l’interprétation des sorties fournies par les logiciels statistiques Des exemples entièrement traités à l’aide de logiciels statistiques, principalement SPSS.
2
METHODOLOGIE Description des données utilisées pour présenter la méthode ; Présentation de la méthode en minimisant les aspects mathématiques et les démonstrations et en valorisant les aspects pratiques et méthodologiques ; Interprétation des sorties du programme statistique correspondant à la méthode présentée. PLAN DU COURS. Introduction générale Analyse en Composantes Principales (A) Analyse Factorielle des Correspondances (AFC) Analyse Typologique (AT)
Evaluation : • examen (60% de la note finale) • contrôle écrit (40% de la note finale) Bibliographie :
P. Ardilly : Les techniques de sondage. Technip. L. Lebart et N. Tabard : Techniques de la description statistique. Dunod. M. Volle : Analyse des données. Economica. L. Lebart et Grangé : Traitement statistique des données. Dunod. B. Escofier et J Pagès : analyse factorielles simples et multiples M. Tenenhaus : Méthodes statistiques en gestion Y. Evrard ; B. Pras ;E. Roux : Market étude et recherche en marketing.
3
Introduction La multiplication des grandes bases de données nécessite le traitement de masses d'informations toujours plus grandes. Il est donc nécessaire de disposer de méthodes permettant d'extraire cette information à partir de grands tableaux de données. Ces méthodes sont regroupées dans ce qu'on appelle l‘Analyse Des Données. L’ordinateur et la statistique •L’ordinateur est devenu un outil essentiel pour l’analyse de données •L’industrie des logiciels statistiques et des ordinateurs ne cessent de croître •Les logiciels et les ordinateurs sont maintenant accessibles à un très grand nombre de gens •Les logiciels sont de plus en plus faciles à utiliser • Avantage: permet d’utiliser des méthodes statistiques sophistiquées et d’obtenir les résultats relativement rapidement.
• Danger: facile d’appliquer une méthode statistique à un ensemble de données même si cette dernière n’est pas valide ou appropriée. Le simple fait de savoir comment utiliser un logiciel n’est pas une garantie d’une analyse statistique valide. Une bonne connaissance de la statistique est nécessaire pour savoir quelle méthode choisir et pourquoi, et comment interpréter les résultats. L'ensemble des méthodes de l'analyse des données peut être divisé en deux catégories : •les méthodes pour décrire •les méthodes pour expliquer Nous allons nous intéresser ici aux méthodes descriptives
Rappels sur la statistique descriptive unidimensionnelle et bidimensionnelle La Statistique Descriptive est l'ensemble des méthodes et techniques permettant de présenter, de décrire et de résumer des données nombreuses et variées. Il faut préciser d'abord quel est l'ensemble étudié, appelé population statistique, dont les éléments sont des individus ou unités statistiques. Chaque individu est décrit par une ou plusieurs variables, ou caractères statistiques. Chaque variable peut être, selon le cas :
4
•Variable qualitative Ses valeurs peuvent être des états, des opinions, des propriétés,... des modalités qui correspondent à des « qualités » Exemple : Population : les résidents d‘Agadir Unité statistique : un résident Variable X : la langue maternelle d'un résident Valeurs : Arabe, Berbère, Français, Anglais, Autres.
• Variable quantitative Ses valeurs sont des nombres réels et correspondent à des quantités. On distingue deux types de variables quantitatives : • la variable quantitative discrète • la variable quantitative continue Variable quantitative discrète Ses valeurs a priori sont des nombres isolés les uns des autres. Exemple, Population : les ménages de la ville de Settat Unité statistique : un ménage Variable étudiée : X : le nombre d'individus dans le ménage Valeurs : xi = 1, 2, 3, 4, .., 11. (Valeurs observées) Variable quantitative continue •Ses valeurs a priori ne peuvent être isolées. •Les valeurs se situent donc dans des intervalles de la droite réelle. •Exemple Population : les modèles automobiles sur le marché marocain Unité statistique : un modèle de voiture Variable étudiée : X : la consommation en litres sur 100 km (urbain) Valeurs : x appartient à [5 , 6) ou [6 , 7) ou ... ou [22 , 23) •Les données continues et discrètes sont des quantités : -On peut effectuer sur elles des opérations arithmétiques -Elles sont ordonnées •Les données qualitatives ne sont pas des quantités -Mais sont parfois ordonnées -Données ordinales souvent traités comme discrètes -Les données nominales ne sont pas ordonnées. Discrétisation des variables 5
Pourquoi discrétiser : -Traiter simultanément des variables quantitatives et qualitatives -Appréhender des liaisons non linéaires entres variables quantitatives -Neutraliser des valeurs extrêmes -Gérer les valeurs manquantes Comment discrétiser :
-Il faut garder en tête que -Il faut éviter d’avoir un grand écart entre le nombre de modalités des différentes variables -Un nombre convenable tourne autour de 4 à 6 modalités -Pour les raisons que -Le poids d’une variable est proportionnel à son nombre de modalités -Le poids d’une modalité est inversement proportionnel à son effectif -Avoir peu de modalités fait perdre de l’information -Avoir beaucoup de modalités implique de petits effectifs et une moindre lisibilité
Analyse exploratoire des données
•Explorer la distribution des variables •Vérifier la fiabilité des variables : Valeurs incohérentes ou manquantes •Détecter les valeurs extrêmes : Si valeur aberrantes à éliminer •Tester la normalité des variables •Détecter les liaisons entre variables –Entre variables explicatives et à expliquer –Entres variables explicatives elles même
•Variables continues –Détecter la non linéarité justifiant la discrétisation –Transformer pour augmenter la normalité
•Variables discrètes –Regrouper certaines modalités aux effectifs trop petits Tendance centrale
• la moyenne (arithmétique), éventuellement pondérée. • la médiane : M est insensible aux valeurs aberrantes, mais se prête moins bien aux calculs que la moyenne. • le mode dans le cas particulier d'une distribution unimodale. La comparaison de ces trois paramètres donne des indications sur la symétrie de la distribution.
6
Forme de la distribution
Distribution symétrique : moyenne = médiane = mode
Biais positif: mode < médiane < moyenne
Biais négatif: Moyenne < médiane < mode
2. Position Les fractiles (quartiles, déciles, centiles) : ils subdivisent la série ordonnée en un certain nombre d'intervalles (4, 10, 100) contenant environ le même nombre de valeurs observées chacun. 3. Dispersion - étendue - variance et écart-type : calculés généralement en complément de la moyenne, pour mesurer la plus ou moins grande dispersion autour de celle-ci. - intervalle interquartile : sa longueur, l'écart-interquartile mesure la dispersion des 50 % valeurs les plus centrales. - Coefficient de variation : Cv = écart-type/moyenne Cv < 25% concentration Cv > 25% dispersion
7
Exemple : boisson alphajus
Cas alphajus : Statistique descriptive N
Valide
40
Manquante
0
Moyenne
5,88
Médiane
5,50
Mode
3(a)
Ecart-type
2,972
Variance
8,830
Intervalle Centiles
12 25
3,25
50
5,50
75
8,00
a Il existe de multiples modes
Le Box plot (ou boîte à moustache) : Représentation graphique synthétique de Tukey Le Boxplot est un résumé de la série (de la distribution) construit à partir de sa médiane, ses 1 et 3éme quartiles et ses valeurs extrêmes. Il permet de repérer rapidement, de façon visuelle, l’allure générale de la distribution. er
Construction utilisée ici : Une boîte, deux moustaches et des valeurs extrêmes : • La boîte est délimitée en bas par le premier quartile, en haut par le troisième quartile. Entre les deux se trouve la médiane. Parfois la moyenne est ajoutée. • Les extrémités des moustaches ou valeurs extrêmes sont : • Le min et le max ; •Ou encore, souvent proposées dans les logiciels: la plus petite valeur supérieure à q1 - 1,5*(q3 - q1) et la plus grande valeur inférieure à q3 + 1,5*(q3 - q1) avec (q1 = premier quartile ; q3 = troisième quartile). Dans ce cas, les valeurs extrêmes sont les valeurs de la série qui sont hors des limites définies par les extrémités des moustaches (aucune si aucune des valeurs ne sort des limites).
8
•Attention, les valeurs extrêmes telles que définies n’ont de sens que lorsque la distribution est Normale.
Représentation :
Box plot 1,2
1,100
Maximum 1
0,8
0,6
0,4
3ème quartile 0,631
Intervalle interquartiles (50 % des valeurs)
0,620
Moyenne Médiane
1er quartile
0,2 0,180
Minimum
0
Le box plot permet de visualiser rapidement : • La plus ou moins forte concentration des valeurs : autour de la médiane (intervalle interquartiles, hauteur de la boîte) et celle des queues de distribution (les pattes, chacune 25 % des valeurs). •Remarque : la hauteur de la boîte représente 50 % des valeurs, plus cette hauteur est grande (petite) plus les valeurs correspondantes sont étalées (concentrées).
•La symétrie de la distribution : position de la médiane dans la boîte et globalement ; différence de longueur des pattes. Plus la moyenne s’écarte de la médiane plus la distribution est asymétrique (attention aux valeurs aberrantes qui influence la valeur de la moyenne) et inversement plus la médiane et la moyenne sont proches plus la distribution est symétrique. Lorsque la médiane est inférieure à la moyenne, les valeurs inférieures sont plus fortement concentrées, les valeurs supérieures plus fortement étalées.
9
alphajus : Boîte-à-Moustache 14
max 12
10
8
6
4
Q3
médiane Q1
2
min 0 consommation de boisson
alphajus : Boîte-à-moustache multiple boîte à mouchtache
A
12 ,5
A
consommation de boisson
consommation de boisson
12,5
10,0
7,5
5,0
2,5
10 ,0
7,5
5,0
2,5
n=19
n=21
oui
n=14
n=13
n=13
d'accord
j e ne su is pa s sû r
pa s d 'a ccord
non
achat préalable
goût pour le sucré
10
Skewness et Kurtosis : Deux indicateurs de la forme de la distribution des valeurs observées. Le skewness permet de mesurer le degré d’asymétrie de la distribution des valeurs. Æ Moment centré d’ordre 3 sur le cube de l’écart type.
n
Estimation sur un échantillon :
skewness =
∑( y i =1
i
− y )3
( n − 1) s
3
Le kurtosis permet de mesurer le degré d’aplatissement d’une distribution. Æ Moment centré d’ordre 4 sur le carré de la variance. Le kurtosis de la distribution Normale, ainsi calculé, vaut 3, c’est pourquoi les logiciels proposent souvent le calcul du kurtosis en ôtant la valeur 3. Estimation sur un échantillon : n
kurtosis =
∑( y i =1
i
− y )4
( n − 1) s 4
−3
Utilité du skewness et du kurtosis Une distribution symétrique autour de sa moyenne aura un skewness proche de 0. Skewness positif Ö étalement des valeurs à droite Skewness négatif Ö étalement des valeurs à gauche Le kurtosis d’une loi Normale est nul ; une distribution des valeurs proche de la forme en cloche de la loi normale donnera un kurtosis proche de 0. Kurtosis positif Ö forte concentration, pic prononcé Kurtosis négatif Ö aplatissement de la distribution, faible concentration Le Skewness et le Kurtosis sont des indicateurs numériques de la forme de la distribution observée : ils donnent un indice de l’éloignement ou du rapprochement de la distribution de la série de valeurs de celle d’une distribution de loi Normale.
11
Allure d’une distribution selon que le skewness et le kurtosis sont positifs, négatifs ou nuls :
Négatif
Positif
Nul
Skewness
Kurtosis
alphajus : Skewness et Kurtosis de la variable consommation N
Valide Manquante
40 0
Moyenne
5,88
Médiane
5,50
Mode
3(a)
Ecart-type
2,97 2
Variance
8,83 0
Asymétrie Aplatissement
,504 -,375
12
alphajus : ê
25 %
ê ê
ê
ê
ê
20 %
ê ê
Pourcentage
ê
ê
ê
15 %
ê ê
ê
ê
ê
10 %
ê ê
ê
ê
ê
5%
ê ê
ê
ê
ê
ê
1
ê
ê
ê
ê
ê
ê
ê
3
ê
ê
ê
ê
ê
5
ê
ê
ê
ê
ê
ê
7
ê
ê
ê
ê
ê
ê
9
ê
11
ê
ê
ê
ê
ê
13
consommation de boisson
Normalisation d’une variable.
•Si Skewness > 0 –Log(V) ou Log(V+1) si V >= 0 –Racine carré de V – -1 / V ou -1 / V²
•Si Skewness < 0 –V² ou V3 Exemple alphajus
consommation de boisson N Valide 40 Manquante 0 Asymétrie ,504 Erreur std. ,374 d'asymétrie Aplatissement -,375 Erreur std. ,733 d'aplatissement
logconsom 40 0 -,658
racineconsom 40 0 -,021
,374
,374
,177
-,625
,733
,733
13
Traitement bivarié Croisement de variable métrique : KILOMETRAGE
KILOMETRAGE
407.22
407.22 257.51
DEPENSE
257.51
DEPENSE
Coefficient de corrélation : 0,997 Équation de la droite de régression : KILOMETRAGE = 1,57 * DEPENSE + 40,61 (DEPENSE explique 99% de la variance de KILOMETRAGE) Le coefficient de corrélation r de Pearson sert à mesurer l’intensité de la relation linéaire entre deux variables quantitatives. •Le coefficient de corrélation r prendra des valeurs entre -1 et 1. •S’il existe une relation linéaire parfaite entre X et Y alors r = ±1 (r =1 si X et Y varient dans le même sens et r = -1 si X varie dans le sens opposé à Y). •Si r = 0, ceci indique qu’il n ’y a pas de lien linéaire entre X et Y. •Plus la valeur de r s’éloigne de 0 pour s’approcher de ±1 plus l’intensité du lien linéaire entre X et Y grandit.
14
Attention!! Il est important d’interpréter le coefficient de corrélation avec le graphique.
Croisement de variable nominale
•Quel est votre mode d'hébergement ? 15
#Hôtel #Camping # Location / gîte #Famille / amis •Quelle est la C.S.P. du chef de famille ? # Agriculteur # Patr indust commerce # Profession libérale/cadre #Cadre moyen #Employé #Ouvrier #Personnel de service #Autre
Tableau de contingence Mode d'hébergement Non Hôtel réponse CSP 1 3 Non réponse 0 1 Agriculteur Patr indust commerce 1 17 Profession libérale/cad 1 23 Cadre moyen 7 12 Employé 1 10 Ouvrier 1 7 Personnel de service 2 0 Autre 2 31 TOTAL 16 104
Cam Locatio Famille /TOTAL ping n / gîte amis 2 2 4 6 17 32 20 8 22 113
13 2 10 26 25 29 8 2 25 140
14 6 13 24 32 35 9 12 34 179
33 11 45 80 93 107 45 24 114 552
Comment les CSP choisissent leurs modes d’hébergements? Profil ligne Mode d'hébergement Non réponse CSP Non réponse 3,0% Agriculteur 0,0% Patr indust commerce 2,2% Profession libérale/cadr 1,3% Cadre moyen 7,5% Employé 0,9% Ouvrier 2,2% Personnel de service 8,3% Autre 1,8% TOTAL 2,9%
Hôtel
Cam ping
9,1% 9,1% 37,8% 28,7% 12,9% 9,3% 15,6% 0,0% 27,2% 18,8%
6,1% 18,2% 8,9% 7,5% 18,3% 29,9% 44,4% 33,3% 19,3% 20,5%
Locatio Famille / TOTAL n / gîte amis 39,4% 18,2% 22,2% 32,5% 26,9% 27,1% 17,8% 8,3% 21,9% 25,4%
42,4% 54,5% 28,9% 30,0% 34,4% 32,7% 20,0% 50,0% 29,8% 32,4%
100% 100% 100% 100% 100% 100% 100% 100% 100% 100%
Comment se fait le choix du mode d’hébergement par rapport à la CSP? Profil colonne
16
Mode d'hébergement Non réponse CSP 6,3% Non réponse 0,0% Agriculteur 6,3% Patr indust commerce Profession libérale/cadr 6,3% 43,8% Cadre moyen 6,3% Employé 6,3% Ouvrier Personnel de service 12,5% 12,5% Autre 100% TOTAL
Hôtel
Cam ping
2,9% 1,0% 16,3% 22,1% 11,5% 9,6% 6,7% 0,0% 29,8% 100%
1,8% 1,8% 3,5% 5,3% 15,0% 28,3% 17,7% 7,1% 19,5% 100%
Locatio Famille / TOTAL n / gîte amis 9,3% 1,4% 7,1% 18,6% 17,9% 20,7% 5,7% 1,4% 17,9% 100%
7,8% 3,4% 7,3% 13,4% 17,9% 19,6% 5,0% 6,7% 19,0% 100%
6,0% 2,0% 8,2% 14,5% 16,8% 19,4% 8,2% 4,3% 20,7% 100%
17
ECHANTILLONNAGE Exemple de sondage douteux En 1912, le magazine Literacy Digest a commencé à produire des sondages pour prédire le résultat de l’élection américaine. Entre 1912 et 1932, les prévisions étaient toujours justes! Ceci a eu pour effet que le magazine a acquis une réputation solide dans la prévision des résultats. Les éditeurs étaient confiants dans la prévision de l’élection de 1936. Le sondage prévoyait 55% pour Landon, 41% pour Roosevelt.Dans les faits, les résultats de l’élection furent 61% pour Roosevelt et 37% pour Landon! Pourquoi un si grand écart dans les résultats? Problèmes possibles dans le sondage du Literacy Digest de 1936. La base de sondage reposait fortement sur les bottins téléphoniques et les listes d’enregistrement automobiles. On est en 1936. À cette époque, posséder une voiture/téléphone était réservée à une classe sociale/économique peut-être plus privilégiée. Problème potentiel de biais dans la base de sondage. En second lieu, 10 millions de questionnaires ont été envoyés, cependant seulement 2.3 millions ont été retournés. Le taux de réponse était moins de 25%. Des analyses subséquentes ont montré qu’en fait il était plus vraisemblable que les partisans de Landon retournent le sondage que les partisans de Roosevelt. Toujours s’interroger sur la nonréponse, ses raisons et son impact potentiel. Leçons du sondage du Literacy Digest de 1936. Les éditeurs du Digest étaient confiants, car ils avaient un large échantillon (2.3 millions). Cependant l’échantillon était associé à un taux de non-réponse de plus de 75%. L’échantillon, bien que grand, était non représentatif de la population. Un grand échantillon non représentatif peut faire plus de dommages qu’un petit échantillon non représentatif! En fait, les dommages peuvent être plus importants, dans la mesure où l’on a la fausse impression de justesse, uniquement car on dispose de résultats sur 2.3 millions d’individus. La mise en œuvre du sondage est plus importante que la taille de l’échantillon! Au même moment: Georges Gallup prélève un échantillon «aléatoire» de 6 500 personnes et obtient comme prédictions : •Landon : 35% •et Roosevelt : 64%.
DEFINITIONS
•Recensement = vérité L’information que l’on désire est disponible pour tous les individus de la population étudiée. •Échantillon = estimation de la vérité L’information n’est disponible que pour un sous-ensemble des individus de la population étudiée.
18
Avantages d’un échantillon
•Coût réduit •Rapidité accrue •Offre plus de possibilités, dans certains cas il peut être impossible de faire un recensement (ex: contrôle de qualité)
Comment choisir l’échantillon? •À l’aveuglette? NON! On veut une méthode objective. •Parmi les volontaires? NON! Sur les questions sensibles, seulement ceux qui se sentent concernés sans être compromis sont susceptibles de participer. •NON aux : Sondages télé où les gens appellent; lignes ouvertes. Les gens avec des préjugés, fortes opinions (souvent négatives) s’expriment souvent sur ces questions (avortement, racisme, etc.). On veut une méthode scientifique telle que chaque personne dans la population possède une chance mesurable (que l’on peut quantifier) de sélection.
Avantages de la méthode scientifique •On peut projeter les résultats de l’échantillon sur toute la population. •Le but d’un sondage n’est pas de décrire un individu en particulier. On veut une image, un profil, de la population. PROCESSUS D’ÉCHANTILLONNAGE - UNIVERS IDÉAL: Toutes les personnes qui possèdent les caractéristiques recherchées par l'enquêteur - UNIVERS OPÉRATIONNEL: Ensemble des personnes qui composent l'univers idéal et avec lesquelles on peut communiquer compte tenu des contraintes de temps et d'argent imposées par l'étude - BASE D’ÉCHANTILLONNAGE : Liste à partir de laquelle on peut sélectionner tous les individus qui composent l'univers opérationnel. Construction d’une base d’échantillonnage : –Idéalement, on tente de trouver une base de sondage existante. Sinon, l’on doit en construire une. –Une base d’échantillonnage contient la numérotation de tous les éléments de la population cible; elle contient des étiquettes. Choses à être conscient: •Est que la base d’échantillonnage correspond à la population visée? •Si on s’intéresse à la population de la ville de Marrakech et que l’on utilise les listes de téléphone, est-ce que la population cible = base d’échantillonnage? - MÉTHODE D’ÉCHANTILLONNAGE : C’est le comment choisir les individus
•Méthodes probabilistes: –Chaque personne à une probabilité connue d'être choisie 19
•Méthodes non - probabilistes : –On ne connaît pas la probabilité qu'un individu soit choisi. TAILLE DE L’ECHANTILLON : C’est quoi le n? –On va y revenir! Il faut introduire des critères. –De manière générale, cela dépend de la qualité de l’information que l’on désire. –Souvent n=1000 fait l’affaire. Remarque: dans une population de 100 000 ou 1 000 000 d’individus, n=1000 fournira une précision comparable. La taille de la population n’est pas une considération si importante que ça. PROBLEME : Comment choisir l’échantillon pour qu’il fournisse des informations s’apparentant à celles que l’on aurait obtenues par recensement ? La réponse dépend de l’existence ou pas : - D’une base de sondage - D’informations auxiliaires •Pas de base de sondage : méthode non probabiliste •Base de sondage mais pas d’information auxiliaire : sondage aléatoire simple, sondage en grappe et à plusieurs degrés •Base de sondage plus information auxiliaire : sondage stratifié. Sondage aléatoire simple (SAS) Ce plan est tel que tout échantillon de taille n, où n est déterminée à l’avance, possède la même probabilité. Ce tirage est essentiellement ce que l’on a en tête quand on tire dans une urne n boules sans remise qui sont bien mélangées et indétectable au toucher. Toutes les unités ont la même probabilité d’inclusion. En pratique, il faut des algorithmes pour mettre en œuvre ce plan.
Les tables de nombres au hasard Elles se présentent sous la forme de liste de nombres dont le tirage a été effectué aléatoirement. Pour les utiliser à la main, il est nécessaire de numéroter tous les individus de la base de sondage puis on se fixe une règle pour se déplacer dans la table et tirer les chiffres. 02 22 85 19 48 74 55 24 89 69 15 53 00 20 88 48 95 08 85 76 34 51 40 44 62 93 65 99 72 64 09 34 01 13 09 74 00 88 96 79 38 24 77 00 70 91 47 43 43 82 71 67 49 90 64 29 81 85 50 47 36 50 91 19 09 15 98 75 60 58 33 15 94 03 80 04 21 49 54 91 77 85 00 45 68 23 12 94 23 44
20
Tirage systématique Supposons que l’on veut un échantillon de taille n. Pour simplifier, on suppose que N/n=a, avec a un entier. Définition formelle d’un tirage systématique: 1. On prend une unité, à chances égales, parmi les a premières unités dans la base de sondage. Supposons que l’on a pris l’unité j. 2. On prend ensuite de manière successives les unités, j+a, j+2a, …, j+(n-1)a Propriétés : On note qu’il n’y a seulement que a différents échantillons possibles. Si on a choisit l’unité j, l’échantillon est alors
s = { j , j + a,K, j + (n − 1)a} Plan systématique On utilise souvent ce plan avec les tirages téléphoniques. On prend au hasard une unité, disons parmi les 20 premières, on se muni d’un pas, disons valant 30, et on lit « un nom sur 30 » dans le bottin.
Sondage en grappes Cette méthode d’échantillonnage consiste à tirer au sort un certain nombre de groupes d’unités statistiques appelées grappes puis à interroger toutes les unités appartenant aux groupes retenues. Les plans de grappes sont surtout utiles lorsque l’on ne peut pas lister toutes les unités de 1 à N, s’il y a absence de base de sondage. Elles présentent l’avantage d’avoir un échantillon moins dispersé géographiquement. Exemple : Combien de ménages de Settat possèdent un écran LCD? •Option 1: On pourrait prendre un échantillon de résidents selon le tirage aléatoire simple, disons n = 500. •Option 2: On pourrait diviser Marrakech en pâtés de maisons d’environ 20 ménages et prendre un échantillon de 25 pâtés de maisons parmi la liste de tous les pâtés de maison. C’est un exemple de tirage par grappes. Unités d’échantillonnage primaires et secondaires. •Unité d’échantillonnage primaires: ce sont les pâtés de maisons. Ce sont les unités d’échantillonnage. •Unités d’échantillonnage secondaires : ce sont les ménages. Ici ce sont les unités d’analyse, que l’on veut mesurer.
Sondage aréolaire C’est une méthode d’échantillonnage probabiliste en grappes qui consiste à découper en zones géographiques un territoire déterminé, à tirer au sort un certain nombre de ces zones et à interroger tous les individus statistique y résidant
21
Plan à un ou plusieurs degrés. Supposons que l’on dispose de notre échantillon de grappes. Pour les grappes sélectionnées, on peut –Soit observer toutes les unités. C’est un plan de grappes à un degré. –Soit lister les unités dans chaque grappe choisie et dans cette liste tirer un échantillon d’unités. C’est un exemple d’échantillonnage à deux degrés. S’il y a deux degrés d’échantillonnage, alors les unités d’analyse sont également des unités d’échantillonnage au second degré. Avantages du sondage en grappes. Même si on ne dispose pas d’une base de sondage, on peut tout de même s’assurer que toutes les unités dans la population U possède une probabilité d’inclusion strictement supérieure à 0. Souvent moins dispendieux à organiser. Sonder la population marocaine par un plan aléatoire simple pourrait engendrer de nombreux déplacements. Un plan de grappes pourrait permettre de contrôler cet aspect. Inconvénients Habituellement, pour une taille d’échantillonnage similaire, le plan de grappes donne moins de précision qu’un tirage aléatoire simple. Par exemple, dans l’exemple des ménages de Marrakech, les ménages d’une même grappe ont tendance à se ressembler Une grappe n’est pas toujours représentative de la population. Sondages stratifiés.
Sondages stratifiés: quelques motivations Dans un SAS: la sélection de l’échantillon se fait totalement au hasard, et ne fait aucun usage de renseignements que l’on pourrait posséder sur les membres de la population. Dans un sondage stratifié: On utilise de telles données pour accroître l’efficacité (petite variance) de la démarche. On a besoin d’une partition de la population en sous-groupes relativement homogènes (les strates). On procède à la sélection d’échantillons indépendants dans chaque strate. •Il faut préciser comment chaque échantillon sera pris dans chaque strate. •On pourrait opter pour SAS dans chaque strate, ou sondage systématique dans chaque strate. •On pourrait combiner des plans d’échantillonnages.
22
Distinctions entre strates et grappes Strates sont des sous-populations telles que: –On peut lister, strate par strate, les unités d’analyse dans les strates. –On prend un échantillon dans chaque strate, h = 1,2,…,H. Grappes sont des sous-populations telles que: –On ignore, avant le tirage, l’identité des unités d’analyse dans une grappe. –On peut cependant lister les grappes. –Dans les grappes sélectionnées, on observe ou bien toutes les unités d’analyse (tirage de grappes), ou bien un sous-échantillon (tirage à deux ou plusieurs degrés). –La taille de la population N pourrait être inconnue. Exemple: Enquête ayant pour objet la détermination de la proportion de fumeurs dans la population. •L’échantillon devrait représenter adéquatement les hommes et les femmes, car il est connu que les hommes fument davantage que les femmes. •La proportion de fumeurs varie beaucoup selon l’âge et la profession. Il serait donc bon d’avoir un échantillon qui représente bien ces groupes. •Si on a ces renseignements, on peut les utiliser avec un sondage stratifié avec tirage aléatoire simple. Choix des variables de stratification Elles peuvent être qualitatives ou quantitatives. •Géographiques: région, province, zone rurale, zone urbaine •Socio-démographiques: groupes d’âges, sexe, occupation. •Taille: mesure de tailles quantitatives. Avantages de l’échantillonnage stratifié: représentativité •Il contribue à réduire le nombre d’échantillons possibles à ceux qui représente mieux la population. •Représentativité améliorée: élimination (réduction) des échantillons qui produiraient des estimations aberrantes en s’assurant que l’échantillon représente tous les éléments de la population. •Estimation distinctes dans les strates: On peut obtenir des estimations séparées pour chaque strate. •On a souvent une précision plus élevée des estimations au niveau de la population. TAILLE DE L’ÉCHANTILLON (cas du tirage aléatoire simple)
•Est déterminé en fonction du théorème de la limite centrale et du niveau de confiance: –La distribution des moyennes des échantillons tend vers une distribution normale –La moyenne des moyennes des échantillons = moyenne dans la population •Ceci permet de dire que: –La moyenne de la population est égale à la moyenne de l'échantillon +/- une marge d'erreur (E)
23
Lorsqu'on désire déterminer l'intervalle de confiance pour une proportion p de succès, la formule est donnée par: ⎡ p (1 - p) p (1 - p) ⎤ ⎥ p ∈ ⎢p - zα / 2 , p + zα / 2 n n ⎥⎦ ⎢⎣
Lorsqu'on désire déterminer l'intervalle de confiance pour la moyenne μ d'une caractéristique quantitative, la formule est donnée par: ⎡
σ
μ ∈ ⎢ x - zα / 2
2
, x + zα / 2
⎤ ⎥ n ⎥⎦
σ
2
n ⎢⎣ si la variance σ2 est connue et par ⎡ s2 s2 ⎤ μ ∈ ⎢ x - t (n -1);α / 2 , x + t (n -1);α / 2 ⎥ n n ⎥⎦ ⎢⎣ si elle est inconnue. La quantité qu'on ajoute et qu'on retire: z
p
α /2
(1
-
p
)
n
est appelée la précision de l'intervalle. La formule suivante donne la taille d'échantillon minimale pour avoir une précision minimale (ou marge d’erreur maximale) donnée e au niveau de confiance 95%:
e ≥ 1,96 *
0,5(1 − 0,5 ) 1,96 2 * 0,25 0,9604 ⇔n≥ = 2 2 n e e
La taille de l'échantillon nécessaire pour atteindre une précision e désirée au niveau de confiance 95% sera de
1, 96 2 * 0 , 25
n ≥
e
2
=
0,9604 e
2
dans le cas d'une proportion et de
n
≥
[
1 . 96 e
σ
]
2
dans le cas d'une moyenne de valeurs quantitatives. Tableau donnant au niveau de confiance 95% la marge d’erreur en % p et n étant connus
24
10% 15% 20% 25% 30% 35% 40% 50% Ou Ou Ou Ou Ou Ou Ou 90% 85% 80% 75% 70% 65% 60% 100 8 8,6 9,2 9,6 9,8 10 150 5,7 6,4 6,9 7,3 7,6 7,8 8 200 4,3 5,1 5,7 6,1 6,5 6,8 6,9 7,1 250 3,8 4,5 5 5,4 5,8 6 6,2 6,3 300 3,5 4,2 4,6 5 5,3 5,6 5,7 5,8 350 3,2 3,8 4,2 4,6 4,9 5,1 5,2 5,3 400 3 3,6 4 4,3 4,6 4,8 4,9 5 500 2,7 3,2 3,6 3,9 4,1 4,3 4,4 5 600 2,4 3 3,3 3,5 3,8 3,9 4 4,1 700 2,3 2,7 3 3,3 3,5 3,5 3,7 3,8 800 2,1 2,5 2,8 3 3,2 3,3 3,4 3,5 900 2 2,4 2,7 2,9 3 3,1 3,2 3,3 1000 1,8 2,3 2,5 2,7 2,9 3 3 3,1 1500 1,5 1,9 2,1 2,3 2,4 2,5 2,6 2,6 2000 1,3 1,6 1,8 2 2,1 2,2 2,2 2,3 3000 1,1 1,3 1,4 1,5 1,6 1,7 1,8 1,8 5000 0,8 1 1,1 1,2 1,3 1,4 1,4 1,4 10000 0,6 0,7 0,8 0,9 0,9 1 1 1 Que fait-on en pratique? On utilise habituellement les formules obtenues pour le tirage aléatoire simple. Ainsi, on fait « comme si » l’échantillon était obtenu par tirage aléatoire simple. Cas stratifié Notons : N taille de la population n taille de l’échantillon Ni taille de la strate au niveau de la population ni taille de la strate au niveau de l’échantillon σi variances des strates A- échantillon à effectif égal n1 = n2 = … = n k B- échantillon à allocation proportionnelle Ni / N = n i / n C- répartition de Neyman ni = (Ni σi/Σ Nj σj)n
25
Échantillon exhaustif et non exhaustif.
Un échantillon est non exhaustif si la taille de l’échantillon est petite par rapport à la population N > 7n. Dans ce cas la taille de la population n’influence pas la taille de l’échantillon qui ne dépend que de la précision recherché et de l’erreur toléré. Un échantillon est exhaustif si la taille de la population est petite par rapport à celle de l’échantillon N<7n. Dans ce cas la taille de l’échantillon n peut épuiser celle de la population N. La taille de l’échantillon définitive est n’ = Nn /N+n MÉTHODES D'ÉCHANTILLONNAGE NON-PROBABILISTES
Avec ces méthodes, habituellement, –Moins grande exactitude que les méthodes probabilistes. –Impossible de mesurer la précision. Gros avantage des méthodes non-probabilistes: Ces méthodes sont souvent moins coûteuses. Inconvénients statistiques des méthodes non probabilistes : Avec les méthodes probabilistes, le hasard dans la sélection est pris en compte. Avec les méthodes non-probabilistes, des concepts comme le biais des estimateurs, ou les marges d’erreurs, ne peuvent pas être considérés ou calculés. En particulier, les écarts-types des estimateurs ne peuvent pas être calculés. Méthode des quotas (échantillonnage dirigé, échantillonnage par choix raisonné)
Utilisé dans les enquêtes d’opinion, les études de marché. On demande aux interviewers de faire un nombre déterminé d’interviews dans divers groupes définis de la population. Ces groupes sont définis en fonction de variables socio-économiques (âge, sexe, géographie, démographie, etc.). Les quotas sont souvent établis de façon à être sensiblement proportionnels à la fraction de la population représentée par chaque groupe. Pour le mettre en œuvre: - Pas besoin d’une base de sondage! - Pas besoin d’un plan d’échantillonnage! Inconvénients de la méthode des quotas - La méthode des quotas est toujours sujette à des problèmes de biais de sélection. - Cette méthode masque le problème de la non-réponse. Si un individu refuse de participer ou s’il est absent de son domicile, l’interviewer ira voir un autre individu car il a à combler son quota. Ainsi, il y a un sérieux risque de ne jamais redre certaines catégories de la population ayant de la réticence à répondre ou difficile à redre. De manière générale, il faut retenir qu’avec les méthodes non probabilistes, on NE peut PAS vraiment mesurer la précision des estimations. Exemple: population de personnes; on veut une représentativité de toute la population; variables âge et sexe
26
H F
<30 n 11 n 21 n .1
Âge 30-50 n 12 n 22 n .2
Taille de la population N •On doit déterminer les nij de sorte que:
50> n 13 n 23 n .3
∑∑ n
•On utilise alors la règle « proportionnelle »:
ij
n 1. n 2. n
=n
nij = n
N ij N
où Nij = effectifs connus de la population (obtenu par recensement par exemple) Méthode des itinéraires
Principe : C’est une variante de la méthode des quotas où on impose à l’enquêteur de ne réaliser ses interviews qu’auprès d’individus localisés préalablement. Intérêt : Permet de contrôler l’enquêteur et de se rapprocher du cadre aléatoire.
Méthode d’échantillonnage sur place
On constitue l’échantillon par des individus ant par des points de age connus, lorsque la population e quasi-obligatoirement par ces points. Exemple : stations d’essence, agence bancaire, sortie de salle de cinéma ,… En pratique, elle nécessite trois phase de mise en place : •On recense tous les points de age possibles. •On sélectionne les points d’enquête, soit par tirage au sort, soit par un choix raisonné. •On complète cet échantillon spatial par un échantillon temporel, pour éviter d’interroger des personnes ayant même profil. L’échantillonnage temporel se fait, soit par tirage au sort des jours et des heures d’enquête, soit en répartissant les interviews sur tous les créneaux horaires de la période d’enquête. Méthode boule de neige
Principe : La méthode consiste à faire construire l’échantillon par les individus eux même. Intérêt : Enquête auprès de populations rares
27
Méthode de convenance
Principe : on obtient un tel échantillon quand rien n’a été fait pour s’assurer que les individus qui le composent posséderont bien certaines caractéristiques désirés. Il est constitué d’individus qui se trouvait à l’endroit et au moment où l’information a été collectée Intérêt : Simplicité. Choix d’une méthode de sondage.
Il est lié aux décisions prises dans différentes phases d’élaboration de l’enquête. Le choix de l’échantillon est influencé par : •Les objectifs de l’enquête. On cherche un compromis entre les objectifs de l’enquête au meilleur coût et dans les délais impartis •La nature de la population étudié. -population dispersée géographiquement -population rare -existence d’une base de sondage (complète ou liste d’unités intermédiaire. •Le budget disponible L’échantillon est calculé en fonction du coût unitaire d’enquête. •Le mode d’istration du questionnaire •La précision souhaitée Ce qui favorise les méthodes probabilistes
28
Analyse en Composantes Principales Définition Ensemble de techniques multivariées qui ont pour but principal de réduire et de résumer les données. Une technique d’interdépendance dans laquelle toutes les variables sont considérées simultanément. L'A fournit une méthode de représentation d'une population afin : - de repérer des groupes d'individus, homogènes vis à vis de l'ensemble des caractères. - de révéler des différences entre individus ou groupes d'individus, relativement à l'ensemble des caractères. - de mettre en évidence des individus au comportement atypique. - de réduire l'information qui permet de décrire la position d'un individu dans l'ensemble de la population. L'A permet une analyse des diverses variables statistiques définies sur les caractères étudiés. Elle permet de construire des variables artificielles (car non mesurées mais calculées à partir des données) qui "expliquent " l'ensemble des variables statistiques prises en compte dans l'A. On obtient ainsi un ensemble de nouvelles variables, en plus petit nombre que les variables initiales. Chacune de ces variables initiales est liée à l'ensemble des variables artificielles retenues. Enfin, ces variables statistiques artificielles peuvent être interprétées (subjectivement), ce qui peut amener à mettre en évidence des phénomènes "latents", cachés dans les données initiales. Des aides à l'interprétation doivent donc être définies de manière à valider proprement ces interprétations.
Nature des données : On mesure sur les individus des variables de nature quantitatives selon le tableau :
X1
Variables quantitatives X Individus X2 X3 … Xp
O1 O2 … Op Evaluation de la qualité des données Les données sont-elles appropriées pour une analyse en composantes principales? Quelques règles empiriques ...
29
Matrice de corrélations C’est une matrice R dont les éléments sont les corrélations des variables prises deux à deux R=(rij=cor(Xi,Xj)) Examen de la matrice de corrélation Plus les variables présentent de fortes corrélations plus elles peuvent être regroupées en dimensions homogènes. Dans le cas contraire, les variables sont hétérogènes. Problème = grand nombre de variables et visualisations Matrice de corrélation Corrélation
SOLD NDEC MDEC NBPR NEMP MEMP VADD DEPO RETR
SOLD 1,000 -,331 -,277 ,111 -,290 ,109 ,652 ,729 -,163
NDEC -,331 1,000 ,722 -,393 -,179 -,319 -,395 -,467 -,241
MDEC -,277 ,722 1,000 -,123 -,048 -,241 -,306 -,357 -,063
NBPR ,111 -,393 -,123 1,000 ,775 ,503 ,297 ,140 ,766
NEMP -,290 -,179 -,048 ,775 1,000 ,333 -,211 -,331 ,774
MEMP ,109 -,319 -,241 ,503 ,333 1,000 ,323 ,344 ,457
VADD ,652 -,395 -,306 ,297 -,211 ,323 1,000 ,890 -,055
DEPO ,729 -,467 -,357 ,140 -,331 ,344 ,890 1,000 -,140
RETR -,163 -,241 -,063 ,766 ,774 ,457 -,055 -,140 1,000
La Mesure de précision de l’échantillonnage de Kaiser-Meyer-Olkin (KMO) Le KMO est un réel compris entre 0 et 1. Un KMO assez élevé (> 0.6) est indispensable pour obtenir une A intéressante. Dans la négative, il peut être nécessaire de supprimer certaines variables.
Mesure KMO ≥ 0.90 0.80+ 0.70+ 0.60+ 0.50+ <0.50
Recommandation Très excellent Excellent Moyen Médiocre Misérable Inacceptable
Le test de sphéricité de Barlett On test l’hypothèse H0 : indépendance entre les variables contre H1: association entre les variables Le test doit être significatif (p<0.10, p<0.05, p<0.01, p<0.001) pour exprimer le fait que les variables sont corrélées entre elles. Indice KMO et test de Bartlett Mesure de précision de l'échantillonnage de Kaiser-Meyer-Olkin. Test de sphéricité de Bartlett
Khi-deux approché ddl Signification
,645 185,606 36 ,000
30
Espace de représentation des individus Soit le tableau de données suivant individu 1 2 3 4 5 6 7 8 9
sold 2305 15259 1236 8241 6210 6871 1580 9630 4230
ndec 7 0 10 1 2 1 9 1 3
mdec 2,3 0 5,4 0,1 0,3 3 6,1 4 2,7
A chaque individu on associe l’ensemble des caractéristiques de cet individu. Chaque individu peut être représenté par un point défini par 3 coordonnées et être considéré comme un élément d’un espace F appelé espace des individus. L’ensemble des n individus est alors un nuage de points de F noté N Un premier point est de calculer la distance entre individus. La distance entre deux individus sera donc la longueur du segment joignant les deux points de l'espace qui représentent les deux individus.
La dispersion du nuage autour de son centre de gravité est mesurée par l’inertie du nuage qui correspond à la somme des variances des variables initiales. Afin de donner aux variables la même importance on centre et on réduit les variables initiales. Dorénavant on travaillera sur des données centrées réduites. Notre nuage est donc de centre de gravité l’origine et d’inertie p. On cherche à obtenir une représentation approchée de ce nuage dans un espace de dimension plus faible. La question est de savoir comment er d’un espace de dimension supérieure ou égale à 3 à un espace de dimension plus restreinte Intuitivement, il s'agit de trouver un sous espace F tel que la distance entre points - individus soit conservée dans le processus de projection sur ce sous-espace. Ainsi, la ressemblance entre individus est conservée dans cette opération de projection. L’inertie du nuage projeté est donc maximale.
31
Principe de l’A C’est la réduction de l’espace de représentation des individus par la définition de nouvelles variables « synthétiques » pour lesquelles la variance (inertie) est maximale : les composantes principales. La première composante principale est celle pour laquelle la variance des individus est maximale. La deuxième composante est cherchée sous deux conditions : –Avoir une corrélation nulle avec la première composante –Exprimer à son tour la plus grande variance des individus Le processus se déroule jusqu’à l’obtention des p composantes.
Recherche du premier axe principal et de la première composante principale Premier axe principal Δ1 La droite Δ1 e par l’origine O et est engendrée par le vecteur u1 vecteur propre normé de la matrice de corrélation R associée à la plus grande valeur propre λ1. La droite Δ maximise l’inertie des points du nuage projetés sur Δ qui vaut λ Première composante principale Y1 Y1 est une nouvelle variable définie pour chaque individu par la longueur algébrique de la projection de l’individu sur Δ1. Y1 est une variable centrée de variance λ Qualité globale de la première composante principale. La corrélation entre la première composante et les variables initiales permet de donner un sens à la composant. Mesure de la qualité globale de la première composante : part d’inertie expliquée Qualité de représentation des individus sur le premier axe principal Est mesurée par le cosinus carré de l’angle formé par l’individu et le premier axe principal. Plus le cosinus est proche de 1 plus le point est proche de l’axe Δ .
32
Recherche du deuxième axe principal et de la deuxième composante principale Deuxième axe principal Δ2 La droite Δ2 e par l’origine O et est engendrée par le vecteur u2, vecteur propre normé de la matrice de corrélation R associée à la deuxième plus grande valeur propre λ2. La droite Δ2 maximise l’inertie des points du nuage projetés sur Δ2 qui vaut λ2 . Deuxième composante principale Y2 Y2 est une nouvelle variable définie pour chaque individu par la longueur algébrique de la projection de l’individu sur Δ2.. Y2 est une variable centrée de variance λ2 Qualité globale de la deuxième composante principale. Est mesurée par la corrélation entre la deuxième composante et les variables initiales Mesure de la qualité globale de la deuxième composante : part d’inertie expliquée Qualité de représentation des individus sur le deuxième axe principal Est mesurée par le cosinus carré de l’angle formé par l’individu et le deuxième axe principal. Plus le cosinus est proche de 1 plus le point est proche de l’axe Δ2
Le processus se déroule jusqu’à l’obtention des p axes principaux et des p composantes principales Propriétés
Variance expliquée totale
•Les composantes principales sont centrées et non corrélées entres elles Valeurs propres initiales Sommes des carrés chargées •L’inertie expliquée par chaque associée % de axe la principale = variance de la composante % de la variance == variance == Composante Total % cumulés Total % cumulés •1Les composantes3,455 sont classées38,390 par ordre décroissant des variances 38,390 38,390 3,455 38,390 2 3 4 5 6 7 8 9
2,859 31,771 70,161 1,093 12,144 82,304 ,637 7,074 89,378 ,342 3,799 93,177 ,247 2,750 95,927 ,220 2,443 98,370 9,52E-02 1,058 99,428 5,14E-02 ,572 100,000 Méthode d'extraction : Analyse des principaux composants.
2,859 1,093 ,637 ,342 ,247
31,771 12,144 7,074 3,799 2,750
70,161 82,304 89,378 93,177 95,927
Remarque. Le premier plan principal est le plan formé par les deux premiers axes principaux. La part d’inertie expliquée par ce plan est la somme des parts d’inertie expliquée par les deux premiers axes principaux.
33
Représentations graphiques. (Premier plan principal) - L’individu est représenté suivant ces coordonnés selon les deux premières composantes principales. Il sera bien représenté lorsque le point est proche du plan principal - La variable est représentée selon ces corrélations avec les deux premières composantes. Elle sera bien représentée lorsque le point est proche du cercle de corrélation. Matrice des composantes a
SOLD NDEC MDEC NBPR NEMP MEMP VADD DEPO RETR
1 ,603 -,762 -,605 ,633 ,231 ,623 ,764 ,759 ,376
Composante 2 -,541 -1,6E-02 ,116 ,659 ,909 ,322 -,438 -,555 ,830
3 ,213 ,527 ,722 ,235 -8,4E-03 ,197 ,314 ,214 ,102
Méthode d'extraction : Analyse en composantes principales. a. 3 composantes extraites.
Interprétation
I) Observer la part d’inertie expliquée par le plan principal II) Expliquer la première et la seconde composante principale : observer les fortes contributions. Quelles sont les variables à retenir pour expliquer une composante? - Règle empirique: une variable n’est significative que si sa contribution est d’au moins 0.50. - La contribution de la variable représente la corrélation entre la variable originale et son facteur. - Par conséquent, plus une variable a une forte corrélation plus elle contribue à la formation de cette composante, et plus elle sert à sa désignation. Matrice des composantes a Composante 1 2 3 SOLD ,603 -,541 ,213 NDEC -,762 -1,6E-02 ,527 MDEC -,605 ,116 ,722 NBPR ,633 ,659 ,235 NEMP ,231 ,909 -8,4E-03 MEMP ,623 ,322 ,197 VADD ,764 -,438 ,314 DEPO ,759 -,555 ,214 RETR ,376 ,830 ,102 Méthode d'extraction : Analyse en composantes principales. a. 3 composantes extraites.
34
III) Observer le cercle de corrélation et mettre en évidence les fortes corrélations entre variables initiales Comment lire les corrélations? On ne peut lire la corrélation entre deux variables que si ces dernières sont proches du cercle. La corrélation est d’autant plus forte que le cosinus de l’angle formé par les deux variables est proche de 1. Diagramme de composantes 1,0
nemp retr nbpr
,5 memp mdec ndec
vadd sold depo
-,5
-1,0 -1,0
-,5
0,0
,5
1,0
Composante 1
IV) Observer la répartition des individus sur le plan et essayer de mettre en évidence la formation de groupes homogènes. L’origine des axes (0, 0) correspond à la moyenne sur l’échantillon. Il convient de mettre en valeur : – les groupes d’individus (ayant donc un comportement identique) ; – les individus isolés ; – la position relative des (groupe d’) individus par rapport aux axes. 3
1
11 2 6
REGR factor score 2 for analysis
Composante 2
0,0
20 288 23 5 29
4
1
10 0
14
7 1
19
3
25 1524 9 13 16 17 2 26 12 22
-1
18 21 30
27
-2 -3
-2
-1
REGR factor score 1 for analysis
0
1
2
1
35
Combien de composantes ou facteurs retenir? Règle des valeurs propres : toute composante qui a une valeur propre supérieure à 1. Variance expliquée totale Valeurs propres initiales Sommes des carrés chargées % de la % de la Composante Total % cumulés Total % cumulés variance == variance == 1 3,455 38,390 38,390 3,455 38,390 38,390 2 2,859 31,771 70,161 2,859 31,771 70,161 3 1,093 12,144 82,304 1,093 12,144 82,304 4 ,637 7,074 89,378 ,637 7,074 89,378 5 ,342 3,799 93,177 ,342 3,799 93,177 6 ,247 2,750 95,927 ,247 2,750 95,927 7 ,220 2,443 98,370 8 9,52E-02 1,058 99,428 9 5,14E-02 ,572 100,000 Méthode d'extraction : Analyse des principaux composants.
Règle du scree test Repérer dans le Scree plot, le «coude» des valeurs propres. Il faudrait retenir toutes les valeurs propres (et donc les axes associés) jusqu’au coude. Graphique des valeurs propres 4
3
Valeur propre
2
1
0 1
2
3
4
5
6
7
8
9
Numéro de composant
La Rotation But = obtenir une structure plus sensée. Les axes initiaux sont tournés autour de l’origine jusqu’à ce qu’une autre position soit atteinte. Rotation orthogonale = obtenir une structure factorielle dans laquelle chaque variable (ex. question) contribue essentiellement à une seule et seulement une seule dimension. La variable devrait présenter une forte corrélation avec la composante et presque une corrélation nulle avec les autres composantes. Les axes sont maintenus à 90° - les facteurs sont mathématiquement orthogonaux.
36
Diagramme de composantes 1,0
nemp retr nbpr
,5 memp mdec ndec
Composante 2
0,0
vadd sold depo
-,5
-1,0 -1,0
-,5
0,0
,5
1,0
Composante 1
Après rotation, les variables V1, V2, …V5 ci-dessus ont de nouvelles coordonnées. Les coordonnées de V1 et V2 sont plus grandes sur l’axe II (Facteur II après rotation) alors que V3, V4 et V5 contribuent plus à la dimension I (Facteur I après rotation) Facteur II après rotation Facteur II avant rotation
+1
.V1
.V2
+0.5
-1
0
-0.5
- 0.5
.V3 +0.5.V4
+1
Facteur I avant rotation
.V5 Facteur I après rotation
-1
37
Matrice des composantes après rotationa Composante 1 2 SOLD ,793 -,167 NDEC -,652 -,395 MDEC -,582 -,202 NBPR ,219 ,888 NEMP -,255 ,903 MEMP ,379 ,591 VADD ,880 3,12E-03 DEPO ,935 -,101 RETR -8,9E-02 ,906 Méthode d'extraction : Analyse en composantes pri
Diagramme de composantes dans l'espace après rotation 1,0
nemp
retr
nbpr
memp ,5
vadd depo
0,0
sold
Composante 2
mdec ndec -,5
-1,0 -1,0
-,5
0,0
,5
1,0
Composante 1
38
Analyse en composantes principales sous SPSS
Instruction : Analyse > Factorisation > Analyse factorielle
Sélection de variables :
39
Mise en œuvre Caractéristiques : – Statistiques - Caractéristiques univariées : Donne l’espérance et l’écart type de chaque variable. – Statistiques - Structure initiale : Affiche les valeurs de la structure initiale (variance, valeurs propres, etc.) – Matrice des corrélations - Coefficients : Affiche la matrice des corrélations – Matrice des corrélations - Indice KMO et test de Bartlett : Calcule le KMO et effectue le test de Bartlett. Ils permettent de déterminer, a priori, l’adéquation de l’A. – Matrice des corrélations - Anti-image : Permet de déterminer les variables à supprimer dans le cas d’un KMO trop faible.
Extraction – Méthode : Méthode d’extraction. Laisser Composantes principales. – Analyser -Matrice de corrélation/covariance : fait une A normée ou non normée. – Afficher - Structure factorielle sans rotation : Résultat avant rotation [Laisser cocher supprimer éventuellement si rotation]. Affiche les coordonnées des composantes, . . . – Afficher - Graphique des valeurs propres : Scree plot. Permet de repérer le coude. – Extraire - Valeurs propres supérieures à/ Nombre de facteurs : permet de préciser les facteurs (axes) qu’on souhaite utiliser. Soit ceux correspondants à une valeur propre supérieure à 1 (donc expliquant mieux qu’une variable initiale) soit par leur nombre (2 ou 3).
40
Rotation – Méthode - Aucune/Varimax/Quartimax/Equamax : Effectue une rotation dans le plan factoriel. Ne change pas l’inertie expliquée par le plan. – Aucune : Pas de rotation. Les facteurs correspondent aux valeurs propres par ordre de grandeur décroissante. – Varimax : simplifie l’interprétation des facteurs – Quartimax : simplifie l’interprétation des variables – Equamax : combinaison de Varimax et Quartimax – Afficher - Structure après rotation : Affiche les coordonnées des composantes après rotation, . . . – Afficher - Carte(s) factorielle(s) : Graphique des variables dans le plan factoriel.
41
Facteurs – Enregistrer dans des variables (Méthode Régression) : Permet d’enregistrer (les coordonnées des individus dans) les nouvelles variables. Permet de faire une représentation du nuage des individus. – Afficher la matrice des coefficients factoriels : Coordonnées des composantes dans les variables initiales.
Résultats Statistiques descriptives Affiche la moyenne, l’écart type et le nombre d’observations pour chaque variable. Permet donc de – juger de l’hétérogénéité des variables ; – repérer les variables ayant des valeurs manquantes. Statistiques descriptives attractivité rurale attractivité urbaine budget publicitaire chiffre d'affaire part de marché productivité rendement
Moyenne 13,65 5,55 7,35 48650,00 6,70 2270,00 51700,00
Ecart-type 4,738 2,946 3,897 19459,391 4,747 979,807 20573,053
n analyse 20 20 20 20 20 20 20
Matrices de corrélation Permet de déceler rapidement les variables fortement corrélées et/ou de juger de l’existence de corrélations suffisantes entre les variables. À confirmer par le test de Bartlett.
42
Matrice de corrélation attractivité rurale Corrélation attractivité rurale 1,000 attractivité urbain ,870 budget publicitair ,360 chiffre d'affaire ,897 part de marché ,599 productivité ,638 rendement ,793
attractivité budget chiffre urbaine publicitaire d'affaire ,870 ,360 ,897 1,000 ,267 ,790 ,267 1,000 ,444 ,790 ,444 1,000 ,558 -,005 ,678 ,612 ,308 ,816 ,686 ,341 ,816
part de marché productivité rendement ,599 ,638 ,793 ,558 ,612 ,686 -,005 ,308 ,341 ,678 ,816 ,816 1,000 ,803 ,605 ,803 1,000 ,613 ,605 ,613 1,000
Intérêt de l’A : KMO et Test de Bartlett / Matrice de Corrélation Vérifier que le Chi-2 du test Bartlett est suffisamment grand avec une signification quasi nulle : les variables sont suffisamment corrélées. La matrice des corrélations peut confirmer cela. Vérifier que le KMO est supérieur à 0,6 ou 0,5 : pas de corrélations partielles trop importantes. Sinon, supprimer une ou plusieurs variables de l’analyse. Indice KMO et test de Bartlett Mesure de précision de l'échantillonnage de Kaiser-Meyer-Olkin.
,782
Test de sphéricité de Khi-deux approximé 113,978 Bartlett ddl 21 Signification de Bartle ,000
Graphique des valeurs propres Repérer dans le Scree plot, le «coude» des valeurs propres. Il faudrait retenir toutes les valeurs propres (et donc les axes associés) jusqu’au coude. Graphique des valeurs propres 5
Valeur propre
4
3
2
1
0 1
2
3
4
5
6
7
Numéro de composant
43
Variance totale expliquée Déterminer le nombre d’axes à retenir pour avoir plus de 70 % de variance (cumulée) expliquée. Si le nombre d’axes est supérieur à 2, il faudra étudier plusieurs schémas. L’importance de chaque axe est donnée par le % de variance expliquée (par chaque axe). Variance totale expliquée xtraction Sommes des carrés de Valeurs propres initiales facteurs retenus % de la % de la Composant Total variance % cumulés Total variance % cumulés 1 4,744 67,766 67,766 4,744 67,766 67,766 2 1,032 14,741 82,507 1,032 14,741 82,507 3 ,589 8,410 90,917 4 ,320 4,573 95,490 5 ,145 2,077 97,566 6 ,126 1,802 99,369 7 ,044 ,631 100,000 Méthode d'extraction : Analyse en composantes principales.
Qualité de l’A : Variance totale expliquée / Graphique des valeurs propres L’importance de chaque axe est donnée par le % de variance expliquée (par chaque axe). Repérer dans le Scree plot, le « coude » des valeurs propres. Il faudrait retenir toutes les valeurs propres (et donc les axes associés) jusqu’au coude. Cela doit correspondre au nombre d’axes déterminé précédemment. Interprétation des axes / Contribution des variables : Matrice des composantes Repérer les variables ayant une forte contribution (positive ou négative) sur chaque axe. Ces variables donneront un sens aux axes. Deux (groupes de) variables avec des contributions de signes opposés représenteront des oppositions. Cette étape peut être une confirmation des observations faites sur le graphe. a Matrice des composantes
attractivité rurale attractivité urbaine budget publicitaire chiffre d'affaire part de marché productivité rendement
Composante 1 2 ,921 ,074 ,859 -,002 ,412 ,856 ,964 ,076 ,771 -,507 ,848 -,169 ,863 ,049
Méthode d'extraction : Analyse en composantes princip a. 2 composantes extraites.
44
Interprétation graphique : Diagramme des composantes
L’étude graphique ne doit porter que sur les variables se trouvant proches du cercle des corrélations, c’est-à-dire celles qui sont suffisamment représentées. Repérer les groupes de variables et interpréter leurs regroupements. Les variables proches des axes permettent de donner un sens aux axes, en mettant éventuellement en valeur des oppositions. Des variables proches représentent des variables fortement corrélées. Des variables « à angle droit » représentent des variables non corrélées. Qualité de représentation Initial Extraction 1,000 ,854 1,000 ,738 1,000 ,902 1,000 ,935 1,000 ,851 1,000 ,748 1,000 ,748 Méthode d'extraction : Analyse en composantes principales. attractivité rurale attractivité urbaine budget publicitaire chiffre d'affaire part de marché productivité rendement
Diagramme de composantes 1,0 budg_pub
Composante 2
0,5
chif_af attr_rur rendemt attr_urb
0,0
product
-0,5
part_mar
-1,0 -1,0
-0,5
0,0
0,5
1,0
Composante 1
45
Nuage des individus Coordonnées des individus Pour obtenir le nuage des individus (dans le plan factoriel), il faut faire une A en ayant coché l’option Facteurs > Enregistrer dans des variables. Deux (ou plus) nouvelles variables sont générées. Elles portent le nom facx_y où x représente le numéro du facteur, et y le numéro de l’analyse Diagramme des individus Faire alors un diagramme de dispersion simple Graphe > Diagramme de dispersion > Simple. Mettre le premier facteur sur l’axe X et le second sur l’axe Y. Étiqueter les observations par la variable contenant le nom des individus, et ne pas oublier de cocher dans Options... l’option Afficher le diagramme avec les étiquettes d’observations.
46
REGR factor score 2 for analysis 1
2,00000 CORA
1,00000
AUCHAN
MAMMOUTH CASINO
DYNAMIQ SCOTIA
CONTINENT
METRO PLAZZA
STOC
0,00000 PANORAMA
ATAC MATCH
CARRES D'AS
SYSTEME U CARREFOUR
-1,00000
GEANT
CHANPION
INTERMARCHE LECLERC
-2,00000 -1,00000
0,00000
1,00000
2,00000
REGR factor score 1 for analysis 1
Interprétation du nuage des individus L’origine des axes (0, 0) correspond à la moyenne sur l’échantillon. Il convient de mettre en valeur : – les groupes d’individus (ayant donc un comportement identique) ; – les individus isolés ; – la position relative des (groupe d’) individus par rapport aux axes. Attention, ce graphique ne permet pas de connaître la qualité de représentation des individus. Contribution La contribution d’un individu Xi à la détermination de l’axe Δ λ est donnée par
CTRλ (i ) =
mi Fλ2 (i )
λ
Les points les plus éloignés de l’origine ont les plus fortes contributions. Qualité de représentation des individus Il n’est pas possible de l’obtenir automatiquement. Les formules théoriques sont :
QLT (i ) = ∑ cosλ2 (i ) cosλ2 (i ) = λ
Fλ2 (i ) Xi − G
2
où λ représente les valeurs propres des axes retenus, Xi l’individu i, G le barycentre des individus, Fλ (i ) la coordonnée de Xi sur l’axe associé à λ , QLT(i) le taux de représentation de Xi par l’axe associé à λ , la qualité de représentation de Xi dans les axes associés aux λ . Pour appliquer ces formules dans SPSS, il faut tenir compte que – les calculs sont faits sur des données centrées réduites
47
– les coordonnées données par SPSS (facx_y) sont données dans un système d’axes ortho normaux. Pour appliquer les formules précédentes, il faut donc centrer et réduire les variables originales et multiplier les coordonnées sur les axes principaux par λ Normalisation des variables Utiliser Analyse > Statistiques descriptives > Caractéristiques en cochant enregistrer des valeurs standardisées dans des variables sur les variables originales.
Sélection des variables à standardiser :
48
Données standardiser :
Norme de chaque point Définir une nouvelle variable norm2 via Transformer > Calculer en utilisant la formule : norm2 = z_variable_1**2+z_variable_2**2+…
49
Calcul des cos² Définir les nouvelles variables cos²_1, cos²_2 pour chacun des axes via Transformer > Calculer en utilisant la formule : N Cos²_i= (faci_1**2) * λ /norm2
Calcul de QLT Définir une nouvelle variable QLT, via Transformer > Calculer en utilisant la formule : QLT = cos²_1 + cos²_2 + . . .
Généralement on ne prend en compte que les individus dont le QLT est supérieur à 0,5.
50
Amélioration de l’A Rotation Si l’interprétation des axes n’est pas convaincante, utilisez une rotation pour obtenir une nouvelle analyse: – Varimax : simplifie l’interprétation des facteurs en minimisant le nombre de variables ayant de fortes contributions sur un même facteur – Quartimax : simplifie l’interprétation des variables en minimisant le nombre de facteurs nécessaires à l’explication de chaque variable – Equamax : compromis entre Varimax et Quartimax. Matrice des composantes (après rotation) Coordonnées des variables dans les nouveaux axes. Matrice de transformation Rotation des axes par rapport aux axes principaux théoriques. Matrice des coefficients des coordonnées des composantes Coordonnées des composantes dans les variables initiales. Matrice des covariances des composantes Identité car orthogonales (non corrélées).
51
Variance totale expliquée
Composante 1 2 3 4 5 6 7
Valeurs propres initiales % de la Total variance % cumulés 4,744 67,766 67,766 1,032 14,741 82,507 ,589 8,410 90,917 ,320 4,573 95,490 ,145 2,077 97,566 ,126 1,802 99,369 ,044 ,631 100,000
Extraction Sommes des carrés des facteurs retenus % de la Total variance % cumulés 4,744 67,766 67,766 1,032 14,741 82,507
Somme des carrés des facteurs retenus pour la rotation % de la Total variance % cumulés 4,422 63,165 63,165 1,354 19,342 82,507
Méthode d'extraction : Analyse en composantes principales.
Matrice de tranformation des composantes Composante 1 2
1 ,956 -,295
2 ,295 ,956
Méthode d'extraction : Analyse en composantes principales. Méthode de rotation : Varimax avec normalisation de Kaiser. Diagramme de composantes dans l'espace après rotation 1,0
budg_pub
Composante 2
0,5
chif_af attr_rur rendemt attr_urb product
0,0 part_mar
-0,5
-1,0 -1,0
-0,5
0,0
0,5
1,0
Composante 1
Qualité de représentation des individus Cas de la rotation En dimension 2, on peut facilement déduire les cos² après rotation de ceux avant rotation via les formules cos²_1_R = a²cos²_1 + b²cos²_2 et cos²_2_R = b²cos²_1 + a²cos²_2 où a et b sont les coefficients de la matrice de rotation R. . ⎛ a b⎞ R = ⎜⎜ ⎟⎟ ⎝− b a⎠
52
Suppression de variables Test de Bartlett Si le test de Bartlett échoue (variables insuffisamment corrélées), il y a peu d’espoir d’améliorer l’A. Amélioration du KMO Si l’indice KMO est trop faible (< 0.5), cela signifie qu’il y a trop de corrélations partielles. Il convient donc de supprimer la (ou les) variables ayant le plus d’influence sur les corrélations partielles. Pour cela, demander le calcul de la matrice des corrélations « anti-image ».
La diagonale de cette matrice correspond au KMO pour chaque variable (quotient de la somme des corrélations au carré de cette variable avec les autres variables, par la même chose plus la somme des corrélations partielles au carré de cette variable.) Il convient donc de supprimer la variable ayant le KMO le plus faible. Contributions excessives Si une variable (ou un individu) a une contribution trop importante sur (la détermination d’) un axe principal, il peut être intéressant de supprimer cette variable (ou cet individu) de l’étude pour tenter de mieux expliquer les autres variables.
53
ANALYSE FACTORIELLE DES CORRESPONDANCES : A.F.C.
Objectifs de l’A.F.C. : Évaluer - Les ressemblances entre modalités d’une même variable. - Les proximités entre les modalités des deux variables. Intérêt de l’A.F.C.: - Expliquer graphiquement une variable à partir d’une autre variable. - Aspect non inférentiel de la méthode.
Croisement de variables nominales : Mise en relation des thèmes d’un questionnaire
Opinions Qui pense quoi
Quelles significations Qui fait quoi
Identité
Comportement
Qui veut quoi
Pour quelles raisons Motifs
Données : Tableau des fréquences b1
⎡ ⎢ a ⎢ ⎢ a ⎢ ⎣
bj
bp
a1
i
f ij =
kij
f. j =
k. j
k
n
⎤ ⎥ ki . ⎥ fi. = k ⎥ ⎥⎦
k
54
Exemple : Croisement de variables nominales : - Quelle est la C.S.P. du chef de famille ? # Agriculteur # Patr indust commerce# Profession libérale/cadre #Cadre moyen #Employé #Ouvrier #Personnel de service #Autre - Quel est votre mode d'hébergement ? #Hôtel #Camping # Location / gîte #Famille / amis Tableau des correspondances Quel est votre mode d'hébergement ? Quelle est la C.S. Famille / amisMarge active du chef de famille Hôtel CampingLocation / gîte Agriculteur 1 2 2 6 11 Patr indust comme 17 4 10 13 44 Profession libérale 23 6 26 24 79 Cadre moyen 12 17 25 32 86 Employ 10 32 29 35 106 Ouvrier 7 20 8 9 44 Personnel de serv 0 8 2 12 22 Autre 31 22 25 34 112 Marge active 101 111 127 165 504
Comment les CSP choisissent leurs modes d’hébergements? La réponse à cette question est donnée par :
Tableau des profils lignes b1 a1
ai
an
masse
⎡ ⎢ ⎢ ⎢ ⎢⎣
bj
bp
fj = i
f ij fi.
⎤ ⎥ ⎥ ⎥ ⎥⎦
f. j
55
Exemple (suite) Profils lignes Quel est votre mode d'hébergement ? Quelle est la C.S.P du chef de famille Hôtel CampingLocation / gîteFamille / amisMarge active Agriculteur ,091 ,182 ,182 ,545 1,000 Patr indust comme ,386 ,091 ,227 ,295 1,000 Profession libérale ,291 ,076 ,329 ,304 1,000 Cadre moyen ,140 ,198 ,291 ,372 1,000 Employ ,094 ,302 ,274 ,330 1,000 Ouvrier ,159 ,455 ,182 ,205 1,000 Personnel de serv ,000 ,364 ,091 ,545 1,000 Autre ,277 ,196 ,223 ,304 1,000 Masse ,200 ,220 ,252 ,327
Comment se fait le choix du mode d’hébergement par rapport à la CSP? La réponse à cette question est donnée par :
Tableau des profils colonnes b1 a1
ai
an
⎡ ⎢ ⎢ ⎢ ⎢⎣
bj
fi = j
bp
f ij f. j
masse
⎤ ⎥ f ⎥ i. ⎥ ⎥⎦
Profils colonnes Quel est votre mode d'hébergement ? Quelle est la C.S du chef de famill Hôtel Campingocation / gîte Famille / amisMasse Agriculteur ,010 ,018 ,016 ,036 ,022 Patr indust comm ,168 ,036 ,079 ,079 ,087 Profession libéra ,228 ,054 ,205 ,145 ,157 Cadre moyen ,119 ,153 ,197 ,194 ,171 Employ ,099 ,288 ,228 ,212 ,210 Ouvrier ,069 ,180 ,063 ,055 ,087 Personnel de se ,000 ,072 ,016 ,073 ,044 Autre ,307 ,198 ,197 ,206 ,222 Marge active 1,000 1,000 1,000 1,000
56
L’A.F.C. s’applique aux tableaux de contingence. Elle se propose - d’évaluer les ressemblances entre modalités d’une même variable en réalisant une A sur la matrice des profils lignes ou des profils colonnes. -d’évaluer les proximités entre les modalités des deux variables en étudiant le lien entre les deux A ( A des profils lignes et des profils colonnes). A des profils lignes
On réalise une A en considérant les profils lignes comme des individus et les modalités de la deuxième variable comme des variables.
Tableau des profils lignes b1
bj
⎡ ⎢ ⎢ ⎢ ⎣⎢
fj =
G=(
f. j
a1
ai
an
masse
bp
i
⎤ ⎥ ⎥ ⎥ ⎦⎥
f ij fi.
fi.
)= f J
f J = ( f1i ,..., f pi ) = point modalité a i i
Nuage des profils lignes. i A chaque modalité on associe le point f J = ( f 1i ,..., f pi ) = point modalité a i
et une masse égale à sa fréquence marginale f i . Le nuage de points N(I) de Rp est de centre de gravité f J Distance entre profils lignes : distance du khi-2. p
d (f , f )=∑ 2
i J
l J
j =1
1 f. j
( f j − f j )2 i
l
Le fait de diviser par f.j gomme l’effet taille et permet de mieux mesurer la forme des liaisons entres profils. Inertie du nuage des profils lignes. n
λ2
i =1
k
I ( N ( I ), f J ) = ∑ f i .d 2 ( f Ji , f J ) = n
où
λ2 = k ∑ i =1
p
∑ j =1
1 f i . f. j
( f ij − f i . f. j )2
qui est une mesure de la liaison entre les deux variables qualitatives.
57
Recherche du premier axe principal et de la première composante principale. Premier axe principal Δ1. La droite Δ1 e par le centre de gravité fJ du nuage N(I) et est engendrée par le vecteur u1 vecteur propre normé associée à la plus grande valeur propre λ . La droite Δ maximise l’inertie des points du nuage projetés sur Δ qui vaut λ .. Première composante principale F1. F1 est une nouvelle variable définie pour chaque individu par la longueur algébrique de la projection de l’individu sur Δ1. F1 est une variable centrée de variance λ .. Qualité globale de la première composante principale. - Part d’inertie expliquée : Inertie expliquée par Δ1 sur l’Inertie totale - Contribution de la modalité ai à la composante f F 2 (i ) CTR1 (i ) = i . 1
λ1
Un profil ligne est d’autant plus important dans la construction de l’axe que sa contribution est élevée. L’interprétation de l’axe s’appuie en priorité sur les modalités à fortes contributions.
Qualité de représentation des individus sur le premier axe principal. Elle est mesurée par le cosinus carré de l’angle formé par l’individu et le premier axe principal qui vaut : F 2 (i ) cos12 = 2 1 i d ( fJ , fJ ) Étude des autres dimensions. On cherche le deuxième axe principal Δ2 orthogonal à Δ1 ant au milieu du nuage N(I), puis Δ3 orthogonal à Δ1 et Δ2 vérifiant le même critère, etc. … Le nombre d’axes que l’on peut construire est au plus égal à r=inf (n-1, p-1). Axes principaux. Les axes principaux Δ1,..., Δr ent par le centre de gravité fJ et sont portés par les vecteurs propres u1,…,ur associé aux valeurs propres λ1,..., λr rangées par ordre décroissant. Les composantes principales. i Les composantes F1,…,Fr sont les coordonnées des projections des profils lignes f J sur les axes Δ1,..., Δr. Propriétés. - L’inertie expliquée par chaque axe principale = variance de la composante associée - Les composantes sont classées par ordre décroissant des variances - Les composantes principales sont centrées et non corrélées entres elles 58
Distance, entre profils lignes, exprimée en fonction des composantes : r
d 2 ( f Ji , f Jl ) = ∑ ( Fh (i ) − Fh (l )) 2 h =1
r = nombre de composantes
La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils exprimée en fonction des composantes. Exemple (suite)
Résumé
Valeur Dimensiosingulière Inertie Khi-deux 1 ,311 ,097 2 ,166 ,027 3 ,112 ,013 Total ,137 68,884 a.21 degrés de liberté
Valeur singulière de Proportion d'inertie confiance Corrélatio n Pris en compte Cumulé Ecart-type Sig. 2 ,707 ,707 ,039 ,005 ,201 ,908 ,044 ,092 1,000 ,000a 1,000 1,000
a lignes Caractéristiques des points
Score dans la dimension Quelle est la du chef de faMasse 1 2 Inertie Agriculteur ,022 -,323 ,915 ,005 Patr indust co ,087 ,854 -,257 ,022 Profession lib ,157 ,689 ,190 ,025 Cadre moyen ,171 -,101 ,398 ,006 Employ ,210 -,498 ,092 ,019 Ouvrier ,087 -,733 -,968 ,028 Personnel de ,044 -1,112 ,539 ,024 Autre ,222 ,266 -,240 ,008 Total actif 1,000 ,137 a.Normalisation principale symétrique
Contribution point à inertie dimension mension à inertie de 1 2 1 2 Total ,007 ,110 ,140 ,601 ,741 ,205 ,035 ,892 ,043 ,935 ,239 ,034 ,917 ,037 ,954 ,006 ,163 ,097 ,798 ,896 ,168 ,011 ,872 ,016 ,888 ,151 ,494 ,516 ,481 ,997 ,174 ,077 ,709 ,089 ,798 ,050 ,077 ,598 ,260 ,858 1,000 1,000
A des profils colonnes
On réalise une A en considérant les profils colonnes comme des individus et les modalités de la première variable comme des variables.
59
Tableau des profils colonnes b1 a1
ai
an
bj
⎡ ⎢ ⎢ ⎢ ⎢⎣
fi = j
G
bp
⎤ ⎥ ⎥ ⎥ ⎥⎦
f ij f. j
fi.
f. j
masse
f I = ( f1 j ,..., f n j ) = point modalité b j j
Nuage des profils colonnes. A chaque modalité on associe le point f I j = ( f1 j ,..., f n j ) = point modalité b j et une masse égale à sa fréquence marginale f. j . Le nuage de points N(I) de Rn est de centre de gravité f I . Distance entre profils colonnes : distance du khi-2. n
d ( f I , f ) = ∑ f1i . ( f i − f i )2 2
j
k I
j
k
i =1
Inertie du nuage des profils colonnes. p
λ2
j =1
k
I ( N ( I ), f I ) = ∑ f. j d 2 ( f I j , f I ) =
Axes principaux. Les axes principaux Φ1,..., Φr ent par le centre de gravité fI et sont portés par les vecteurs propres v1,…,vr associé aux valeurs propres λ1,..., λr rangées par ordre décroissant. Les composantes principales Les composantes G1,…,Gr sont les coordonnées des projections des profils colonnes sur les axes Φ1,..., Φr. Propriétés - L’inertie expliquée par chaque axe principale = variance de la composante associée - Les composantes sont classées par ordre décroissant des variances - Les composantes principales sont centrées et non corrélées entres elles Distance, entre profils colonnes, exprimé en fonction des composantes r
d 2 ( f I j , f Ik ) = ∑ (Gh ( j ) − Gh ( k )) 2 h =1
r = nombre de composantes
60
La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils exprimée en fonction des composantes
Lien entre les deux analyses : Relations de transition Les composantes des deux analyses sont liées par les relations suivantes p
Fh (i ) =
1
λh
Gh ( j ) =
∑ j =1 n
f ij fi .
∑
1
λh
i =1
Gh ( j )
f ij f. j
Fh (i )
Indice d’attraction répulsion
⎧ d ij > 1 ⇒ attractionentre a iet b j ⎨ f i . f. j ⎩d ij < 1 ⇒ répulsion entre a iet b j = 1 ∀ i et j ⇒ independence des variables f ij
d ij =
Indice d’attraction répulsion exprimé en fonction des composantes r
d ij = 1 + ∑ h =1
1
λh
Fh (i )Gh ( j )
r = nombre de composantes Par conséquent : r
Si
∑ h =1
1
λh
Fh (i )Gh ( j ) > 0 ⇒ attraction entre les modalités ai et b j
r
Si
∑ h =1
1
λh
Fh (i )Gh ( j ) < 0 ⇒ répulsion entre les modalités ai et b j
Représentations graphiques. Représentation graphique : profil ligne. Axe 2 (20.1%) Agriculteur Personnel de service Cadre moyen Profession libérale/cadre Employé Axe 1 (70.7%) Patr indust commerceAutre
Ouvrier
61
La proximité entre deux modalités traduit ici des profils proches. Représentation graphique : profil colonne. Axe 2 (20.1%) Famille / amis Location / gîte Axe 1 (70.7%) Hôtel
Camping
La proximité entre deux modalités traduit ici des profils proches. Représentation simultanée On superpose ici les deux A (A des profils lignes et A des profils colonnes)
Si des modalités des 2 variables sont dans le même cadran cela traduit ici des modalités qui s’attirent.
62
Si des modalités des 2 variables sont dans des cadrans opposés cela traduit ici des modalités qui se repousses.
Si des modalités des 2 variables sont dans des cadrans adjacents on ne peut conclure que si ces modalités sont proches de l’un des axes.
63
Analyse factorielle des correspondances sous SPSS Mise en œuvre de l’AFC Analyse > Factorisation > Analyse des correspondances
•Dans la fenêtre Analyse des correspondances, mettre la variable (recodée) ayant le moins de modalités dans colonne et l’autre dans ligne. •Pour chacune des 2 variables, cliquer sur Définir intervalle, indiquer les valeurs minimale et maximale de la variable recodée puis cliquer sur mettre à jour.
64
Pour mettre certaines modalités en points ajoutés (apparaissant sur le graphique mais n’étant pas pris en compte dans le calcul de l’inertie et la détermination des axes), sélectionner (le numéro de) la modalité, puis cocher “la modalité est un supplément”. Modèle – Dimensions de la solution : Nombre d’axes factoriels retenus. Commencer avec 2 puis modifier selon la qualité de représentation (inertie expliquée). – Mesure de distance : distance utilisée pour mesurer l’écart entre deux points. Choisir Khi-deux – Méthode de normalisation : Le choix de la méthode de standardisation n’a d’influence que sur les calculs des coordonnées des points (profils), en modifiant les échelles des axes. Les inerties et contributions restent inchangées. Elles ont donc pour effet d’étirer (séparément) les deux nuages selon un axe ou l’autre. Lorsqu’on ne souhaite étudier qu’une des deux variables, choisir principale en ligne ou principale en colonne. Pour étudier les deux, choisir principale ou symétrique. Principale en ligne : une normalisation est opérée sur les profils-lignes. Les coordonnées du nuage des profils-colonnes étant déduites des coordonnées du nuage des profils-lignes. Cette normalisation permet d’étudier les profils-lignes. Sur le graphique, la distance entre 2 profilslignes correspond à la distance du Khi-deux entre ces deux profils. Principale en colonne : idem que principale en ligne mais pour les profils-colonnes ! Principale : Compromis entre principale en ligne et principale en colonne. Une normalisation principale en ligne est opérée sur le nuage des profils-lignes et une normalisation principale en colonne sur les profils-colonnes. On retrouve donc un tableau de chacune des méthodes précédentes. Toutefois, les échelles étant différentes, il est impossible (dans SPSS) de représenter ces deux nuages sur un même graphique. Symétrique : correspond à une analyse canonique des correspondances. Elle permet la représentation sur un même graphique des deux nuages. Les axes du graphique correspondent alors aux variables canoniques et les valeurs singulières aux coefficients de corrélation
65
canonique. Il est possible de retrouver les coordonnées des points de la méthode symétrique à partir de ceux de la méthode principale via la formule score_symétrique = 1 score_principale 4
λ
Statistiques Tableau des correspondances : imprime le tableau de contingence. Caractéristiques des profils-lignes/colonnes : imprime le tableau des contributions, CO2 et QLT. Profils-lignes/colonnes : imprime le tableau des profils-lignes ou colonnes. Permutation du tableau des correspondances : réordonne les lignes et colonnes du tableau des correspondances suivant les valeurs décroissantes des scores (coordonnées) des modalités sur chaque axe (successivement). A limiter à la première ou au deux premières dimensions. Permet de déceler rapidement les modalités ayant un score important sur chaque dimension. Comme cela est aussi visible sur les graphes, cette option est peu utile dans la pratique.
66
Graphiques Diagrammes de dispersion : profils-lignes seuls, profils-colonnes seuls, les deux superposés (diagramme double). Lors de l’utilisation de la méthode de standardisation principale en ligne (resp. en colonne), demander uniquement le diagramme des profils-lignes (resp. des profils-colonnes). Lors de la méthode de standardisation principale, demander les deux diagrammes (ils correspondent à ceux obtenus séparément avec les deux méthodes précédentes). Les distances entre les profils-lignes ou entre les profils-colonnes représentent la distance du khideux entre ces profils. Pour la méthode symétrique, choisir le diagramme double éventuellement complété par les deux diagrammes simples (pour plus de clarté). Mais les distances entre les points ne sont plus des distances du khi-deux. Courbes : Trace les courbes des coordonnées des modalités des profils-lignes et/ou colonnes sur chacun des axes. Lorsqu’une variable est ordinale (âge, CSP, etc…), cela permet de déceler plus facilement des croissances/décroissances des modalités suivants les axes.
67
Résultats Tableau des correspondances Il s’agit du tableau de contingence. Une lecture rapide permet de déceler des classes sous ou surreprésentées. On retiendra surtout l’effectif global (k) à l’intersection des deux marges actives. Tableau des correspondances Quelle est votre catégorie socio-professionnelle ? Quelle est la marqu Commerçant, artisan de votre voiture ? Agriculteur Renault 1 1 Peugeot 2 1 Citroën 1 1 Volkswagen 0 1 Fiat 1 3 Ford 1 0 Toyota 0 0 BMW 0 1 Mercedes 0 2 Opel 0 1 Volvo 0 0 Autre 1 1 Marge active 7 12
Cadre Employé 7 8 3 5 3 2 3 3 0 1 0 3 1 0 6 0 4 1 0 2 0 0 5 1 32 26
Ouvrier Chomeur Etudiant 1 1 6 2 0 3 3 1 4 0 1 3 1 4 1 2 2 2 0 0 1 0 0 0 0 0 0 1 1 1 2 1 0 3 1 2 15 12 23
Inactif 5 3 3 3 0 2 0 0 0 1 0 0 17
Autre 1 0 1 2 1 1 0 1 0 0 0 1 8
Marge active 31 19 19 16 12 13 2 8 7 7 3 15 152
Résumé Présente le résultat de la diagonalisation de la matrice d’inertie. Le programme présente l’ensemble des axes (il y en a inf(n - 1, p - 1)). Les axes retenus pour l’analyse sont ceux ayant un écart-type (calculé). 2 La dernière ligne (total) permet de connaître l’écart à l’indépendance ϕ des deux variables et le χ 2 = kϕ 2 où k est le nombre observation : ( f − f f )2 ϕ 2 = ∑ ij i . . j ≤ inf( n − 1, p − 1) f i. f. j i, j
68
Une signification (Sig.) inférieure à 0.05 assure de l’existence d’un lien entre les deux variables. Le rapport (non calculé)
ϕ 2 / inf( n − 1, p − 1) permet de connaître l’importance du lien entre les 2 variables. Pour chaque axe, la valeur singulière (coefficient de corrélation canonique) correspond à la racine carrée de l’inertie. Résumé Valeur singulière de confiance Corrélation Cumulé Ecart-type 2 ,400 ,054 ,217 ,686 ,065 ,840 ,915 ,952 ,981 ,997 1,000 1,000
Proportion d'inertie Valeur Dimension singulière 1 ,518 2 ,437 3 ,321 4 ,224 5 ,158 6 ,141 7 ,101 8 ,046 Total
Inertie ,268 ,191 ,103 ,050 ,025 ,020 ,010 ,002 ,669
Khi-deux
101,698
Sig.
,151a
Expliqué ,400 ,286 ,154 ,075 ,037 ,030 ,015 ,003 1,000
a. 88 degrés de liberté
Intérêt de l’AFC Il est d’abord nécessaire de déterminer s’il existe une liaison significative entre les deux variables. On utilise pour cela le test du khi-deux affiché en bas du Résumé. Nombre d’axes à retenir - Inertie expliquée On détermine ensuite le nombre d’axes à retenir en tenant compte de la proportion d’inertie expliquée par les premiers axes. Une proportion cumulée supérieure à 70 % ou 80 % est en général suffisante. Il est de toutes façons très difficile de travailler avec plus de 3 axes. Rappelons que le nombre maximum d’axes est inférieur ou égal au plus petit nombre de modalités des variables moins 1. Il faut aussi tenir compte dans l’interprétation que l’AFC n’étudie que la liaison entre les deux variables (et non les variables elles-mêmes). Caractéristiques des points lignes/colonnes La masse correspond à la fréquence marginale de la modalité. Les scores dans la dimension sont les coordonnées dans les axes factoriels des projections des points modalités. L’inertie représente l’inertie apportée au nuage par le point. Les contributions des points à l’inertie de la dimension sont les contributions classiques alors que les contributions des dimensions à l’inertie du point correspondent aux CO2. Le total de ces dernières contributions représente donc les QLT.
Interprétation des axes À l’aide des tableaux Caractéristiques des points lignes/colonnes, on essaye d’interpréter les axes. Les points lignes (puis colonnes) ayant les plus fortes contributions (contribution du point à
69
l’inertie de la dimension) permettent de donner un sens aux axes. Il est nécessaire de tenir compte du signe des scores dans la dimension pour connaître le sens de la contribution et pour mettre en valeur des oppositions. Si nécessaire, et lorsque cela a un sens, il est possible d’additionner les contributions de 2 modalités proches (par leur sens et leur profils – c’est-à-dire, ayant des scores sur les axes assez proches) pour faciliter l’interprétation de l’axe.
Interprétation des points / axes On interprète alors les (groupes) de points-profils d’une variable en tenant compte de leur position relative par rapport aux axes, chaque axe ayant la signification donnée à l’étape précédente par l’autre variable. Interprétation des proximités Deux points-profils d’une même variable suffisamment proches représenteront deux modalités ayant des distributions similaires suivant les modalités de l’autre variable. Dans le cas des normalisations principales, la distance (euclidienne) entre deux points-profils d’une même variable représente la distance du khi-deux entre les deux profils. Elle mesure donc la similitude des distributions des deux modalités suivant les modalités de l’autre variable. a Caractéristiques des points lignes
Score dans la dimension Quelle est la marque de votre voiture ? Masse 1 Renault ,204 -,216 Peugeot ,125 ,052 Citroën ,125 ,186 Volkswagen ,105 -,189 Fiat ,079 ,957 Ford ,086 ,835 Toyota ,013 -1,039 BMW ,053 -1,759 Mercedes ,046 -1,356 Opel ,046 ,691 Volvo ,020 2,031 Autre ,099 -,163 Total actif 1,000 a. Normalisation principale symétrique
2 -,575 -,579 -,186 -,369 1,291 -,300 -,219 1,000 ,951 -,065 1,483 ,564
Inertie ,039 ,037 ,017 ,033 ,129 ,039 ,024 ,114 ,078 ,024 ,097 ,037 ,669
Contribution De point à inertie de De dimension à inertie de point dimension 1 2 1 2 Total ,018 ,154 ,126 ,758 ,884 ,001 ,096 ,005 ,490 ,495 ,008 ,010 ,133 ,112 ,246 ,007 ,033 ,059 ,189 ,247 ,140 ,301 ,289 ,444 ,734 ,115 ,018 ,785 ,085 ,870 ,027 ,001 ,304 ,011 ,315 ,315 ,120 ,739 ,202 ,941 ,164 ,095 ,558 ,232 ,790 ,042 ,000 ,476 ,004 ,480 ,157 ,099 ,434 ,196 ,630 ,005 ,072 ,037 ,375 ,413 1,000 1,000
70
a Caractéristiques des points colonnes
Score dans la dimension Quelle est votre catégo socio-professionnelle ? Masse 1 Agriculteur ,046 ,470 Commerçant, artisan ,079 -,199 Cadre ,211 -1,159 Employé ,171 ,124 Ouvrier ,099 ,945 Chomeur ,079 1,262 Etudiant ,151 ,083 Inactif ,112 ,163 Autre ,053 -,130 Total actif 1,000 a. Normalisation principale symétrique
2 -,119 1,061 ,356 -,633 ,457 1,032 -,547 -,934 ,302
Contribution De point à inertie de dimension De dimension à inertie de point 1 2 1 2 Total ,020 ,001 ,185 ,010 ,195 ,006 ,203 ,021 ,513 ,534 ,546 ,061 ,882 ,070 ,953 ,005 ,157 ,028 ,618 ,645 ,170 ,047 ,402 ,079 ,481 ,243 ,192 ,564 ,319 ,883 ,002 ,104 ,015 ,530 ,545 ,006 ,223 ,030 ,838 ,868 ,002 ,011 ,014 ,063 ,077 1,000 1,000
Inertie ,029 ,076 ,166 ,049 ,114 ,115 ,037 ,051 ,033 ,669
Points de lignes ou de colonnes. Dans le cas d’une normalisation principale en ligne, en colonne ou double, les graphiques points de lignes, points de colonnes ou les deux, correspondent aux projections dans le plan factoriel des points modalités. Les distances entre les points modalités sont égales aux distances du khi-deux entre les profils associés. Points de lignes pour Quelle est la marque de votre voiture ? Symétrique Normalisation 1,5 Volvo
Fiat BMW Mercedes
Dimension 2
1,0
Autre
0,5
0,0 Citroën Volkswagen
Toyota
-0,5
Opel Ford
Peugeot
Renault
-1,0 -2
-1
0
1
2
Dimension 1
71
Points de colonnes pour Quelle est votre catégorie socio-professionnelle ? Symétrique Normalisation 1,5
Dimension 2
Chomeur
Commerçant, artisan
1,0
0,5
Ouvrier Cadre
Autre
0,0 Agriculteur Etudiant
-0,5
Employé Inactif
-1,0 -1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
Dimension 1
Qualité de représentation des points-profils Pour les deux interprétations précédentes, il est indispensable de tenir compte de la qualité de représentation des points (contribution de la dimension à l’inertie du point). Lors de l’utilisation de la méthode de normalisation symétrique, les distances ne sont plus des distances du khi-deux, même si leurs interprétations restent similaires. Dans tous les cas, l’origine correspond au profil moyen pour la variable considérée. Points de lignes et de colonnes Cette représentation n’a d’intérêt que lors d’une méthode de normalisation symétrique (biplot). Les distances entre deux modalités d’une même variable ne sont plus des distances du khi-deux, même si leurs interprétations restent similaires. Il est possible d’interpréter la proximité d’une modalité avec une modalité de l’autre variable, si ces deux dernières se trouvent à la périphérie du nuage. Il est alors prudent de vérifier l’interprétation à l’aide du tableau de contingence.
72
Points de ligne et de colonne
Symétrique Normalisation Quelle est la marque de votre voiture ? Quelle est votre catégorie socioprofessionnelle ?
2
Dimension 2
Volvo
1
BMW
Commerçant, artisan Mercedes
Fiat
Chomeur Autre Ouvrier Cadre Autre Opel Citroën Agriculteur Toyota Volkswagen
0
Renault Inactif
-1
-2 -2
-1
0
1
2
3
Dimension 1
Utilisation des graphiques Pour éviter des erreurs d’interprétation, il est préférable d’utiliser des graphiques séparés pour chacune des variables. Avec la normalisation principale, on est de plus assuré que les distances euclidiennes entre les points représentent les distances du khi-deux entre les profils. Lors de l’utilisation des deux graphiques superposés (biplot), l’interprétation des proximités entre des points profils entre les variables doit être faites avec prudence. Il est préférable de n’interpréter de telles proximités que lorsqu’elles ont lieu à la périphérie du nuage. Amélioration de l’AFC Lorsqu’un (ou plusieurs) point-profil a une contribution excessive à la détermination d’un axe ou lorsqu’il apparaît dans le graphique comme un point isolé (ou aberrant) du nuage principal, il peut être intéressant (après l’avoir interprété) de le mettre en point supplémentaire dans l’analyse : son influence sur le calcul de l’inertie et sur la détermination des axes sera supprimé, mais il restera représenté dans le graphique factoriel. Cela permet d’obtenir une analyse plus fine des profils restants. Cas des variables à choix multiples Les données en entrée dans SPSS ont donc la forme standard : Y X1 ... Xm 2 2 ... 3 4 1 ... 4 3 3 ... 1
73
Utiliser la commande : Données > Restructurer avec les options : – Restructurer les variables sélectionnées en observations – Un seul groupe de variables – Identification de groupes d’observations : Utiliser une variable sélectionnée en faisant er la variable contenant le nom des individus (si individus anonymes, laisser utiliser un numéro d’observation) – Variables à transposer : faire er toutes les variables qualitatives. (Conserver trans1 comme nom de variable cible.) – Créer Une variable d’index – Utiliser les noms de variable comme valeurs d’index. – Faire une AFC sur les variables Y et trans1
74
75
76
77
ANALYSE TYPOLOGIQUE
Objectifs •Construire à partir des variables choisies a priori des groupes d’individus. •Constituer des groupes de façon à ce que : a) les individus appartenant à un même groupe se rassemblent le plus possible b) les groupes soient les plus différents possible les uns des autres. Etapes de l’analyse A) Choix des variables de classifications. Dépend de •l’objectif de l’étude •la forte hétérogénéité entre individus Ne retenir que les variables importantes par rapport à ce que l’on cherche à montrer. B) Nature des Données et choix de la métrique. Tableau individus x variables (qualitative ou quantitative) d’où l’on tire la matrice des proximités entre individus
Données : On doit transformer les données brutes en une matrice de proximité des objets ou individus
Variables X1
O1
X2
X3
Objets ou individus ...
Xp
O1 O1
O2
O2
O3
...
On
O2
2 Objets ou O3 Individus .. .
Objets ou O3 Individus .. .
On
On
Variable métrique : distance euclidienne p
d ij2 = ∑ ( X im − X jm ) 2 m =1
78
Xim & Xjm = valeurs standardisées du mième attribut des individus i et j Variable nominale : indice de similarité ( indice de Jacard par exemple)
Exemple
Éducation (années)
Individus
Revenu (en milliers)
O1
5
O2
6
5 6
O3
15
14
O4 O5
16
15
25
20
O6
30
19
Matrice des proximités (distance euclidienne au carré)
O1
O2
O3
O4
O5 O6
0
2
181
221
O2
2
0
145
181
625 821 557 745
O3
181
145
0
2
136 250
O4 O5 O6
221
181
2
0
106 212
625
557
136
106
0
26
821
745
250
212
26
0
O1
C) Choix de l’algorithme •Méthodes hiérarchiques : - Ascendantes : procèdent par agglomération - Descendantes : procèdent par décomposition
•Méthodes non hiérarchiques - Méthode des K-means - Nuées dynamiques
L’Analyse Hiérarchique Les méthodes hiérarchiques réalisent des fusions ou divisions successives des données.
79
L’allocation d’un individu à une classe donnée est irrévocable ; une fois qu’un individu a été associé à une classe, il ne peut plus être dissocié pour être fusionné avec d’autres individus appartenant à une autre classe.
Analyse Hiérarchique - Les méthodes ascendantes Chaque individu constitue une classe en soi. Dans la première étape, les deux individus les plus proches sont fusionnés pour former une classe et ainsi de suite, la fusion pouvant se faire entre les classes, entre une classe et un individu. Puisque la première classe sera composée de deux individus, il faudra déterminer la méthode de sélection des individus.
le saut minimum _ l’individu le plus proche
la distance moyenne entre classes
V V V V V V V
V V V V V V V
l’individu le plus éloigné V V V V V V V
V
V V V V V V V
V V V V V V V
Méthode des centres de classe
V V V V V V
V V V V V V V
V
V V V V V V
Méthode de Ward V V V V V V V
Minimiser la variance intra classe
V
V V V V V V
Application : agrégation selon le saut minimum 1ère étape: Fusion de O1 & O2 (ou O3 & O4) - d(O1, O2) = 2 2ème étape: Fusion de O3 & O4 Calcul de la distance entre ces classes et les autres individus ou classes - O5 & O6: d(O1O2 ) O5 = min {dO1O5, dO2O5} = dO2O5 =557 d(O1O2 ) O6 = min {dO1O6, dO2O6} = dO2O6 =745 d(O3O4 ) O5 = min {dO3O5, dO4O5} = dO4O5 =106 d(O3O4 ) O6 = min {dO3O6, dO4O6} = dO4O6 =212 d(O1O2 ) O3O4= min {dO1O3, dO2O3,dO1O4, dO2O4}= dO2O3,=145
80
La nouvelle matrice
O1&O2
D(2)
O3&O4
O1&O2
0
O3&O4
145
O5
557
106
O6
745
212
O5
O6
0 0 26
0
Décision = fusionner 5 et 6 car distance = 26
d(O1O2) O5O6 = min {dO1O2&dO5, dO1O2&dO6}=557 d(O3O4) O5O6 = min {dO3O4&dO5, dO3O4&dO6}=106
Nouvelle matrice
O1&O2
D(3)
O3&O4
O1&O2
0
O3&O4
145
0
O5&O6
557
106
O5&O6
0
Décision = fusionner les classes
O3&O4 + O5&O6
Dendrogramme : permet de visualiser l’historique des agrégations entre individus : Distance 145
106
~ 26
~ 5 0
1
2
3
4 5 Individus
6
81
Classification hiérarchique sur données Lc banq (méthode Word) Chaîne des agrégations
Etape 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Regroupement de classes Classe 1 Classe 2 13 15 13 24 12 22 3 7 28 29 8 23 16 17 9 25 2 26 1 19 8 20 9 16 4 6 5 28 18 21 3 14 27 30 9 13 2 12 5 8 3 10 1 3 2 18 4 5 4 11 2 27 1 9 2 4 1 2
Coefficients 4,135E-02 ,397 ,780 1,241 1,727 2,267 2,810 3,636 4,670 5,755 6,843 8,020 9,232 10,522 12,019 13,715 15,572 17,880 20,713 24,588 28,756 34,429 40,300 46,810 60,857 75,860 103,634 180,025 261,000
Etape d'apparition de la classe Classe 1 Classe 2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0 8 7 0 0 0 5 0 0 4 0 0 0 12 2 9 3 14 11 16 0 10 21 19 15 13 20 24 0 23 17 22 18 26 25 27 28
Etape suivante 2 18 19 16 14 11 12 12 19 22 20 18 24 20 23 21 26 27 23 24 22 27 26 25 28 28 29 29 0
Dendrogramme Rescaled Distance Cluster Combine C A S E Label Num Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case
13 15 24 16 17 9 25 1 19 3 7 14 10 4 6 8 23 20 28 29 5 11 27 30 18 21 12 22 2 26
13 15 24 16 17 9 25 1 19 3 7 14 10 4 6 8 23 20 28 29 5 11 27 30 18 21 12 22 2 26
0 5 10 15 20 25 +---------+---------+---------+---------+---------+ òø òú òôòòòòòòòòòòòòòòòø òú ó òú ó òú ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø ò÷ ó ó òûòø ó ó ò÷ ó ó ó òø ùòòòòòòòòòòòòò÷ ó òôòø ó ò÷ ó ó òòò÷ ó òûòø ó ò÷ ó ó òø ùòòòòòø ó òôòø ó ó ò÷ ó ó ó òø ó ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø ó òôò÷ ó ó ó ò÷ ó ùò÷ òòòòòòòòò÷ ó òûòòòòòòòø ó ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ òûòø ó ò÷ ùòòòòò÷ òø ó òôò÷ òú ò÷
82
Pour la méthode du saut maximum, la méthode est exactement l’opposé du saut minimum dans ce sens que la distance est maintenant définie entre les deux pairs d’individus les plus distants Pour la méthode de la distance moyenne - même approche sauf que la distance représente la distance moyenne entre toutes les pairs de points venant de chaque classe. Pour la méthode de Ward, le classement se fait en regroupant les individus qui minimisent le mieux la perte d’information.
L’Analyse Non Hiérarchique L’allocation d’un individu à une classe donnée est révocable; une fois qu’un individu a été associé à une classe, il peut être dissocié pour être fusionné avec d’autres individus appartenant à une autre classe. Le nombre de classe doit être connu d’avance. Procédure
•Choisir k centres de classes, où k est le nombre de classes désiré. •Assigner chaque individu à la classe qui lui est la plus proche •Réassigner chaque individu à l’une des k classes selon une règle prédéterminée •S’arrêter s’il n’y a plus d’observations à assigner ou si la réassignation satisfait toujours la règle retenue.
Algorithme Cette algorithme choisit les k premières observations comme centres de classes. Pour cet exemple, les trois premières observations sont retenues comme centres de classe.
variables Revenu éducation
1 5 5
classes 2 6 6
3 15 14
Ensuite, il s’agit de calculer la distance euclidienne (au carré) de chaque observation par rapport au centre de chaque classe. Puis, assigner chaque observation à chacune des classes. Le processus se poursuit jusqu’a ce que les nouveaux centres ne changent plus ou très peu (critère d’arrêt). Distances par rapport aux centres de classes
83
Distance par rapport à la classe Observation
1
2
Assigné à la classe
3
O2
0 2
2 0
181 145
1 2
O3
181
145
0
3
O4
221
181
2
3
O5
625
557
136
3
821
745
250
3
O1
O6
Calculer les centres des classes précédentes (à partir de leurs données brutes)
Nouveaux centres de classes Classes Variables
1
2
3
Revenu
5
6
21.5
Éducation
5
6
17.0
Changement au niveau des classes 1 2 3 Revenu Éducation
0
0
+6.5
0
0
+3.0
Changement > 0.02, donc il faut réassigner les observations
Nouvelles Distances par rapport aux centres de classes
Distance par rapport à la classe Obs. 1 2 3
Ancienne classe
Nouvelle classe
O2
0 2
2 0
416.25 361.25
1 2
1 2
O3
181
145
51.25
3
3
O4
221
181
34.25
3
3
557 990
21.25 76.25
3
3
3
3
O1
O5 O6
625 821
84
Nouveaux centres de classes après cette étape Classes Variables
1
2
3
Revenu
5
6
21.5
Éducation
5
6
17.0
Changement au niveau des classes 1 2 3 Revenu
0
0
0
Éducation
0
0
0
Changement < 0.02, donc FIN Solution = 3 classes dont une de 4 individus
Classification non hiérarchique sur données Lc banq (méthode Nuées dynamiques) Centres de classes initiaux
Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore:
SOLD NDEC MDEC NBPR NEMP MEMP VADD DEPO RETR
1 -,10714 -,68681 -,76785 1,70914 1,65956 2,85851 ,22205 ,06710 3,74042
Classe 2 3,66279 -,68681 -,76785 ,07273 -,92677 -,68222 1,00575 1,41741 -,62999
3 -,61145 2,94923 2,46584 -1,01821 -,92677 -,68222 -,95350 -,82318 -,64556
Historique des itérations a
Itération 1 2 3
Changements dans les centres de classes 1 2 3 3,534 2,886 3,070 ,000 ,389 ,158 ,000 ,000 ,000
a. Convergence atteinte - la distance parcourue est nulle ou très faible. La distance maximum parcourue par un centre est ,000. L'itération actuelle est 3. La distance minimum entre les centres initiaux est 7,211.
85
ANOVA
Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore:
SOLD NDEC MDEC NBPR NEMP MEMP VADD DEPO RETR
Classe Moyenne des carrés ddl 7,003 4,531 1,892 12,916 12,534 4,105 12,771 12,984 9,947
2 2 2 2 2 2 2 2 2
Erreur Moyenne des carrés ,555 ,738 ,934 ,117 ,146 ,770 ,128 ,112 ,337
ddl 27 27 27 27 27 27 27 27 27
F 12,610 6,136 2,026 110,116 86,070 5,331 99,687 115,598 29,496
Signification ,000 ,006 ,151 ,000 ,000 ,011 ,000 ,000 ,000
Les tests F ne doivent être utilisés que dans un but descriptif car les classes ont été choisies de manière à maximiser les différences entre les observations des diverses classes. Les niveaux de signification observés ne sont pas corrigés et ne peuvent par conséquent pas être interprétés comme des tests de l'hypothèse que les moyennes des classes sont égales.
Nombre d'observations dans chaque classe Classe
Valides Manquentes
1 2 3
9,000 8,000 13,000 30,000 ,000
Interprétation des groupes •Choix du nombre de groupes (méthode hiérarchique) Détecter un saut important au niveau des indices d’agrégation •Description des groupes basée sur les variables de classification Cas LC Banq (suite) La carte A suggère des solutions en trois ou quatre classes
86
3
1
11 2
REGR factor score 2 for analysis
6 20 288 23 5 29
4
1
10 0
14
7 1
19
3
25 15 24 9 13 16 17 2 26 12 22
-1
18 21 30
27
-2 -3
-2
-1
REGR factor score 1 for analysis
0
1
2
1
Chaîne des agrégations
Etape 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Regroupement de classes Classe 1 Classe 2 13 15 13 24 12 22 3 7 28 29 8 23 16 17 9 25 2 26 1 19 8 20 9 16 4 6 5 28 18 21 3 14 27 30 9 13 2 12 5 8 3 10 1 3 2 18 4 5 4 11 2 27 1 9 2 4 1 2
Coefficients 4,135E-02 ,397 ,780 1,241 1,727 2,267 2,810 3,636 4,670 5,755 6,843 8,020 9,232 10,522 12,019 13,715 15,572 17,880 20,713 24,588 28,756 34,429 40,300 46,810 60,857 75,860 103,634 180,025 261,000
Etape d'apparition de la classe Classe 1 Classe 2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0 8 7 0 0 0 5 0 0 4 0 0 0 12 2 9 3 14 11 16 0 10 21 19 15 13 20 24 0 23 17 22 18 26 25 27 28
Etape suivante 2 18 19 16 14 11 12 12 19 22 20 18 24 20 23 21 26 27 23 24 22 27 26 25 28 28 29 29 0
On détecte un saut à l’étape 26 : solution en quatre classes
87
Validation des groupes •Des méthodes différentes doivent aboutir à des résultats semblables. •Après séparation aléatoire de l’échantillon en deux moitiés, on doit aboutir aux mêmes résultats. •Les distributions des groupes sur les variables de classification ne se chevauchent pas. •Utiliser une analyse discriminante. Problèmes pratiques et conséquences •Problème posé
Choix des critères de classification
•Construction des groupes -calcul des distances -agglomération ou séparation
•Interprétation et validation des groupes
Choix de la métrique Choix de l’algorithme de classification Choix du nombre de groupes Description des groupes
88
Analyse typologique sous SPSS
SPSS : Classifications (fichier enseigne) Mise en œuvre : Analyse > Classification > Classifications hiérarchiques... Analyse > Classification > Nuées dynamiques...
Classifications hiérarchiques
Il s’agit d’une classification ascendante, partant des classes composées d’une unique observation et regroupant à chaque étape les classes les plus proches selon la méthode et la distance définies.
Mise en œuvre. Faire er les variables quantitatives dans la liste des variables. Lorsque les observations ne sont pas anonymes (conseillé), faire er la variable contenant le nom des observations dans la case Etiqueter les observations par.
89
Agréger les observations en demandant l’affichage des statistiques et des graphiques. Dans le dialogue statistiques, cocher Chaîne des agrégations (affiche l’historique des regroupements). La matrice des distances affichera les distances entre les observations. Dans le dialogue Graphiques, cocher arbre hiérarchique pour obtenir le dendrogramme.
90
Dans le dialogue Méthode, sélectionner la méthode d’agrégation, c’est à dire la méthode de mesure de la distance entre 2 groupes : saut minimal (complaisante), diamètre (restrictive), distance moyenne (compromis), Ward (variation de l’inertie intra classe) puis la distance utilisée (intervalle/euclidienne pour des variables quantitatives). Si les données sont hétérogènes, il est préférable de centrer et réduire les variables, via standardiser/centrer - réduire/par variable.
91
Résultats Matrice de dissimilarité Matrice de proximité Carré de la distance Euclidienne 5: 13: CARREF 9: 12: NTERMA 15: Observation 1:METRO2:ATAC3:AUCHAN 4:SCOTIA OUR 6:CASINO:DYNAMIQ:CHANPION CONTINENT 10:CORA 11:GEANT PANORAMA RCHE 4:LECLERC MAMMOUTH6:MATCH7:PLAZZA 18:STOC 1:METRO ,000 4,720 43,433 ,439 31,271 6,181 ,887 14,355 17,792 11,107 11,245 2,774 16,063 24,199 14,047 2,966 1,400 4,221 2:ATAC 4,720 ,000 24,083 6,178 12,308 3,374 6,573 3,519 5,954 5,456 6,190 10,710 5,084 10,758 6,108 2,740 8,129 3,232 3:AUCHAN 43,433 24,083 ,000 48,073 8,496 22,574 47,356 23,942 8,527 12,666 27,282 63,329 25,408 20,050 13,256 34,567 56,458 31,623 4:SCOTIA ,439 6,178 48,073 ,000 35,511 7,467 ,516 16,545 21,162 13,008 14,526 1,849 18,445 28,921 17,122 3,753 ,773 5,055 5:CARREFOU 31,271 12,308 8,496 35,511 ,000 16,862 35,854 7,562 4,582 13,576 14,232 45,240 7,226 7,388 11,771 22,089 40,100 22,112 6:CASINO 6,181 3,374 22,574 7,467 16,862 ,000 6,858 8,724 6,956 3,804 11,924 15,678 8,825 16,695 6,966 7,147 11,809 7,267 7:DYNAMIQ ,887 6,573 47,356 ,516 35,854 6,858 ,000 16,201 20,148 13,194 17,572 2,963 19,026 30,115 16,107 5,908 1,275 6,764 8:CHANPION 14,355 3,519 23,942 16,545 7,562 8,724 16,201 ,000 5,487 12,153 11,984 21,434 2,331 8,204 8,433 10,971 17,917 11,196 9:CONTINENT17,792 5,954 8,527 21,162 4,582 6,956 20,148 5,487 ,000 4,443 12,734 30,922 8,259 10,152 3,123 14,577 25,551 13,699 10:CORA 11,107 5,456 12,666 13,008 13,576 3,804 13,194 12,153 4,443 ,000 10,972 22,588 14,219 16,869 4,102 8,556 18,401 7,567 11:GEANT 11,245 6,190 27,282 14,526 14,232 11,924 17,572 11,984 12,734 10,972 ,000 18,562 9,530 8,881 13,603 4,757 17,080 6,935 12:PANORAM 2,774 10,710 63,329 1,849 45,240 15,678 2,963 21,434 30,922 22,588 18,562 ,000 24,265 34,397 25,092 6,055 ,451 7,640 13:INTERMAR 16,063 5,084 25,408 18,445 7,226 8,825 19,026 2,331 8,259 14,219 9,530 24,265 ,000 8,473 14,051 11,546 20,828 13,730 14:LECLERC 24,199 10,758 20,050 28,921 7,388 16,695 30,115 8,204 10,152 16,869 8,881 34,397 8,473 ,000 9,995 15,769 31,781 14,230 15:MAMMOUT14,047 6,108 13,256 17,122 11,771 6,966 16,107 8,433 3,123 4,102 13,603 25,092 14,051 9,995 ,000 11,897 20,949 8,639 16:MATCH 2,966 2,740 34,567 3,753 22,089 7,147 5,908 10,971 14,577 8,556 4,757 6,055 11,546 15,769 11,897 ,000 5,301 ,953 17:PLAZZA 1,400 8,129 56,458 ,773 40,100 11,809 1,275 17,917 25,551 18,401 17,080 ,451 20,828 31,781 20,949 5,301 ,000 6,873 18:STOC 4,221 3,232 31,623 5,055 22,112 7,267 6,764 11,196 13,699 7,567 6,935 7,640 13,730 14,230 8,639 ,953 6,873 ,000 19:SYSTEME 5,831 2,619 29,935 6,602 17,522 6,218 9,074 9,014 12,661 7,580 4,457 10,284 8,301 13,274 11,698 ,946 9,124 1,936 20:CARRES D 2,669 9,298 60,877 2,060 41,398 14,500 3,471 19,145 29,327 22,060 15,554 ,378 20,496 30,519 24,676 4,888 ,850 6,950 Ceci est une matrice de dissimilarités
Chaîne des agrégations : historique des regroupements. À chaque étape, les deux classes les plus proches sont regroupées. La distance entre les deux classes regroupées est affichée dans la colonne coefficients. Chaîne des agrégations
Etape 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Regroupement de classes Classe 1 Classe 2 12 20 1 4 12 17 1 7 16 19 16 18 8 13 9 15 2 6 9 10 1 12 5 14 11 16 2 9 5 8 2 3 2 5 1 11 1 2
Coefficients ,189 ,408 ,779 1,173 1,646 2,451 3,617 5,179 6,866 9,193 11,812 15,506 19,224 23,705 29,141 40,983 55,067 71,579 133,000
Etape d'apparition de la classe Classe 1 Classe 2 0 0 0 0 1 0 2 0 0 0 5 0 0 0 0 0 0 0 8 0 4 3 0 0 0 6 9 10 12 7 14 0 16 15 11 13 18 17
Etape suivante 3 4 11 11 6 13 15 10 14 14 18 15 18 16 17 17 19 19 0
Stalactite Stalactite vertical
X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X
X X X X X X X X X X X X X X X X X X X
X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
1:METRO
4:SCOTIA
7:DYNAMIQ
12:PANORAMA
17:PLAZZA
11:GEANT
16:MATCH
19:SYSTEME U
18:STOC
2:ATAC
6:CASINO
9:CONTINENT
15:MAMMOUTH
10:CORA
3:AUCHAN
5:CARREFOUR
14:LECLERC X X X X X
20:CARRES D'AS
Nombre de class 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 X 11 X 12 X 13 X 14 X 15 X 16 X 17 X 18 X 19 X
8:CHANPION
13:INTERMARCHE
Observation
X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
92
Dendrogramme
Les regroupements les plus intéressants sont ceux obtenus après un saut du coefficient important, c’est-à-dire, le découpage résultant du regroupement de deux classes nettement plus éloignées que les précédentes. Une coupure entre les noueux 15 et 16 nous suggère une solution en 5 classes mais avec une classe à un seul individu. On va refaire notre analyse et demander les solutions en 4 et 5 classes.
93
94
Tableau récapitulatif des observations
Récapitulatif des observations Ward Method 1
2
3
4
5
Total
N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type
attractivité rurale 6 7 11 8,33 1,506 5 12 19 15,80 3,114 1 23 23 23,00 . 4 13 20 15,75 3,403 4 12 20 14,50 3,697 20 7 23 13,65 4,738
attractivité urbaine 6 1 3 2,00 ,894 5 5 8 6,20 1,304 1 12 12 12,00 . 4 4 9 7,00 2,160 4 6 8 7,00 1,155 20 1 12 5,55 2,946
budget publicitaire 6 3 10 6,50 2,665 5 7 13 11,40 2,510 1 15 15 15,00 . 4 3 7 5,25 1,708 4 2 5 3,75 1,258 20 2 15 7,35 3,897
chiffre d'affaire 6 25900 32700 29233,33 2502,532 5 40000 70100 55240,00 10911,60 1 98500 98500 98500,00 . 4 53100 84500 63450,00 14297,44 4 38400 49300 42275,00 4863,041 20 25900 98500 48650,00 19459,39
part de marché 6 1 4 2,50 1,049 5 3 10 7,00 2,550 1 9 9 9,00 . 4 12 16 14,25 1,708 4 2 9 4,50 3,109 20 1 16 6,70 4,747
productivité 6 1090 1430 1270,00 136,675 5 2380 3350 2618,00 416,617 1 3400 3400 3400,00 . 4 2460 4100 3550,00 741,440 4 1550 2300 1772,50 354,718 20 1090 4100 2270,00 979,807
rendement 6 26900 33500 29683,33 2345,563 5 45500 88400 61520,00 17063,909 1 86000 86000 86000,00 . 4 43200 91500 66175,00 19994,562 4 44100 62300 49400,00 8638,673 20 26900 91500 51700,00 20573,053
95
Récapitulatif des observations Ward Method 1
2
3
4
Total
N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type
attractivité rurale 6 7 11 8,33 1,506 6 12 23 17,00 4,050 4 13 20 15,75 3,403 4 12 20 14,50 3,697 20 7 23 13,65 4,738
attractivité urbaine 6 1 3 2,00 ,894 6 5 12 7,17 2,639 4 4 9 7,00 2,160 4 6 8 7,00 1,155 20 1 12 5,55 2,946
budget publicitaire 6 3 10 6,50 2,665 6 7 15 12,00 2,683 4 3 7 5,25 1,708 4 2 5 3,75 1,258 20 2 15 7,35 3,897
chiffre d'affaire 6 25900 32700 29233,33 2502,532 6 40000 98500 62450,00 20178,08 4 53100 84500 63450,00 14297,44 4 38400 49300 42275,00 4863,041 20 25900 98500 48650,00 19459,39
part de marché 6 1 4 2,50 1,049 6 3 10 7,33 2,422 4 12 16 14,25 1,708 4 2 9 4,50 3,109 20 1 16 6,70 4,747
productivité 6 1090 1430 1270,00 136,675 6 2380 3400 2748,33 490,690 4 2460 4100 3550,00 741,440 4 1550 2300 1772,50 354,718 20 1090 4100 2270,00 979,807
rendement 6 26900 33500 29683,33 2345,563 6 45500 88400 65600,00 18243,355 4 43200 91500 66175,00 19994,562 4 44100 62300 49400,00 8638,673 20 26900 91500 51700,00 20573,053
Validation des résultats On va opter pour une solution en quatre classes, vu que la classe 3, dans la solution à 5 classes, est réduite à une seule observation. Tableau anova
96
ANOVA
attractivité rurale
attractivité urbaine
budget publicitaire
chiffre d'affaire
part de marché
productivité
rendement
Inter-groupes Intra-groupes Total Inter-groupes Intra-groupes Total Inter-groupes Intra-groupes Total Inter-groupes Intra-groupes Total Inter-groupes Intra-groupes Total Inter-groupes Intra-groupes Total Inter-groupes Intra-groupes Total
Somme des carrés 257,467 169,083 426,550 108,117 56,833 164,950 203,550 85,000 288,550 4,44E+09 2,75E+09 7,19E+09 355,617 72,583 428,200 14916442 3323958,3 18240400 4,93E+09 3,11E+09 8,04E+09
ddl 3 16 19 3 16 19 3 16 19 3 16 19 3 16 19 3 16 19 3 16 19
Moyenne des carrés 85,822 10,568
F 8,121
Signification ,002
36,039 3,552
10,146
,001
67,850 5,313
12,772
,000
1,48E+09 1,72E+08
8,613
,001
118,539 4,536
26,130
,000
4972147,2 207747,40
23,934
,000
1,64E+09 1,95E+08
8,436
,001
97
Nuées dynamiques L’algorithme utilisé pour les nuées dynamiques utilise la distance euclidienne. Pour cette raison, il est souvent préférable de travailler avec des données centrées réduites. Pour définir les n centres initiaux, SPSS sélectionne n observations très différentes, crée les n groupes associés, puis calcule les centres de ces groupes. Mais il est aussi possible de définir les centres des groupes initiaux dans un fichier.
Mise en œuvre Faire er les variables quantitatives dans la liste des variables et fixer le nombre de classes souhaitées. Utiliser la méthode itérer et classer.
Dans le dialogue Itérer, augmenter le nombre d’itération en fonction du nombre d’observations. On peut monter jusqu’à 999, mais un nombre entre 10 et 50 semble raisonnable. On peut aussi fixer un critère de convergence (d’arrêt) correspondant au pourcentage de déplacement maximal. Une valeur entre 1 et 5 % (0.01 à 0.05) semble raisonnable.
98
Dans le dialogue enregistrer cochez classe d’affectation et distance au centre de classe
Dans le dialogue Options, cocher Centres de classes initiaux (coordonnées des centres de départ), tableau ANOVA (contributions des variables à la classification), Affections et distances au centre (séparation des centres finaux).
99
Résultats Centres des classes initiaux : Coordonnées des centres initiaux. Permet de connaître le point de départ de l’algorithme. Voir Centres des classes finaux pour l’interprétation. Centres de classes initiaux
1 2 Zscore: attractivité rura ,70703 1,34019 Zscore: attractivité -,18667 ,83151 urbaine Zscore: budget 1,19322 -1,37284 publicitaire Zscore: chiffre d'affaire ,52160 ,03340 Zscore: part de march ,06319 ,48449 Zscore: productivité ,12247 -,73484 Zscore: rendement 1,78389 -,32081
Classe 3 4 1,97335 -1,40350
5 -,13718
2,18907 -1,54423
,49212
1,96303
-,85963
-,60302
2,56175 ,48449 1,15329 1,66723
-1,16910 -1,20068 -1,20432 -1,10825
,22868 1,74836 1,50030 -,41316
Historique des itérations : affiche pour chaque itération, la distance de déplacement de chaque centre. La dernière itération doit révéler une distance de déplacement minimale. Dans le cas contraire, on peut augmenter le nombre d’itérations ou modifier le nombre de groupes souhaités.
100
Historique des itérations a
Itération 1 2 3
Changements dans les centres de classes 1 2 3 4 1,308 1,670 ,000 ,878 ,000 ,313 ,000 ,000 ,000 ,000 ,000 ,000
5 1,307 ,462 ,000
a. La convergence obtenue est due à l'absence ou à la quasi-absence de modifications dans les centres de classes. La modification absolue maximale des coordonnées d'un centre est ,000. L'itération en cours est 3. La distance minimale entre les centres initiaux est 3,087.
Appartenance à la classe : affiche la classe d’appartenance et la distance par rapport au centre de classe pour chaque individu Appartenance à la classe Nombre d'observations 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
enseigne METRO ATAC AUCHAN SCOTIA CARREFOUR CASINO DYNAMIQ CHANPION CONTINENT CORA GEANT PANORAMA INTERMARCHE LECLERC MAMMOUTH MATCH PLAZZA STOC SYSTEME U CARRES D'AS
Classe 4 2 3 4 5 1 4 5 1 1 2 4 5 5 1 2 4 2 2 4
Distance ,854 1,251 ,000 ,554 1,723 1,611 ,942 1,397 1,339 1,118 1,754 ,878 1,391 1,855 1,308 ,699 ,400 1,105 ,775 ,969
Centres de classes finaux : coordonnées des centres de chaque classe finale. Ces centres (et donc les classes associées) sont interprétés par leurs coordonnées sur les différentes variables. Centres de classes finaux
1 Zscore: attractivité rurale ,60150 Zscore: attractivité ,32242 urbaine Zscore: budget 1,32152 publicitaire Zscore: chiffre d'affaire ,38028 Zscore: part de marché ,06319 Zscore: productivité ,36742 Zscore: rendement ,62460
2 ,11608
Classe 3 1,97335
4 -1,12210
5 ,44321
,35636
2,18907
-1,20484
,49212
-,75699
1,96303
-,21811
-,53887
-,22765 -,35810 -,34497 -,11180
2,56175 ,48449 1,15329 1,66723
-,99780 -,88471 -1,02061 -1,07017
,76056 1,59038 1,30638 ,70359
Une coordonnée importante (positive) sur une variable signifiera que le groupe correspondant est caractérisé par des valeurs fortes (au dessus de la moyenne) pour cette variable.
101
Distance entre les centres de classes finaux : distances entre les centres 2-à-2. Permet de juger de la séparation des (centres des) groupes. Une mauvaise séparation peut résulter d’un nombre de groupes inapproprié. Distances entre les centres de classes finaux Classe 1 2 3 4 5
1
2 2,481
2,481 3,524 3,908 2,623
5,302 2,551 2,888
3 3,524 5,302 7,254 4,111
4 3,908 2,551 7,254
5 2,623 2,888 4,111 4,818
4,818
ANOVA : permet de déterminer les variables ayant le plus contribuées au regroupement. Elles correspondent aux variables ayant les plus grandes valeurs de F. Les significations ne sont pas ici interprétables. ANOVA Classe Erreur Moyenne Moyenne ddl ddl des carrés des carrés Zscore: attractivité rura 3,437 4 ,350 15 Zscore: attractivité 3,880 4 ,232 15 urbaine Zscore: budget 3,788 4 ,257 15 publicitaire Zscore: chiffre d'affaire 3,922 4 ,221 15 Zscore: part de marché 3,926 4 ,220 15 Zscore: productivité 3,885 4 ,231 15 Zscore: rendement 3,314 4 ,383 15
F Signification 9,819 ,000 16,732
,000
14,763
,000
17,760 17,876 16,851 8,651
,000 ,000 ,000 ,001
Les tests F ne doivent être utilisés que dans un but descriptif car les classes ont été choisies de maximiser les différences entre les observations des diverses classes. Les niveaux de significa ne sont pas corrigés et ne peuvent par conséquent pas être interprétés comme des tests de l'hy les moyennes des classes sont égales.
Nombre d’observations dans chaque classe : Une classe sous ou sur représentée (à tord) peut amener à faire une nouvelle analyse avec un nombre différent de classes. Nombre d'observations dans chaque classe Classe
Valides Manquentes
1 2 3 4 5
4,000 5,000 1,000 6,000 4,000 20,000 ,000
102
Procédure pour réduire le nombre de classe. - Refaire l’analyse en enregistrant les nouveaux centres de classes dans un fichier (centre enseigne)
- Éliminer la classe sur ou sous représentée. Nombre d'observations dans chaque classe Classe
1 2 3 4 5
Valides Manquentes
4,000 5,000 1,000 6,000 4,000 20,000 ,000
La classe 3 est à éliminer.
103
Numéroter les nouvelles classes et enregistrer le fichier. - Refaire l’analyse (classer seulement) en lisant les centres initiaux dans le fichier (centre enseigne) Ouvrir le fichier enseigne et refaire l’analyse (choisir 4 classes, classer seulement, lire les centres initiaux dans centre enseigne)
104
Nombre d'observations dans chaque classe Classe
Valides Manquentes
1 2 3 4
5,000 5,000 6,000 4,000 20,000 ,000
105