Documentation

  1. Éléments introductifs
  2. L'intégration du tableau de données
  3. Les analyses réalisables
    1. L'analyse des correspondances multiples
    2. L'analyse factorielle des correspondances
    3. L'analyse en composante principale
    4. La classification ascendante hiérarchique
    5. La méthode Kohonen

Éléments introductifs

AnalyseSHS, service d'analyse de données pour les sciences humaines et sociales, est une interface web s'appuyant sur R. Elle permet de mettre en œuvre des statistiques descriptives et multidimensionnelles à partir de tableaux de données envoyés par l'utilisateur depuis un navigateur web.

Fig. 1 - Page d'accueil



Accès : site d'AnalyseSHS
Ressources pour Analyse : site du PIREH

L'intégration du tableau de données

La première étape consiste à envoyer au serveur le tableau de données que l'on veut analyser. Il faut en premier lieu choisir le format du fichier en cliquant sur le bouton correspondant :

Fig. 2 - Choisir le format du tableau de données



Pour tous les formats

Après avoir sélectionné le format correspondant, des paramètres sont à déterminer dans la fenêtre qui s'ouvre. Les éléments détaillés dans cette sous-section se retrouvent systématiquement, quel que soit le format du tableau de données à envoyer. Pour les formats ODS, XLS et XLSX, ces étapes suffisent à envoyer correctement le fichier. Pour le format CSV, d'autres réglages sont à opérer, qui sont précisés dans la sous-section suivante.
  1. À partir du bouton "Parcourir....", sélectionner le fichier ;
  2. Préciser le "type de tableau" auquel correspond le fichier et le "type d'analyse" que l'on souhaite réaliser :
  3. Enfin, "Envoyer le fichier".

Il y a donc un lien important entre les données dont on dispose (tableau individus/caractères ou tableau de contingence) et les types d'analyse que l'on peut mettre en œuvre. Aussi, il est conseillé de consulter la section suivante, relative aux analyses réalisables avec AnalyseSHS.

Au format CSV

Fig. 3 - Paramétrer le format CSV


Dans la fenêtre qui s'ouvre, des paramètres sont à régler en plus des étapes indiquées ci-dessus. Ces éléments sont essentiels, ils permettent à AnalyseSHS de pouvoir recevoir le fichier correctement. Il s'agit de :
  1. déterminer le délimiteur de colonnes correspondant : soit la virgule, soit le point-virgule, soit la tabulation (\t) ;
  2. déterminer le bon encodage de caractères, à savoir soit UTF-8, soit ISO-8859-1 ;
  3. en cas de présence de nombres décimaux, choisir le séparateur correspondant (point ou virgule) ;
  4. préciser le bon marqueur de ligne : soit le symbole "nouvelle ligne" (\n), soit l'association "retour chariot" et "nouvelle ligne" (\r\n).

NB : le bouton "Générer l'aperçu" permet de s'assurer que les paramètres ont bien été réglés.
Ci-dessous, un exemple de mauvais, puis de bon choix de délimiteur de colonnes

Fig. 4 - Exemple de mauvais délimiteur



Fig. 5 - Exemple de bon délimiteur




Les analyses réalisables

AnalyseSHS propose plusieurs types d'analyses multidimensionnelles :

Éléments pratiques

  1. Toutes les données produites (différents tableaux et représentations graphiques) sont téléchargeables :
    • soit au cas par cas grâce au bouton "Sauvegarder" associé à chaque tableau ou en cliquant sur le graphique,
    • soit grâce à l'accès aux fichiers produits dans le répertoire qui se trouve dans la rubrique "Télécharger les résultats" (en haut de l'interface, comme indiqué dans la figure ci-dessous).
  2. Systématiquement, le code R est fourni grâce à la fonction "Souhaitez-vous le code R".
Fig. 6 - Télécharger les résultats



L'Analyse des Correspondances Multiples

Comme indiqué dans le chapitre sur l'intégration du tableau de données, on prépare l'analyse en veillant à bien sélectionner un tableau individus/caractères en "type de tableau" et une ACM en "type d'analyse". Il faut que toutes les variables soient qualitatives.
Attention, vous ne pouvez demander une ACM que si vous disposez d’au moins trois variables. Si votre tableau individus/caractères ne comporte que deux colonnes, un tableau de contingence permettra de tester et d'analyser (à l'aide d'un test stastique d'indépendance, comme le test du Khi-deux), le cas échéant, la corrélation entre vos deux variables.
Si le tableau individus/caractères comporte une première colonne où se trouvent les identifiants (champ permettant d'identifier de manière unique chacune des lignes de votre tableau), sélectionnez dans les paramètres d'envoi du fichier "Tableau individus/caractères (1ère colonne identifiants)". Ceci permettra par la suite de projeter dans le plan factoriel les individus.

Fig. 7 - L'intégration d'un tableau de données avec une colonne d'identifiants



Le paramétrage de l'analyse
À droite de la représentation graphique de l'analyse sur un plan factoriel orthogonal, un ensemble de paramètres peuvent être réglés.

Fig. 8 - Paramétrer l'ACM

  1. Choisir le titre du graphique factoriel ("Titre du graphique") ;
  2. Choisir le nombre de facteurs ("Nombre de facteurs") : ceci permet de déterminer le nombre de facteurs dont on souhaite voir la description dans les tableaux associés à l'analyse et qui se trouvent en dessous du graphique ;
  3. Choisir les deux facteurs représentés sur le plan orthogonal ("Choix des facteurs") : par convention, le facteur (facteur 1) exprimant la part la plus importante de l'inertie est placé sur l'axe des abscisses, le second (facteur 2) sur l'axe des ordonnées ;
  4. Déterminer un seuil moyen en colonne ("Seuil moyen en colonne") : on peut fixer une valeur contributive minimum pour l'affichage d'un élément en colonne, ceci permet de ne visualiser que les modalités qui contribuent à hauteur de x % ou plus de l'inertie de chacun des facteurs représentés ;
  5. Mettre en supplémentaire une ou plusieurs colonnes ("Sup. en colonne") : lorsque la contribution d’un élément en colonne est très importante, Analyse permet d’en faire une "variable supplémentaire", le calcul est recommencé sans prendre en compte cette valeur, qui est ensuite projetée sur le graphique à la place qu’elle aurait dû y occuper ;
  6. Mettre en supplémentaire une ou plusieurs ligne ("Sup. en ligne") : idem pour les valeurs en ligne ;
  7. Choisir une méthode de classification, à savoir la classification ascendante hiérarchique (CAH) ou Kohonen (cf. sections ci-dessous sur la CAH et Kohonen) ;


  8. Représenter les contributions ("Souhaitez-vous représenter le poids des contributions ?") : cette fonctionnalité permet de représenter graphiquement la contribution à l'inertie de chacune des valeurs ;


  9. Fig. 9 - Représenter les contributions sur le plan factoriel



  10. Afficher les individus sur le plan factoriel ("Souhaitez-vous afficher les individus ?") : ceci permet, si l'on a bien précisé que la première colonne correspondait aux identifiants des individus, de projeter ces derniers sur le graphique.
  11. Fig. 10 - Représenter les individus sur le plan factoriel





La décroissance des facteurs
Ici, le fonctionnement est le même que pour la décroissance des facteurs de l'AFC. L'inertie de votre tableau est décomposée en différents facteurs. Le tableau de la décroissance des facteurs, situé en bas de l'interface sous le plan factoriel orthogonal, vous permet de déterminer : La troisième colonne, relative à la part cumulée de l'inertie représentée, permet de visualiser, pour chaque facteur, ce que ce dernier ainsi que les facteurs précédents représente(nt) de l'inertie totale. Cette colonne permet de déterminer combien de facteurs seront retenus dans l'analyse.

Fig. 11 - Tableau de décroissance des facteurs



Plus bas, une représentation graphique en barres permet de visualiser la décroissance des facteurs. En couleur noire, sont signifiés les facteurs représentés sur le plan en haut de la page.

Fig. 12 - Graphique de décroissance des facteurs

Plusieurs critères peuvent permettre de sélectionner le nombre de facteurs à conserver :

Modalités


Fig. 13 - Coordonnées et contributions des facteurs



L'analyse doit se faire ici facteur par facteur, comme pour l'analyse des modalités de l'AFC. Une fois un seuil déterminé (cf. paragraphe ci-dessus intitulé "Le paramétrage de l'analyse"), pour aider l'interprétation, AnalyseSHS fait apparaître pour chacun des facteurs :
Fig. 14 - Coordonnées et contributions des facteurs après seuillage



Pour chaque facteur, les modalités sont caractérisées par deux colonnes, relatives respectivement aux coordonnées et à la contribution à l'inertie de ce facteur\ (en cliquant que les entêtes, vous pouvez opérer des tris croissant et décroissant).

Fig. 15 - Trier par coordonnées


Fig. 16 - Trier par contribution



Par ailleurs, en cliquant sur le numéro associé au facteur dans le tableau (cf. première figure ci-dessous), deux diagrammes sont disponibles :

Fig. 17 - Obtenir les diagrammes par facteur


Fig. 18 - Diagrammes ordonnées par contribution et par coordonnées



COS2 ligne et COS2 colonne
Contrairement à l'interprétation d'une AFC ou d'une ACP, les COS2 ne sont pas en général utilisés dans le cas d'une ACM.
Colonne supplémentaire
Lorsque l'on a choisi de mettre en supplémentaire une ou plusieurs modalités, les calculs de l'analyse relatifs aux coordonnées et aux contributions associés ne se trouvent plus dans l'onglet "Modalités" mais à cet emplacement.

L'Analyse Factorielle des Correspondances

Comme indiqué dans le chapitre sur l'intégration du tableau de données, on prépare l'analyse en veillant à bien sélectionner un tableau de contingence en "type de tableau" et une AFC en "type d'analyse".
Fig. 19 - Intégrer un tableau de données pour une AFC

Le test associé à l'AFC
Méthodologiquement, le préalable à l'analyse du tableau de contingence sur lequel l'AFC s'effectue consiste à tester l'indépendance (et donc la corrélation) entre les deux variables croisées. AnalyseSHS renvoie un certain nombre d'indicateurs relatifs au test du Chi-deux ou Khi-deux. Pour plus de précision sur ce test : le site de Philippe Cibois ou encore cette page du site de l'IHMC : Ces éléments se retrouvent sous le plan factoriel :
Fig. 20 - Tests associés à l'analyse



Le paramétrage de l'analyse
Fig. 21 - Paramétrages de l'analyse
À droite de la représentation graphique de l'analyse sur un plan factoriel orthogonal, un ensemble de paramètres peuvent être réglés, dont la plupart sont similaires à ceux de l'ACM :
  1. Choisir le titre du graphique factoriel ("Titre du graphique") ;
  2. Choisir le nombre de facteurs ("Nombre de facteurs") : ceci permet de déterminer le nombre de facteurs dont on souhaite voir la description dans les tableaux associés à l'analyse et qui se trouvent en dessous du graphique ;
  3. Choisir les deux facteurs représentés sur le plan orthogonal ("Choix des facteurs") : par convention, le facteur (facteur 1) exprimant la part la plus importante de l'inertie est placé sur l'axe des abscisses, le second (facteur 2) sur l'axe des ordonnées ;
  4. Déterminer un seuil moyen en colonne ("Seuil moyen en colonne") : on peut fixer une valeur contributive minimum pour l'affichage d'un élément en colonne, ceci permet de ne visualiser que les modalités qui contribuent à hauteur de x % ou plus de l'inertie de chacun des facteurs représentés ;
  5. Déterminer un seuil moyen en ligne ("Seuil moyen en ligne") : idem pour les seuil moyen en ligne ;
  6. Déterminer un Pourcentage de l'Écart Maximum ("PEM"). Pour une case d’un tableau de contingence, le calcul de la liaison maximum consiste à y mettre "l’effectif le plus fort possible qui soit compatible avec les marges du tableau et à calculer l’écart à l’indépendance maximum qu’il y aurait dans ce cas. La force de la liaison sera simplement calculée en examinant le rapport entre l’écart à l’indépendance observé et l’écart maximum à l’indépendance calculé précédemment. Ce rapport étant mis en pourcentages, on parlera donc de Pourcentage de l’Écart Maximum ou P.E.M." (Philippe CIBOIS, 1993). ;
  7. Mettre en supplémentaire une ou plusieurs colonnes ("Sup. en colonne") : lorsque la contribution d’un élément en colonne est très importante, Analyse permet d’en faire une "variable supplémentaire", le calcul est recommencé sans prendre en compte cette valeur, qui est ensuite projetée sur le graphique à la place qu’elle aurait dû y occuper ;
  8. Mettre en supplémentaire une ou plusieurs ligne ("Sup. en ligne") : idem pour les valeurs en ligne ;
  9. Choisir une méthode de classification ("Classifications") : (cf. sections ci-dessous sur la CAH et Kohonen.


La décroissance des facteurs
Ici, le fonctionnement est le même que pour la décroissance des facteurs de l'ACM. L'inertie de votre tableau est décomposée en différents facteurs.

Fig. 22 - Décroissance des facteurs



Le tableau de la décroissance des facteurs vous permet de déterminer : La troisième colonne, relative à la part cumulée de l'inertie représentée, permet de visualiser, pour chaque facteur, ce que ce dernier ainsi que les facteurs précédents représente(nt) de l'inertie totale. Cette colonne permet de déterminer combien de facteurs seront retenus dans l'analyse.
Une représentation graphique en barres permet de visualiser la décroissance des facteurs. En couleur noire, sont signifiés les facteurs représentés sur le plan en haut de la page.
Fig. 23 - Diagramme en barres de la décroissance des facteurs

Plusieurs critères peuvent permettre de sélectionner le nombre de facteurs à conserver :

Modalités en ligne et en colonne
L'analyse doit se faire ici facteur par facteur, de manière similaire à l'analyse des modalités dans l'ACM. Pour chaque facteur, les modalités, en ligne comme en colonne, sont caractérisées par leurs coordonnées et leur contribution à l'inertie de ce facteur (en cliquant que les entêtes, vous pouvez opérer des tris croissant et décroissant).
Une fois un seuil déterminé (cf. paragraphe ci-dessus intitulé "Le paramétrage de l'analyse"), pour aider l'interprétation, Analyse fait apparaître pour chacun des facteurs :
Fig. 24 - Modalités en ligne

Fig. 25 -
Modalités en colonne

Par ailleurs, en cliquant sur le numéro associé au facteur dans le tableau (comme indiqué ci-dessous), deux diagrammes sont disponibles :
Fig. 26 - Obtenir les diagrammes par facteur

Fig. 27 - Diagrammes ordonnés par contribution et par coordonnées



COS2 ligne et COS2 colonne
Deux onglets permettent d'obtenir les COS2 en ligne et en colonne :
Fig. 28 - COS2 en ligne

Fig. 29 - COS2 en colonne

Comme pour l'ACP, les COS2 indiquent la qualité de la représentation sur chaque axe pour chacune des modalités en ligne et en colonne. Les quantités s'additionnent : la somme permet de déterminer à hauteur de quel pourcentage la modalité est représentée par les deux facteurs. Plus le COS2 est proche de 1, plus la qualité de la représentation de la modalité sur cet axe est bonne. Inversement, plus le COS2 est proche de 0, plus la qualité de la représentation de la modalité sur cet axe est mauvaise.

L'Analyse en Composantes Principales

Comme indiqué dans le chapitre sur l'intégration du tableau de données, on prépare l'analyse en veillant à bien sélectionner un tableau individus/caractères en "type de tableau" et une ACP en "type d'analyse". Il faut que les variables soient toutes quantitatives.

Fig. 30 - Charger le tableau de données pour l'ACP



Paramétrage de l'analyse
À droite de la représentation graphique de l'analyse sur un plan factoriel orthogonal, un ensemble de paramètres peuvent être réglés, dont la plupart sont similaires à ceux de l'ACM.
Fig. 31 - Paramétrer l'ACP

  1. Choisir le titre du graphique factoriel ("Titre du graphique") ;
  2. Choisir le nombre de facteurs ("Nombre de facteurs") : ceci permet de déterminer le nombre de facteurs dont on souhaite voir la description dans les tableaux associés à l'analyse et qui se trouvent en dessous du graphique ;
  3. Choisir les deux facteurs représentés sur le plan orthogonal ("Choix des facteurs") : par convention, le facteur (facteur 1) exprimant la part la plus importante de l'inertie est placé sur l'axe des abscisses, le second (facteur 2) sur l'axe des ordonnées ;
  4. Centrer (le centrage des variables ne modifie pas les résultats de l'analyse, cette opération consiste à retrancher à chaque observation la moyenne de la variable correspondante) ;
  5. Centrer et réduire (les variables sont centrées et réduites, c'est-à-dire que l'on divise chaque donnée centrée par l'écart-type de la variable correspondante) ;
    NB : si les variables sont homogènes (même signification, même unité de mesure, même ordre de grandeur, etc.), il est conseillé de seulement les centrer ; au contraire si elles sont hétérogènes, une réduction est recommandée.
  6. Mettre en supplémentaire une ou plusieurs colonnes ("Sup. en colonne") : lorsque la contribution d’un élément en colonne est très importante, Analyse permet d’en faire une "variable supplémentaire", le calcul est recommencé sans prendre en compte cette valeur, qui est ensuite projetée sur le graphique à la place qu’elle aurait dû y occuper ;
  7. Mettre en supplémentaire une ou plusieurs ligne ("Sup. en ligne") : idem pour les valeurs en ligne ;
  8. Choisir une méthode de classification ("Classifications") : (cf. sections ci-dessous sur la CAH et Kohonen).


La décroissance des facteurs
L'inertie de votre tableau est décomposée en différents facteurs.

Fig. 32 - Décomposition de l'inertie



Le tableau de la décroissance des facteurs vous permet de déterminer : La troisième colonne, relative à la part cumulée de l'inertie représentée, permet de visualiser, pour chaque facteur, ce que ce dernier ainsi que les facteurs précédents représente(nt) de l'inertie totale.
Plusieurs critères peuvent permettre de sélectionner le nombre de facteurs à conserver :

Profils ligne et colonne
Fig. 33 - Profils en ligne



Fig. 34 - Profils en colonne

Pour chaque facteur, les modalités en ligne et en colonne sont caractérisées par : Comme pour l'AFC, les COS2 indiquent la qualité de la représentation sur chaque axe pour chacune des modalités en ligne et en colonne. Les quantités s'additionnent : la somme permet de déterminer à hauteur de quel pourcentage la modalité est représentée par les deux facteurs. Plus le COS2 est proche de 1, plus la qualité de la représentation de la modalité sur cet axe est bonne. Inversement, plus le COS2 est proche de 0, plus la qualité de la représentation de la modalité sur cet axe est mauvaise.

Les visualisations graphiques
Trois visualisations sont proposées :
  1. variables et individus projetés ;
  2. Fig. 35 - Projection des variables et des individus

  3. variables et cercle des corrélations ;
  4. Fig. 36 - Représentation des variables et du cercle des corrélations

  5. relations des variables deux à deux.
  6. Fig. 37 - Relations des variables deux à deux

Par ailleurs, dans les paramètres évoqués ci-dessus et en fonction de l'homogénéité ou de hétérogénéité des variables, il est recommandé de centrer et/ou de réduire l'analyse, produisant alors de nouvelles représentations graphiques.


Fig. 38 - Représenation des variables

Fig. 39 - Relations des variables deux à deux



La classification ascendante hiérarchique

Principes et paramètres
La CAH consiste à partinionner une population en différentes classes ou sous-groupes : les individus sont regroupés au sein d’une même classe (homogénéité intra-classe) la plus semblable possible alors que les autres classes sont le plus dissemblables possible (hétérogénéité inter-classe).
  1. L'analyse peut se faire de deux types : "agnes" (AGglomerative NESting) ou "diana" (DIvisive ANAlysing).


  2. Fig. 40 - Choix du type d'analyse



  3. Deux mesures de distance sont possibles : "euclidean" ou "manhattan".


  4. Fig. 41 - Choix de la mesure de distance

  5. Plusieurs méthodes d'agrégation sont disponibles :
  6. Fig. 42 - Choix de la méthode


Exemple à partir d'une AFC
Dans les paramètres de l'AFC, il est possible de choisir une classification de type CAH. Dans les résultats, AnalyseSHS fournit un indicateur pour déterminer la "qualité" de l'arbre de classification qu'il renvoie : plus l'Agglomerative Coefficient est proche de 1, plus la classification est robuste.

Fig. 43 - Représentation de la classification et paramètres



On peut alors déterminer "la hauteur à laquelle on souhaite couper" afin de sélectionner le nombre de la classes voulu pour l'analyse (la hauteur est indiquée en ordonnées).

Fig. 44 - Visualisation après sélection d'un nombre de classes



Enfin, on peut, en sélectionnant un groupe dans la partie droite de l'interface, regarder les éléments qui composent ce dernier.

Fig. 45 - Éléments d'un groupe



Par ailleurs, il est possible de revenir au plan factoriel en projetant les modalités selon les groupes auxquels elles appatiennents d'après la CAH.
Pour ce faire, il suffit d'utiliser la barre de navigation située sous les représentations graphiques (cf. figure ci-dessous).
Fig. 46 - Barre de naviration

NB : les modalités en colonne sont alors indiquées par les lettres "xC" avant leur nom.

Fig. 47 - Représentation des groupes sur le plan factoriel



La méthode de Kohonen

On part également de l'exemple d'une classification partant des paramètres de l'AFC, mais cette fois-ci en choisissant une classification selon la méthode Kohonen. Dans les résultats, AnalyseSHS fournit un ensemble de paramètres et plusieurs visualisations.

Fig. 48 - Paramétrer la classification

Les différentes visualisations (cf. figures ci-dessous), à savoir une carte de Kohonen, c'est-à-dire ici une représentation en grille dont les cases correspondent à des groupes, un graphique de décroissance de la variance intra-classe(energy) en fonction des itérations (steps : la méthode de Kohonen est itérative : le classement repose sur une répétition qui permet de définir des classes) et un dendrogramme représentant les différentes échelles de regroupements (super clusters).
Fig. 49 - Décroissance de la variance intra-classe

Fig. 50 - Dendrogramme des différentes échelles de regroupements



Par ailleurs, dans les paramètres (cf. page ci-dessus), il est possible de définir des super-classes, c'est-à-dire des regroupements de classes. Pour ce faire, il est possible de s'aider du dendrogramme. En prolongeant l'exemple, on a choisit 4 super-classes. AnalyseSHS renvoie alors une série de visualisations.
  1. le dendrogramme avec les super-classes choisies indiquées ;

  2. Fig. 51 - Dendrogramme avec super-classes

  3. une grille où figurent les super-classes par jeux de couleurs : il est alors possible en cliquant que les entêtes qui figurent à droite du graphique de visualiser les modalités présentes dans chacun des groupes définis ;

  4. Fig. 52 - Représentation des super-classes en grille

  5. une nouvelle visualisation du plan factoriel, où les super-classes apparaissent selon un jeu de couleurs.

  6. Fig. 53 - Représentation des classes sur le plan factoriel