Typologie et modélisations

Il me semble que l'un des plus grands freins à l'utilisation des MLM est leur apparente difficulté à construire le modèle le plus fidèle. À mon avis, c'est aussi le point fort des MLM : là où les ANOVA sont plus rigides et nous invitent à nous poser plus simplement la question de la nature indépendante ou répétée des mesures et des groupes, les MLM nous poussent à aller plus loin en ayant une bonne représentation de notre design expérimental, des variables (fixes ou aléatoires) qui sont importantes et de leurs interactions (emboîtées, croisées partiellement ou totalement).

Rien que la modélisation des variables aléatoires (inexistantes dans les ANOVA) nécessite une gymnastique intellectuelle différente.

Et c'est souvent à cause de ce changement d'habitude (de paradigme, diront certains) que les chercheurs ne vont pas plus loin dans les MLM. Quand bien même je vous aurais convaincu de l'intérêt de modéliser les variables aléatoires, est-ce que je pourrais vous convaincre de vous poser la question de l'emboîtement de vos variables ? Du croisement partiel de celles-ci ? Pas sûr…

Pour briser l'apparente difficulté de la modélisation des MLM, je vais vous présenter les principaux types de MLM et essaierai de faire le parallèle avec les ANOVA, que vous connaissez probablement mieux. Vous verrez également que ce sera l'occasion de considérer les MLM comme des modèles statistiques multiniveaux.

Pourquoi différentes manières de conceptualiser les MLM ?

Pour deux raisons :

  • Si nous sommes familiers avec les ANOVA, il est plus facile de penser les MLM comme nous pensons les ANOVA, en ajoutant simplement les variables aléatoires.

  • Les ANOVA représentent des modèles relativement simples. Sur des modèles complexes, la comparaison entre les MLM et les ANOVA trouve ses limites.

  • Certains logiciels opérationnalisent les MLM selon une logique "ANOVA" avec des facteurs emboîtés ou croisés alors que d'autres opérationnalisent les MLM comme des modèles hiérarchiques avec des niveaux d'analyses différents.

Une première manière de voir les choses

Je trouve cette première manière de voir les différents MLM assez proche de celle dont nous considérons les ANOVA. C'est souvent la plus simple lorsque nous commençons à manipuler les MLM mais pas toujours la plus pertinente pour représenter les modèles les plus complexes.

Ici, nous verrons trois types de modèles : les modèles de groupes (en clusters), les modèles à mesures répétées et les modèles longitudinaux.

Le français est une langue assez mal adaptée à l'expression scientifique. En tout cas, mon français. Dans les cases de ce type, vous trouverez les termes anglophones les plus courants.

Les modèles en clusters

Le regroupement

Dans ce type de modèle, la VD est recueillie une seule fois par sujet et les sujets sont regroupés (ou emboîtés) dans des groupes. Ces groupes peuvent être d'intérêt (facteur fixe) ou non (facteur aléatoire).

Exemple : Nous avons lancé une étude portant sur la perception de l'agréabilité d'un enseignant en fonction du genre des étudiants. Les valeurs de jugement ont été recueillies une fois par étudiant mais on aimerait tenir compte du fait que les étudiants appartiennent à différents groupes TD. Schématiquement, nous aurions ceci :

Il apparaît évident que les sujets peuvent être d'un groupe TD ou d'un autre mais pas des deux (bien que les étudiants aient tendance à repousser les limites du système), c'est un modèle à regroupements.

  • Les modèles sont clustered data

  • Les sujets sont grouped into ou nested dans des clusters

La notion de niveaux

Ici, les étudiants appartiennent à des groupes TD différents d'une même université. Nous appelons ce type de modèles, des modèles linéaires mixtes à deux niveaux :

  1. Le premier niveau est celui des étudiants : il constitue le niveau d'analyse (niveau auquel correspondent les observations).

  2. Le second niveau est celui des groupes TD : c'est un niveau dans lequel s'emboîte le premier niveau, celui des étudiants.

Imaginons maintenant que nous étendons notre groupe de sujets aux étudiants d'une autre université dans laquelle intervient le même enseignant. Notre modèle pourrait ressembler à ceci :

  1. Le premier niveau est celui des étudiants : il constitue le niveau d'analyse (niveau auquel correspondent les observations).

  2. Le second niveau est celui des groupes TD : c'est un niveau dans lequel s'emboîte le premier niveau, celui des étudiants.

  3. Le troisième niveau est celui de l'université : c'est un niveau dans lequel s'emboîte le second niveau, celui des groupes TD.

Et voilà, vous venez de comprendre pourquoi les modèles linéaires mixtes sont parfois appelés modèles multi-niveaux !

Les modèles à mesures répétées

Dans ce type de modèle, des mesures de la VD sont prises plusieurs fois chez un même sujet (ou même niveau d'analyse) au travers de différents niveaux d'une variable.

Exemple : Reprenons l'étude précédente de jugement de l'agréabilité de l'enseignant par les étudiants. Cette fois-ci nous nous intéressons à l'effet de l'enseignement dispensé par l'enseignant : des cours de statistiques vs des cours de psychopathologie. Notre modèle pourrait ressembler à ceci :

Ici, chaque étudiant suit les deux cours. Autrement dit, chaque unité d'analyse est confrontée à toutes les modalités de la variable fixe : nous répétons la mesure de la VD à tous les niveaux de la VI.

Les modèles longitudinaux

Conceptuellement, la différence entre les modèles longitudinaux et les modèles à mesures répétées est le facteur temps. Certains considèrent donc les modèles longitudinaux comme des cas particuliers de modèles à mesures répétées pour lesquels le temps représente une durée assez longue et constitue une variable d'intérêt.

Il est vrai que dans les deux cas, l'accent est mis sur le fait que ces modèles sont capables de prendre en compte la corrélation entre les données répétées. Toutefois, il y a certains cas où il vaut mieux distinguer les deux modèles, que ce soit pour des aspects théoriques et de méthodologie ou plus techniques comme lorsqu'il s'agit de mettre en évidence une évolution différente de la VD au cours du temps en fonction des sujets via l'analyse d'une courbe de croissance.

On parle alors de growth curve models

Les modèles longitudinaux emboîtés

La réalité est complexe et puisqu'en psychologie nous nous intéressons à la réalité, nos modèles expérimentaux sont souvent complexes. Les modèles longitudinaux emboîtés sont des modèles pour lesquels les sujets sont regroupés dans des groupes et les valeurs de la VD sont recueillies plusieurs fois pour un même sujet.

Exemple : Nous reprenons notre étude sur le jugement de l'agréabilité de l'enseignant par les étudiants en fonction de l'enseignement (tous les étudiants suivent les deux enseignements) et nous prenons en considération le fait que les étudiants appartiennent à différents groupes TD.

De fait, les étudiants évaluent deux fois l'enseignant (mesure répétée) mais les étudiants appartiennent à des groupes TD différents (facteur de groupe).

Une seconde manière de voir les choses

Nous avons commencé à évoquer cette seconde manière de conceptualiser un modèle linéaire mixte en évoquant les différents niveaux : celui du sujet (niveau d'analyse), celui de la classe (niveau d'emboîtement des sujets) et celui de l'université (niveau d'emboîtement de la classe).

C'est ce qui permet de penser les MLM comme des modèles multi-niveaux ou encore des modèles hiérarchiques.

Dans une conception hiérarchique des MLM, nous pouvons distinguer le niveau 1 des autres niveaux :

  1. Le Niveau 1 est le niveau d'analyse des données. C'est le plus détaillé et certains le considèrent comme le niveau le plus bas. Concrètement dans votre jeu de données, c'est la ligne qui traduit l'observation. C'est sur ce niveau qu'est mesurée la VD.

    1. Dans un modèle en cluster, il s'agit du sujet.

    2. Dans un modèle en mesures répétées (ou longitudinal), il s'agit des mesures recueillies.

  2. Le Niveau 2 est le niveau hiérarchique supra-ordonné au niveau 1 dans le jeu de données.

    1. Dans un modèles en cluster, il s'agit du groupe auquel appartient le sujet.

    2. Dans un modèle en mesures répétées (ou longitudinal), il s'agit du sujet qui regroupe plusieurs mesures.

  3. Le Niveau 3 est le niveau hiérarchique supra-ordonné au niveau 2 dans le jeu de données.

    1. Dans un modèles en cluster, il s'agit d'un groupe incluant différents sous-groupes définis dans le niveau 2.

    2. Dans un modèle en mesures répétées (ou longitudinal), il s'agit des groupes auxquels appartiennent les sujets.

Tableau d'exemples

NiveauxModèle en clusterModèle en mesures répétées

Niveau 1

Les étudiants

Les 2 (temps de) mesures d'agréabilité

Niveau 2

Le groupe TD

Les étudiants (qui ont chacun produit 2 mesures d'agréabilité)

Niveau 3

L'université

Le groupe TD

Une notion importante : facteurs croisés ou emboîtés ?

Une dernière difficulté dans la modélisation des MLM et qui deviendra plus concrète lorsqu'il s'agira d'écrire les modèles dans le logiciel, est la notion de croisement ou emboîtement des facteurs.

Nous l'avons déjà évoqué dans "une première manière de voir les choses" mais il y a quelques subtilités à garder en mémoire :

  1. Le croisement ou l'emboîtement des facteurs peut concerner les facteurs fixes tout comme les facteurs aléatoires

  2. Des facteurs sont dits emboîtés lorsque le niveau de l'un ne peut être observé que dans un niveau de l'autre.

  3. Des facteurs sont dits croisés lorsque le niveau de l'un peut être observé au travers plusieurs niveaux de l'autre

Exemples

Facteurs emboîtés

Prenons notre exemple de jugement de l'agréabilité de l'enseignant par les étudiants de 2 groupes TD.

Ici, les étudiants constituent le niveau d'analyse (Niveau 1) et chaque étudiant représente un niveau du facteur SUJET.

Ils appartiennent à des groupes TD différents (Niveau 2), facteur GROUPE TD à 2 modalités : Groupe TD1 et Groupe TD2.

Étant donné que chaque étudiant ne peut appartenir qu'à un seul groupe TD, chacune des modalités du facteur SUJET n'apparaît que dans une modalité du facteur GROUPE TD. Les facteurs SUJET et GROUPE TD sont donc emboîtés.

Facteurs croisés

Prenons maintenant notre exemple dans lequel nous recueillons plusieurs jugements de l'agréabilité chez les mêmes étudiants : l'une pendant le cours de statistiques et l'autre pendant le cours de psychopathologie.

Ici, les mesures d'agréabilité représentent le niveau d'analyse (Niveau 1).

Il y a deux mesures par étudiant, qui représentent un cluster de mesures, facteur SUJET (Niveau 2), chaque étudiant représentant un niveau de ce facteur.

Chacun de ces étudiants a produit un jugement pendant un cours de statistiques et un cours de psychopathologie, facteur ENSEIGNEMENT (Niveau 3) à deux niveaux (statistiques ; psychopathologie).

Étant donné que tous les étudiants ont participé aux deux cours, autrement dit que tous les niveaux du facteur SUJET sont observés dans tous les niveaux du facteur ENSEIGNEMENT, les facteurs SUJET et ENSEIGNEMENT sont croisés.

Dernière mise à jour