Avantages et inconvénients des modèles linéaires mixtes

Ce que peuvent faire ou pas les MLM

L'indépendance des observations

En psychologie, il est fréquent de prendre plusieurs mesures chez un même sujet. C'est notoirement le cas dans les modèles à mesures répétées où le sujet sera confronté à différentes modalités d'un même facteur (e.g. il verra des visages neutres et exprimant une émotion dans une tâche de présentation de visages) ou les modèles d'analyse longitudinale où des sujets sont suivis sur une longue période de temps.

Toutefois, l'indépendance des observations est un prérequis pour la majeure partie des tests statistiques utilisés en psychologie. Par exemple, les analyses de régression produisent les paramètres d'une droite de régression commune à toute les observations, négligeant que certaines d'entres elles pourraient être corrélées. Cette non prise en compte de la corrélation entre des observations diminue la puissance du test à représenter la réalité.

Les MLM se dispensent de l'indépendance des observations. Mieux encore, ils permettent de modéliser la corrélation entre les observations. C'est un peu ce qui se passe lorsque nous intégrons les sujets en tant que variable aléatoire dans le modèle : nous considérons que les données du sujet 1 sont plus ressemblantes entre elles que les données des sujets 1 et 2 confondues (voire la section "Modéliser les facteurs aléatoires").

Comparaison avec les ANOVA

Robustes, résistants à certaines violations des conditions d'applications, flexibles et faciles à interprétés, les ANOVA sont peut-être les tests statistiques les plus utilisés pour tester l'effet d'un facteur expérimental.

Pourtant, ces tests restent limités par certains aspects et notamment par leur incapacité à prendre en compte des variations entre les observations ou encore la corrélation entre les observations.

Il y a tout un tas de conditions d'application dont nous tenons rarement compte lorsque nous réalisons une ANOVA. Parfois par ignorance, par négligence ou tout simplement parce que nous avons l'habitude de travailler avec des échantillons qui respectent ces conditions. Mais listons tout de même quelques conditions que les MLM n'ont pas besoin de respecter, contrairement à d'autres tests dont les ANOVA.

  • Les variances peuvent être hétérogènes

  • Les résidus peuvent ne pas être totalement indépendants (cf l'indépendance des observations)

  • La sphéricité de la matrice de covariance (égalité des variances des différences entre toutes les conditions) n'est pas nécessaire

  • Le design peut ne pas être équilibré

  • Le design peut être complexe dans l'emboîtement et le croisement des facteurs

Ci-dessous un tableau présentant d'autres atouts des modèles linéaires mixtes comparés aux analyses de variance.

Tableau présentant les avantages des MLM comparés aux ANOVA

ANOVAMLM

Modélisent la variabilité sujet et item séparément (i.e. deux modèles différents)

Peuvent modéliser la variabilité sujet et item en un seul modèle

Dans un modèle à mesures répétées, les données manquantes invalident les données de l'observation : les donnée d'un participants sont considérées comme appartenant à la même observation

Les données manquantes n'invalident pas l'observation : chaque observation est considérée individuellement

Les VI sont catégorielles

Les VI peuvent être continues ou catégorielles

Informent sur la significativité d'un effet mais pas sa magnitude ou sa direction

Informent sur la significativité, la magnitude et la direction d'un effet

Supportent difficilement les designs déséquilibrés

Supportent facilement les designs déséquilibrés

Nécessité de variances homogènes

Les variances peuvent être hétérogènes

Indépendances des résidus

Les résidus peuvent ne pas être indépendants

Sphéricité de la matrice de covariance

Sphéricité de la matrice de covariance non nécessaire

Inconvénient des MLM

[En construction]

  • Très flexible, ils nécessitent une véritable réflexion quant au modèle à stipuler

  • Nécessite parfois plus de données que ce que nous avons, d'autant plus lorsque le modèle est complexe

Une bonne représentation du design

Avec le développement des logiciels, il est devenu incroyablement facile de réaliser une ANOVA, à tel point que les enseignements en statistiques se consacrent moins à la nature des calculs sous-jacents qu'au développement des compétences de sélection du modèle de l'ANOVA (e.g. mesures répétées, indépendantes ou mixtes) et du test des conditions d'application.

Le développement de cette compétence peut d'ailleurs grandement aider l'appropriation des MLM dans la mesure où le chercheur doit avoir une idée extrêmement précise de la nature de son design, notamment des variables qui peuvent être intégrées en tant que facteurs fixes ou aléatoires.

Cette difficulté est plus liée à la grande flexibilité des MLM qu'à l'interface du logiciel utilisé : les erreurs de construction du modèle sont tout autant possibles avec SPSS qu'avec R. Puisqu'ils sont flexibles, ils nécessitent une véritable réflexion de la part du chercheur.

Est-ce que ce facteur est un facteur fixe ou aléatoire ? Est-ce que je peux intégrer ce facteur en tant que variable aléatoire ? Est-ce qu'il faut que je modélise les facteurs fixes et l'ensemble des interactions possibles ? Est-ce que ces deux facteurs sont croisés ou emboîtés ? Est-ce que j'ai assez de données pour que le modèle soit tenable ?

C'est souvent avec ce genre de questions que nous nous rendons compte que notre design expérimental est bien plus complexe que ce que nous le pensions et qu'il aurait peut-être fallu y réfléchir à deux fois avant de lancer l'étude…

Plusieurs possibilités

Le corolaire de cette flexibilité est qu'il y a souvent plusieurs solutions pour un même design. J'ai cru remarquer que ceci tenait souvent à deux critères :

  1. Le ratio données/complexité du modèle. Plus un modèles est complexe, plus il faudra de données pour qu'il soit tenable.

  2. La justification de l'inclusion ou non des variables. Il y a deux stratégies pour établir son modèle :

    1. Faire le modèle le plus proche de la réalité possible (qu'on pourrait nommer modèle exhaustif), au risque de ne pas avoir assez de données pour le faire tenir.

    2. Faire le modèle qui explique le plus simplement possible les données (qu'on pourrait nommer modèle parcimonieux), au risque de négliger des variables.

Mais il est relativement rare de parvenir à un modèle unique en une seule fois. Bien souvent, nous nous retrouvons à réduire un modèle exhaustif en supprimant des variables peu explicatives ou à agrémenter un modèle parcimonieux en intégrant des variables à fort potentiel explicatif. La première approche est une approche top-down, la seconde est plutôt bottom-up.

Dernière mise à jour