Tester des modèles

Maintenant qu'il est écrit, j'en fais quoi ?

La notion de comparaison de modèles

Analyser des données via des MLM, c'est viser à :

  • Représenter au mieux la réalité des données en tenant notamment compte d'une variabilité supplémentaire (e.g. celle des sujets ou des items).

  • Déterminer si un facteur inclus dans le modèle explique significativement ou pas une partie de la VD.

Le tout, en trouvant un équilibre entre un modèle parcimonieux et un modèle exhaustif.

Pour déterminer l'effet d'un facteur dans le cadre des MLM, nous comparons un modèle qui inclut ce facteur à un modèle qui ne l'inclut pas (comparer toutes choses égales par ailleurs, ça vous parle ?). Pour ce faire, nous pouvons utiliser les tests de ratios de vraisemblance.

La comparaison de modèles emboîtés

Dans le cas des modèles, le raisonnement est un peu le même puisqu'il s'agit de terminer à quel point il est vraisemblable que le modèle que nous testons explique les données que nous observons. Nous pouvons le faire pour un modèle isolé et nous aurons une valeur de vraisemblance. Mais ce qui est intéressant pour nous, c'est de savoir si ce modèle est plus vraisemblable qu'un autre.

Lorsque vous comparez les modèles, les ratios de vraisemblance des modèles sont comparés entre eux, via un Chi² (les tests de ratios de vraisemblances suivent une distribution de type Chi²). La probabilité associée au Chi² sur les rations de vraisemblance vous aiderons à déterminer si chacun des ratios est significativement meilleur (p inférieur au seuil statué) que le ratio précédent.

Ces tests de ratios de vraisemblances fonctionnement aussi bien pour les effets fixes que pour les effets aléatoires.

Les modèles emboîtés

Si nous souhaitons comparer toutes choses égales par ailleurs, alors pour tester la participation d'un facteur dans MLM, il nous faut le comparer à un modèle strictement identique SAUF sur ce facteur précis. Par exemple, nous pouvons comparer le

Modèle 1 : Le temps de réaction est prédit par le niveau de difficulté de l'opération mentale.

au

Modèle 2 : Le temps de réaction est prédit par le niveau de difficulté de l'opération mentale et par les compétences en mathématique du sujet.

La seule différence entre les deux est que le second comprend un facteur (fixe) supplémentaire. Autrement dit, le modèle 1 est un cas particulier du modèle 2.

Il nous manque alors un test statistique qui nous permettrait de dire en quoi l'un des deux modèles est meilleur que l'autre.

Les ratios de vraisemblance

Nous avons déjà parlé de la vraisemblance dans la section concernant les estimations de paramètres du modèle. Succinctement, il s'agit de terminer à quel point il est est vraisemblable que la valeur que nous supposons traduit bien les paramètres de la distribution de nos données.

Il faut toutefois se rappeler d'après la section précédente que pour tester des effets fixes entre des modèles emboîtés, il faut privilégier un estimateur ML alors que pour tester des effets aléatoires entre des modèles emboîtés, il faut privilégier un estimateur REML.

La comparaison de modèles non emboîtés

Les critères d'information

Il est parfois utile d'avoir une idée de la comparaison entre deux modèles non emboîtés. Par exemple, vous pourriez ne pas souhaiter entrer dans une longue démarche itérative de comparaison de modèles, soit parce que vos modèles sont trop complexes, soit parce que vous voulez éviter la tentation de choisir un modèle en particulier parce que l'effet qui vous intéresse y est significatif alors qu'il ne l'est pas un autre modèle.

Dans ce cas, il est possible de se baser sur un critère d'information. Ce critère détermine à quel point un modèle "colle bien" aux données. Il en existe 2 : le critère d'information d'Akaike (AIC) et le critère d'information de Bayes (BIC). Dans les deux cas, ils se basent sur la vraisemblance optimum d'un modèle en le pénalisant plus ou moins fortement par le nombre d'effets stipulés (l'idée étant de toujours préférer un modèle plus parcimonieux). Plus la valeur du critère est petite, meilleure est l'adéquation aux données.

Pourquoi ne pas les utiliser ?

Il y a débat autour de leur usage. Tout d'abord, ces critères ne sont pas des tests statistiques. Autrement dit, nous n'aurons pas de valeur statistique ni de seuil qui nous permettrait que le BIC du modèle 1 est meilleur que le BIC du modèle 2. Simplement le modèle au critère le plus petit est le modèle qui explique le mieux les données.

Ensuite, il peut être tentant avec ces critères de comparer directement deux modèles radicalement différents. Mais personnellement, je pense que cela nous prive de l'effort de modélisation inhérente aux MLM.

Enfin, ce critère - cela est vrai pour tous les indices statistiques - sont uniquement statistiques. Ils ne donnent aucune information théorique sur l'importance de modéliser ou non un facteur. Encore une fois, l'inclusion ou non de facteurs fixes ou aléatoires est autant une affaire théorique que statistique.

Ma recommandation est donc d'avoir à l'œil l'AIC ou le BIC mais de les considérer comme participant à un faisceau de preuves en faveur d'un modèle plutôt que d'un autre.

Dernière mise à jour