L'estimation du modèle

Quel estimateur pour quel objectif ?

Introduction

Si construire le modèle est une étape parfois complexe, ce n'est que le premier pas de votre démarche. Inévitablement, vous allez devoir estimer les paramètres de votre modèle.

Souvenez-vous qu'un MLM comporte deux paramètres dont vous souhaitez obtenir une estimation : le paramètre β des effets fixes et le paramètre u des effets aléatoires (appelé parfois le paramètre de covariance).

Y=βX+uZ+εY = βX+uZ + ε

Tout comme pour les tests statistiques se basant sur un modèle de régression, nous avons besoin d'un estimateur pour s'approcher au mieux de la valeur réelle de ces paramètres. Dans le cas des MLM, deux estimateurs sont couramment employés : le maximum de vraisemblance (Maximum Likelihood ; ML) et le maximum de vraisemblance restreint (Restricted Maximum Likelihood ; REML). Ces deux estimateurs sont supérieur à la méthode des moindres carrés, simplement parce qu'ils ne nécessitent pas un modèle strictement normal.

Le maximum de vraisemblance

En statistique, le principe de la vraisemblance est d'estimer la probabilité d'observer les données via un simulation de distribution. Plus simplement, nous générons aléatoirement une valeur du paramètre et ce, plusieurs fois. Chacune des ces valeurs va simuler une distribution des données. La répétition de cette simulation permettra de déterminer la valeur pour laquelle la probabilité d'observer la distribution des données est la plus élevée. C'est comme si nous cherchions par essai-erreur, la moyenne et l'écart-type d'une distribution. Le maximum de vraisemblance sera atteint lorsque nous serons tombés sur la moyenne et l'écart-type réels.

C'est un processus assez long et d'autant plus lorsque le modèle est complexe et/ou comprend beaucoup d'effets aléatoires.

ML ou REML ?

Si les deux procédures visent à estimer les paramètres des effets fixes et des effets aléatoires, elles ne le font pas tout à fait de la même manière.

Sans entrer dans des considérations mathématiques complexes, quelques points de différences :

  • ML a tendance à sous-estimer la variance réelle, d'autant plus dans un petit échantillon. Ceci est dû au fait qu'il estime les deux paramètres en même temps.

  • REML estime le paramètre des effets aléatoires en fonction des effets fixes. Son estimation des effets aléatoires n'est donc pas biaisée.

Mais alors, lequel choisir ?

  • Dans la plupart des cas, ML donnera une estimation malgré tout assez fiable des paramètres

  • Si vous voulez comparer différents modèles par leurs facteurs fixes (et facteurs aléatoires identiques), préférez la méthode ML.

En effet, la méthode REML calcul les paramètres aléatoires sur la base des effets fixes. Autrement dit, si vous changez les effets fixes, vous changer les paramètres des effets aléatoires. Donc, deux modèles identiques sur les facteurs aléatoires mais différents sur les facteurs fixes ne seront pas comparables si leurs paramètres ont été estimés par REML.

  • Si vous voulez comparer différents modèles par leurs facteur aléatoires (et facteurs fixes identiques), préférez la méthode REML.

  • Si vous voulez tester un modèle final (à l'issue de la comparaison de différents modèles), préférez REML qui donnera une estimation non biaisée des paramètres.

Problème de convergence

Il arrive parfois que l'estimation des paramètres échoue et/ou nous avertisse d'un problème de matrice. Sans rentrer dans les détails, on nous avertit ici que les paramètres ne sont peut-être pas très fiables. Pourquoi donc ?

  1. Les corrélations entre les observations sont beaucoup trop fortes.

  2. Le modèle est mal spécifié (trop d'effets fixes ou aléatoires, des niveaux d'interaction trop complexe, etc.).

  3. Pas assez de données pour estimer le modèle.

Que faire dans ce cas ?

  1. Simplifier le modèle. C'est peut-être ma solution préférée. Est-il vraiment nécessaire d'inclure cette interaction triple entre vos facteurs fixes ? Posez-vous la question.

  2. Changer l'optimiseur, c'est à dire changer la manière dont l'estimateur va parvenir à la solution optimale.

  3. Augmenter le nombre d'itérations avant que l'estimateur ne renonce à trouver une solution.

  4. Spécifier les valeurs de départ pour l'estimation des données. Souvenez-vous que le principe de l'estimation est de choisir des valeurs au hasard. Proposer des valeurs dès le départ, cela aidera à la convergence du modèle.

  5. Changer l'échelle des données. Représenter des durées en millisecondes alors que la réponse prend plusieurs secondes ? Aucun intérêt.

  6. Examiner les données. Si les MLM sont assez résistants aux designs non équivalents (ex. des groupes expérimentaux de tailles différentes), ils ne sont pas non plus permissifs. Si l'un de vos sujets ou l'un de vos items est associé à un très faible nombre de réponses, le modèle risque de ne pas converger.

  7. Simplifier le modèle. Je l'ai déjà dit ? Alors c'est que c'est le plus simple et peut-être le plus important. Non sans rire, on veut souvent produire le modèle le plus complexe. Un modèle qui nous donnera l'impression d'une vérité statistique et méthodologique alors que nous n'avons pas les données nécessaires pour le tester ou que notre design n'est pas si proche que ça de notre modèle théorique (comment ça, nos deux VI ne seraient pas si indépendantes que ça ?)

Attention !! On ne supprime pas un facteur (fixe ou aléatoire) uniquement parce qu'il nous gêne. On le fait soit parce que son inclusion n'est pas justifiée théoriquement, soit parce que sa participation dans l'explication des données n'est pas significative.

Dernière mise à jour