Modéliser les facteurs aléatoires

Pourquoi est-il si intéressant de modéliser les facteurs aléatoires ?

Un exemple

Pour illustrer la pertinence de modéliser les effets aléatoires, nous reprendrons l'exemple de Brown et al. (2021) sur la modélisation de l'effet aléatoire sujet (assez systématiquement inclus dans les MLM).

Dans l'exemple fictif de Brown et al. (2021), 4 participants devaient traiter des items qui variaient selon le degré de difficulté (sur des paramètres simples, tels que leur fréquence d'usage). L'hypothèse est que plus les mots sont difficiles, plus les temps de réaction sont élevés. Bien que cette hypothèse soit raisonnablement généralisable, il est tout à fait possible que 1) des sujets aient tendance à répondre plus ou moins rapidement que d'autres et 2) que des sujets soient plus ou moins soumis à cet effet de difficulté que d'autres.

Modéliser les effets aléatoires va permettre de tenir compte de ces cas de figure.

Cas N°1 : un modèle des plus simples

Dans un modèle de régression simple, seuls les effets fixes sont modélisés. In fine, le modèle propose une droite de régression qui permet de prédire le temps de réaction en fonction de la difficulté de l'item pour tous les sujets.

Nous constatons ici qu'effectivement, plus un item est difficile, plus le temps de réaction est grand. Le modèle a construit une droite de régression qui s'applique à tous les sujets (les icônes sont informatives pour nous, le modèle n'en tient pas compte). Notons que l'erreur résiduelle est relativement élevée (précisément : 410ms), le modèle pourrait expliquer un peu mieux les données.

Cas N°2 : Effet aléatoire - l'intercept

Imaginons que nous souhaitions prendre en compte que certains sujets ont tendance à répondre plus rapidement que d'autres. Autrement dit, prendre en compte la variabilité inter-sujet de performance générale. C'est ce qui est représenté dans la figure ci-dessous.

Nous constatons ici que bien que l'effet de la difficulté du mot sur le temps de réaction soit identique pour tous les sujets (i.e. les pentes sont identiques) et que l'effet moyen de la difficulté du mot (facteur fixe) soit représenté en courbe pleine, chaque sujet dispose de sa propre courbe de régression. Le modèle prédit bien mieux les réponses de chaque participant et présente une erreur résiduelle moindre par rapport au modèle précédent (ici, 275ms).

Cas N°3 : Effet aléatoire - l'intercept & la pente

Enfin, n'oublions pas que chaque individu n'est pas soumis de la même manière aux effets que nous appliquons. Un sujet peut être particulièrement sensible à la difficulté du mot et un autre sujet, très peu. Modéliser l'effet aléatoire sur les pentes permet de prendre en compte cette variabilité.

Ici, non seulement la droite de régression varie pour chaque sujet en fonction de sa tendance générale à répondre plus ou moins rapidement (i.e. l'intercept) mais aussi en fonction de l'intensité de l'effet du facteur fixe (i.e. difficulté du mot) sur le comportement (ici, le temps de réaction). L'effet de difficulté du mot sur le temps de réaction reste toujours valable mais varie en fonction des sujets. De plus, le modèle produit ici une erreur résiduelle moindre que les deux premiers modèles (75ms).

Notez que le même raisonnement peut s'appliquer aux items utilisés pour l'étude. Depuis les premières études comportementales et l'utilisation des ANOVA en psycholinguistique, il est courant de produire des ANOVA sur les sujets et les items.

Pourquoi cela ? Rappelez-vous que l'un des intérêts des tests statistiques est de généraliser à l'ensemble de la population dont est extrait l'échantillon. Imaginez que vous ayez construit un ensemble d'énoncés ironiques auxquels vous confrontez les sujets. Si vous réalisez une ANOVA sur les sujets (notée F1), vous pourrez généraliser les résultats à l'ensemble de la population. Mais rien ne vous dit que les résultats sont applicables à l'ensemble des énoncés ironiques. Pour cela, vous devrez réaliser une ANOVA sur les items (notée F2).

L'avantage des MLM par rapport aux ANOVA est de pouvoir, en un seul modèle, généraliser à la population des individus et des items.

N'oublions pas que les effets aléatoires sont nécessairement catégoriels. Si la mesure de votre facteur ne l'est pas, alors le facteur sera entré en tant qu'effet fixe.

Puis-je tout modéliser ?

Il y a une règle d'or à respecter lorsque nous voulons modéliser les effets aléatoires : ils doivent être de nature intra. Reprenons l'exemple de Brown développé ci-dessus et attardons-nous sur le lien qu'entretien le facteur difficulté avec le facteur sujet et le facteur item.

Avec le facteur sujet

Chaque sujet (chaque modalité du facteur sujet) est confronté à toutes les modalités du facteur difficulté. De fait, le facteur difficulté est, par rapport au facteur sujet, un facteur intra. La modélisation de la variation de son effet chez les sujets a du sens.

Avec le facteur item

Chaque item (chaque modalité du facteur item) n'appartient qu'à une modalité du facteur : ici, un mot ne peut pas être à la fois facile et difficile, ils ont été sélectionnés et classés par rapport à cette propriété. De fait, le facteur difficulté est, par rapport au facteur item, un facteur inter. La variation de son effet chez les items n'a pas de sens.

Considération supplémentaire

Nous aurons compris que la nature de notre design impliquera un ensemble de contraintes sur la constitution de notre modèle. C'est ce que j'appelle des contraintes pratiques : en pratique, nous ne pouvons pas modéliser de facteur aléatoire continu ni inter-sujet ou inter-item.

D'autres contraintes pratiques émergeront et seront liées à la quantité de données que nous avons pour tester notre modèle.

Enfin, des contraintes théoriques viendront également s'appliquer à votre modèle. Certaines sont évidentes et sont liées aux facteurs fixes (ceux dont vous voulez tester l'effet). D'autres sont plus subtiles et impliquent des covariables, qu'elles soient inhérentes aux sujets ou aux items. D'autres sont plus contestables et viennent des reviewers (ça sent le vécu !).

À toutes ces contraintes, vous pouvez apporter une réponse qui dépendra de votre approche top-down (du modèle exhaustif au modèle parcimonieux) ou bottom-up (du modèle parcimonieux au modèle exhaustif), du test d'hypohtèse (le facteur participe-t-il significativement au modèle ?) ou théorique (même si le facteur ne joue pas significativement sur le modèle, son implication théorique mérite son inclusion).

Résumé :

Inclure des facteurs fixes ou aléatoires nécessite une véritable démarche intellectuelle.

Pour les facteurs fixes, nous nous demanderons si un facteur ou une interaction entre facteurs fait partie d'un plan d'hypothèses.

Pour les facteurs aléatoires, nous nous demanderons s'il y a des raisons de supposer que l'intercept et/ou la pente des sujets et/ou des items varient en fonction d'un facteur.

Dernière mise à jour