Le Coefficient Kappa

Introduction   

Définition de l'accord

Accord entre 2 juges

Accord entre plusieurs juges

Limites du test

Usages du test

Applications pratiques

Conclusion

Annexes

Références

 

Téléchargement 

Liens Internet

Note de l'auteur

Contact

Limites du test

Sensibilité aux erreurs systématiques entre les juges

Sensibilité à la prévalence du signe cherché

Corrections proposées

Méthode de Hui et Walter

Nous nous sommes intéressés aux travaux de Hui et Walter[20] qui proposent une méthode originale pour corriger la dépendance du coefficient Kappa à la prévalence.

 

En connaissant la sensibilité (Se) et la spécificité (Sp) des juges pour le signe recherché et en supposant que la compétence des juges reste constante quelle que soit la prévalence (P), nous avons pu déduire dans le chapitre précédent la valeur du test Kappa pour chacune des prévalences testées.

 

L’effectif attendu pour chaque niveau de classification croisée est estimé par :

 

 

avec

et 

         n       : effectif total

         P       : prévalence du signe cherché

         Sem   : sensibilité du juge m

         Spm   : spécificité du juge m

   x(m)  : réponse du juge m pour le niveau de classification x. x(m) = 1 si la réponse du juge est positive et 0 dans le cas contraire.

 

Hui et Walter[20] proposent d’estimer directement la prévalence PKmax du signe recherché qui offre le taux de concordance le plus élevé entre deux juges par :

 

 

         am = 1 - Spm

         bm = 1 - Sem

 

et d’estimer le Kappa correspondant par[21, 22] :

 

 

avec

 

Hui et Walter ont proposé, en l’absence d’un test de référence, d’estimer la sensibilité, la spécificité des juges et la prévalence du signe cherché en maximisant la fonction log-vraisemblance définie par :

 

avec

et

         t        : le nombre de niveaux de classification croisée

         nx          : l’effectif observé du niveau de classification croisée x

 

La connaissance de ces indices nous permet dans un deuxième temps de calculer le Kappa maximal que l’on puisse espérer entre les deux juges à la prévalence optimale.

 

L’écriture de la fonction log-vraisemblance repose sur l’hypothèse que la distribution des sujets selon les niveaux de classification croisée est multinomiale et que les probabilités individuelles de classification pour les m juges conditionnellement au vrai diagnostic sont indépendantes.

 

Les conditions de l’estimation selon le maximum de vraisemblance dépendent du nombre de juges à étudier (m). Pour assurer une réponse unique, le nombre de paramètres à estimer ne doit pas être supérieur au nombre de niveaux de classification indépendants soit 2m+1 £ 2m-1 pour m juges à réponses dichotomiques.

 

Les estimateurs obtenus sont asymptotiquement sans biais. Bertrand[23] a constaté par des études de simulation sur des populations finies que les estimateurs sont biaisés en situation de dépistage (prévalence £ 0,10) si les effectifs sont inférieures à 2500. En situation diagnostique (prévalence ³ 0,30) le biais est faible pour des échantillons de petite taille (n = 50). En pratique, un effectif supérieur ou égal 500 semble raisonnable.

 

La méthode de Walter est intéressante mais elle exige un grand nombre de sujets pour obtenir des estimateurs sans biais qui eux-mêmes permettront d’estimer la valeur maximale du test Kappa.

 

On peut se demander à quoi correspond la référence inconnue qui permet d’estimer la sensibilité et la spécificité des juges par cette méthode ?

 Elle serait un «consensus» entre les juges qui est extrapolé de l’ensemble de leurs jugements. En l’absence d’une vraie référence, ce consensus intrinsèque est notre seule référence qui sera biaisée par rapport à la vérité, ainsi que l’estimation des sensibilités et spécificités des juges, si les jugements sont eux-mêmes biaisés.

Pour tout savoir ou presque sur le test statistique Kappa...