Coeficiente kappa de Cohen

El Coeficiente kappa de Cohen es una medida estadística que ajusta el efecto del azar en la proporción de la concordancia observada^[1]. En general se cree que es una medida más robusta que el simple cálculo del porcentaje de concordancia, ya que κ tiene en cuenta el acuerdo que ocurre por azar. Algunos investigadores^[2] han expresado su preocupación por la tendencia de κ a dar por seguras las frecuencias de las categorías observadas, lo que puede tener el efecto de subestimar el acuerdo para una categoría de uso habitual; por esta razón, κ se considera una medida de acuerdo excesivamente conservadora.

Otros^[3] discuten la afirmación de que kappa "tiene en cuenta" la posibilidad de acuerdo. Para hacerlo con eficacia se requeriría un modelo explícito de cómo afecta el azar a las decisiones de los observadores. El llamado ajuste por azar del estadístico kappa supone que, cuando no están absolutamente seguros, los evaluadores simplemente aventuran una respuesta (un escenario muy poco realista).

Kappa mide el grado de concordancia de las evaluaciones nominales u ordinales realizadas por múltiples evaluadores cuando se evalúan las mismas muestras.

Por ejemplo, dos médicos diferentes examinan a 45 pacientes para determinar si tienen una enfermedad específica. ¿Con qué frecuencia coincidirá el diagnóstico de los médicos con respecto a la enfermedad (positivo o negativo)?

Otro ejemplo de evaluaciones nominales son las clasificaciones de los defectos encontrados en pantallas de televisores por varios inspectores. ¿Concuerdan consistentemente los inspectores en su clasificación de burbujas, cavidades y sucio?

Cálculo[editar]

El Coeficiente kappa de Cohen mide la concordancia entre dos examinadores en sus correspondientes clasificaciones de N elementos en C categorías mutuamente excluyentes. La primera mención de un estadístico similar a kappa se atribuye a Galton (1892),^[4] véase Smeeton (1985).^[5]

La ecuación para κ es:

\kappa ={\frac {\Pr(a)-\Pr(e)}{1-\Pr(e)}},\!

donde Pr(a) es el acuerdo observado relativo entre los observadores, y Pr(e) es la probabilidad hipotética de acuerdo por azar, utilizando los datos observados para calcular las probabilidades de que cada observador clasifique aleatoriamente cada categoría. Si los evaluadores están completamente de acuerdo, entonces κ = 1. Si no hay acuerdo entre los calificadores distinto al que cabría esperar por azar (según lo definido por Pr(e)), κ = 0.

El artículo pionero que introdujo kappa como nueva técnica fue publicado por Jacob Cohen en la revista Educational and Psychological Measurement en 1960.^[6]

Un estadístico similar, llamado pi, fue propuesto por Scott (1955). Kappa de Cohen y pi de Scott difieren en cuanto a la forma de cálculo de Pr(e).

Hay que tener en cuenta que la kappa de Cohen sólo mide el acuerdo entre dos observadores. Para una medida de acuerdo similar (kappa de Fleiss) utilizada cuando hay más de dos observadores, véase Fleiss (1971). La kappa de Fleiss, sin embargo, es una generalización para múltiples observadores del estadístico pi de Scott, y no de la kappa de Cohen.

Ejemplo[editar]

Se tiene un grupo de 50 personas que presentan una solicitud de subvención. Cada propuesta de subvención es analizada por dos evaluadores que anotan un "Sí" o un "No", según acepten o rechacen, respectivamente, la solicitud. El resultado del análisis de cada solicitud genera la tabla siguiente, en la que A y B denotan a cada uno de los dos evaluadores:

		B
		Sí	No
A	Sí	20	5
A	No	10	15

Los datos situados en la diagonal formada por los valores 20 y 15, representan el número de solicitudes en el que hay concordancia entre ambos evaluadores. Mientras que la diagonal formada por los valores de 10 y 5, representan los casos en los que hay discordancia entre los evaluadores.

Ahora pues, teniendo en cuenta que de las 50 solicitudes, 20 fueron aceptadas y 15 rechazadas por ambos evaluadores. El porcentaje de acuerdo observado es:

\Pr(a)={\frac {20+15}{50}}=0.70\!

Para calcular Pr(e), es decir, la probabilidad de que el acuerdo entre evaluadores se deba al azar, se advierte que:

El evaluador A acepta (dice "Sí") 25 solicitudes y rechaza (dice "No") 25. Es decir, el evaluador A dice "Sí" el 50% de las veces.
El evaluador B acepta (dice "Sí") 30 solicitudes y rechaza (dice "No") 20. Es decir, el evaluador B dice "Sí" el 60% de las veces.

Por lo tanto, la probabilidad de que ambos evaluadores digan "Sí" al azar es:

\Pr(A)*\Pr(B)=0.50*0.60=0.30\!

Y la probabilidad de que ambos lectores digan "No" al azar es:

\Pr(A)*\Pr(B)=0.50*0.40=0.20\!

Teniendo en cuenta lo anterior, el valor de Pr(e) se calcula como la suma de las probabilidades de decir "Sí" y "No" al azar:

\Pr(e)=0.30+0.20=0.50\!

Aplicando los valores de Pr(a) y Pr(e) en la fórmula de Kappa de Cohen se obtiene:

\kappa ={\frac {\Pr(a)-\Pr(e)}{1-\Pr(e)}}={\frac {0.70-0.50}{1-0.50}}=0.40\!

Los mismos porcentajes, pero diferentes números[editar]

Un caso que a veces se considera un problema con la Kappa de Cohen se produce al comparar las Kappas calculadas para dos pares de evaluadores, ambos pares de evaluadores tienen el mismo porcentaje de acuerdo, pero los evaluadores de uno de los pares tienen una distribución de calificaciones similar, mientras los evaluadores del otro par tienen una distribución de calificaciones muy diferente.^[7] Por ejemplo, en las dos tablas siguientes el acuerdo entre A y B es similar (en ambos casos, 60 de cada 100), por lo tanto cabría esperar que los valores correspondientes de Kappa reflejaran esta similitud. Sin embargo, al calcular Kappa para cada tabla:

	Sí	No
Sí	45	15
No	25	15

\kappa ={\frac {0.60-0.54}{1-0.54}}=0.1304

	Sí	No
Sí	25	35
No	5	35

\kappa ={\frac {0.60-0.46}{1-0.46}}=0.2593

encontramos que muestra mayor similitud entre A y B en el segundo caso, en comparación con el primero. Esto se debe a que mientras el porcentaje de acuerdo es el mismo, el porcentaje de acuerdo que ocurriría "por casualidad" es significativamente mayor en el primer caso (0,54 comparado con 0,46).

Significado y magnitud[editar]

La significación estadística no hace ninguna afirmación sobre cuán importante es la magnitud en una aplicación dada o lo que se considera un acuerdo alto o bajo.

La significación estadística para kappa rara vez se informa, probablemente porque incluso valores relativamente bajos de kappa pueden ser significativamente diferentes de cero pero no de magnitud suficiente para satisfacer a los investigadores.^[8] Sin embargo, su error estándar se ha descrito^[9] y es calculado por varios programas de computadora.^[10]

Si la significación estadística no es una guía útil, ¿qué magnitud de kappa refleja un acuerdo adecuado? Las directrices serían útiles, pero otros factores distintos del acuerdo pueden influir en su magnitud, lo que hace problemática la interpretación de una determinada magnitud. Como señalan Sim y Wright, dos factores importantes son la prevalencia (son los códigos equiprobables o sus probabilidades varían) y el sesgo (son las probabilidades marginales para los dos observadores similares o diferentes). En igualdad de condiciones, las kappas son más altas cuando los códigos son equiprobables. Por otro lado, los Kappas son mayores cuando los códigos son distribuidos asimétricamente por los dos observadores. En contraste con las variaciones de probabilidad, el efecto del sesgo es mayor cuando Kappa es pequeño que cuando es grande.^[11]^{: 261–262}

Referencias[editar]

↑ Carletta, Jean. (1996) Assessing agreement on classification tasks: The kappa statistic. Computational Linguistics, 22(2), pp. 249–254.
↑ Strijbos, J.; Martens, R.; Prins, F.; Jochems, W. (2006). «Content analysis: What are they talking about?». Computers & Education 46: 29-48. doi:10.1016/j.compedu.2005.04.002.
↑ Uebersax, JS. (1987). «Diversity of decision-making models and the measurement of interrater agreement» (PDF). Psychological Bulletin 101: 140-146. doi:10.1037/0033-2909.101.1.140. Archivado desde el original el 3 de marzo de 2016. Consultado el 23 de abril de 2014.
↑ Galton, F. (1892). Finger Prints Macmillan, London.
↑ Smeeton, N.C. (1985). «Early History of the Kappa Statistic». Biometrics 41: 795.
↑ Cohen, Jacob (1960). "A coefficient of agreement for nominal scales". Educational and Psychological Measurement 20 (1): 37–46. doi:10.1177/001316446002000104
↑ Kilem Gwet (May 2002). «Inter-Rater Reliability: Dependency on Trait Prevalence and Marginal Homogeneity». Statistical Methods for Inter-Rater Reliability Assessment 2: 1-10. Archivado desde el original el 7 de julio de 2011. Consultado el 26 de octubre de 2014.
↑ Bakeman, R.; Gottman, J.M. (1997). Observing interaction: An introduction to sequential analysis (2nd edición). Cambridge, UK: Cambridge University Press. ISBN 0-521-27593-8.
↑ Fleiss, J.L.; Cohen, J.; Everitt, B.S. (1969). «Large sample standard errors of kappa and weighted kappa». Psychological Bulletin 72: 323-327. doi:10.1037/h0028106.
↑ Robinson, B.F; Bakeman, R. (1998). «ComKappa: A Windows 95 program for calculating kappa and related statistics». Behavior Research Methods, Instruments, and Computers 30: 731-732. doi:10.3758/BF03209495.
↑ Sim, J; Wright, C. C (2005). «The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements». Physical Therapy 85: 257-268. PMID 15733050.

Datos: Q1107106

[1] Carletta, Jean. (1996) Assessing agreement on classification tasks: The kappa statistic. Computational Linguistics, 22(2), pp. 249–254.

[SMPJ-2] Strijbos, J.; Martens, R.; Prins, F.; Jochems, W. (2006). «Content analysis: What are they talking about?». Computers & Education 46: 29-48. doi:10.1016/j.compedu.2005.04.002.

[3] Uebersax, JS. (1987). «Diversity of decision-making models and the measurement of interrater agreement» (PDF). Psychological Bulletin 101: 140-146. doi:10.1037/0033-2909.101.1.140. Archivado desde el original el 3 de marzo de 2016. Consultado el 23 de abril de 2014.

[4] Galton, F. (1892). Finger Prints Macmillan, London.

[5] Smeeton, N.C. (1985). «Early History of the Kappa Statistic». Biometrics 41: 795.

[6] Cohen, Jacob (1960). "A coefficient of agreement for nominal scales". Educational and Psychological Measurement 20 (1): 37–46. doi:10.1177/001316446002000104

[Gwet2002-7] Kilem Gwet (May 2002). «Inter-Rater Reliability: Dependency on Trait Prevalence and Marginal Homogeneity». Statistical Methods for Inter-Rater Reliability Assessment 2: 1-10. Archivado desde el original el 7 de julio de 2011. Consultado el 26 de octubre de 2014.

[BakemanGottman1997-8] Bakeman, R.; Gottman, J.M. (1997). Observing interaction: An introduction to sequential analysis (2nd edición). Cambridge, UK: Cambridge University Press. ISBN 0-521-27593-8.

[FleissCohenEv1969-9] Fleiss, J.L.; Cohen, J.; Everitt, B.S. (1969). «Large sample standard errors of kappa and weighted kappa». Psychological Bulletin 72: 323-327. doi:10.1037/h0028106.

[BakemanRobinson1998-10] Robinson, B.F; Bakeman, R. (1998). «ComKappa: A Windows 95 program for calculating kappa and related statistics». Behavior Research Methods, Instruments, and Computers 30: 731-732. doi:10.3758/BF03209495.

[SimWright2005-11] Sim, J; Wright, C. C (2005). «The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements». Physical Therapy 85: 257-268. PMID 15733050.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]