Fiabilidad
La fiabilidad es
una de las dos cualidades básicas que debe poseer un examen o,
en general, todo instrumento de medida. La otra es la validez.
El concepto designa la estabilidad que proporciona ese instrumento en
la obtención de resultados. Así, por ejemplo, una prueba cuyos resultados
dependen de factores no controlados como el ruido existente en el
aula de examen, el criterio del evaluador o el orden seguido en la corrección
no es una prueba fiable; por el contrario, se considera que un instrumento
de medición es tanto más fiable cuanto más capaz es de reducir los errores
de medición.
Existen distintos
métodos para determinar el grado de fiabilidad de un examen, pero todos
ellos tienen en común el hecho de comparar los resultados de la prueba,
bien con otra, bien consigo misma, y expresar numéricamente, mediante
el llamado coeficiente de fiabilidad, el grado en que esos dos
conjuntos de resultados son coincidentes. Cuanto más alto es dicho coeficiente,
es decir, cuanto mayor es el grado de coincidencia entre los dos grupos
de resultados, más fiable resulta la prueba. Así, puede considerarse que,
si bien los valores máximos oscilan entre -1 y +1, cuando el coeficiente
es inferior a +0.30, la fiabilidad de la prueba es muy baja (los valores
negativos no suelen darse); cuando alcanza +0.60, se estima aceptable;
y a partir de +0.70, la fiabilidad de la prueba es alta.
Los métodos más
habituales para medir el grado de fiabilidad de las pruebas de corrección
objetiva (por ejemplo, los tests de verdadero/falso o los de opción
múltiple) son los siguientes:
- Método de las formas paralelas: consiste en comparar las notas de
dos pruebas muy similares (paralelas), de modo que la correlación entre
ambas revela el coeficiente de fiabilidad. No obstante, la dificultad
de este método estriba, precisamente, en redactar dos pruebas que sean
efectivamente paralelas.
- Método test-retest: supone administrar la misma prueba dos veces a
los mismos sujetos, de forma que, si ésta es fiable, los aprendientes
obtienen los mismos resultados en ambas ocasiones. Se trata de un método
poco usado, dado que los alumnos pueden haber adquirido nuevos conocimientos
durante el intervalo, haberse acostumbrado al método o, simplemente,
hallarse fatigados durante la realización de una de las dos pruebas,
de forma que es posible obtener resultados distintos entre ambas, debido
a factores aleatorios.
- Método de las dos mitades: consiste en dividir la prueba, una vez
administrada, en dos mitades (ítems pares e impares, o bien mitad
y mitad) y calcular la correlación entre los resultados de ambas partes.
El problema que plantea este método de consistencia interna es que el
coeficiente de fiabilidad depende de los ítems escogidos para cada mitad.
- Otros métodos de consistencia interna: calculan el coeficiente de
fiabilidad a partir de las correlaciones que se obtendrían en el caso
de realizar todas las divisiones posibles de la prueba. Las fórmulas
matemáticas más habituales para ello son las de Kuder-Richardson (conocidas
como KR-20 y KR-21), así como el Alfa de Cronbach.
En las pruebas
de corrección subjetiva (entrevistas orales, pruebas de expresión
escrita), lo que resulta relevante es comprobar el grado de fiabilidad
de la corrección, y en concreto:
- la fiabilidad intraevaluadora o interna, esto es, si un mismo examinador
otorga las mismas puntuaciones a un mismo grupo de pruebas, orales o
escritas, en dos ocasiones diferentes, o si, por el contrario, les otorga
puntuaciones diferentes. Ello supone que un mismo corrector puntúa dos
veces las mismas pruebas (grabadas, si son orales; con la puntuación
no anotada en el propio ejercicio, en el caso de las escritas). La fiabilidad
interna se establece entonces mediante la correlación entre la primera
y la segunda puntuación.
- la fiabilidad interevaluadora, externa o entre correctores, es decir,
el grado de consenso que existe entre las puntuaciones que otorgan dos
examinadores a una misma prueba, que se mide mediante un coeficiente
de correlación u otros medios estadísticos. Hay varios modos de asegurar
la fiabilidad de los correctores; entre ellos, el método de la «doble
corrección» y el de «muestreo de la corrección por un jefe de equipo».
El primero consiste en que dos examinadores puntúan la misma prueba
de forma independiente; si el coeficiente de correlación entre las dos
puntuaciones es alto, la nota final es la media entre ambas notas, y
si no lo es, la puntuación se decide por otros medios, por ejemplo,
por un tercer examinador. Por su parte, en el método de «muestreo de
la corrección por un jefe de equipo», éste puntúa algunas de las pruebas
corregidas por los distintos miembros de su equipo, comprueba la homogeneidad
de criterios entre ellos y establece el criterio de referencia en caso
de divergencia.
En todo caso, la
fiabilidad de una prueba depende de varios factores, como la homogeneidad
de los ítems (si todos los ítems evalúan la misma destreza, es probable
que la correlación entre ellos sea más alta que si evalúan destrezas diferentes)
o la propia longitud del test.
Por último, una prueba
puede ser fiable sin ser válida (esto es, puede arrojar resultados consistentes
aunque mida algo distinto de aquello que pretende medir), pero no puede
ser válida si no es fiable (puesto que no puede medir lo que pretende
si no puede hacerlo de forma precisa).
Otros términos relacionados
Evaluación;
DELE.
Bibliografía básica
- Alderson, J. C.,
Clapham, C. y Wall, D. (1995). Exámenes de idiomas. Elaboración y evaluación.
Madrid: Cambridge Universtiy Press, 1998.
Bibliografía especializada
- Bachman, L. (1990). Language Testing Construction and Evaluation. Oxford: Oxford University
Press. Trad. al español del cap. 4. En M. Llobera et al. (1995). Competencia
comunicativa. Madrid: Edelsa.
- Davies, A. et
al. (1999). Dictionary in Language Testing. Cambridge: Cambridge
University Press.
- McNamara, T. (2000). Language Testing. Oxford: Oxford University Press.
Centro Virtual Cervantes © Instituto Cervantes, . Reservados todos los derechos.
cvc@cervantes.es