Confiabilidad, Validez y
Ensamblaje
Andrea Abarzúa.
Confiabilidad

Qué es

Cosas que limitan la confiabilidad

Cómo se estima la confiabilidad
Qué es la confiablidad



La confiabilidad tiene que ver con el error
propio de “el hecho” de medir.
A mayor confiabilidad, menor error en la
estimación de puntajes de los evaluados.
Si podemos estimar la varianza error de una
medida, podemos estimar su confiabilidad
(más adelante en esta presentación).
Qué es la confiablidad
Confiable pero no válido
Confiable y válido
Entonces…


Nuestra confiabilidad le pone un techo a
nuestra validez…
Un test no puede ser válido si no es confiable
Limitaciones para la confiabilidad

Número de ítems de una escala (no olvidar la
profecía de Spearman-Brown)

Variabilidad del grupo examinado

Limitación de tiempo
Métodos para estimar la confiabilidad

Métodos empíricos
 Formas paralelas
 Test-retest

Métodos basados en la aplicación única de un
test
 Bipartición
 Consistencia interna
 Métodos para estimar la consistencia entre
jueces
Una mirada a los índices de consistencia
interna


Basta con sólo una aplicación
Son difíciles de lograr cuando medimos cosas
diversas
Validez
1.
Definiciones
2.
Fuentes de amenaza a la validez
3.
Procedimientos para mejorar y reunir
evidencia sobre la validez
4.
Categorías de evidencia sobre validez
5.
Presentación de Resultados y Validez
6.
Estándares referidos a la validez en
sistemas de medición
1. Definiciones
 Definición tradicional

La prueba o evaluación mide aquello que se propone
medir, es una característica propia del test
 Definición actualizada


Involucra la interpretación de los resultados para un
propósito en particular o uso (ya que un puntaje puede
ser utilizado válidamente para un uso, pero no para otro)
Es un asunto de “grados”.
Definiciones

Validez es el grado en el cual la evidencia y teoría fundamenta las
interpretaciones o inferencias que se hacen a partir de los puntajes
o resultados de una prueba y las decisiones que se basan en ellos.
“Validez es un un juicio evaluativo integrado
sobre el grado en que la evidencia empírica y
la teoría fundamentan la adecuación de las
inferencias y acciones basadas en los
puntajes o resultados de una prueba u otros
modos de evaluación”
(Messick, 1989, p. 13)
Por lo tanto:




Validez no es una característica de la prueba en sí sino
de la interpretación, las inferencias y decisiones que se
toman a partir de sus resultados.
El juicio sobre la validez de las interpretaciones
requiere considerar el contexto y uso de los resultados,
un mismo test puede dar origen a interpretaciones
válidas en un contexto y menos válidas en otro.
La pregunta por la validez no se responde
dicotómicamente, es un continuo algunas inferencias
tienen mayor fundamento que otras.
La validación es un proceso de acumulación de
evidencia sobre lo apropiado de las inferencias
2. Amenazas a la validez

Fuentes de amenaza a la validez (Koretz, 2008) :
 Sub-representación del dominio: vacíos al cubrir el
dominio: La prueba se concibe como una muestra del
dominio evaluado y como tal existe el riesgo que no sea
representativa de este, que haya aspectos relevantes
excluidos, amenazando las inferencias que se realizan a
partir de este “muestreo” inapropiado.
 Varianza irrelevante para el dominio evaluado Evaluar
algo ajeno a lo que se busca evaluar: : los sujetos varían
en su desempeño por factores irrelevantes para el
constructo que se quiere evaluar (construct irrelevant
variance).
 Usos y consecuencias que amenazan validez: por ejemplo
entrenamiento o “trampas”
Procedimientos para incrementar la validez de la
medición y reunir evidencia sobre ella

Antes y durante la elaboración (Haladyna,
1999)

Evidencia sobre validez

Presentación de resultados
Procedimientos

Definición del dominio y especificaciones de la prueba
 Messick: “permite delimitar la frontera de lo que es evaluado”
 Generalmente se define contenido y habilidades
 Definición sobre aquello que aportará dificultad a las preguntas, es
decir, en qué consiste “ser más hábil” en el dominio especificado.
 El tipo de contextos y características de los ítemes
 El balance requerido entre las sub-dimensiones del dominio


Entrenamiento, selección de los elaboradores y procedimientos
apropiados de desarrollo de preguntas y tareas.
Revisión cuidadosa de errores de construcción (habilidad escasa y
entrenable)
 Lista de chequeo o verificación para cada pregunta, juicio global.


Clasificación de los ítemes y monitoreo de la “cobertura” de las
especificaciones durante la producción.
Importancia de cada una de las preguntas en un contexto de altas
consecuencias y creciente presión por transparencia.
Números y
Operaciones
Conocimiento de
datos y
procedimientos
Aplicación de
conceptos y
procedimientos
Resolución de
problemas
Formas y
espacio
Álgebra
Datos y
Azar
Ejemplo PISA 2003

Dimensión de contenido
Matemáticas: cantidad, formas y espacio, cambio y relaciones,
incertidumbre
Lectura: textos continuos y discontinuos


Dimensión de Proceso
Matemáticas: reproducción, conexiones, reflexión
Lectura: extraer información, interpretar textos, reflexionar y
evaluar
Dimensión de situación o contexto
Matemáticas: situaciones auténticas personales,
educacionales u ocupacionales, situaciones públicas o de
interés comunitario, situaciones científicas.
Lectura: textos personales, públicos, ocupacionales,
educacionales
Balance buscado
Por ejemplo NAEP especifica que
para grados inferiores predominarán
textos narrativos, mientras que para
estudiantes mayores el % de textos
argumentativos e informativos pesa
más.
Cada pregunta importa: la parte se interpreta
como el todo
Cada pregunta importa: la parte se interpreta
como el todo
Cada pregunta importa: la parte se interpreta
como el todo
Cada pregunta importa: la parte se interpreta
como el todo
Tipos de evidencia acerca de la validez





Evidencia basada en el contenido del test
Evidencia basada en los procesos de
respuesta
Evidencia basada en la relación con otras
variables
Evidencia basada en la estructura interna del
test
Evidencia basada en las consecuencias de la
medición (validez consecuencial)
Evidencia basada en el contenido
Juicio experto sobre el contenido del test y el grado en que
este es representativo del dominio que busca evaluar
Se juzga la medida en que el test en su conjunto y cada uno
de sus ítemes “cubre” apropiadamente el dominio, y la
medida en que se evita exitosamente la “contaminación”
con aspectos ajenos al dominio.
Herramientas:
-Clasificación de las preguntas (antes de la prueba piloto), es
posible comparar clasificaciones según distintos jueces y reunir
evidencia sobre la consistencia de sus clasificaciones.
-Verificación de alineamiento entre preguntas y definiciones del
dominio (juicio analítico y de conjunto). ¿pertenece o no?
-Revisión de “sensibilidad” (para reducir varianza debida a
elementos ajenos) y confusiones frecuentes. Riesgo de insipidez.
Item Juez 1
Juez 2
Juez 3
1
Números/
Números/
Números/
procedimiento
rutinario
procedimiento
rutinario
procedimiento
rutinario
Datos y
azar/resolución
problemas
Datos y
azar/procedimiento
rutinario
Datos y azar/----
2
3
Nota: problema
de formulación
Evidencia basada en procesos de respuesta
Procedimientos:
 Registro de preguntas durante la aplicación
experimental o piloto.
 Revisión por parte de los sujetos: argumentos a favor
de respuestas (correctas/incorrectas).
 Pensamiento en voz alta: entrevista para describir
los procesos utilizados al responder al ítem*.
Evidencia basada en la relación con otras
variables


Evidencia de validez predictiva
Evidencia sobre validez convergente y
discriminante: correlación con otros tests que
miden el mismo constructo y con otros tests
que miden diferentes constructos.
 Se debe obtener evidencia de ambos, se
espera mayores correlaciones con tests que
miden el mismo constructo que con los que
miden constructos* diferentes.
Correlaciones SIMCE-PSU
Evidencia basada en la estructura interna del test

Medida en la cual los ítemes o tareas del test
se relacionan del modo esperado con el
constructo
 Análisis factorial
Evidencia basada en las consecuencias y usos
del test


Análisis de consecuencias esperadas y no
esperadas, para verificar si se cumplen los
propósitos que motivaron la creación del test
Diferentes consecuencias para distintos grupos
 Entrevistas
 Registros de decisiones basadas en los
resultados
Actualmente
Estudios de validez de sistemas de rendición de cuentas
“-Does the accountability system pick the right schools for
rewards, sanctions and intervention?
- Does the accountability system do what it is intended to
do?
To what degree are the intended actions ocurring in
relation to the application of rewards, sanctions and
interventions?
(A Framework for examining validity in state
accountability systems, CCSSO, 2004)
Estándares asociados a validez de las
mediciones
Ejemplo ETS:
-Proveer evidencia de los estudios que apoyan la validez de
las inferencias basadas en la prueba.
-Difundir una clara definición del constructo que se está
evaluando: habilidades, conocimiento, el propósito de la
evaluación, la interpretación adecuada de los puntajes o
resultados, y la población objetivo de la prueba.
-Corregir los efectos de inadecuada cobertura o
representación del constructo y reducir las fuentes de
varianza no relacionadas con este.
-Advertir sobre posibles interpretaciones inadecuadas de los
resultados.
Validez y presentación de los resultados
Algunos problemas frecuentes:
 Listados de resultados (rankings)
 Presentación de tablas que inducen a comparaciones
inapropiadas sin las advertencias y reglas de
interpretación correspondientes:



Subescalas de distinto nivel de dificultad y número de
ítemes,
Presentación de datos de años sucesivos sin equiparación
de pruebas
Ausencia de información sobre significancia de las
diferencias.
¿Se cumplen estos estándares de medición?

¿Cuán frecuente es que se presente evidencia
que apoye la validez de las interpretaciones?
 Lo más frecuente: revisiones de contenido
 Estudios de validez predictiva
 Lo menos: correlaciones con tests que evalúan
el mismo dominio y distintos dominios.
Ensamblaje: orientaciones básicas



La cantidad de preguntas por eje debe acercarse lo más posible a
lo planificado inicialmente.
Dentro de cada forma, las preguntas se distribuyen por ejes y
bloques de preguntas, es decir, si hay dos o tres ejes, las preguntas
van agrupadas por su pertenencia el eje.
En caso de introducir en las formas preguntas ligadas a un mismo
estímulo éstas no debe ser idealmente más de tres y un máximo
cuatro en una misma forma. Esto implica que si frente a un mismo
estímulo se tienen construidas 6 preguntas, se pondrá un estímulo y
tres preguntas en una forma, y el mismo estímulo con otras tres
preguntas en otra forma. Por ejemplo, preguntas que orientadas a
la comprensión de un mismo texto; preguntas orientadas a resolver
un tipo de problema matemático; preguntas dirigidas a conocer la
percepción o valoración de un mismo fenómeno o sujeto, entre
otras formas de agrupación posibles.
Sugerencias para ítems comunes o anclaje
(pruebas con equating)




Debe corresponde a una “mini prueba”, que refleje las
especificaciones de la prueba total
Deben incluir un número suficiente de ítems(reglas
sugeridas: 20% de la prueba total, al menos 10-12
ítems?)
Los ítems deben ocupar la misma o aproximadamente
la misma posición en las formas que se comparan
(evitar que aparezcan al final de las pruebas)
Los ítems deben poseer parámetros adecuados:
 Ni excesivamente fáciles ni difíciles
 No pueden tener baja capacidad discriminativa
 Se debe verificar si sus parámetros varían en el tiempo
 Evaluar el riesgo que produzca la sobreexposición a estos
ítems
Descargar

Clase-3-confiabilidad-validez-y-ensamblaje-AA