Universidad Autónoma de Baja California
Instituto de Investigación y Desarrollo Educativo
Aspectos psicométricos básicos
de la evaluación del aprendizaje
Resumen del libro Popham, J. (1990). Modern Educational
Measurement. A Practitioner’s Perspective. MA. Allyn and
Bacon.
Luís Ángel Contreras Niño
Febrero de 2003
Propósitos de la
evaluación
del aprendizaje
Diferentes propósitos educativos
requieren diferentes pruebas educativas y
diferentes usos de esas pruebas: cuando
una prueba no empata con sus propósitos
las inferencias erróneas se multiplican
vertiginosamente
Aplicaciones actuales
de los tests
Evaluar individuos para decidir
aspectos instruccionales o
vocacionales (orientación a
determinar el estatus)
Evaluar programas
Catalizar la instrucción (orientación
a mejorar la instrucción)
Evaluación referida a una norma
y evaluación referida a un criterio
La principal distinción entre ambos tipos de
tests depende de la manera en que
interpretamos la ejecución ante el test de
un examinado
En un test referido a una norma
interpretamos la ejecución de un
examinado, en relación a las ejecuciones
de otros que también respondieron la
prueba
Test referido a una norma
En este caso, interpretamos los
puntajes de un individuo en relación al
grupo normativo
Así, podemos decir que el puntaje se
encuentra arriba, abajo o dentro de la
norma o promedio. Es decir, cómo es la
ejecución comparada con la normal
Se trata de una interpretación relativa
Test criterial
Se emplea para determinar el estatus
que tiene un individuo con respecto a un
criterio o dominio evaluativo bien definido
El dominio evaluativo típico son
conocimientos o habilidades
Un test criterial nos permite conocer lo
que un examinado puede hacer o no
Su característica distintiva es la claridad
con que describe lo que mide
Dos distinciones basicas entre
pruebas criteriales y normativas
Un test normativo mide categorias de
competencias de los examinados que son
típicamente generales
Un test criterial típicamente se enfoca en
dominios específicos de la conducta del
examinado
Test normativo
Test criterial
Dos distinciones basicas entre
pruebas criteriales y normativas
Una segunda distinción se refiere a la interpretación
de los puntajes brutos obtenidos en la prueba
En un test normativo se elaboran tablas normativas
de tal manera que se pueda encontrar con facilidad
el equivalente percentil de cada puntaje bruto
Ejemplo: Juan contestó bien 37 ítems de 60. En la
tabla ese puntaje es equivalente al rango percentil
63. Por lo tanto, el puntaje de Juan es igual o mejor
que la ejecución del 63% de los examinados del
grupo normativo
Así, la interpretación es completamente relativa
Dos distinciones basicas entre
pruebas criteriales y normativas
En un test criterial, Juan contestó bien 20
preguntas de 25. Dado que queremos
saber qué tan bien logró el dominio
conductual definido por el test,
reportamos que obtuvo un puntaje de
80% de respuestas correctas
En este caso, la interpretación es absoluta
pues describe el estatus del examinado
en relación con el dominio total
Relación entre la estrategia de
medición y la misión del test
1. Selección de alumnos.
Para esta misión tenemos dos
escenarios:
Escenario con cuotas fijas
Escenario con requisitos de
habilidad
Relación entre la estrategia de
medición y la misión del test
Escenario con cuotas fijas (solo hay 100 lugares y
demandan servicio 500 aspirantes). Aquí se
requiere sortear a los aspirantes de acuerdo con
sus habilidades relativas; por lo tanto, se necesita
un test referido a una norma
En este caso un test criterial no es útil: Si 150
aspirantes obtienen esencialmente los mismos
puntajes altos, ¿cómo seleccionamos a los 100
mejores?
En cambio, los tests normativos están diseñados
para detectar la variabilidad de los puntajes de los
examinados, a fin de discriminar entre ellos a los
mejores
Relación entre la estrategia de
medición y la misión del test
Escenario con requisitos de habilidad. Aquí no se
requiere saber quién es el mejor o el peor, sino quién
está calificado; se quiere reflejar el dominio con
precisión. Por lo tanto se requiere un test criterial.
Un test normativo no sería útil en este caso: ¿te dejarías
operar por un cirujano que recibió su título porque
obtuvo el percentil 75 de entre una clase de
incompetentes?
En cambio un test criterial se orienta a detectar a los
candidatos que despliegan las habilidades que son
requisito para tal ejercicio profesional; es decir, que
reflejan el dominio del campo de conocimientos que
mide el test
Relación entre la estrategia de
medición y la misión del test
2. Evaluación de programas.
Al estimar el mérito de un programa
instruccional es preferible emplear un test
criterial
Los tests normativos, por ser más bien
generales, usualmente no tienen
correspondencia con los aspectos
curriculares de los programas evaluados;
además, ofrecen pocos indicadores para el
mejoramiento instruccional
Relación entre la estrategia de
medición y la misión del test
3. Diagnóstico y diseño instruccional
Para apoyar la elaboración de secuencias
instruccionales apropiadas o para descubrir
las carencias de habilidades a fin de
proporcionar instrucción remedial a ciertos
estudiantes, los tests criteriales son
definitivamente superiores a la normativos;
pues en tales casos, los profesores están
menos interesados en la posición que tiene
un estudiante respecto a otros
Relación entre la estrategia de
medición y la misión del test
4. Asignación de recursos a gran escala
Cuando se trata de decidir como distribuir
recursos financieros o humanos a gran
escala, enfatizar ciertas áreas de formación o
comparar estudiantes de diferentes áreas
geográficas, curriculares u otras, la
estimación de un amplio espectro de los
logros académicos de los estudiantes, aunque
no esté muy bien definido, es lo más indicado.
Cuando se tiene necesidad de un nivel tan
general de información, un test referido a una
norma resultaría de mayor utilidad.
Evaluando la calidad de un test
Los énfasis recientes en la calidad
educativa, en la noción de asumir la
responsabilidad y el incremento del
impacto social de la evaluación del
aprendizaje, obligan cada vez más a los
educadores a estar interesados e
informados en los elementos técnicos que
definen la calidad de una pueba educativa
Existen siete factores que son de primera
importancia para decidir si un test es
apropiado:
Evaluando la calidad de un test
1. Descripción de la conducta medida
Al evaluar, se pretende determinar el nivel de
un examinado respecto a un foco particular
(no podemos medir todo en una sola
ocasión)
Por ello, el test debe incluir una descripción
de las habilidades, aptitudes y actitudes del
examinado que se pretende medir
La descripción puede ser breve (enunciado
de un objetivo conductual) o muy detallada
(especificaciones de ítems)
Evaluando la calidad de un test
2. Número de Ítems por conducta medida
¿Cuántos ítems debe incluir la prueba?
Un factor clave a considerar es la
importancia de la decisión involucrada.
Si se quiere hacer una estimación general de
la ejecución del examinado, en general se
requieren pocos ítems. Si se quiere
diagnosticar habilidades particulares, en
conjunto se necesitan bastantes reactivos
Evaluando la calidad de un test
2. Número de Ítems por conducta medida
Si el examen tiene alto impacto (las consecuencias de
su aplicación afectarán de manera importante la vida
de los examinados, profesores o directivos escolares),
usualmente serán necesarios muchos más reactivos
que si se trata de un examen parcial de un curso.
Como regla práctica, podría decirse que deberían
emplearse 10 ítems por conducta medida cuando se
toma una decisión educativa razonablemente
importante. Tal número podría elevarse a 20 ítems o
más si el examen es de gran impacto y disminuir a
unos 5 reactivos cuando el impacto sea menor.
Evaluando la calidad de un test
3. Alcance de la medida
Se refiere a la amplitud del atributo que mide el test.
Puede ser muy restringido (objetivo conductual, lo
cual resulta fácil de enseñar pero puede resultar
muy puntual para ser útil: objetivitis) o ser muy
amplio (Ej. el conocimiento, lo cual resulta difícil de
definir y medir)
A mayor espectro de contenido a evaluar, menos
precisa la descripción conductual y será necesario
un mayor número de ítems
La determinación del alcance de la medida es una
operación de juicios
Evaluando la calidad de un test
4. Confiabilidad
Se refiere a la consistencia con la que una prueba mide lo
que se supone que mide
La consistencia de la medida puede ser en el tiempo, en
cuyo caso nos referimos a ella como el índice de
estabilidad.
Aquí, los alumnos son examinados tras un período de
tiempo para ver qué tan comparables son los puntajes
individuales en las dos ocasiones (operación denominada
test-retest; si el coeficiente de correlación es alto, digamos
0.80 ó 0.90, podemos tener la seguridad de que los
examinados obtienen puntajes comparables en el test aún
cuando se administre en tiempos diferentes)
Evaluando la calidad de un test
4. Confiabilidad
Dado el alto costo que implica y otras
dificultades asociadas, pocas pruebas
realizan estudios de estabilidad. En algunos
casos aplican retests a muestras de
estudiantes
Tanto en los tests normativos como es los
criteriales la estabilidad de la prueba
aumenta a medida que se incrementa el
número de ítems
Evaluando la calidad de un test
4. Confiabilidad
Una se gunda forma de confiabilidad e s e mple ar
formas alte rnas; e s de cir, administramos dos
formas de l mismo te st y corre lacionamos los
puntaje s obte nidos por cada e xaminado e n las
dos formas de la prue ba. El re sultado e s llamado
coe ficie nte de confiabilidad de formas alte rnas
Cabe se ñalar que las dos formas de be n se r
e quiv ale nte s e n cuanto a su conte nido, su
dificultad y su discriminación, e ntre otros
aspe ctos
Satisface r e sta forma de confiabilidad pue de se r
importante por razone s de se guridad de l e xame n
Evaluando la calidad de un test
4. Confiabilidad
Para crear retos de una dificultad equivalente, se puede
emplear un sistema de puntajes escalares
Se trata de un procedimiento estadístico, post facto, de
igualación de formas de examen.
En un sistema escalar de 500 a 1000, un alumno
necesita para pasar 800 puntos en un examen de 75
ítems. En una versión muy difícil del test, un puntaje de
55 ítems correctos puede ser igual al puntaje escalar de
800. En una forma muy fácil, se necesita un puntaje de
60 ítems correctos para lograr un puntaje escalar de
800 y lograr pasar.
Evaluando la calidad de un test
4. Confiabilidad
Otra forma de confiabilidad es la consistencia interna,
misma que indica la consistencia individual de los ítems
del test;
Sirve para determinar la medida en la que los ítems
individuales están funcionando más o menos de la
misma manera; es decir, si son homogéneos
Una técnica consiste en dividir la prueba en dos partes
iguales, digamos reactivos pares y nones. Los dos
subtests se correlacionan.
El coeficiente de correlación resultante es una
estimación del grado en que las mitades del test están
cumpliendo su función de manera consistente
Evaluando la calidad de un test
4. Confiabilidad
Otra medida de confiabilidad, que no se centra en la
consistencia de los puntajes de un grupo de examinados es el
error estándar de medida
Se trata de proporcionar un índice de la precisión o
consistencia de la ejecución en el test de un individuo
Refleja la variabilidad que tendrían los puntajes del examinado
si el test se le administrara una y otra vez
Con ello queremos establecer una banda de confianza en la
cual pueda ser encontrado, con cierta probabilidad, el puntaje
verdadero
Por ejemplo, con este índice podríamos hacer la interpretación
de que el puntaje 37 de un examinado miente, más o menos,
un error estándar de medida de su puntaje verdadero
Evaluando la calidad de un test
5. Validez
Es la medida en la que un test mide lo que dice que
mide
Técnicamente, es más apropiado hablar de validez de
la inferencia que hacemos basada en los resultados
del test
Cuando determinamos la validez, nuestro foco es la
evidencia que soporta la inferencia basada en los
puntajes obtenidos en el test
Existen tres tipos de evidencias complementarias de
validez: la relacionada con el contenido, la
relacionada con el criterio (predictiva y concurrente) y
la relacionada con el constructo
Evaluando la calidad de un test
5. Validez
Evidencia de validez relacionada con el contenido
Demuestra el grado en el que la muestra de ítems
del test es representativa de un universo definido
o dominio de contenido (¿el test cubre el
contenido que se supone que cubre?
La clave para asegurarla es el juicio humano:
Expertos en contenido definen el universo de
contenido que el test representa (muestra)
Después, expertos independientes juzgan la
representatividad del contenido
Evaluando la calidad de un test
5. Validez
Puesto que los tests normativos cubren el
contenido de manera general, para usar la prueba
de manera efectiva es suficiente detectar el nivel
del examinado en relación con el grupo normativo
En cambio, los tests criteriales realizan un
esfuerzo muy importante para asegurar la
relevancia y una adecuada cobertura del
contenido
El uso de los juicios de expertos se complementa
con procedimientos empíricos para asegurar la
evidencia de validez de contenido
Evaluando la calidad de un test
5. Validez
Universo de contenido
Pobre cobe rtura
de conte nido
Bue na cobe rtura
de conte nido
Evaluando la calidad de un test
5. Validez
Evidencia de validez relacionada con el criterio
Demuestra en qué medida los puntajes en el test de un
examinado nos permiten inferir la ejecución que tendrá
en una variable criterio (por ejemplo, las calificaciones
que obtendrá en la universidad-- el criterio)
Existen dos tipo de evidencias: predictiva y concurrente
Los estudios de validez predictiva requieren que ocurra
un intervalo de tiempo considerable (por ejemplo, para
correlacionar los resultados del examen de admisión y el
promedio de calificaciones obtenidas por el examinado
durante el primer semestre de la carrera, es necesario
esperar 6 u 8 meses al menos)
Evaluando la calidad de un test
5. Validez
En los estudios de validez concurrente tal intervalo de tiempo
no ocurre
Por ejemplo, aplicamos el examen de admisión a la
universidad a los alumnos que recién terminaron el primer
semestre de la carrera, el mismo día en que se da a conocer
el promedio de calificaciones que obtuvieron
Aunque el test fue diseñado para egresados del bachillerato
y no para estudiantes universitarios, los coeficientes de
correlación resultantes entre los puntajes en el test de los
examinados y su promedio de calificaciones en el primer
semestre, nos proporcionan alguna evidencia relacionada
con el criterio
Se denomina concurrente por que ambas medidas ocurren
aproximadamente en el mismo tiempo
Evaluando la calidad de un test
5. Validez
En ambos casos, la calidad del estudio de
validación depende del tipo de variables
criterio que se emplean. Las más utilizadas
son el promedio de calificaciones que el test
pretende predecir, los resultados obtenidos en
otras pruebas que miden el mismo atributo u
otro que permite predecirlo, las estimaciones
de la ejecución que realizan profesores,
supervisores y otros; así como productos
permanentes que testifican la ejecución
Evaluando la calidad de un test
5. Validez
Dado que la principal misión de los tests normativos
es distinguir entre los examinados a fin de que
puedan efectuarse comparaciones significativas, la
evidencia de validez criterial es el tipo de datos de
validación más útil para propósitos de predicción
En cambio, puesto que casi siempre los tests
criteriales se orientan a determinar lo que el
estudiante puede hacer ahora, no a predecir su
ejecución futura en otros escenarios, muy pocas
veces se enfatiza la obtención de este tipo de
evidencias de validez
Evaluando la calidad de un test
5. Validez
Evidencia de validez relacionada con el constructo
Se enfoca en los puntajes en el test como una medida
de la característica psicológica de interés: el constructo
(construcción teórica)
Primero, el diseñador de la prueba concibe la
existencia de un constructo hipotético (ej. inteligencia
social), basado en investigación previa
Después, desarrolla un test que se supone mide este
constructo, el Test de Inteligencia Social (TIS)
Se dice que altos puntajes en el TIS indican que el
examinado tiene inteligencia social
Evaluando la calidad de un test
5. Validez
Para reunir evidencia relacionada con el constructo
efectuamos una investigación en la cual predecimos q
si el TIS hace lo que se supone, los examinados que
gozan de popularidad, que ocupan puestos de elecció
tienen otros rasgos semejantes, obtendrán puntajes m
altos en el TIS, que quienes rehuyen los eventos
sociales, son conflictivos y presentan otros
comportamientos similares.
Si logramos obtener puntajes en el TIS de ambos grup
y encontramos que la hipótesis se confirmó, tenemos
evidencia no solo sobre la validez de las inferencias
basadas en el TIS, sino también acerca de la legitimid
del constructo mismo
Evaluando la calidad de un test
5. Validez
En un solo estudio no es posible obtener
evidencia satisfactoria de la validez del
constructo; se requiere la acumulación de
evidencias de diferentes estudios de
investigación
Existen tres tipos de estudios de validación
de constructos: estudios de intervención,
estudios sobre poblaciones diferenciales y
estudios de medidas relacionadas
Evaluando la calidad de un test
5. Validez
Estudios de intervención
Pretenden mostrar que los examinados responden
diferente a la medida trás recibir algún tratamiento
Quien recibe un tratamiento debe comportarse mejor
o peor (según sea el caso), que quien no lo recibe
Por ejemplo, a 50 examinados les informamos que el
resultado del test es crucial para su permanencia en la
escuela y a otros 50 les decimos que se trata de un
mero trámite, sin consecuencias para ellos. A
continuación aplicamos nuestro recién elaborado test
de ansiedad ante los exámenes (constructo para el
que nos interesa reunir evidencia de validez)
Evaluando la calidad de un test
5. Validez
Estudios de población diferencial
En ellos se hacen esfuerzos por mostrar que individuos que
representan a distintas poblaciones obtienen puntajes
diferentes en la medida
Aquí, se pretende determinar si quienes tienen más de lo que
se supone es el constructo, obtienen un puntaje mayor en el
test, que quienes no lo tienen o lo poseen en menor medida
Ejemplo: se diseño un cuestionario para medir la preocupación
de las personas por la calidad de su piel. El test se aplica a
500 jóvenes de ambos sexos que tienen acné y a residentes
de un asilo de ancianos, quienes tienen al menos 60 años de
edad
Nuestra predicción es que los adolescentes tendrán un puntaje
más alto (reflejarán más preocupación) que los ancianos
Evaluando la calidad de un test
5. Validez
Estudios de medidas relacionadas
Aquí, las correlaciones positivas o negativas
dependen de las medidas en el test y en otras
medidas atingentes
Ejemplo: podemos predecir que los puntajes en
nuestro nuevo test de solución de problemas estarán
correlacionados negativamente con los puntajes de
un test de rigidez mental
Cabe señalar que no se trata de predecir la
ejecución en otro test o en un criterio, el foco es el
constructo (sus atributos y las posibles relaciones
que tiene con otros atributos)
Evaluando la calidad de un test
5. Validez
Una validación ideal de un test incluye
acumular evidencias de distintos tipos,
incluidas las tres categorías tradicionales
antes descritas
La evidencia de validez (junto con la
confiabilidad) es el indicador más importante
de la calidad de un test
La confiabilidad es una condición necesaria
para la validez de la prueba, pero no es una
condición suficiente, como hemos visto
Evaluando la calidad de un test
6. Datos comparativos
La calidad y la cantidad de datos comparativos
(normativos) permiten efectuar interpretaciones
apropiadas de la ejecución de los examinados
Los datos comparativos constituyen el marco
referencial interpretativo clave en los tests normativos
Cuando decimos que Luis obtuvo un puntaje en el
percentil 47, queremos decir que su puntaje excede o
es igual al 47% de los examinados en el grupo
normativo
Un buen test normativo debe estar acompañado por
datos comparativos actuales, amplios y ensamblados
de manera cuidadosa
Evaluando la calidad de un test
7. Ausencia de sesgo
Actualmente resultan particularmente importantes
las serias desigualdades que puede ocasionar el
uso inadecuado de los tests
Los ítems del test pueden ofender o penalizar a un
examinado con antecedentes socioeconómicos,
culturales, de género u otros, que los pongan en
desventaja respecto a otros examinados
Existen dos aproximaciones para detectar
problemas de sesgo: basadas en juicios y
empíricas
Evaluando la calidad de un test
7. Ausencia de sesgo
Esencialmente, las técnicas de juicios para
detectar sesgo en la prueba se basan en paneles
formados con individuos similares a los
examinados que pueden ser sesgados por los
ítems, a quienes se les pide buscar que las
preguntas:
No ofendan a cierto grupo (que los retrate de
manera esterotipada)
No los penalice injustamente (que los examinados
tengan una ejecución más deficiente aún cuando
posean la misma habilidad que se está midiendo)
Evaluando la calidad de un test
Otras consideraciones
Además de los siete factores de primer
orden mencionados, es posible atender
otros:
La facilidad de la administración
La facilidad para calificar las respuestas
El costo del desarrollo, aplicación y
evaluación del instrumento
La calidad de las evidencias documentales
que acompañan a la prueba
Entre otras más que es posible identificar
Nociones de estadística
Al evaluar un test, es obvio que necesitamos
tener una buena idea acerca de las ejecuciones
de los estudiantes en él
Con miles, cientos o incluso un puñado de
ejecuciones ante el test reportadas
individualmente, es casi imposible obtener
conclusiones significativas a partir de los
puntajes brutos obtenidos por los examinados
Para atender este problema, contamos con los
esquemas descriptivos aportados por la
estadística
Nociones de estadística
Distribuciones de frecuencia
Los examinados obtienen todo tipo de puntajes, a pesar
de que por efectos de la instrucción cabría esperar más
estabilidad en los resultados del examen
Así, los puntajes en el examen tienden a distribuirse de
manera normal, lo cual significa que la mayor parte de los
puntajes se agrupan en una zona intermedia, en la cual la
ejecución es la típica, tiene una frecuencia mayor, es el
promedio o la ejecución normal de los examinados
Antes y después de dicha zona se encuentran otras dos
zonas, primero una de baja frecuencia y posteriormente
una de alta frecuencia
Nociones de estadística
Distribuciones de frecuencia
Lo anterior se conoce como distribución
normal de frecuencias y es la manera en que
se distribuyen la mayor parte de las
características humanas, como la estatura, el
color del pelo, la inteligencia, etc.
Su representación gráfica es la curva de
distribución normal de frecuencias o campana
de Gauss. Su apariencia es la siguiente:
Nociones de estadística
Curva de distribución normal de frecuencias
Frecuencia
75
60
30
15
0
30
Puntajes en el test
60
Nociones de estadística
Indicadores de tendencia central
M
Los puntajes en la prueba tienden a centrarse
Los tres indicadores de tendencia central son:
La media , el promedio aritmético de todos los
puntajes de la distribución. Por ello, es una
medida muy representativa
Se calcula mediante la fórmula:
X= n
X
Nociones de estadística
Indicadores de tendencia central
La mediana, es el punto que divide los
puntajes en dos partes iguales
A diferencia de la media, no se ve afectada
por puntajes muy altos o muy bajos (a los
cuales trata como un puntaje más)
Sin embargo, falla en reflejar el impacto de
cada puntaje en la distribución
La moda, que es el puntaje que ocurre más
frecuentemente
Una distribución puede ser bimodal o trimodal
Nociones de estadística
En una distribución normal se encuentran sobre
el mismo puntaje la media, mediana y moda
Frecuencia
75
60
30
15
0
30
Puntajes en el test
60
Nociones de estadística
Indicadores de variabilidad
Las medidas de variabilidad nos
indican cómo se dispersan los
puntajes; qué tan variables son
X=38.2
X=38.2
Nociones de estadística
Indicadores de variabilidad
El índice más fácil de calcular es el
rango . se obtiene restando el puntaje
más bajo del más alto: X a- X b
Sin embargo su simplicidad es su única
virtud. Como solo hay dos puntajes, si
uno de ellos es muy alto o bajo, el
rango resultante puede conducir a
conclusiones erróneas acerca de la
variabilidad
Nociones de estadística
Indicadores de variabilidad
Otro índice que resuelve esos
problemas es la desviación estándar;
es decir, el promedio de la variabilidad
de los puntajes del examen
En esencia, la desviación estándar nos
indica la distancia promedio respecto a
la media de cada uno de los puntajes
en una distribución
Desviación estándar
75
60
30
15
0
10
20
30
40
X=43
X=9
X=54
50
60
Nociones de estadística
Indicadores de variabilidad
Así, Para determinar la desviación de un puntaje
se resta la media de la distribución del puntaje:
x=X-X
Sin embargo, obtener la desviación promedio
o estándar de todas las desviaciones no
puede hacerse mediante el promedio directo
(el resultado sería 0, pues se cancelan las
desviaciones positivas y negativas ); Por ello
se emplea la fórmula:
Nociones de estadística
Indicadores de variabilidad
s=
M
Fórmula de la desviación estándar
x2
n
Mientras más dispersos estén los puntajes,
mayor será la desviación estándar. Por esta
razón, su uso es tan relevante para efectos
comparativos, en el caso de los tests
normativos
Nociones de estadística
Indicadores de relación
¿Los examinados que obtienen puntajes altos en una
prueba de selección tienden a lograr buenas
calificaciones cuando ingresan a la escuela que los
selecciona?
Aquí se trata de determinar en que medida están
relacionadas dos variables
La medida para determinarlo es un coeficiente de
correlación. El más común es el de Pearson, mismo
que establece que la correlación r , es igual a la raíz
cuadrada del cociente de la sumatoria de los productos
cruzados de las desviaciones, entre el producto de las
dos sumatorias de las desviaciones cuadradas,
correspondientes a las variables relacionadas
Nociones de estadística
Indicadores de relación
Es decir:
M
M
( x2 )( y2 )
M
r=
xy
Gráficamente, la relación puede
representarse de la siguiente manera:
Corre lación e ntre los puntaje s e n e l e xame n de admisión
y e l prome dio de calificacione s e n e l prime r se me stre
Promedio de calificaciones
10
8
6
4
2
0
11
31
49
Puntajes
el examen
Calif en
icaciones
59
77
Planeación de la prueba
Especificar lo que el test debe medir
La habilidad para construir pruebas de alta calidad es clave en el
contexto educativo
Como todo proceso educativo, los tests deben ser planeados;
mientras más importante sea su impacto, requiere de una
planeación más sistemática
La planeación de una prueba enfrenta restricciones prácticas
importantes que afectan su administración y calificación: ¿qué
tan largo será el test? ¿se dispone de un lector óptico para
calificar las pruebas? ¿se puede controlar la seguridad del test o
será necesario contar con versiones diferentes cada vez que se
aplique? ¿los examinados tendrán una cantidad finita de tiempo
para completar la prueba? ¿Podrán emplear diccionario o
calculadora?
Planeación de la prueba
Especificar lo que el test debe medir
Existen diferentes esquemas de evaluación: Pruebas
de lápiz y papel o por computadora, observación de
los examinados en acción, como demostraciones y
pruebas orales, productos permanentes, etc.
Entre ellas, las pruebas de lápiz y papel han sido uno
de los esquemas preferidos por los diseñadores de
tests, principalmente por las ventajas que ofrecen
para atender restricciones como las antes
mencionadas
No obstante, aún entre los de lápiz y papel existen
muchas opciones: respuesta alterna, relación de
columnas, opción múltiple, ensayo, etc.
Planeación de la prueba
Especificar lo que el test debe medir
En este contexto, lo que se requiere primero
es tener una buena idea del atributo que se
desea medir
Teniendo clara esa idea, se deben revisar
los posibles esquemas evaluativos para
detectar los que satisfacen mejor las
necesidades,sin apresurar la decisión
La siguiente tarea es crear un conjunto de
especificaciónes que normen tanto la
generación del test, como de sus ítems
Planeación de la prueba
Especificaciones para los tests normativos
A diferencia de los tests criteriales, los normativos
requieren información descriptiva más general, pues su
interés principal son los contrastes relativos entre los
examinados, más que lo que estos son capaces o no de
hacer
Por ello, las especificaciones de una prueba normativa
usualmente se denominan estructura del test o tabla de
especificaciones
Normalmente, la tabla de especificaciones es una tabla de
doble entrada en la cual una dimensión está representada
por el contenido que cubre el test y la otra dimensión los
tipos de conducta del examinado que serán evaluados
Tabla de especificaciones
Contenido
Compr ensión
Aplicación
Analisis
Tópico 1
2
3
2
Tópico 2
4
2
2
Tópico 3
3
3
3
Tópico 4
2
5
4
- La tabla es útil para evitar que de manera inadvertida se
sobreenfaticen o subenfaticen ciertos aspectos de contenido
Desde luego es posible añadir otras dimensiones
adicionales al contenido y la conducta, a fin de
balancear los ítems en aspectos tales como el sexo, el
tipo de ítem y otros que se consideren relevantes
Contenido
Comprensión
Aplicación
Tolal
Tópico 1
12
8
20
Subtópico 1.1
7
3
10
Subtópico 1.2
5
5
10
Tópico 2
4
8
12
Subtópico 2.1
2
3
5
Subtópico 2.2
2
5
7
Planeación de la prueba
Especificaciones para los tests criteriales
Como ya se dijo, en el caso de los test
criteriales las especificaciones son bastante
detalladas. Se requiere especificar lo que el
examinado es capaz de hacer en relación a un
dominio de conducta determinado
Si el test criterial medirá más de un dominio, se
deberá crear un conjunto de especificaciones
por cada dominio evaluado. El procedimiento
para la especificación de ítems es el siguiente:
Planeación de la prueba
Especificaciones para los tests criteriales
Descripción general de la conducta a evaluar
Diseñar un ítem muestra que refleje las dos clases de
atributos siguientes:
Delimitar, mediante afirmaciones, los atributos de los
estímulos que serán presentados a los examinados
Delimitar, mediante afirmaciones, los atributos de la
respuesta que el examinado selecciona o explicar los
estándares que servirán para juzgar las respuestas
construidas
Especificación adicional, mediante anexos, de
contenidos elegibles u otros aspectos relevantes para
los estímulos y respuestas involucrados
Planeación de la prueba
Especificaciones para los tests
Las especificaciones de ítems tienen dos propósitos:
Comunicar a los usuarios de los resultados del test
qué es lo que el ítem mide, a fin de que se aclare el
significado de las calificaciones para propósitos
instruccionales y para evaluar la efectividad de los
programas
Comunicar a los elaboradores de ítems detalles que
les permitan generar ítems efectivos
Cabe señalar que las especificaciones de reactivos
deben ser elaboradas antes de redactar los ítems
Elaboración de reactivos
Elaboración de Ítems
Todos los tipos de ítems solicitan al examinado
seleccionar una respuesta o que construya una
respuesta
Los principales tipos de ítem de respuesta
seleccionada son los de respuesta alterna, opción
múltiple y relación de columnas
Los principales tipos de ítem de respuesta
construida son los de respuesta breve y los de
ensayo
La escritura de ítems enfrenta cinco dificultades
generales:
Elaboración de reactivos
Elaboración de Ítems
Instrucciones confusas (exigen mucha atención e intuición
al examinado; lo mejor: elaborarlas y probarlas antes)
Afirmaciones ambiguas (el examinado puede tener
incorrecta la respuesta aún cuando sabe. Ejemplo: al
referir, aclarar el referente)
Pistas no intencionales (se dan pistas al examinado que no
sabe, de modo que acierta la respuesta correcta)
Sintaxis compleja (falta de unidad y uso de demasiadas
cláusulas, lo que dificulta la comprensión: emplear menos
los "el que", "el cual", "quien")
Vocabulario difícil (uso de terminología polisilábica e
hipersofisticada que dificulta la comprensión. Redactar
simple)
Elaboración de reactivos
Ítems de respuesta alterna
Proporciona dos respuestas y pide al examinado
elegir una (si-no, faso-verdadero, etc.)
Su uso más común es para identificar la corrección
de afirmaciones factuales y definiciones
Su uso más importante es para observar en qué
medida el estudiante tiene dominio de un área,
indicado por su éxito al juzgar la verdad o falsedad
de proposiciones relacionadas con tal área
Ventaja: cubre bien el contenido
Desventaja: resulta fácil de adivinar
Recomendación: tratar de no dar pistas
Elaboración de reactivos
Ítems de relación de columnas
Solicita al examinado que haga corresponder
correctamente dos listas, una de premisas y
otra de respuestas, que están relacionadas de
alguna manera (lógica, cronológica, teórica,
etc.)
Ventaja: su forma compacta permite un buen
muestreo de contenido en poco espacio
Desventaja: se restringe a asociaciones
Recomendación: hacer las listas homogéneas
en contenido, cortas y desiguales en número
Elaboración de reactivos
Ítems de opción múltiple
Solicita al examinado, mediante una pregunta o una
afirmación incompleta llamada base, elegir la respuesta
correcta o la mejor opción entre 4 ó 5 que se ofrecen
(distractores)
Ventajas: es el tipo de reactivo más flexible, pues se puede
emplear para medir aprendizajes cognitivos y afectivos, tanto
simples como complejos; es difícil adivinar y las respuestas a
los distractores permiten rastrear errores en la comprensión
Desventaja: el examinado selecciona la respuesta correcta,
no la produce; así, es difícil que sintetice su pensamiento,
muestre su creatividad, etc.
Desarrollos adicionales: multiítem de base común, opción
múltiple justificada, opción mejorada, etc.
Elaboración de reactivos
Ítems de respuesta construida
Hay habilidades, como la expresión oral, que no se
pueden evaluar de manera válida con ítems de
respuesta seleccionada
Hay dos tipos de respuesta construida: en la que el
examinado construye un producto (la conducta deja
una huella) o en la que emite una respuesta (la
conducta es evanescente y, por tanto debe
registrarse)
Al comparar los tests de respuesta seleccionada con
los de respuesta construida, estos presentan las
siguientes características:
Elaboración de reactivos
Ítems de respuesta construida
Aunque son difíciles de calificar, miden mejor la
habilidad para sintetizar ideas, la originalidad, la
redacción y otros aprendizajes complejos
Se requiere menos tiempo para elaborar los ítems,
pero más para calificar las respuestas
Animan al estudiante a considerar aspectos más
amplios del contenido
Sin embargo, si ambos tipos de examen
satisfacen el propósito de la evaluación, por
razones prácticas casi siempre será elegido el de
respuesta seleccionada
Elaboración de reactivos
Ítems de respuesta breve
Piden al examinado proporcionar una palabra
o frase en respuesta a una pregunta directa o
para completar una afirmación incompleta
Ventaja: el examinado construye su respuesta,
en particular en relación al conocimiento de
información factual
Desventaja: difícil de calificar, debido a la
variedad de posibles respuestas
Recomendación: es mejor una pregunta
directa, que una afirmación incompleta
Elaboración de reactivos
Ítems de ensayo
Es el tipo más común de respuesta construida
Se puede estructurar para obligar al examinado a
producir una respuesta muy corta, restringiendo la forma
y el contenido de la respuesta o limitando el espacio para
responder, con lo cual se mejora la confiabilidad al
calificar
Ventaja: es la mejor estrategia para evaluar el
aprendizaje complejo
Desventajas: mucho tiempo y poca confiabilidad al
calificar y muestreo pobre de contenido
Recomendación: establecer explícitamente la tarea del
examinado y el valor de cada pregunta
Análisis de reactivos
Técnicas para mejorar los ítems
Basadas en juicios. Estrategia a priori para estimar el
mérito de un ítem. Expertos en contenido, psicometría y
otros se enfocan en la pregunta a fin de detectar fallas
Prueba empírica. Se enfoca en datos derivados de las
respuestas de los examinados a los ítems, con el
mismo fin
Ambos tipos de análisis son necesarios
Usualmente las técnicas de juicios anteceden a las
empíricas
Los tests de gran escala enfatizan la prueba empírica,
principalmente los normativos
Análisis de reactivos
Aplicaciones normativas y criteriales
Los tests normativos emplean más los métodos
empíricos, pues queremos determinar diferencias
entre los examinados para contrastar sus
ejecuciones. Así, el refinamiento de los ítems solo
puede realizarse observando cómo contribuyen a
detectar diferencias entre los examinados
Con los tests criteriales nos esforzamos por
describir con precisión el dominio medido y luego
aseguramos que los ítems son congruentes con
dicha descripción, lo cual solo puede hacerse
mediante juicios humanos
Análisis de reactivos
Mejoramiento de ítems mediante juicios
Existen varias fuentes de datos derivados de juicios
Los redactores de los ítems, quienes tras diseñarlos
pueden revisarlos, después de un tiempo prudente
Paneles de jueces independientes, sin interés en los
ítems y expertos en el contenido, revisan y mejoran
los ítems
Los propios examinados reportan ítems ambiguos,
engañosos, difíciles, fáciles, instrucciones confusas,
tiempo insuficiente, etc., inmediatamente después
de contestar el examen y solo en situaciones donde
no se penalice su ejecución
Análisis de reactivos
¿Qué deben buscar los jueces?
Si el ítem es congruente con su
especificación (más fácil en los
normativos)
Si no contiene determinantes específicos
y otras fallas de redacción técnica (pistas,
ambigüedades, etc.)
La corrección del contenido
Si el ítem y el test presentan sesgo
cultural, socioeconómico, de género u otro
Análisis de reactivos
Mejoramiento de ítems mediante prueba empírica
El ítem análisis tradicional, particularmente útil
para los tests normativos, incluye tres técnicas:
Indice de dificultad: P, que es la proporción de
examinados que contestaron bien el ítem:
P=C/T
El valor de P debe considerarse en relación con
la probabilidad de responder bien el ítem al azar
(opción múltiple 4 = .25; binarios = .50)
Análisis de reactivos
Interpretación del valor P
¿Un ítem con valor P=.80 es fácil?
¿Un ítem con valor P=.20 es difícil?
La facilidad o dificultad del ítem están relacionados con el
programa instruccional
En un examen de aptitud verbal aplicado a un grupo poco
familiarizado con su contenido, tiene sentido considerar un
ítem con un alto valor de P como difícil; pero existen
situaciones diferentes:
Con un profesor hábil, ¿Un ítem con P=.95 significa que es
fácil o que los examinado, bien enseñados, lo contestaron
correctamente?
Con un profesor deficiente, dicho ítem, con P=.45 ¿no
tenemos incluso más razón para creer que el item no es fácil?
Análisis de reactivos
Índice de discriminación
Para un test normativo, el indicador más poderoso de la
calidad de un ítem es el índice de discriminación
Nos indica qué tan frecuentemente responden bien al ítem
quienes obtuvieron buena calificación total en el examen;
es decir, si discrimina entre los que saben y los que no
saben
Se trata de establecer una correlación biserial entre una
variable contínua (calificación total en la prueba) y la
variable dicotómica de la ejecución al ítem (correcto o
incorrecto)
El índice de discriminación le pone una bandera al ítem
que indica que puede tener alguna falla
Análisis de reactivos
Procedimiento para calcular
el índice de discriminación
Ordenar los exámenes de mayor a menor puntaje total
Dividir los exámenes en grupo alto (27%), grupo bajo
(27%) y grupo medio (se elimina para el análisis)
Calcular el valor P para los grupos alto y bajo
Se resta el P bajo del P alto, para obtener el índice de
discriminación del ítem:
D = P a - Pb
Existe una relación estrecha entre P y D. Si P=1.0 ----> D=0
(D= 1.0 - 1.0 = 0). Lo mismo sucede si P = 0. Por lo tanto, si la
dificultad es media, la discriminación es alta (D = 1.0 - 0 = 1.0)
Análisis de reactivos
Análisis de distractores
Cuando un ítem necesita revisión
(ejemplo: P = .50; D = -.33), es
necesario un análisis más profundo
para detectar la falla
En los ítems de opción múltiple se
puede analizar cómo respondieron a los
distractores los grupos alto y bajo
Ejemplo:
Análisis de reactivos
Análisis de distractores
P=.50;
D=-.33
A
B
C
D
Omisión
Grupo
alto (16)
2
5
0
8
1
Grupo
bajo (15)
4
10
0
0
1
Principal problema
da pistas a los que
no saben:Revisar
No sirve
Hacer más
atractiva
Atráe a los
que saben
revisar
Análisis de reactivos
Ítem análisis para tests criteriales
En un test criterial esperamos que por efecto de la
instrucción todos los examinados respondan bien en el
examen, por lo que habrá un bajo índice de discriminación
Por ello, se requiere un esquema diferente. Existen dos
alternativas:
La diferencia pretest-postest , en la que se administra la
prueba al mismo grupo antes y después de la instrucción y
se calcula la discriminación: Ddpp = Ppost - Ppre
Postest
Pretest
+1.0
-1.0
Ddpp
Tendencia sin instrucción
Análisis de reactivos
Ítem análisis para tests criteriales
Si el ítem es sensible a la instrucción, discrimina (detecta
la diferencia entre la ejecución antes y después de la
instrucción)
Desventaja: Hay que esperar que termine la instrucción
La solución es la Diferencia entre el grupo instruido y
no instruido, donde se aplica el test a dos grupos
(instruido y no instruido) y se calcula la discriminación
basada en las diferencias entre ambos: Dgin = Pi - Pn
Test
Instruidos
+1.0
Ddgin
-1.0
No instruidos
Estandarización de la prueba
Ensamble, administración y calificación de la prueba
Los aspectos prácticos que rodean al test
revisten una gran importancia
Aparte de los aspectos estrictamente
técnicos considerados, una mala
administración de la prueba puede ocasionar
respuestas poco significativas por parte del
examinado y, por ello, problemas de validez
y confiabilidad
Entre los principales factores a considerar,
de naturaleza administrativa están:
Estandarización de la prueba
Ensamble, administración y calificación de la prueba
Las instrucciones del test (propósito de la
prueba, tiempo permitido, formato de la mejor
opción, forma de registrar la respuesta,
indicaciones sobre la adivinación, etc.)
Administración del test (escenario, seguridad
entrenamiento a los aplicadores, etc.)
Calificación de la prueba (calificación manual,
calificación automática, corrección por
adivinación, pesos diferenciales, formato de
registro, etc)
Estandarización de la prueba
Establecimiento de estándares y puntos de corte
Un estándar es una medida del nivel de ejecución del
examinado que es adecuado para algún propósito
(¿qué tan bueno es lo suficientemente bueno?)
Un estándar general produce tranquilidad; uno
específico: terror
En los test de gran escala y de alto impacto, si el
estándar es alto los errores tienen consecuencias
desastrosas y duraderas; si es bajo, la sociedad pierde,
se devaluan los diplomas, etc.
El establecimiento de estándares requiere del juicio
humano, pero ello no lo hace arbitrario
Estandarización de la prueba
Ensamble, administración y calificación de la prueba
Establecer estándares es un proceso: lo
haremos, cometeremos errores con
seguridad y los corregiremos, hasta contar
con unos realistas y apropiados
Pero ¡ojo!, es más fácil ajustar los
estándares hacia arriba que hacia abajo; de
igual modo, ponerlos después de aplicar la
prueba, que antes
Los principales factores a considerar al
establecer estándares son:
Estandarización de la prueba
Ensamble, administración y calificación de la prueba
Análisis del contexto de la decisión (¿qué pasa si el
examinado falla en lograr el estándar? depende de
de la magnitud de la decisión y de consideraciones
contextuales:
En el salón no queremos falsos dominadores:
estándares altos
Para dar un diploma o ingresar a otro ciclo, no
queremos no-dominadores: estándares bajos
Para el caso de los exámenes normativos, es difícil
poner estándares debido a su esquema descriptivo
vago; por ello, se requiere consultar los datos
derivados de la aplicación de los ítems (grupos
contrastados)
No
dominadores
Dominadores
No
dominadores
Dominadores
Estándar
alto
Instrucción
No
dominadores
Dominadores
Estándar
alto
Instrucción
No
dominadores
Dominadores
Estándar
bajo
Certificación
No
dominadores
Dominadores
Estándar
bajo
Certificación
No
dominadores
Dominadores
Estándar
bajo
Estándar
alto
Instrucción
Certificación
No
dominadores
Dominadores
Descargar

Aspectos psicométricos básicos