UNIDIMENSIONALIDAD
Calderón Risquete, Diana
•¿¿Que es??: Un
instrumento será unidimensional si todas las
respuestas
dadas
a
él
son
basadas
en
un
mismo
atributo, es decir, si es un solo atributo el que se mide.
Primero validez y fiabilidad
Teoría clásica de los Test
Después Unidimensionalidad
•
Razones por las que un test debe de ser Unidimensional, Stout:
1. Contaminación de una variable por otros conocimientos.
2. Test diseñado para medir diferencias individuales mida un único rasgo.
3. Debe darse la Unidimensionalidad para que para que este pueda estar al
alcance la TRI.
DEFINICIONES BASADAS EN
PATRONES DE RESPUESTA
Test
ESCALA PERFECTA
(GUTMAN)
Unidimensional
Sujetos
items
1
2
3
4
5
…
n
1
1
1
1
1
1
1
1
2
1
1
1
1
1
1
0
3
1
1
1
1
1
0
0
4
1
1
1
1
0
0
0
5
1
1
1
0
0
0
0
…
1
1
0
0
0
0
0
n
1
0
0
0
0
0
0
Definiciones basadas en la
teoría de rasgo latente (TRI)(I)
 Entendemos la unidimensionalidad como el grado de varianza
común compartida que tienen los ítems que componen un
tests.
 Lo primero que se debe cumplir para hablar de
unidimensionalidad es la independencia local.
Asume que las respuestas de diferentes sujetos j con un
determinado nivel i en el rasgo a un ítem son también
estadísticamente independientes de las respuestas de
esos sujetos a cualquier otro ítem, es decir, cada nueva
respuesta es independiente de la respuesta anterior, y
éstas sólo vienen determinadas por la probabilidad de
acierto a ese ítem, que para sujetos con igual nivel de
habilidad, es la misma para todo el grupo.
Definiciones basadas en la
teoría de rasgo latente (TRI)(II)
Independencia local
Dimensionalidad
Esencial
(STOUT,1987-1990)
Tienen en común la característica
de la independencia estadística
entre las respuestas de los sujetos
Definiciones basadas en la teoría de
rasgo latente (TRI)(IV)
Reckase (1990)
Dimensionalidad psicológica—Dimensionalidad estadística
 Dimensionalidad psicológica: número de constructos
psicológicos hipotéticos necesarios para la
consecución exitosa de un test.
 Dimensionalidad estadística: número mínimo de
variables matemáticas que se necesitan para
resumir una matriz de respuestas a ítems.
Definiciones basadas en la teoría de rasgo latente
(TRI)(IV)
ACKERMAN
Dimensionalidad como interacción entre los
sujetos y los ítems.
(1992)
 Esta interacción, postula, puede ser unidimensional de
tres formas distintas dependiendo de:
 lo que mida un ítem.
 la variación que los sujetos presentan en la medición
de dichas dimensiones.
Definiciones basadas en la teoría de rasgo latente
(TRI)
CONCLUSIONES (V)
Evolución histórica de la unidimensionalidad:
1.
2.
3.
4.
Independencia local.
Dimensionalidad esencial (Scout).
Dimensionalidad psicológica - dimensionalidad
estadística (Reckase).
Dimensionalidad (Ackerman).
De todo lo anteriormente expuesto surge la teoría de
respuesta al ítem o teoría del rasgo latente.
Se trata de un modelo probabilístico que permite conocer la
información que aporta cada ítem y con ello, crear test a
medida.
Teoría de los violadores, Oort ( 1993,
1994)
Plantea un modelo en el que es posible considerar simultáneamente varios
factores que pueden influenciar la manera en que un sujeto responde a un
ítem y que no solo afectan al grupo de pertenencia, sino a la ocasión temporal
en que la variable es medida, a la sensibilidad del ítem a una categoría de
respuesta determinada, a la facilidad con que un rasgo encubre a otros, etc.
 La teoría de los violadores consta de tres componentes:
1. Hace referencia a las definiciones de pureza de un ítem y de
unidimensionalidad.
2. Una tipología de los violadores.
3. Este último se ocupa de cómo construir una escala que sea
unidimensional y eficiente.
VIOLADOR POTENCIAL: variable con respecto a la cual un ítem puede estar
sesgado. Una escala consistente en un conjunto de ítems es unidimensional si y
solo si todos y cada uno de los ítems que la componen son puros con respecto a
cualquier violador potencial
Definiciones basadas
en la consistencia interna
Definición: grado de relación existente entre los ítems de una
prueba. Estamos en la escala tipo Lickert y que para sumar ítems deben
medir lo mismo.
Utilizamos
Procedimiento de las dos mitades : fórmula
Spearman Brown
Procedimiento informativo de cada ítem:
Ө de Cronbach
(ítem continúos)
Kuder-Richardson (para
ítems dicotómicos).
EVALUACIÓN DE LA UNIDIMENSIONALIDAD:
Índices basados en los patrones de respuesta
 Coeficiente de Reproductibilidad de Guttman:
tiene en
cuenta los errores cometidos al predecir las respuestas a los ítems de
los sujetos a los que se pasa el test.
 Errores = número de unos y ceros fuera de su lugar en la matriz de
escala perfecta.
CR= 1- E/Nn
E = número de errores
N = número de sujetos
N = número de ítems
Índices basados en la fiabilidad (I)
Alpha de Cronbach: evaluación de la unidimensionalidad desde esta
perspectiva asume que alpha es alto si el test
es homogéneo
Es un límite inferior de la proporción de varianza debida
a los factores comunes entre los ítems de un test y el
límite superior de la proporción de la varianza debida al
primer factor común.
Índices basados en la fiabilidad(II):
Según Green et al (1977),el comportamiento de
alpha en distintas circunstancias:





El coeficiente crece cuando aumenta el número de ítems.
El coeficiente crece rápidamente cuando el número de
repeticiones paralelas de cada tipo de ítem aumenta.
El coeficiente aumenta cuando el número de factores
presentes en cada ítem aumenta.
El coeficiente se aproxima y sobrepasa rápidamente el valor
de 0.8 cuando el número de factores presentes en cada ítem
es dos o mayor y el número de ítems es moderadamente
grande (mayor o igual a 45).
El coeficiente decrece moderadamente cuando las
comunalidades de ítems disminuye.
Índices basados en el modelo
factorial (I)
 Índice basado en la proporción de varianza explicada por el
primer factor
 La cuestión está en a partir de qué valor de varianza explicada
se consideraría que existe unidimensionalidad.
 Para determinar el número de factores idóneo que deben
tenerse en cuenta en un análisis . Se han desarrollado diversas
reglas y estadísticos:
- La regla de Kaiser-Guttman, o regla K1
- El Scree Test de Cattell. Línea recta base a la
altura de los últimos autovalores (los más pequeños) y aquellos
que queden por encima indicarán el número de factores a
retener.
Índices basados en el modelo
factorial (II)
 MAP de Velicer: Promedio de las correlaciones parciales al cuadrado
 Criterio de Barlett: Prueba estadística para contrastar la hipótesis nula. Cada
autovalor es excluido de manera secuencial hasta que no puede ser rechazada
la hipótesis nula a través de una prueba de Ji-cuadrado (χ²)
 Análisis paralelo: A nivel poblacional los autovalores de una matriz de
correlaciones para variables no correlacionadas tomarían valor 1.

Razón de Verosimilitud: se trata de un criterio de bondad de ajuste La lógica
de este procedimiento es comprobar si el número de factores extraído es
suficiente para explicar los coeficientes de correlación observados.
Análisis factorial en datos binario (I)
o
Se han propuesto varias soluciones para el estudio de
ítems dicotómicos:
Christoffersson ideó un método para analizar factorialmente los ítems
dicotómicos usando correlaciones tetracóricas, e implica:
-por una parte indicar la proporción de ciertos esperados para
cada ítem
-por otra parte la indicación del porcentaje de aciertos que tienen
en común un par de ítem.
Las distancias ponderadas, es decir, más o menos la media de las
distancias entre los valores esperados y los observados de estas
proporciones son minimizadas usando el método de Mínimos Cuadrados
Generalizados.
Cálculos muy complicados
Muthén desarrolló un método de mínimos cuadrados que permitía reducir los
cálculos y por lo tanto aumentaba su utilización
Análisis factorial en datos binario (II)
 El Análisis Factorial de Información Completa de Bock : trata de utilizar
la información contenida en las tablas de frecuencia conjunta de todos los
órdenes.
 Análisis Factorial No Lineal de McDonald: cuando las respuestas a los
ítem son variables dicotomizadas pero que se subyacen a variables
continúas entonces no habría ningún problema de utilizar correlaciones
lineales sobre matrices tetracóricas, pero si las respuesta a los ítem son
dicotómicas no podemos hacer un modelos en el que exista una relación
lineal entre el los ítem y el factor. Al revés en este caso solo podríamos
hablar de una relación No Lineal.
 El inconveniente que tenía aplicar un análisis factorial a datos binarios es
que se distorsionaban los pesos de los ítems con dificultades extremas,
muy fáciles-muy difíciles, sin término medio ninguno.
Índices basados en la TRI
 Se basan en el grado de ajuste utilizando índices como Jicuadrado, análisis de residuos
 Problema: cuando utilizamos Ji-cuadrado puede resulta fácilmente
significativa con una muestra grande.
 Han sido propuestos otros índices como el método de Bejar, el de
Stout y el de Rosenbaum.
• Bejar intenta detectar la multidimensionalidad
• Stout propone u estadístico que es conocido como el
estadístico T de Scout, para determinar la unidimensionalidad
de un conjunto de ítems basado en su conceptualización de
dimensionalidad esencial.
• El
modelo
de
Rosenbaum
puede
ser
aplicado
independientemente del modelo de TRI, y es conocido como
Test de Independencia Condicional y Monotonicidad
Estudios comparativos (I)
Hattie
Realizar una simulación desde un modelo multidimensional de
tres parámetros a través de la cual someter a prueba índices de todos los
tipos. Los indicadores que permiten diferenciar entre la existencia de una o
mas dimensiones son los relacionados con los residuales obtenidos.
Green
Número de factores a retener cuando se aplica el análisis
factorial lineal a datos dicotómicos. La utilización del análisis factorial lineal con
carácter exploratorio puede ser útil aunque hay que cuestionarse la
significación de los factores menores y realizar una cuidadosa interpretación
de la matriz de pesos.
Collins, Cliff, McCormick y Zatkin
Matrices de correlaciones. El
reconocimiento de los factores no triviales es pobre.
Berstein y Teng
Comparación del funcionamiento de los indicadores
mas tradicionales basados en los componentes principales con los criterios de
Máxima Verosimilitud y LISREL. LISREL se hace mas sensible a los efectos de
la categorización a medida que la fiabilidad de la escala decrece. En cambio,
Maxima Verosimilitud se hace mas sensible a la misma a medida que
aumenta.
ESTUDIOS COMPARATIVOS (II)
Zwick
Aplicación a matrices análisis de componentes principales,
Análisis Factorial de Información Completa de Bock y el test de
Rosenbaum.(NAEP, ítems de lectura como datos empíricos) Acuerdo
entre los tres métodos para indicar que la decisión de calibrar los
ítems con un modelo unidimensional es correcta.
Ayala y Hertzog
Comparación entre el funcionamiento del análisis
factorial y del escalamiento Multidimensional no métrico.
Funcionamiento del escalamiento Multidimensional no métrico
"esperanzador"
como
instrumento
para
determinar
la
dimensionalidad.
Tucker, Humphreys, Roznowsk
Contraste del
funcionamiento de: diferencias entre autovalores, cociente de
diferencias entre autovalores, criterio de independencia local y
patrones de pesos factoriales que deberían darse si los ítems
respondieran a una escala perfecta de Guttman. Ningún índice
ofrece prestaciones satisfactorias en todas las condiciones. Se
descartan para su uso la diferencia entre los dos primeros
autovalores
ESTUDIOS COMPARATIVOS (III)
Roznowski, Tucker, Humphreys
Contraste del funcionamiento de:
independencia local, diferencias entre autovalores y patrón de signos del
segundo factor. Mismas conclusiones que su estudio precedente.
Hambleton y Rovinelli
Comparación de cuatro maneras de evaluar la
dimensionalidad: análisis factorial lineal, no lineal, análisis de residuos tras
ajustar un modelo de TRI y el método de Bejar. El análisis factorial lineal
produjo factores de dificultad y por lo tanto, sobreestimación del numero de
factores. El análisis de residuos y el método Bejar produjeron malos resultados
al detectar violaciones del supuesto de unidimensionalidad. El análisis no lineal
con términos lineales y cuadráticos produjo una adecuada determinación de la
dimensionalidad.
Bejar
Reanálisis del estudio anterior. Los instrumentos son
descriptivos. Son validos cuando es obtenible información a priori sobre
posibles factores de respuesta.
De Champlain y Gessarolli
Comparación entre un índice
desarrollado por ellos mismos (índice de incremento de ajuste) y la T de Stout.
Buenos resultados. El índice de incremento de ajuste no posee un estadístico
de significación. T de Stout baja su rendimiento para tests pequeños
ESTUDIOS COMPARATIVOS (IV)
Berger y Knol
Estudio de índices de fiabilidad: estadísticos formales para el
ajuste de los modelos de TRI, criterios de selección de modelos por
información teórica, cantidad total de varianza explicada y residuales tras
ajustar un modelo de análisis factorial no lineal a los datos. El primer
procedimiento no es muy fiable, el segundo funciona algo mejor, la estructura
de la matriz de parámetros de discriminación es crucial para el
funcionamiento de las medidas que emplean autovalores, los criterios de
autovalores deben evitarse, el análisis en paralelo funciona bastante bien y
las medidas basadas en los residuales del análisis factorial no lineal
funcionan bastante bien.
Nandakumar
Comparación de la ejecución de tres métodos de evaluar
la unidimensionalidad: el método de Stout, el de Holland y Rosenbaum y el
análisis factorial no lineal. Los tres métodos confirman correctamente la
unidimensionalidad. El método de Stout funciona adecuadamente para
detectar la ausencia de unidimensionalidad. Los otros dos métodos tienen
buenos resultados cuando la correlación entre habilidades es baja
Viabilidad del supuesto de
unidimensionalidad
- Muy Estricta.
- En la vida real es prácticamente imposible
-
Influencia de la instrucción
Todos los aspectos que pueden influir negativamente en el supuesto
que estamos tratando son llamados “violadores” y se clasifican según
Oort, en cinco:
 Violaciones de los ítems. Hace referencia a la independencia local. Según
ésta, los modelos asumen que las respuestas de las personas a un ítem
son independientes de las respuestas a los demás ítems.
 Violaciones del rasgo. Hace referencia a la validez del constructo.
 Violaciones de estilo de respuesta. Los sujetos pueden tener más en
cuenta una categoría de respuesta concreta que el contenido del ítem.
 Violaciones de grupo
 Violaciones de tiempo, ya que los parámetros no permanecen constantes a
lo largo del tiempo.
Modelos multidimensionales
Hay que decidir para desarrollar un
modelo multidimensional:
¿ Modelo compensatorio o no-compensatorio ?
 Compensatorio: para responder correctamente a un ítem de
alta habilidad en una de las dimensiones puede compensar
la baja habilidad en otras.
 Hattie (1981).
 Doody-Bogan y Yen (1983).
 McKinley y Reckase (1983b)
 No compensatorio: la alta habilidad en una dimensión no
puede compensar el déficit en las otras.
 Sympson (1978)
Modelos multidimensionales:
Conclusiones
 Los
modelos
en
auge
son
los
compensatorios,
estando
su
elección
supeditada a cuestiones de tipo teórico y
practico.
 La multidimensionalidad empieza a quedar
MAXLOG
representada por programas
MIRTE
Robustez de los modelos unidimensionales

Se abandona el estudio de la unidimensionalidad para
centrarnos
en robustez de las estimaciones ante la violación de
una de las asunciones elementales de los modelos más populares.
 Estudios:
-Reckase (1979).
-Drasgow y Parsons (1983).
-McKinley (1983).
-Doody-Bogan y Yen (1983).
-Yen (1984).
Doody-Bogan (1985).
Ansley y Forsyth (1985).
Way, Ansley y Forsyth (1988).
Cuesta y Muñiz (1999).
Robustez de los modelos unidimensionales:
Conclusiones

Tendencia encontrada en los tests no adaptados, también se
produce en los test adaptados pero de una manera aun mas
acentuada.

Prudencia al emplear modelos unidimensionales con datos
multidimensionales.

No emplearlos, y por lo tanto, crear instrumentos
verdaderamente unidimensionales o potenciar el desarrollo de
modelos multidimensionales.

Cuanto mayor sea la relación entre las dimensiones
subyacentes mas parecido existirá entre las estimaciones
unidimensionales y los verdaderos valores de los parámetros.
Ejemplo
Estadístico descriptivo
Práctico:
Media
Análisis Factorial
PRETEST
Desviación
típica
N del
análisis
Respuestas pretest
item1
2,08
,273
38
Respuestas pretest
item2
2,18
,955
38
Respuestas pretest
item3
2,29
,460
38
Respuestas pretest
item4
1,16
,547
38
Respuestas pretest
item5
3,29
1,183
38
Respuestas pretest
item6
1,16
,547
38
Respuestas pretest
item7
1,29
,515
38
Respuestas pretest
item8
1,05
,324
38
Respuestas pretest
item9
1,05
,226
38
Respuestas pretest
item10
1,03
,162
38
Matriz de componentes
principales
VARIANZA TOTAL EXPLICADA
Varianza explicada
Dos dimensiones
VARIANZA EXPLICADA
Estadísticos descriptivos
POSTEST
Advertencia
Análisis de Postest
Matriz de componentes
Descargar

Diapositiva 1 - GrupoInnoevalua : Inicio