Programa de certificación
de Black Belts
VI. Lean Seis Sigma – Análisis B
Segunda Parte
P. Reyes / Abril de 2010
1
VI.F Métodos de análisis
adicionales
2
Métodos adicionales de análisis
1. Análisis de brecha
2. Análisis de causa raíz
3. Análisis del Muda
3
VI.F.1 Análisis de brecha
4


El análisis de brecha (Gap Analysis) es una
herramienta de evaluación para comparar el
desempeño actual de la organización, a un
desempeño potencial deseado.
Identifica la diferencia de lo que es y lo que debería
ser
5
Análisis de brecha

Se pueden redirigir los esfuerzos a objetivos como:









Permanecer en el negocio
Mantener o incrementar la participación del mercado
Mejorar el clima laboral
Igualar o exceder a Benchmarks
Igualar o exceder a la competencia
Reducir tiempos de ciclo
Lograr certificaciones
Mejorar la productividad
Mejorar los niveles de calidad
6
Análisis de brecha

Se requieren tres categorías de información



¿Dónde estamos?
¿Dónde queremos ir?
¿Cómo vamos a medir los resultados?
7
Planeación de escenarios


Al elaborar planes estratégicos, los directivos pueden
confiarse o ser orgullosos de aceptar cambios. Por lo
que se sugiere considerar escenarios del mejor y del
peor caso, para evitar errores en la toma de
decisiones
Los escenarios permiten imaginar el desempeño
futuro de la organización ante riesgos, para tomar las
mejores decisiones y atender estos eventos. Aunque
algunos elementos sean desconocidos
8
Planeación de escenarios

El proceso de planeación es como sigue:




Seleccionar al personal que pueda dar muchas
perspectivas
Desarrollar una lista de cambios percibidos, sociales,
técnicos y económicos
Agrupar estas percepciones en patrones relacionados
Desarrollar una lista de las mejores percepciones
(prioridades)
9
Planeación de escenarios

El proceso de planeación es como sigue:




Desarrollar un escenario grueso del futuro basado en
estas prioridades
Determinar como afectan los escenarios a la
organización
Determinar los cursos de acción potenciales a tomar
Monitorear, evaluar, y revisar los escenarios
10
Planeación de escenarios

Por lo común se perciben de 6 – 10 amenazas u
oportunidades en 2 o 3 escenarios desarrollados.
Evitar las siguientes trampas:

No utilizar un facilitador experimentado

Considerar escenarios como pronósticos

Hacer escenarios simplistas

Limitar el impacto global de los escenarios
11
Planeación de escenarios

Evitar las siguientes trampas…..:

No incluir a un equipo directivo en el proceso

Tratar los escenarios solo como actividad informativa


Limitar el estímulo imaginativo en el diseño del
escenario
No desarrollar escenarios para área de impacto clave
del negocio
12
Planeación Hoshin



Es una herramienta de ejecución, usada para
organizar y desplegar planes estratégicos
Hoshin traduce la visión de la empresa en resultados
medibles dramáticos y rupturas estratégicas
Hoshin se enfoca a identificar los pocos logros vitales
de ruptura
13
Planeación Hoshin

Tiene seis objetivos:

Alinear las metas organizacionales

Enfocarse en las pocas brechas vitales estratégicas

Trabajar con otros para cerrar las brechas

Especificar los métodos para lograr los objetivos

Hacer visible el enlace entre planes locales

Mejora continua del proceso de planeación
14
Otras técnicas de análisis clave

Benchmarking

Análisis FODA

Análisis PEST

Las cinco fuerzas competitivas de Porter
15
Evaluación organizacional

Análisis funcional con datos de colección:






Entrevistas cara a cara
Selección de muestra apropiada
Entradas de grupo de enfoque
Observaciones de visitas a la planta
Datos colectados de fuentes de la industria
Se divide a la organización en áreas funcionales clave

Liderazgo, prácticas de negocio, análisis financiero,
mercadotecnia, gestión de la calidad, diseño y
desarrollo, manufactura, salud y seguridad, etc…
16
Evaluación organizacional


Se deben analizar los resultados y presentarlos a la
dirección, quien debe promover e implementar
planes de acción claros
Normalmente el consultor colecta y resume la
información en categorías principales para su revisión
por la dirección. Quienes deben generar e
implementar las soluciones y guiar al éxito
17
Métricas organizacionales

Se establecen metas de desempeño organizacional y
sus métricas en las áreas de:





Utilidades
Tiempos de ciclo
Recursos
Respuestas del mercado
Por cada meta organizacional mayor deben
desarrollarse métricas, con unidades y métodos de
medición.
18
Métricas organizacionales
Para los anteriores, las métricas pueden ser:
 Utilidades a corto y largo plazo


Valor de acciones, inversión de capital, costos
personales, comparaciones competitivas, ROI, ventas$
Tiempos de ciclo




Tiempos de ciclo actuales
Benchmarks internos
Benchmarks externos
Reducción en tiempos de ciclo
19
Métricas organizacionales


Recursos
 No. De proyectos de mejora, ROI de proyectos, estudios de
capacidad de procesos, reducciones de variabilidad, costos
de calidad con relación a una base, porcentaje de defectos
con relación a alguna base
Respuestas del mercado
 Encuestas con clientes
 Análisis de devoluciones
 Desarrollo de nuevos productos
 Retención de clientes
 Pérdidas con clientes
 Tasas de cortesías e instalaciones
20
Métricas organizacionales
Las métricas permiten medir los avances en relación a
las metas organizacionales

De acuerdo a Juran se debe tomar en cuenta lo
siguiente:






Las métricas deben tener un significado estándar
Deben apoyar el proceso de toma de decisiones
Deben proporcionar información valiosa
Debe ser fácil de instalar
Si son valiosas, deben usarse en todo
Las métricas se basan en la retroalimentación con
base en clientes, proveedores, o internas
21
VI.F.2 Análisis de causa raíz
22
Análisis de causa raíz

Un equipo tiene la responsabilidad de determinar la
causa raíz de una deficiencia y corregirla. Pueden
tomar varios pasos:




Situación (presa con fuga)
Acción inmediata (desahogarla)
Acción intermedia (reparar la presa)
Acción en la causa raíz (identificar que causó la fuga
para evitar su recurrencia y reconstruir la presa)
23
Análisis de causa raíz
Se pueden utilizar las siguientes herramientas:
 Herramientas subjetivas:

Preguntar por qué cinco veces, tormenta de ideas,

análisis de flujo de proceso, PHVA, grupo nominal,

observación de operación, diagrama de causa efecto,

técnicas de consenso, seis sombreros de pensamiento,


equipos de trabajo, FMEA, FTA
24
Análisis de causa raíz
Se pueden utilizar las siguientes herramientas:
 Herramientas analíticas:






Colección y análisis de datos
Análisis de Pareto, análisis de regresión, hoja de
verificación
Análisis de matriz de datos
Análisis de capacidad de procesos, división de variación
Subgrupos de datos, experimentos simples, DOE
Pruebas analíticas, cartas de control
25
Análisis de causa raíz
Ante una acción correctiva permanente, la dirección
debe determinar si:



El análisis de causa raíz ha identificado el impacto
completo del problema
La acción correctiva es efectiva para eliminar o
prevenir la recurrencia
La acción correctiva es realista y sostenible
26
Los 5 Por qués

Se hace la pregunta ¿Por qué? Cinco veces





¿Por qué? Nos faltaron partes por máquina dañada
¿Por qué? La máquina no ha tenido mantenimiento en
los últimos 3 meses
¿Por qué? El departamento de mantenimiento se ha
reducido a 6 personas de 8
¿Por qué? Se pasó del presupuesto, les quitaron el
tiempo extra y dos personas
¿Por qué? La empresa no ha tenido los resultados
esperados y el director ha hecho recortes para salvar la
situación, teme por su puesto
27
5Ws y 1H


El método de las 5Ws y 1H se resume al preguntar
¿quién?, ¿qué?, ¿cuándo?, ¿dónde?, ¿por qué? Y
¿cómo?.
Pueden usarse las ramas del diagrama de causa
efecto
28
Diagrama de causa efecto





Rompe el problema en partes más pequeñas
Muestra muchas causas potenciales gráficamente
Muestra como interactúan las causas
Sigue las reglas de la tormenta de ideas
Las sesiones tienen tres partes:



Tormenta de ideas
Dar prioridades (identificar las tres causas principales)
Desarrollo de un plan de acción
29
Diagrama de Pareto



Sirve para identificar problemas u oportunidades
prioritarias o mayores
De acuerdo a Juran permite identificar “los pocos
vitales” de los “muchos triviales”
El principio de Pareto sugiere que unas cuantas
categorías de problemas (20% aprox.) presentan la
mayor oportunidad para la mejora (80% aprox.)
30
Método de las 8 disciplinas - Ford

El método de Ford para el análisis de causa raíz es:
D1.
D2.
D3.
D4.
D5.
D6.
D7.
D8.
Establecer el equipo
Describir el problema
Desarrollar una acción de contención
Identificar la causa raíz
Desarrollar alternativas de solución
Implementar una acción correctiva permanente
Prevenir la recurrencia
Reconocer al equipo y las contribuciones individuales
31
Análisis de árbol de falla - FTA


FTA es un método sistemático deductivo, para definir
un evento singular específico e indeseable, y
determinar todas las posibles razones (fallas) que
pueden hacer que ocurra el evento
Se utiliza el las primeras fases del diseño como
herramienta para impulsar modificaciones iniciales de
diseño.
32
Análisis de árbol de falla - FTA

Otras áreas de su aplicación son:








Análisis funcional de sistemas complejos
Evaluación de requerimientos de seguridad,
confiabilidad,
defectos de diseño,
riesgos de peligro,
acciones correctivas,
simplificación de mantenimiento y detección de falla,
eliminación lógica de causas de falla
33
Análisis de árbol de falla - FTA

Se prefiere el FTA en vez del FMEA cuando:






La seguridad el personal es importante
Se pueden identificar un número pequeño de eventos
superiores
Hay alto potencial de falla
El problema es cuantificar la evaluación del riesgo
La funcionalidad del producto es altamente compleja
El producto no es reaprables
34
Análisis de árbol de falla - FTA

Se prefiere el FMEA en vez del FTA cuando:




Los eventos superiores no se pueden definir
explícitamente
Son factibles múltiples perfiles potencialmente exitosos
La identificación de todos los modos de falla es
importante
La funcionalidad del producto tiene poca intervención
externa
35
Análisis de árbol de falla - FTA


Símbolos de compuertas lógicas para determinar la
confiabilidad del sistema. Hay símbolos de eventos y
símbolos de compuertas
Símbolos de eventos
Evento superior, falla a nivel sistema o evento
indeseable
Evento básico, evento falla de más bajo nivel
a estudiar
Evento de falla, evento de falla de bajo nivel. Puede recibir
entradas o proporcionar salidas a una compuerta lógica
36
Análisis de árbol de falla - FTA

Símbolos de compuertas lógicas
“AND”. El evento de salida ocurre solo
Si ocurren todos los eventos de entrada
Simultaneamente
“OR”. El evento de salida ocurre si
Ocurre alguno de los eventos de
La entrada
37
Análisis de árbol de falla - FTA

Ejemplo: se asume que falla el sistema superior
38
Análisis de árbol de falla - FTA

La probabilidad de falla del sistema es 5.02%. Se
indica que el teclado es prioritario (0.20), después la
CPU (0.015) y el monitor (0.015)
39
VI.F.3 Análisis del Muda
40
Análisis de Muda

Las actividades que no agregan valor se clasifican
como Muda, de acuerdo a Imai son:







Sobreproducción
Inventarios
Reparaciones / rechazos
Movimientos
Transportes
Re – Procesos
Esperas
41
Sobreproducción

Se produce más en cierto momento, por:




Producir más de lo necesario por el siguiente proceso
Producir antes de lo requerido por el siguiente proceso
Producir más rápido de lo requerido por el siguiente
proceso
Sus consecuencias son:




Espacio extra en las instalaciones del cliente
Materias primas adicionales en uso
Utilización de energéticos y transportes adicionales
Costos de programación adicionales
42
Inventario en exceso

Las partes, materias primas, inventario en proceso,
refacciones y productos terminados forman el
inventario, el inventario es Muda ya que requiere:




Espacio en piso, Transporte, Montacargas
Sistemas de transportadores
Interés sobre el costo de los materiales
Puede verse afectado por:


El polvo, deterioro, obsolescencia
Humedad (oxidación), daño durante el manejo
43
Inventario en exceso

Las partes, materias primas, inventario en proceso,
refacciones y productos terminados forman el
inventario, el inventario es Muda ya que requiere:




Espacio en piso, Transporte, Montacargas
Sistemas de transportadores
Interés sobre el costo de los materiales
Puede verse afectado por:


El polvo, deterioro, obsolescencia
Humedad (oxidación), daño durante el manejo
44
Reparaciones / defectos




Las reparaciones o el retrabajo de partes defectivas
significa un segundo intento de producirlas bien. Se
rompe el Takt Time
Puede haber desperdicio de materiales o productos
no recuperable
Si hay defectos, no puede implementarse el flujo de
una pieza
Los cambios de diseño también son Muda
45
Movimientos



Los movimientos adicionales del personal son Muda.
Caminar mucho, cargar pesado, agacharse, estirarse
mucho, repetir movimientos, etc.
El lugar de trabajo debe diseñarse ergonómicamente,
analizando cada estación de trabajo
La ergonomía puede causar daños y producción
perdida
46
Movimientos

Algunas reglas de la ergonomía incluyen:







Enfatizar la seguridad todas las veces
Adecuar el empelado a la tarea
Cambiar el lugar de trabajo para que se adecue al
empleado
Mantener posiciones neutrales del cuerpo
Rediseñar las herramientas para reducir esfuerzo y
daños
Variar las tareas con rotación de puestos
Hacer que la máquina sirva al ser humano
47
Reprocesos

Consiste de pasos adicionales en el proceso de
manufactura, por ejemplo:






Remoción de rebabas
Maquinado de partes mal moldeadas
Agregar procesos de manejo adicionales
Realizar procesos de inspección
Repetir cambios al producto innecesarios
Mantener copias adicionales de información
48
Transportes

Todo transporte es Muda excepto la entrega al
cliente. Incluye:




Uso de montacargas
Uso de transportadores
Uso de movedores de pallets y camiones
Puede ser causado por:


Deficiente distribución de planta o de celdas
Tiempos de espera largos, áreas grandes de
almacenaje, o problemas de programación
49
Esperas

Ocurre cuando un operador está listo para realizar su
operación, pero permanece ocioso, por falla de
máquina, falta de partes, paros de línea, etc. El Muda
de espera puede ser por:






Operadores ociosos
Fallas de maquinaria
Tiempos de ajuste y preparación largos
Tareas no programadas a tiempo
Flujo de materiales en lotes
Juntas largas e innecesarias
50
Mudas adicionales

Otros mudas adicionales a los 7 desperdicios son:









Recursos mal utilizados
Recursos poco utilizados
Actividades de conteo
Búsqueda de herramientas o partes
Sistemas múltiples
Manos múltiples
Aprobaciones innecesarias
Fallas de máquinas
Envío de producto defectivo al cliente o mal servicio
51
VI.B.3 Regresión lineal múltiple
52
Regresión múltiple

Cuando se usa más de una variable independiente para predecir
los valores de una variable dependiente, el proceso se llama
análisis de regresión múltiple, incluye el uso de ecuaciones
lineales.
Y u   0   1 X u 1   2 X u 2  .......   k X uk   u
Se asume que los errores u tienen las características siguientes:

Tienen media cero y varianza común 2.
 Son estadísticamente independientes.

Están distribuidos en forma normal.
53
Regresión múltiple
Estimación de los parámetros del modelo

Se trata de minimizar los errores cuadráticos en:
N
R (  0 ,  1 ,...,  k ) 
 (Y
u
  0   1 X u 1   2 X u 2  .....   uk )
2
u 1
El modelo de regresión múltiple en forma matricial es:
Y = X  +  = [1 : D]  + 
Y es un vector N x 1.
X es una matriz de orden N x (k + 1), donde la 1ª. columna es 1’s.
 es un vector de orden (k + 1) x 1.
 es un vector de orden N x 1.
D es la matriz de Xij con i = 1, 2, ..., N; j = 1, 2, ......, k
54
Regresión múltiple
Estimación de los parámetros del modelo:
b = (X’X)-1 X’Y
El vector de valores ajustados
Yˆ  Xb
se puede expresar como:
1
Yˆ  Xb  X ( X ' X ) X ' Y  Hy
La varianza del modelo se estima como:
SSE 
 (Y i  Yˆ ) 
2
n
e
2
i
 e' e
i 1
SSE  (Y  Xb )' (Y  Xb )  Y ' Y  b ' X ' Y  Y ' Xb  b ' X ' Xb  Y ' Y  2 b ' X ' Y  b ' X ' Xb
SSE  Y ' Y  b ' X ' Y
s  MSE 
2
SSE
N  p
55
Tamaño de muestra


Tomar 5 observaciones para cada una de las
variables independientes, si esta razón es menor de5
a 1, se tiene el riesgo de “sobreajustar” el modelo
Un mejor nivel deseable es tomar 15 a 20
observaciones por cada variable independiente
56
Ejemplo de regresión múltiple



Un embotellador está analizando las rutas de servicio de
máquinas dispensadoras, está interesado en predecir la
cantidad de tiempo requerida por el chofer para surtir las
máquinas en el local (Y).
La actividad de servicio incluye llenar la máquina con refrescos y
un mantenimiento menor.
Se tienen como variables el número de envases con que llena la
máquina (X1) y la distancia que tiene que caminar (X2).
57
X2-Dist
Obs
16.68
1
11.50
2
12.03
3
14.88
4
13.75
5
18.11
6
08.00
7
17.83
8
79.24
9
21.50
10
40.33
11
21.00
12
13.50
13
19.75
14
24.00
15
29.00
16
15.35
17
19.00
18
09.50
19
35.10
20
17.90
21
52.32
18.75
19.83
10.75
R
X
denotes
denotes
X1-CAS
Y-TENT
Fit
SE
Fit
Residual
St
Resid
7.0
16.680
21.708
1.040
-5.028
-1.63
3.0
11.500
10.354
0.867
1.146
0.36
3.0
12.030
12.080
1.024
-0.050
-0.02
Ejemplo de regresión múltiple
4.0
14.880
9.956
0.952
4.924
1.58
6.0
13.750
14.194
0.893
-0.444
-0.14
7.0
18.110
18.400
0.675
-0.290
-0.09
2.0
8.000
7.155
0.932
0.845
0.27
7.0
17.830
16.673
0.823
1.157
0.37
30.0
79.240
71.820
2.301
7.420
3.21RX
5.0
21.500
19.124
1.444
2.376
0.81
16.0
40.330
38.093
0.957
2.237
0.72
10.0
21.000
21.593
1.099
-0.593
-0.19
4.0
13.500
12.473
0.806
1.027
0.33
6.0
19.750
18.682
0.912
1.068
0.34
9.0
24.000
23.329
0.661
0.671
0.21
10.0
29.000
29.663
1.328
-0.663
-0.22
6.0
15.350
14.914
0.795
0.436
0.14
7.0
19.000
15.551
1.011
3.449
1.11
3.0
9.500
7.707
1.012
1.793
0.58
17.0
35.100
40.888
1.039
-5.788
-1.87
10.0
17.900
20.514
1.325
-2.614
-0.88
26.0
9.0
8.0
4.0
52.320
18.750
19.830
10.750
56.007
23.358
24.403
10.963
2.040
0.662
1.132
0.841
-3.687
-4.608
-4.573
-0.213
-1.45
-1.44
-1.50
-0.07
an
an
Durbin-Watson
observation
observation
statistic
with a large standardized residual
whose X value gives it large influence.
=
1.17
58
22
23
24
25
Ejemplo de regresión múltiple
Solución matricial
Matrix M5 = X'
[
1
1
1
1
7
3
3
4
560
220
340
255
1
6
462
1
9
448
1
10
776
1
1
1
1
1
1
1
1
1
4
6
7
2
7
30
5
16
10
80
150
330
110
210
1460
605
688
215
1
6
200
1
7
132
1
3
36
1
17
770
1
10
140
1
26
810
1
9
450
1
8
635
1
4
150 ]
Matrix M6 = X'Y
[
25
219
10232
219
3055
133899
10232
133899
6725688 ]
Matrix M7 = X'Y
[
560
7375
337072 ]
59
Ejemplo de regresión múltiple
Solución matricial
Matrix M8 = INV(X'X)
0.113215 -0.004449 -0.000084
-0.004449 0.002744 -0.000048
-0.000084 -0.000048 0.000001
Matrix M9 = INV(X'X) X'Y
2.34123
1.61591
0.01438
The regression equation is
Y-TENT = 2.34 + 1.62 X1-CAS + 0.0144 X2-DIST
Predictor
Constant
X1-CAS
X2-DIST
S = 3.259
Coef
2.341
1.6159
0.014385
SE Coef
1.097
0.1707
0.003613
R-Sq = 96.0%
T
2.13
9.46
3.98
P
0.044
0.000
0.001
R-Sq(adj) = 95.6%
60
Ejemplo de regresión múltiple
Solución matricial
Cálculo de la estimación de la varianza:
Data Display
Matrix M10 = Y'
[ 16.68 11.50 12.03 14.88 13.75 18.11
8.00 17.83 79.24 21.50
40.33
21.00 13.50 19.75 24.00 29.00 15.35 19.00
9.50 35.10 17.90 52.32
18.75 19.83 10.75 ]
Matrix M11 = Y'Y = 18310.6
Matrix M12 = b' = [ 2.34123
1.61591
0.01438 ]
Matrix M13 = b'X'Y = 18076.9
Matrix M14 = SSe = Y'Y - b'X'Y = 233.732
S
2

SS E
N  p

233 . 732
25  3
 10 . 624
61
Ejemplo de regresión múltiple
Solución matricial

Intervalo de confianza para Beta 1
b1  t .025 , 22 se ( b1 )   1  b1  t .025 , 22 se ( b 1 )
1 . 61591  ( 2 . 074 ) (10 . 6239 )( 0 . 00274378 )   1  1 . 6191  ( 2 . 074 )( 0 . 17073 )
Por tanto el intervalo de confianza para el 95% es:
1.26181  1  1.97001
62
Ejemplo de regresión múltiple
Solución matricial

El embotellador desea construir un intervalo de confianza sobre
el tiempo medio de entrega para un local requiriendo:
X1 = 8 envases y cuya distancia es X2 = 275 pies.
X0
1 


 8


 275 
 2 . 34123

Yˆ0  X ' 0 b  1,8 , 275  1 . 61591

 0 . 01438


 19 . 22 minutos


La varianza de la Y0 estimada es (tomando M8=inv(X’X) :
2
1
Var (Yˆ0 )  S X ' 0 ( X ' X ) X 0
1 


 10 . 6239 1,8 , 275 M 8 8
 10 . 6239 ( 0 . 05346 )  0 . 56794


 275 
63
Ejemplo de regresión múltiple
Solución matricial

El intervalo de confianza sobre el tiempo medio de entrega para
un local requiriendo es para 95% de nivel de confianza:
19 . 22  2 . 074

0 . 56794  Y 0  19 . 22  2 . 074
0 . 56794
Que se reduce a: 17.66  Y0  20.78
64
Ejemplo de regresión múltiple
Solución matricial

El análisis de varianza es:
Analysis of Variance
SST = 18,310.629 -
( 559 . 6 )
2
= 5784.5426
25
SSR = 18,076.930 -
( 559 . 6 )
2
= 5,550.8166
25
SSE = SST – SSR = 233.7260
Con el paquete Minitab se obtuvo lo siguiente:
F0 
MSR

2775 . 4083
MSE
F 0 . 05 , 2 , 22  3 . 44
10 . 6239
 261 . 24
Source
Regression
Residual Error
Total
DF
2
22
24
SS
5550.8
233.7
5784.5
MS
2775.4
F
261.24
P
0.000
10.6
Como la F calculada es mayor que la F de tablas, se
concluye que existe el modelo con alguno de sus
coeficientes diferente de cero
65
Ejemplo de regresión múltiple
Solución matricial

El comportamiento de los residuos es como sigue:
66
Multicolinealidad



La multicolinealidad implica una dependencia cercana entre
regresores (columnas de la matriz X ), de tal forma que si hay
una dependencia lineal exacta hará que la matriz X’X sea
singular.
La presencia de dependencias cercanamente lineales impactan
dramáticamente en la habilidad para estimar los coeficientes de
regresión.
La varianza de los coeficientes de la regresión son inflados
debido a la multicolinealidad. Es evidente por los valores
diferentes de cero que no están en la diagonal principal de X’X.
Que son correlaciones simples entre los regresores.
67
Multicolinealidad


Una prueba fácil de probar si hay multicolinealidad entre dos
variables es que su coeficiente de correlación sea mayor a 0.7
Los elementos de la diagonal principal de la matriz X’X se
denominan Factores de inflación de varianza (VIFs) y se usan
como un diagnóstico importante de multicolinealidad. Para el
componente j – ésimo se tiene:
VIF

j

1
1 Rj
2
Si es mayor a 10 implica que se tienen serios problemas de
multicolinealidad.
68
Análisis de los residuos




Los residuos graficados vs la Y estimada, pueden mostrar
diferentes patrones indicando adecuación o no adecuación del
modelo:
Gráfica de residuos aleatorios cuya suma es cero (null plot)
indica modelo adecuado
Gráfica de residuos mostrando una no linealidad curvilínea
indica necesidad de transformar las variables
Si los residuos se van abriendo indica que la varianza muestra
heteroestacidad y se requiere transformar las variables. Se
puede probar con la prueba de Levene de homogeneidad de
varianzas
69
Escalamiento de residuos

En algunos casos es difícil hacer comparaciones directas entre
los coeficientes de la regresión debido a que la magnitud de bj
refleja las unidades de medición del regresor Xj. Por ejemplo:
Yˆ  5  X 1  1000 X 2

Para facilitarla visualización de residuos ante grandes
diferencias en los coeficientes, se sugiere estandarizar o
estudentizar los residuos
70
Escalamiento de residuos

Residuos estandarizados

Se obtienen dividiendo cada residuo entre la desviación
estándar de los residuos
di 


ei
,
MSE
Después de la estandarización, los residuos tienen una
media de 0 y desviación estándar de 1
Con más de 50 datos siguen a la distribución t, de
manera que si exceden a 1.96 (límite para alfa 0.05)
indica significancia estadística y son “outliers”
71
Escalamiento de residuos

Residuos estudentizados



Son similares a los residuos donde se elimina una
observación y se predice su valor, pero además se elimina la
i-ésima observación en el cálculo de la desviación estándar
usada para estandarizar la í-ésima observación
Puede identificar observaciones que tienen una gran
influencia pero que no son detectadas por los residuos
estandarizados
H = X (X’X)-1X’ es la matriz sombrero o “hat matriz”.
ri 
ei
MSE (1  h ii )
,
72
Escalamiento de residuos


El estadístico PRESS (Prediction Error Sum of Squares) es una
medida similar a la R2 en la regresión. Difiere en que se estiman
n-1 modelos de regresión.
En cada modelo se omite una observación en la estimación del
modelo de regresión y entonces se predice el valor de la
observación omitida con el modelo estimado. El residuo iésimo
será:
e ( i )  Y i  Yˆ( i )

El residuo PRESS es la suma al cuadrado de los residuos
individuales e indica una medida de la capacidad de predicción
N
PRESS 

i 1
e(i) 
2
 Y
 Yˆ( i ) 
2
i
R Pr edicción  1 
2
PRESS
S YY
73
Gráficas parciales de regresión




Para mostrar el impacto de casos individuales es más efectiva la
gráfica de regresión parcial. Un caso “outlier” impacta en la
pendiente de la ecuación de regresión (y su coeficiente).
Una comparación visual de la gráfica de regresión parcial con y
sin la observación muestra la influencia de la observación
El coeficiente de correlación parcial es la correlación de la
variable independiente Xi la variable dependiente Y cuando se
han eliminado de ambos Xi y Y
La correlación semiparcial refleja la correlación entre las
variables independiente y dependiente removiendo el efecto Xi
74
Matriz sombrero


Los puntos de influencia son observaciones substancialmente
diferentes de las observaciones remanentes en una o más
variables independientes
Contiene valores (sombrero en su diagonal) para cada
observación que representa influencia. Representa los efectos
combinados de todos las variables independientes para cada
caso
75
Matriz sombrero

Los valores en la diagonal de la matriz sombrero miden dos
aspectos:
 Para cada observación miden la distancia de la observación
al centro de la media de todas las observaciones de las
variables independientes


Valores altos en la diagonal indica que la observación tiene
mucho peso para la predicción del valor de la variable
dependiente, minimizando su residuo
El rango de valores es de 0 a 1, con media p/n, p es el
número de predictores y n es el tamaño de muestra. Valores
límite se encuentran en 2p/n y 3p/n
76
Distancia de Mahalanobis



D2 es una medida comparable a los valores sombrero (hat
values) que considera sólo la distancia de una observación del
valor medio de las variables independientes.
Es otra forma de identificar “outliers”
La significancia estadística de la distancia de Malahanobis se
puede hacer a partir de tablas del texto:
 Barnett, V., Outliers in Statistical Data, 2nd. Edition, Nueva
York, Wiley, 2984
77
Influencia en coeficientes
individuales



El impacto de eliminar una observación simple en cada
uno de los coeficientes de la regresión múltiple se muestra
con la DFBETA y su versión estandarizada SDFBETA.
Se sugiere aplicar como límites ±1.0 o ±2 para tamaños
de muestra pequeños y ±√n para muestras medias y
grandes
La distancia de Cook (Di) captura el impacto de una
observación:
 La dimensión del cambio en los valores pronosticados
cuando se omite la observación y la distancia de las
otras observaciones, el límite es 1 o 4/(n-k-1)
78
Influencia en coeficientes
individuales



La medida COVRATIO estima el efecto de la observación
en la eficiencia del proceso, en sus errores estándar de los
coeficientes de la regresión. Considera a todos los
coeficientes colectivamente.
El límite puede ser establecido en 1 ±3p/n, los valores
mayores al límite hacen el proceso más eficiente y los
menores más ineficiente
La medida SDFFIT es el grado en que cambian los
valores ajustados o pronosticados cuando el caso se
elimina. El valor límite es 2*raíz((k+1)/(n-k-1))
Ejemplo de regresión múltiple
Solución con Excel y Minitab
80
Ejemplo de Regresión Múltiple
Cat. (US News)
Stanford
1
Harvard
2
Penn (Wharton)
3
MIT (Sloan)
4
Chicago
5
Northwestern
6
Columbia
7
Dartmouth
8
Duke
9
Berkeley
10
Virginia
11
Michigan
12
NYU
13
Carnegie Mellon
14
Yale
15
U.N.C.
16
UCLA
17
Texas-Austin
18
Indiana
19
Cornell
20
Rochester
21
Ohio State
22
Emory
23
Purdue
24
Maryland
25
GMAT
711
670
662
650
680
660
660
670
646
653
660
645
646
640
675
630
651
630
630
637
630
611
626
603
640
Salario Inicial ($)
82000
80000
79000
78000
65000
70000
83000
70000
67500
70000
66000
65000
70583
67200
65000
60000
65000
60000
61500
64000
58500
61000
60000
63700
53000
% Aceptación
7.4
12.8
14.7
15.1
25.0
16.0
14.8
12.6
20.5
13.3
18.9
28.0
20.9
30.8
23.5
19.8
17.5
27.3
44.7
25.4
36.0
23.2
33.0
20.7
18.9
81
Interpretación de Resultados de Excel- Regresión Multiple
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.8749313 R Square
0.76550478
Adjusted R Square 0.732005463 Standard Error 4050.855918 Observations
ANOVA
Regression
Residual
Total
Intercept
df
3
21
24
SS
MS
1.12E+09 374977790.1
3.45E+08 16409433.67
1.47E+09
Coefficients Standard
Error
t Stat
P-value
F
22.851355
Significance F
8.17E-07
Lower 95% U pper 95%
122481.40 41473.13 2.953271081 0.007589
X Variable1 -926.873
25
198.8104 -4.662094325 0.0001336
36233.29
208729.5
-1340.32
-513.424
X Variable2 -59.9488
60.44875 -0.991730876 0.3326192
-185.659
65.76118
X Variable3 -191.7291
125.6138 -1.526337637 0.1418472
-452.957
69.49917
Resultados de Excel- Regresión sólo con sólo X1
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.855974
R Square
0.732691
Adjusted R Square 0.721069
Standard Error
4132.688
Observations
25
ANOVA
Regression
Residual
Total
df
SS
MS
1
23
24
1.08E+09
3.93E+08
1.47E+09
1.08E+09 63.04264
17079107
Coefficients Standard Error
Intercept 79230.32
X Variable1 -910.077
1703.951
114.6201
t Stat
P-value
F
Lower 95%
Significance F
4.88E-08
Upper 95%
46.49801 2.98E-24 75705.43405 82755.20595
-7.93994 4.88E-08 -1147.186411 -672.9674353
Con sólo X1, el Modelo se simplifica enormemente
poca importancia práctica se pierde en R2 (ajustada)
Reducción
del Modelo
Vuelva a correr
la regresión usando la categoría
US News, como el único agente de predicción (“predictor”)
La ecuación de regresión es:
y = 79230 - 910 x
“Predictor”
Constante
x
Coef
79230
-910.1
Desv. Estándar
1704
114.6
S = 4133
R2 = 73.3%
T
46.50
-7.94
p
0.000
0.000
R2 (ajustada) = 72.1%
Análisis de Variancia
Fuente
Regresión
Error
Total
DF
1
23
24
SS
1076712008
392819470
1469531477
MS
1076712008
17079107
F
63.04
p
0.000
El Modelo se simplifica enormemente..…poca
importancia práctica se pierde en R2 (ajustada)
Corrida en Minitab

Se introducen los datos en varias columnas C1 a C5
incluyendo la respuesta Y (heatflux) y las variables
predictoras X’s (North, South, East)
HeatFlux Insolation
East
South
North
271.8
783.35 33.53
40.55
16.66
264.0
748.45 36.50
36.19
16.46
238.8
684.45 34.66
37.31
17.66
230.7
827.80
33.13
32.52
17.50
251.6
860.45 35.75
33.71
16.40
257.9
875.15 34.46
34.14
16.28
85
Corrida en Minitab





Utilzar el archivo de ejemplo Exh_regr.mtw
Opción: Stat > Regression > Regression
Para regresión lineal indicar la columna de respuesta
Y (Score2) y X (Score1)
En Regresión lienal en opciones se puede poner un
valor Xo para predecir la respuesta e intervalos. Las
gráficas se obtienen Stat > Regression > Regression
> Fitted line Plots
Para regresión múltiple Y (heatflux) y las columnas
de los predictores (north, south, east)
86
Resultados de la regresión lineal
The regression equation is
Score2 = 1.12 + 0.218 Score1
Predictor
Constant
Score1
Coef
SE Coef
T
P
1.1177
0.1093
10.23
0.000
0.21767
0.01740
12.51
0.000
S = 0.1274
R-Sq = 95.7%
R-Sq(adj) = 95.1%
Analysis of Variance
Source
Regression
DF
SS
MS
F
P
1
2.5419
2.5419
156.56
0.000
Residual Error
7
Total
0.1136
8
0.0162
2.6556
Predicted Values for New Observations
New Obs
1
Fit
2.6414
SE Fit
0.0474
95.0% CI
(
2.5292,
New Obs
1
2.7536)
95.0% PI
(
2.3197,
2.9631)
Score1
7.00
87
Resultados de la regresión lineal
R egres s ion P lot
S co re 2 = 1 .1 1 7 7 1 + 0 .2 1 7 6 7 0 S c o re 1
S = 0 .1 2 7 4 1 9
R -S q = 9 5 .7 %
R -S q (a d j) = 9 5 .1 %
S c o re 2
3.5
2.5
R e g re ss io n
1.5
95% C I
95% P I
2
3
4
5
6
7
8
9
S c o re 1
88
Resultados de la regresión Múltiple
The regression equation is
HeatFlux = 389 - 24.1 North + 5.32 South + 2.12 East
Predictor
Coef
SE Coef
T
P
389.17
66.09
5.89
0.000
North
-24.132
1.869
-12.92
0.000
South
5.3185
0.9629
5.52
0.000
East
2.125
1.214
1.75
0.092
Constant
S = 8.598
R-Sq = 87.4%
R-Sq(adj) = 85.9%
Analysis of Variance
Source
Regression
DF
SS
MS
F
P
3
12833.9
4278.0
57.87
0.000
Residual Error
25
1848.1
Total
28
73.9
14681.9
Source
DF
Seq SS
North
1
10578.7
South
1
2028.9
East
1
226.3
89
Resumen de la Regresión
• La regresión sólo puede utilizarse con información de variables
continuas.
• Los residuos deben distribuirse normalmente con media cero.
• Importancia práctica: (R2). Importancia estadística: (valores p)
• La regresión puede usarse con un “predictor” X o más,
para una respuesta dada
• Reduzca el modelo de regresión cuando sea posible,
sin perder mucha importancia práctica
90
VI.B.4 Herramientas
multivariadas
91
Herramientas multivariadas
1. Introducción
2. Análisis de componentes principales
3. Análisis factorial
4. Análisis discriminante
5. MANOVA
92
Introducción



En el análisis multivariado se incluyen dos o más
variables dependientes Y1, Y2, etc. Consideradas
simultáneamente para las variables independientes
X1, X2, …., Xn
Normalmente se resuelven con herramientas
computacionales tales como Minitab y SPSS.
Entre las herramientas principales se encuentran:

Componentes principales, análisis factorial, análisis
discriminante, análisis de conglomerados, análisis
canónico, MANOVA
93
Análisis de componentes principales



El análisis (PCA) y el análisis factorial (FA) se usan
para encontrar patrones de correlación entre muchas
variables posibles y subconjuntos de datos
Busca reducirlas a un menor número de
componentes o factores que representen la mayor
parte de la varianza.
Normalmente se requieren al menos 100
observaciones y cinco observaciones por variable
94
Análisis de componentes principales

Pasos de análisis en Minitab





Se usa una matriz de correlación para determinar la
relación entre componentes
Las matrices definen cantidades como eigenvalores y
eigenvectores
Se suman los eigenvalores y se calculan las
proporciones de cada componente
Se identifican los PC1, PC2, … que explican la mayor
parte de la varianza
Se puede hacer un diagrama de Pareto como apoyo
95
Ejemplo: Alimentos en Europa
X1
País
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
RMEAT
10.1
8.9
13.5
7.8
9.7
10.6
8.4
9.5
18
10.2
5.3
13.9
9
9.5
9.4
6.9
6.2
6.2
7.1
9.9
13.1
17.4
9.3
11.4
4.4
X2
X3
WMEAT
1.4
14
9.3
6
11.4
10.8
11.6
4.9
9.9
3
12.4
10
5.1
13.6
4.7
10.2
3.7
6.3
3.4
7.8
10.1
5.7
4.6
12.5
5
X4
EGGS
0.5
4.3
4.1
1.6
2.8
3.7
3.7
2.7
3.3
2.8
2.9
4.7
2.9
3.6
2.7
2.7
1.1
1.5
3.1
3.5
3.1
4.7
2.1
4.1
1.2
MILK
8.9
19.9
17.5
8.3
12.5
25
11.1
33.7
19.5
17.6
9.7
25.8
13.7
23.4
23.3
19.3
4.9
11.1
8.6
24.7
23.8
20.6
16.6
18.8
9.5
X5
FISH
0.2
2.1
4.5
1.2
2
9.9
5.4
5.8
5.7
5.9
0.3
2.2
3.4
2.5
9.7
3
14.2
1
7
7.5
2.3
4.3
3
3.4
0.6
X6
CERL
42.3
28
26.6
56.7
34.3
21.9
24.6
26.3
28.1
41.7
40.1
24
36.8
22.4
23
36.1
27
49.6
29.2
19.5
25.6
24.3
43.6
18.6
55.9
X7
STARCH
0.6
3.6
5.7
1.1
5
4.8
6.5
5.1
4.8
2.2
4
6.2
2.1
4.2
4.6
5.9
5.9
3.1
5.7
3.7
2.8
4.7
6.4
5.2
3
X8 X9
NUTS
FR-VEG
5.5
1.7
1.3
4.3
2.1
4
3.7
4.2
1.1
4
0.7
2.4
0.8
3.6
1
1.4
2.4
6.5
7.8
6.5
5.4
4.2
1.6
2.9
4.3
6.7
1.8
3.7
1.6
2.7
2
6.6
4.7
7.9
5.3
2.8
5.9
7.2
1.4
2
2.4
4.9
3.4
3.3
3.4
2.9
1.5
3.8
5.7
3.2
96
Corrida en Minitab
2
3
Stat > Multivariate > Principal components
En Variables, X1, X2, X3, X4, X6, X7, X8, X9
4
En Number of factors to extract, 3. Seleccionar
Correlation Matrix
5 Click Graphs y seleccionar Scree Plot, Score plot for first
2 components Loading plot for first 2 components
8
Click Storage e indicar las columnas donde se guarden los
coeficientes y los valores Z (scores) Coef1 Coef 2 y Z1 Z2
9. Click OK en cada uno de los cuadros de diálogo
97
Ejemplo: Alimentos en Europa
Scree Plot of RMEAT, ..., FR-VEG
4
Loading Plot of RMEAT, ..., FR-VEG
WMEAT
0.1
1
0
1
2
3
4
5
6
Component Number
7
8
9
CERL
MILK
0.2
2
Second Component
Eigenvalue
3
EGGS
RMEAT
0.0
-0.1
NUTS
-0.2
-0.3
STARCH
-0.4
-0.5
Dos componentes exceden
El eigenvalor de ref. de 1
FR-VEG
-0.6
FISH
-0.7
-0.5
-0.4
-0.3
-0.2
-0.1
0.0
0.1
First Component
0.2
0.3
0.4
98
Ejemplo: Alimentos en Europa
Se tiene la gráfica siguiente de países:
Europa occidental
Europa oriental
Balcanes
Scatterplot of Z2 vs Z1
2
1
1
12
24
0
6
14
8
20
22
3
2
7
9
21
11
5
4
18
25
23
15
13
16
10
Z2
-1
-2
19
-3
-4
17
-5
-3
-2
-1
0
1
2
3
4
Z1
Península ibérica
99
Ejemplo: factores principales para
crecimiento tecnológico en la comunidad

Factores independientes





Miles de trabajadores en alta tecnología
Cultura emprendedora (inicios por año)
Interacciones con la universidad (proyectos por año)
Clases de creatividad (porcentaje de profesionales)
Cantidad de capital de aventura (millones de dólares)
100
Matriz de correlación del ejemplo
101
Resultados



La suma de los eigenvalores es aprox. cinco
La proporción de la varianza explicada por el
componente 1 es de 71.7%
PC1 y PC2 explican el 89.2% de la varianza, por
tanto son los componentes principales
102
Análisis factorial



Es una técnica de reducción de variables para
identificar factores que expliquen la variación,
aunque se reiere un juicio subjetivo.
Las variables de salida están relacionadas
linealmente con las variables de entrada.
Las variables deben ser medibles y simétricas. Debe
haber cuatro o más factores de entrada para cada
variable independiente
103
Análisis factorial

Se especifican un cierto número de factores comunes

El análisis factorial se hace en dos etapas:


Extracción de factores, para identificar los factores
principales para un estudio posterior
Rotación de factores, para hacerlos más significativos
104
Corrida con Minitab
2
3
4
En
6
7
Stat > Multivariate > Factor Analysis.
En Variables, X1, X2, X3, X4, X6, X7, X8, X9
En Number of factors to extract, 4.
Method of Extraction, seleccionar Principal components
En Type of Rotation, seleccionar Varimax.
Click Graphs y seleccionar Loading plot for first 2 factors
y Scree Plot.
Click Results y seleccionar Sort loadings.
Seleccionar Storage e indicar columnas para ponderaciones,
coeficientes, Z’s, eigenvalores, etc.
Click OK en cada uno de los cuadros de d
105
Loading Plot of RMEAT, ..., FR-VEG
CERL
0.50
Ejemplo
Second Factor
0.25
NUTS
FR-VEG
0.00
STARCH
FISH
WMEAT
-0.25
-0.50
MILK
EGGS
-0.75
RMEAT
-1.00
-0.50
-0.25
0.00
0.25
First Factor
0.50
0.75
Rotated Factor Loadings and Communalities
Varimax Rotation
Variable
X1 RMEAT
X2 WMEAT
X3 EGGS
X4 MILK
X5 FISH
X6 CERL
X7 STARCH
X8 NUTS
X9 FR-VEG
Variance
% Var
Factor1 Factor2 Factor3 Factor4 Communality
0.051
-0.931
0.014
0.037
0.871
0.943
-0.127
-0.100
0.050
0.918
0.628
-0.664
0.163
0.020
0.862
0.197
-0.610
0.219
0.579
0.795
-0.226
-0.088
0.921
-0.104
0.919
-0.395
0.549
-0.624
-0.145
0.867
0.515
-0.004
0.683
-0.026
0.732
-0.638
0.263
-0.326
-0.515
0.849
-0.010
0.003
0.178
-0.937
0.910
2.2054
0.245
2.0749
0.231
1.9273
0.214
1.5165
0.168
7.7240
0.858
106
1.00
Ejemplo:
Scatterplot of Z2 vs Z1
2
Yugoslavia
Portugal
1
Hungría
Polonia
Checa Alemania orien
Bulgaria Rusia
España
Albania
Z2
Rumania
Noruega
Finlandia
Italia
0
Holanda Autria
Dinamarca
Suecia
Alemania Occ
Bélgica
Grecia
-1
Suiza
Irlanda
Francia
-2
Reino Unido
-2
-1
0
1
2
Z1
107
Análisis discriminante



Si se tiene una muestra con grupos conocidos, el
análisis discriminante clasifica las observaciones o
atributos en dos o más grupos
Puede utilizarse como herramienta predictiva o
descriptiva
Las variables deben ser multivariadamente normales,
con la misma varianza y covarianza poblacional entre
variables dependientes, y las muestras exhiben
independencia
108
Ejemplo de actividades en países
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Grupo
1
1
1
1
1
1
1
1
1
1
1
2
1
2
2
1
1
2
3
3
3
3
3
3
3
3
Ciudad
Bélgica
Dinamarca
Francia
Alemania Occ.
Irlanda
Italia
Luxenburgo
Holanda
Inglaterra
Austria
Finlandia
Grecia
Noruega
Portugal
España
Suecia
Suiza
Turquía
Bulgaria
Checa
Alemania Ori.
Hungría
Polonia
Rumania
Rusia
Yugoslavia
Agr Min Man
3.3
0.9 27.6
9.2
0.1 21.8
10.8 0.8 27.5
6.7
1.3 35.8
23.2 1.0 20.7
15.9 0.6 27.6
7.7
3.1 30.8
6.3
0.1 22.5
2.7
1.4 30.2
12.7 1.1 30.2
13.0 0.4 25.9
41.4 0.6 17.6
9.0
0.5 22.4
27.8 0.3 24.5
22.9 0.8 28.5
6.1
0.4 25.9
7.7
0.2 37.8
66.8 0.7
7.9
23.6 1.9 32.3
16.5 2.9 35.5
4.2
2.9 41.2
21.7 3.1 29.6
31.1 2.5 25.7
34.7 2.1 30.1
23.7 1.4 25.8
48.7 1.5 16.8
Ps
0.9
0.6
0.9
0.9
1.3
0.5
0.8
1.0
1.4
1.4
1.3
0.6
0.8
0.6
0.7
0.8
0.8
0.1
0.6
1.2
1.3
1.9
0.9
0.6
0.6
1.1
Con
8.2
8.3
8.9
7.3
7.5
10.0
9.2
9.9
6.9
9.0
7.4
8.1
8.6
8.4
11.5
7.2
9.5
2.8
7.9
8.7
7.6
8.2
8.4
8.7
9.2
4.9
Ser Fin
19.1 6.2
14.6 6.5
16.8 6.0
14.4 5.0
16.8 2.8
18.1 1.6
18.5 4.6
18.0 6.8
16.9 5.7
16.8 4.9
14.7 5.5
11.5 2.4
16.9 4.7
13.3 2.7
9.7
8.5
14.4 6.0
17.5 5.3
5.2
1.1
8.0
0.7
9.2
0.9
11.2 1.2
9.4
0.9
7.5
0.9
5.9
1.3
6.1
0.5
6.4 11.3
Sps
26.6
32.2
22.6
22.3
20.8
20.1
19.2
28.5
28.3
16.8
24.3
11.0
27.6
16.7
11.8
32.4
15.4
11.9
18.2
17.9
22.1
17.2
16.1
11.7
23.6
5.3
Tc
7.2
7.1
5.7
6.1
6.1
5.7
6.2
6.8
6.4
7.0
7.6
6.7
9.4
5.7
5.5
6.8
5.7
3.2
6.7
7.0
8.4
8.0
6.9
5.0
9.3
4.0
109
Corrida con Minitab
2
Stat > Multivariate > Discriminant Analysis.
3
En Groups, poner SalmonOrigin.
4
En Predictors, poner Freshwater Marine. Click OK.
110
F unction 2
Corrida con Minitab
Canonical Discriminant Functions
3
2
1
3
1
0
GRUPO
-1
Grou p Cen troi ds
2
-2
3
-3
2
-4
1
-6
-4
-2
0
2
4
6
Function 1
111
Análisis de conglomerados
112
Análisis de conglomerados



Se usa para determinar agrupaciones o
clasificaciones de un conjunto de datos
Las personas se pueden agrupar por IQ, padres,
hábitos de estudio, etc.
Se trata de dar sentido a grandes cantidades de
datos de cuestionarios, ecnuestas, etc.
113
Ejemplo

Suponer que un estudio de
mercado trata de determinar
segmentos de mercado en
base a los patrones de
lealtad de marcas (V1) y
tiendas (V2), medidas del 0
al 10 en 7 personas (A-G).
Variables V1
V2
A
3
2
B
4
5
C
4
7
D
2
7
E
6
6
F
7
7
G
6
4
114
Corrida en Minitab

Stat > Multivariate Análisis > Cluster Observations
Distance Measured Euclidean Seleccionar Show
Dendogram OK
Dendrogram with Single Linkage and Euclidean Distance
3.16
Distance

2.11
1.05
0.00
1
2
3
4
Observations
5
6
7
115
Análisis de correlación canónico



Prueba la hipótesis de que los efectos pueden tener
causas múltiples y de que las causas pueden tener
efectos múltiples (Hotelling 1935)
Es como una regresión múltiple para determinar la
correlación entre dos conjuntos de combinaciones
lineales, cada conjunto puede tener varias variables
relacionadas.
La relación de un conjunto de variables dependientes
a un conjunto de variables independientes forma
combinaciones lineales
116
Análisis de correlación canónico


Se usan los más altos valores de correlación para los
conjuntos. Los pares de combinaciones lineales se
denominan variates canónicas con correlaciones
canónicas (Rc con valor mayor a 0.3)
Por ejemplo se quiere determinar si hay una
correlación entre las características de un ingeniero
industrial y las habilidades requeridas en la
descripción de puesto del mismo ingeniero.
117
Ejemplo: Statgraphics - coches
118
Ejemplo: Statgraphics - coches
119
Ejemplo: Statgraphics - coches
120
Ejemplo: Statgraphics - coches
121
Ejemplo: Statgraphics - coches
La primera correlación de 0.94 tiene correlaciones
canónicas asociadas:
U1 = 0.262 Engine Size + 0.127 Horsepower + 0.024
Length + 0.041 Wheelbase - 0.068 Width + 0.004 Rear
Seat + 0.658 Weight
V1 = 0.257 Mid Price – 0.097 * GPM Highway + 0.652
GPM City + 0.322 U Turn Space
Las variables están estandarizadas. Parece haber una
relación primaria entre peso del vehículo y las millas por
galón de rendimiento.
122
MANOVA
(Análisis de varianza múltiple)

Es un modelo para analizar la relación entre una o
más variables independientes y dos o más variables
dependientes


Prueba si hay diferencias significativas en las medias
de grupos de una combinanción de respuestas Y.
Los datos deben ser normales, con covarianza
homogenea y observaciones independientes
123
MANOVA
(Análisis de varianza múltiple)
124
Diferencias de ANOVA y MANOVA
125
Ejemplo:
Extrusión de película plástica



Se realiza un estudio para determinar las condiciones
óptimas para extruir película plástica.
Se miden tres respuestas – Tear, gloss y opacity –
cinco veces en cada combinación de dos factores –
tasa de extrusión y cantidad de aditivo – cada grupo
se pone en niveles bajos y altos.
Se utiliza el MANOVA balanceado para probar la
igualdad de las medias.
126
Ejemplo:
Extrusión de película plástica
Tear
6.5
6.2
5.8
6.5
6.5
6.9
7.2
6.9
6.1
6.3
6.7
6.6
7.2
7.1
6.8
7.1
7
7.2
7.5
7.6
Gloss
9.5
9.9
9.6
9.6
9.2
9.1
10
9.9
9.5
9.4
9.1
9.3
8.3
8.4
8.5
9.2
8.8
9.7
10.1
9.2
Opacity
4.4
6.4
3
4.1
0.8
5.7
2
3.9
1.9
5.7
2.8
4.1
3.8
1.6
3.4
8.4
5.2
6.9
2.7
1.9
Extrusión
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
Additive
1
1
1
1
1
2
2
2
2
2
1
1
1
1
1
2
2
2
2
2
127
Ejemplo:
Extrusión de película plástica
1
2
3
4
5
6
Abrir el archivo EXH_MVAR.MTW.
Seleccionar Stat > ANOVA > Balanced
MANOVA.
En Responses, poner Tear Gloss Opacity.
En Model, poner Extrusion | Additive.
Click Results. En Display of Results, seleccionar
Matrices (hypothesis, error, partial
correlations) y Eigen analysis.
Click OK en cada cuadro de diálogo.
128
Ejemplo
Criterion
Statistic
F
Num
Denom
P
0.38186
7.554
3
14
0.003
Wilks'
SSCP Matrix for Extrusion
Tear
Gloss
Opacity
Tear
1.740
-1.505
0.8555
Gloss
-1.505
1.301
-0.7395
0.855
-0.739
0.4205
Opacity
SSCP Matrix for Error
Tear
Gloss
Opacity
Tear
1.764
0.0200
-3.070
Gloss
0.020
2.6280
-0.552
-3.070
-0.5520
64.924
Opacity
Partial Correlations for the Error SSCP Matrix
1
2
3
Tear
0.6541
0.4315
0.0604
Gloss
-0.3385
0.5163
0.0012
0.0359
0.0302
-0.1209
Eigenvector
Opacity
129
Ejemplo:
Extrusión de película plástica
Las matrices SSCP evalúan la contribución a la
variabilidad de manera similar a la suma de
cuadrados en la ANOVA univariada.
Las correlaciones parciales entre Tear y Gloss son
pequeñas. Como la estructura de las correlaciones es
débil, se pueden realizar análisis univariados de
ANOVA para cada una de las respuestas.
130
VI.B.5 Análisis de datos
por atributos
131
Análisis de datos por atributos

Si los CTQ’s son variables continuas, se usa la
regresión, dependiendo de la naturaleza de la
característica crítica para el cliente (CTS’s) como éste
la expresa:
CTS
HERRAMIENTA
Nominal (Verde, Rojo, azul) Regresión Logística Nominal
Atributo (Pasa/No pasa)
Regresión Logística Binaria
Ordinal (1, 2, 3, 4, 5)
Regresión Logística Ordinal
132
Análisis de datos por atributos



El análisis de datos por atributos se organiza en
valores, categorías o grupos dicotómicos
Las decisiones incluyen: si / no, pasa / no pasa,
bueno / malo, pobre/justo/bueno/superior/excelente,
etc.
Entre los modelos no lineales de regresión usados se
tienen: regresión logística, regresión logit y regresión
probit
133
Análisis de datos por atributos

Regresión logística


Relaciona variables independientes categóricas a una
variable dependiente (Y). Minitab incluye los modelos
binario, ordinal y nominal
Regresión logit

Es subconjunto del modelo log-lineal. Tiene solo una
variable dependiente, usa determinaciones de
probabilidad o tasa de probabilidad
134
Análisis de datos por atributos

Regresión probit

Es similar a la prueba de vida acelerada, la unidad se
somete a esfuerzo con la respuesta pasa/falla, bueno o
malo. Es una respuesta binaria en un tiempo de falla
futuro
135
Regresión logística o binaria
• En caso de información cualitativa es necesario
traducir las preferencias del cliente expresadas como
atributos a un intervalo de valores aceptables de
variables (Especificaciones).
136
Regresión logística o binaria


Es similar a la regresión múltiple excepto que la
respuesta es binaria (si/no, bueno/malo, etc.) Sus
coeficientes se determinan por el método de máxima
verosimilitud
Su función tiene forma de “S”, con valores máximos
de Cero y Uno.
Yi = 0, 1
137
Regresión logística o binaria



La probabilidad de que el resultado esté en cierta
categoría es:
El método de cálculo del coeficiente b es diferente
que en la regresión lineal
Los coeficientes se determinan con la relación sig.:
P ( evento )
P ( no evento )
e
B0
 B1 X 1  B 2 X 2  ....  B n X n
138
Regresión logística

Condiciones:







Hay solo dos resultados posibles
Hay solo un resultado por evento
Los resultados son independientes estadísticamente
Todos los predictores relevantes están en el modelo
Es mutuamente exclusivo y colectivamente exhaustivo
Los tamaños de muestra son mayores que para la
regresión múltiple
Los efectos positivos se obtienen con b1>1 y los
negativos con b1 e 0 a 1
139
Regresión logística
Relación con ajuste pobre
Relación con buen ajuste
140
Regresión logística - Procedimiento






Definir el atributo a “traducir” (“y”)
Definir la variable apropiada para el atributo (“x”)
Definir el modelo matemático a probar
Determinar los defectos que está dispuesto a
aceptar
Recolecte información de “x” vs “y”. Asigne 1 si falla
y 0 si es aceptable.
Analice la información mediante Regresión Logística
Binaria
141
Regresión logística- Procedimiento
142
Regresión logística - Procedimiento
Coeficientes del modelo
P-Value de Deviance


Observe el P-Value de “Deviance” en la Sesión, debe
de ser grande (P >0.10)
Obtenga los coeficientes del modelo (De la Sesión)
143
Regresión logística - Procedimiento
•
Construya el modelo de regresión
probabilidad de falla estará dado por :
b +b x +....
e
P(Falla) =
b +b x +....
1+e
0
1 1
0
•
1 1
para
la
Donde :
b0, b1, ... = Coeficientes del modelo
Identifique el(los) valor(es) de “x” que le generarán
como máximo la cantidad de defectos que usted
está dispuesto a aceptar [4]
144
Ejemplo de riesgo de paro cardiaco
Logistic Regression Table
Odds
95% CI
SE Coef
Z
P Ratio Lower Upper
1.67930 -1.18 0.237
Predictor
Coef
Constant -1.98717
Fuma
Si
-1.19297 0.552980 -2.16 0.031 0.30 0.10 0.90
Peso
0.0250226 0.0122551 2.04 0.041 1.03 1.00 1.05

Para Fuma, el coeficiente negativo de -1.193 y la tasa de
posibilidades de 0.30, indica que quien fuma, tiende a tener una
tasa de pulso más alta que los sujetos que no fuman. Si los
sujetos tienen el mismo peso, las posibilidades de que los
fumadores tengan un pulso bajo sea sólo del 30% de las
posibilidades de que los no fumadores tengan un pulso bajo.
145
Regresión logística ordinal
•
Cuando la respuesta ó CTS es de tipo ordinal (Varias
categorías de respuesta como “totalmente de
acuerdo”, “de acuerdo”, “en desacuerdo” y
“totalmente en desacuerdo”) y el Factor ó CTQ es de
naturaleza continua, entonces, para definir
Especificaciones, la herramienta a utilizar es la
Regresión Logística Ordinal.
146
Regresión logística ordinal Procedimiento






Defina la variable de respuesta a “traducir” (“y” ó
CTS)
Defina el CTQ (“x”) ó variable a relacionar con el
CTS
Defina el modelo matemático a probar
Determine los defectos que está dispuesto a aceptar
en la categoría de interés
Recolecte información de “x” vs “y”
Analice la información mediante Regresión Logística
Ordinal
147
Regresión logística ordinal Procedimiento

Stat > Regression > Ordinal Logistic Regression


Seleccione la respuesta (“y”)
Seleccione los términos que estima tiene el modelo
[3]
Constantes y
Coeficientes
del modelo
148
Regresión logística ordinal Procedimiento



Observe el P-Value de “Deviance” en la Sesión, debe
de ser grande (P >0.10)
Obtenga las constantes y coeficientes del modelo
(De la Sesión)
Construya los modelos de regresión para la
probabilidad acumulada por categoría
149
Regresión logística ordinal Procedimiento
P acumulada
K +b x + b x ....
e
=
K +b x + b x ....
1+e
hasta categoría
i
i
1 1
i
1 1
2 2
2 2
Donde :
Ki = Constante de la categoría i
b1, b2, ... = Coeficientes del modelo
Constantes y
Coeficientes
del modelo
•
Identifique el(los) valor(es) de “x” que le generarán como máximo la
cantidad de defectos que usted está dispuesto a aceptar en la
categoría de interés [4]
150
Regresión logística ordinal Procedimiento
LIE LSE
Otra
Expectativas
(CTS’s)
Especificaciones
Tipo
Importan.
CTQs
Producto
(General)
Matriz de
Diseño
Una vez que se tienen establecidos los CTQs con los
que se medirá el desempeño del producto, es
necesario indicar las Especificaciones de los mismos
Parámetros
de Diseño
(DPs)

Clientes
Usuarios
Finales
Producto
(Específico)
151
Análisis Logit



Usa razones para determinar que tanta posibilidad
tiene una observación de pernecer a un grupo que a
otro.
Una posibilidad de 0.8 de estar en el grupo A se
puede expresar como una tasa de posibilidades de
4:1 ( que es p/(1-p)), cuyo logaritmo es el logit.
La probabilidad para un valor L está dado por la
ecuación
152
Análisis Logit - ejemplo
50 estudiantes tomaron un examen, donde solo 27 pasaron.
¿Cuáles son las posibilidades de pasar?
Posibilidades = P/(1-P) = 0.54/0.46 = 1.17 o 1.71:1
Un estudiante que estudia 80 horas tiene un 54.5% de pasar,
¿cuáles son las posibilidades?
Posibilidades = 0.545/(1-0.545) = 1.198 o 1.198:1
Logit = ln(p/(1-p)) = ln(1.189) = 0.1809 y despejando al
Exp(b1) = exp(0.1082) = 1.11 que es la tasa de pasar a otro nivel
153
Análisis Probit



Es similar a las pruebas de vida acelerada y análisis
de sobrevivencia. Un artículo sujeto a esfuerzo puede
fallar o sobrevivir. El modelo probit tiene un valor
esperado de 0 y una varianza de 1.
Requiere tamaños de muestra muy grandes para
diferenciarse del modelo logit
Los coeficientes b del modelo logit difieren del probit
en 1.814 con: bl = -1.1814 bp
154
VI.C.7 Pruebas de bondad de
ajuste
155
Bondad de ajuste
PRUEBAS DE BONDAD DE AJUSTE
Medidas sobre que tan cerca se ajustan los datos muestrales observados a una forma
de distribución particular planteada como hipótesis
Si el ajuste es razonablemente cercano, puede concluirse que sí exite la forma de distribución
planteada como hipótesis
Por ejemplo:
Ho: La distribución poblacional es uniforme
Ha: La distribución poblacional no es uniforme
Se usa el estadístico Chi-Cuadrado
(Oi  Ei) 2
 
Ei
i 1
K
2
Oi = Frecuencia de los eventos observados en los datos muestrales
Ei = Frecuencia de los eventos esperados si la hipótesis nula es correcta
Para que la prueba sea confiable Ei >= 5. De otra forma se combinan las categorias para
cumplir con este requisito.
K = Número de categorías o clases
156
Bondad de ajuste
Ejemplo:
Se venden n = 48 botes en 4 meses. Si la demanda es uniforme se esperaría que se vendieran
12 botes / mes. La cantidad real que se vendió fue:
Ventas (Oi) Ventas (Ei)
Tipo de bote observadas esperadas
A
15
12
B
11
12
C
10
12
D
12
12
DISTR.CHI
Entonces el estadístico Chi Cuadrado de la muestra es = 1.17 el valor P corresp.=
0.76020818
El Chi Cuadrado de excel se determina con alfa = 0.05 y K - 1 grados de libetad = 3
Chi cuadrado de excel = 7.815
El estadístico Chi cuadrado calculado de 1.17 es menor al de excel de 7.815 por tanto se acepta
la hipótesis nula
PRUEBA.CHI.INV
157
Prueba de Bondad de ajuste
para la distribución de Poisson
1. Plantear la hipótesis nula y alterna
Ho: La población tiene una distribución de prob. De Poisson
Ha: Caso contrario
2. Tomar una muestra aleatoria, anotar la frecuencia observada fi y
calcular la media de ocurrencias 
3. Calcular la frecuencia esperada de ocurrencias ei. Multiplicar el
tamaño de muestra con la prob. de Poisson para cada valor de
la variable aleatoria. Si hay menos de 5 combinar las categorías
n
4. Calcular el estadístico de prueba
5. Rechazar Ho si
significancia

2
 
2

2


i 1
( f i  ei )
2
ei
o si p < alfa. Con gl=k-p-1 y alfa nivel de
158
Ejemplo:
Distribución de Poisson =5
Ho: No. de clientes que llega en intervalos de 5 min. tiene una distribución
de Poisson
Ha: No se sigue una distribución de Poisson
Clientes
Frec. observada
f(x) de Poisson
128*f(x) cantidad
esperada
0
2
0.0067
0.8576
1
8
0.0337
4.3136
2
10
0.0842
10.7776
3
12
0.1404
17.9712
4
18
0.1755
22.4640
5
22
0.1755
22.4640
6
22
0.1462
18.7136
7
16
0.1044
13.3662
8
12
0.0653
8.3584
9
6
0.0363
4.6464
0.0318
4.0704
10 o más
159
Ejemplo:
Distribución de Poisson =5
Combinando X=0,1 y X=9, 10 o más para que la frecuencia observada sea
mayor a 5 y se pueda aplicar la distribución Chi Cuadrada se tiene
Clientes
Frec. Observada
(fi)
f(x) de Poisson
128*f(x)
frecuencia
esperada (ei)
0o1
10
0.0067+0.0337
5.1712
2
10
0.0842
10.7776
3
12
0.1404
17.9712
4
18
0.1755
22.4640
5
22
0.1755
22.4640
6
22
0.1462
18.7136
7
16
0.1044
13.3662
8
12
0.0653
8.3584
9 o más
6
0.0363+0.0318
8.7168
160
Estadístico y conclusión
Con los datos anteriores se calcula el estadístico Chi cuadrada que
se compara con Chi Cuadrada de alfa para k-p-1 grados de
libertad (K – categorías: 9, p – parámetros a estimar: 1 media).
n

2


i 1
( f i  ei )
2
ei
2
2
Ho se rechaza si     o si p es mayor que alfa.
El valor de Chi Cuadrada calculado es de 10.9766 y el valor Chi
Cuadrada de alfa 0.05 con 2 gl. Es de 14.07 no se rechaza Ho
En este caso p = 0.14 > 0.05 por tanto no se rechaza Ho y se
concluye que los datos siguen una distribución de Poisson
161
Prueba de Bondad de ajuste
para la distribución Normal
1. Plantear la hipótesis nula y alterna
Ho: La población tiene una distribución de prob. Normal
Ha: Caso contrario
2. Tomar una muestra aleatoria, calcular la media  y la desviación
estándar
3. Definir K intervalos de valores de forma que la frecuencia
esperada sea 5 cuando menos para cada uno (intervalos de
igual probabilidad). Anotar la frecuencia observada de los
valores de datos fi, en cada intervalo
162
Prueba de Bondad de ajuste
para la distribución Normal
4. Calcular el número de ocurrencias esperado ei, para cada
intervalo de valores. Multiplicar el tamaño de muestra por la
probabilidad de que una variable aleatoria esté en el intervalo.
5. Calcular el estadístico de prueba
6. Rechazar Ho si 
de significancia
2
 
2
n

2


i 1
( f i  ei )
2
ei
o si p < alfa. Con gl=k-p-1 y alfa nivel
163
Prueba de Bondad de ajuste
para la distribución Normal

Ejemplo: datos de calificaciones: Media = 68.42; S = 10.41
Calificaciones
71
66
61
65
54
93
60
86
70
70
73
73
55
63
56
62
76
54
82
79
76
68
53
58
85
80
56
61
61
64
65
62
90
69
76
79
77
54
64
74
65
65
61
56
63
80
56
71
79
84
164
Prueba de Bondad de ajuste
para la distribución Normal
Ho: la población tiene una distribución normal con media 68.42 y
S=10.41 Ha: Caso contrario
Para una muestra de 50 con una frecuencia mínima esperada de 5
se tiene el 10% al menos por cada celda
La primera celda correspondiente al 10% está en Z = -1.28 con
X = (Media - Z*S) = 55.10
Para el área del 20%, Z = -0.84 y X = 59.68
y así sucesivamente
165
Prueba de Bondad de ajuste
para la distribución Normal
Intervalo
Frecuencia
observada (fi)
Frecuencia
esperada (ei)
Menos de
55.10
5
5
55.10 a 59.68
5
5
59.68 a 63.01
9
5
63.01 a 65.82
6
5
65.82 a 68.42
2
5
68.42 a 71.02
5
5
71.02 a 73.83
2
5
73.83 a 77.16
5
5
77.16 a 81.74
5
5
81.74 o más
6
5
50
50
Se registran las
frecuencias de
los datos
tomados de las
calificaciones
166
Prueba de Bondad de ajuste
para la distribución Normal

Se determina el estadístico Chi Cuadrado = 7.2
n

2


( f i  ei )
ei
i 1


2
El Valor de Chi Cuadrado de alfa = 0.10 para k – p – 1 grados
de libertad. K = 10 categorías, p = 2 parámetros. Gl = 7. Chi
Cuadrado es 12.017
Como 
 
no se puede rechazar la hipótesis nula de
normalidad de las calificaciones
2
2
167
Prueba de Bondad de ajuste
para la distribución Multinomial
1. Enunciar la hipótesis nula y alternativa
Ho: La población sigue una distribución de probabilidad
multinomial con probabilidades especificadas para cada una de
las K categorías
Ha: Caso contrario
2. Tomar una muestra aleatoria y anotar las frecuencias
observadas fi para cada categoría
3. Suponiendo que Ho es cierta, determinar la frecuencia esperada
ei, en cada categoría multiplicando la probabilidad de la
categoría por el tamaño de muestra
168
Prueba de Bondad de ajuste
para la distribución Multinomial
4. Se determina el estadístico Chi Cuadrado de prueba
n

2


( f i  ei )
2
ei
i 1
5. Regla de rechazo:
Si

2
 
2
no se puede rechazar la hipótesis nula
Rechazar si el valor p es menor a alfa
Con alfa nivel de significancia y los grados de libertad son k-1
169
Prueba de Bondad de ajuste
para la distribución Multinomial
Ejemplo: El año pasado la participación de mercado para la
empresa A fue del 30%, 50% para la empresa B y 20% para la
empresa C. La empresa C hace una prueba con un nuevo
producto para estimar su impacto en las preferencias del
mercado.
Se tomó una muestra de 200 clientes resultando preferencias de
compra de: 48 para A, 98 para B y 54 para C.
De acuerdo a las probabilidades esperadas, en los 200 clientes las
preferencias esperadas son: A=200*0.3=60, B=200*0.5=100,
C=200*0.2=40
170
Prueba de Bondad de ajuste
para la distribución Multinomial
Datos para calcular el estadístico de prueba Chi Cuadrado
Categoría
Proporción
hipotética
Frecuencia
observada
Frecuencia
esperada
Empresa A
0.3
48
60
Empresa B
0.5
98
100
Empresa C
0.2
54
40
171
Prueba de Bondad de ajuste
para la distribución Multinomial
Chi Cuadrado calculado = 7.34
Chi cuadrado de alfa = 0.05 con k – 1 = 2 grados de libertad = 2
es de 5.99. El valor p correspondiente es de 0.025.
Como 7.34 es mayor a 5.99 o el valor p de 0.025 es menor a alfa
de 0.05 se rechaza la hipótesis nula Ho y se concluye que el
nuevo producto modificará las preferencias del mercado
actuales
La participación de la empresa C aumenta con el nuevo producto
172
Prueba de Bondad
de ajuste en Minitab
La columna C1 – Observadas contiene las frecuencias observadas
y la C2 – esperadas las frecuencias esperadas
Calc > Calculator > Store result in variable ChiCuadrada
Teclear en el cuadro de expresión sum((ObservadasEsperadas)**2/Esperadas)
Calc > Probability distributions > Chi Square
Seleccionar Cummulative probability
Degrees of freedom 2
Input column ChiCuadrada; Optional Storage CumProb OK
Calc > Calculator > Store results in variable p
En el cuadro Expression teclear 1-CumProb
OK
173
Prueba de Bondad
de ajuste en Minitab

Ejemplo: investigación de mercado
Observadas Esperadas ChiCuadrada
48
60
98
100
54
40
7.34
CumProb
p
0.974524
0.0254765
174
Prueba de Bondad
de ajuste en Excel

Ejemplo: investigación de mercado
1. Calcular el estadístico Chi Cuadrada con =(A2-B2)^2/B2 y Suma
Chi cuadrada = 7.34
2. El valor P es =distr.chi(7.34, 2)
3. El estadístico Chi Cuadrada de alfa es:
=prueba.chi.inv(0.05,2) = 5.99
4. Como p es menor a alfa de 0.05 se rechaza la Ho
175
VI.C.8 Tablas de contingencia
Prueba
2
(
2)
Chi 
176
¿Para qué se utiliza?
1. Para probar si una serie de datos
observada, concuerda con el modelo (serie
esperada) de la información.
2. Para probar las diferencias entre las
proporciones de varios grupos (tabla de
contingencia).
Para todos los casos,
Ho: No hay diferencia
Ha: Hay diferencia
2

177
Ejemplo 1: Chi Cuadrada(
2
)
Se lanza una moneda al aire 100 veces y que
obtenemos 63 águilas y 37 soles.
¿La proporción de águilas y soles sucede por
casualidad? O, se concluye que la moneda está
“cargada”?
Ho: La moneda es buena
Ha: La moneda “está cargada”
178
Ejemplo 1: Chi Cuadrada(
Observada
Esperada
2
)
(fo - fe)2
fe
( fo )
( fe )
Aguilas
63
50
3.38
Soles
37
50
3.38
 2 = 3.38 + 3.38
 2 = 6.76
Estadístico Chi Cuadrada
 2 c=
g

j=1
(fo - fe)2
fe
179
Ejemplo 1: Chi cuadrada
Función de Distribución Acumulada Chi2 con 1 grado de
libertad (d.f)
2c
P(2c > x)
6.7600
p = 1 - 0.9907 = 0.0093
De tablas X2Crítica, (0.05, 1) = 3.8414
Ho: La moneda es buena.
Ha: La moneda está “cargada”.
Para un 95% de confianza antes de concluir que la moneda “está
cargada”, se requiere que X2c > X2Crítica o que el valor de p sea 
0.05.
Como p  0.05, se puede concluir -con un 95% de confianza que la moneda “está cargada”.
180
Cálculo en Excel del estadístico Chi cuadrada
1. Posicionarse en una celda vacía
2. Accesar el menú de funciones con Fx
3. Seleccionar STATISTICAL o ESTADÍSTICAS, CHIINV.
4. Dar valores de probabilidad (0.05) y grados de libertad,
normalmente (n - 1) para un parámetro o (# de renglones -1)
* (# de columnas - 1) para el caso de tablas de proporciones.
181
Tabla de Valores Críticos Seleccionados de Chi2
df
.250
.100
.050
.025
.010
.005
.001
1
2
3
4
5
1.323
2.773
4.108
5.385
6.626
2.706
4.605
6.251
7.779
9.236
3.841
5.991
7.815
9.488
11.070
5.024
7.378
9.348
11.143
12.832
6.635
9.210
11.345
13.277
15.086
7.879
10.597
12.838
14.860
16.750
10.828
13.816
16.266
18.467
20.515
6
7
8
9
10
7.841
9.037
10.219
11.389
12.549
10.645
12.017
13.362
14.684
15.987
12.592
14.067
15.507
16.919
18.307
14.449
16.013
17.535
19.023
20.483
16.812
18.475
20.090
21.666
23.209
18.548
20.278
21.955
23.589
25.188
22.458
24.322
26.125
27.877
29.588
11
12
13
14
15
13.701
14.845
15.984
17.117
18.245
17.275
18.549
19.812
21.064
22.307
19.675
21.026
22.362
23.685
24.996
21.920
23.337
24.736
26.119
27.488
24.725
26.217
27.688
29.141
30.578
26.757
28.300
29.819
31.319
32.801
31.264
32.909
34.528
36.123
37.697
16
17
18
19
20
19.369
20.489
21.605
22.718
23.828
23.542
24.769
25.989
27.204
28.412
26.296
27.587
28.869
30.144
31.410
28.845
30.191
31.526
32.852
34.170
32.000
33.409
34.805
36.191
37.566
34.267
35.718
37.156
38.582
39.997
39.252
40.790
43.312
43.820
45.315
21
22
23
24
25
24.935
26.039
27.141
28.241
29.339
29.615
30.813
32.007
33.196
34.382
32.671
33.924
35.172
36.415
37.652
35.479
36.781
38.076
39.364
40.646
38.932
40.289
41.638
42.980
44.314
41.401
42.796
44.181
45.558
46.928
46.797
48.268
49.728
51.179
52.620
26
27
28
29
30
30.434
31.528
32.620
33.711
34.800
35.563
36.741
37.916
39.087
40.256
38.885
40.113
41.337
42.557
43.773
41.923
43.194
44.461
45.722
46.979
45.642
46.963
48.278
49.588
50.892
48.290
49.645
50.993
52.336
53.672
54.052
55.476
56.892
58.302
59.703
40
50
60
45.616
56.334
66.981
51.805
63.167
74.397
55.758
67.505
79.082
59.342
71.420
83.298
63.691
76.154
88.379
66.766
79.490
91.952
73.402
86.661
99.607
70
80
90
100
77.577
88.130
98.650
109.141
85.527
96.578
107.565
118.498
90.531
101.879
113.145
124.342
95.023
106.629
118.136
129.561
100.425
112.329
124.116
135.807
104.215
116.321
128.299
140.169
112.317
124.839
137.208
149.449

182
Tabla de contingencia



Una tabla de clasificación de dos vías (filas y columnas) que
contiene frecuencias originales, se puede analizar para
determinar si las dos variables (clasificaciones) son
independientes o tienen una asociación significativa.
La prueba Chi Cuadrada probará si hay dependencia entre las
dos clasificaciones.
Además se puede calcular el coeficiente de contingencia
(correlación) que en todo caso muestra la fuerza de la
dependencia
183
Tabla de contingencia


Para esta prueba se usa la prueba Chi Cuadrada donde:
Entre mayor sea su valor, mayor será la diferencia de la
discrepancia entre frecuencias observadas y teóricas. Esta
prueba es similar a la de bondad de ajuste.
184
Tabla de contingencia



Ejemplo: Cada una de las 15 celdas hace una contribución al
estadístico Chi Cuadrado (una celda)
Asumiendo Alfa = 0.1 y Gl= (reng – 1)*(Col – 1) = 4*2 = 8 ChiCuadrado de alfa = 20.09
Como Chi Cuadrada calculada >> Chi C. Alfa, se rechaza Ho de
igualdad de resultados entre negocios
185
Ejemplo 2: Chi2 Para comparación de dos
grupos; ¿son las mismas proporciones?)
Ho: No existen diferencias en los índices de defectos de las dos máquinas.
Ha: Existen diferencias en los índices de defectos de las dos máquinas.
Los valores observados (fo) son los siguientes:
Partes buenas
Partes defectuosas
máquina 1
fo = 517
fo = 17
Total = 534
máquina 2
fo = 234
fo = 11
Total = 245
751
28
Total
779
El índice de defectos totales es 28 / 779 = 3.6%
186
Ejemplo 2: Chi2 Para comparación de dos
grupos; ¿son las mismas proporciones?)
Cálculo de los valores esperados
Partes buenas
Partes defectuosas
máquina 1
fo = 751*534/779
fo = 28*534/779
Total = 534
máquina 2
fo = 751*245/779
fo = 28*245/779
Total = 245
Basados en este índice, los valores esperados (fe) serían:
máquina 1
Partes
buenas
530.53
máquina 2
233.47
779
Partes defectuosas
3.47
1.53
187
Prueba de chi cuadrada:
Los conteos esperados están debajo de los conteos observados
Partes buenas
Partes Defectuosas
Total
1
532
2
534
530.53
3.47
2
Total
232
233.47
764
3
1.53
5
235
769
Chi2 = 0.004 + 0.624 + 0.009 + 1.418 = 2.056
DF= 1; valor de p = 0.152
2 celdas con conteos esperados menores a 5.0
Nota: Chi cuadrada no podrá aplicarse en los casos donde los conteos seas menores a 5 en  20%
de celdas.
Si cualquiera de los conteos esperados en las celdas es menor a uno, no deberá usarse Chi2.
Si algunas celdas tienen un conteo menor a los esperados, ya sea combinando u omitiendo
renglones y/o columnas, las categorías pueden ser de utilidad.
188
Tabla de Chi2
Tabla de valores críticos seleccionados para Chi2
DF
.250
.100
.050
1
2
3
4
5
1.323
2.773
4.108
5.385
6.626
2.706
4.605
6.251
7.779
9.236
3.841
5.991
7.815
9.488
11.070
6
7
8
9
10
7.841
9.037
10.219
11.389
12.549
10.645
12.017
13.362
14.684
15.987
11
12
13
14
15
13.701
14.845
15.984
17.117
18.245
16
17
18
19
20
19.369
20.489
21.605
22.718
23.828

.025
.010
.005
5.024
7.378
9.348
11.143
12.832
6.635
9.210
11.345
13.277
15.086
7.879
10.597
12.838
14.860
16.750
10.828
13.816
16.266
18.467
20.515
12.592
14.067
15.507
16.919
18.307
14.449
16.013
17.535
19.023
20.483
16.812
18.475
20.090
21.666
23.209
18.548
20.278
21.955
23.589
25.188
22.458
24.322
26.125
27.877
29.588
17.275
18.549
19.812
21.064
22.307
19.675
21.026
22.362
23.685
24.996
21.920
23.337
24.736
26.119
27.488
24.725
26.217
27.688
29.141
30.578
26.757
28.300
29.819
31.319
32.801
31.264
32.909
34.528
36.123
37.697
23.542
24.769
25.989
27.204
28.412
26.296
27.587
28.869
30.144
31.410
28.845
30.191
31.526
32.852
34.170
32.000
33.409
34.805
36.191
37.566
34.267
35.718
37.156
38.582
39.997
39.252
40.790
43.312
43.820
45.315
.
.001
189
Problema: Fugas
Beneficios Potenciales: $10,000 de ahorro en retrabajos, y en la
reducción de tiempo de ciclo.
Variación en familias a probar
Operador a operador
Ho: No existe diferencia en los índices de defecto de los diferentes
operadores
Ha: Existe diferencia en los índices de defecto de los diferentes
operadores
Máquina a máquina
Ho: No existe diferencia en los índices de defecto de las diferentes
máquinas
Ha: Existe diferencia en los índices de defecto de las diferentes
máquinas
Tamaño de la muestra:
5000 + total de oportunidades (172 piezas)
190
Prueba de chi2 (máquina a máquina)
Los conteos esperados están colocados debajo de los conteos observados
Con fugas
Sin fugas
Total
1
30
610
640
32.11
607.89
2
235
223.38
4217
4228.62
4452
3
3
12.84
253
243.16
256
4
18
17.66
334
334.34
352
5414
5700
Total
286
Chi2 = 0.139 + 0.007 + 0.604 + 0.032 + 7.546 + 0.399 + 0.006 +
0.000 = 8.734
DF= (4-1)(2-1) = 3; valor P = 0.033
191
Prueba de chi2 (operador a operador)
Los conteos esperados están colocados debajo de los conteos observados.
Con gotera Sin gotera
Total
1
6
122
128
6.61
121.39
2
1
6.61
127
121.39
128
3
200
208.55
3836
3827.45
4036
4
54
13.23
202
242.77
256
5
5
36.38
699
667.62
704
6
12
6.61
278
116
121.39
5102
128
Total
5380
Chi2 = 0.057 + 0.003 + 4.765 + 0.260 + 0.351 + 0.019 +125.666 + 6.847 + 27.065 + 1.475
+ 4.386 + 0.239 = 171.132
DF= 5; valor P = 0.000
192
¿Qué sucede si los grupos múltiples de variación son estadísticamente significativos?
(en este caso, operador a operador y máquina a máquina)
Se utiliza un procedimiento denominado “Coeficiente de Contingencia” como clave
para determinar qué grupo de variación debe investigarse primero.
Chi Cuadrada
Coeficiente de
Contingencia
x 100
N
Chi2
N
CC
Máquina
8.734
5700
0.15
Operador
171.132
5380
3.18
Controlador Mayor
SI el tamaño de la muestra (N), es similar para los grupos. Al dividir entre N,
probablemente, llevará a la misma ruta que hubiera alcanzado con sólo ver la
estadística Chi2.
Sin embargo, si N tiene una variación considerable, dependiendo del grupo de
variación que se investiga, el coeficiente de contingencia puede ser una herramienta
valiosa para determinar la prioridad sobre qué grupo debe investigarse primero.
193
¿Qué sucede si los grupos múltiples de variación son estadísticamente significativos?
(en este caso, operador a operador y máquina a máquina)
Ahora que la información nos
ha llevado a investigar a los
Con gotera Sin gotera
Total
grupos de operador a
1
6
122
128
operador. ¿Qué debemos
6.61
121.39
hacer ahora?
Encontremos cuál de los
2
1
127
128
operadores estaban fuera del
6.61
121.39
estándar.
¿Era alguno de ellos
3
200
3836
4036
notablemente peor (o mejor)
208.55
3827.45
que el resto?
Mucho peor que
lo esperado
4
54
13.23
202
242.77
256
Mucho mejor que
lo esperado
5
5
36.38
699
667.62
704
6
12
6.61
116
121.39
128
(Estos mismos operadores fueron quienes
tuvieron los números más grandes de chi2)
194
Operador a operador: = 0.000
Rechace
Ho y acepte Ha
(Existe una diferencia significativa entre los operadores)
Los operadores 4 y 5 están fuera del estándar:
El operador 4 es notablemente peor que el resto,
El operador 5 es notablemente mejor que los demás
¿Cuál es el próximo paso? Hable con todos los operadores para averiguar qué diferencias
pueden existen en sus técnicas.
El operador 4 no tenía experiencia en este tipo de trabajo y apenas se estaba acostumbrado a
soldar este producto en particular.
El operador 5 encontró un modo de mejor de hacer el ensamble, con lo cual consiguió mejorar
el trabajo de soldadura, aunque esto mostraba un grado de dificultad ergonómica. Se añadió
un colocador para ensamblar la parte en forma segura. (Esto también redujo el tiempo que
requerían los operadores para “acostumbrarse” a trabajar en esta forma)
195
Ejercicios
1. Se quiere evaluar la habilidad de tres inspectores de rayos
X en un aeropuerto para detectar artículos clave. Como
prueba se pusieron radios de transistores en 90 maletas,
cada inspector fue expuesto a 30 maletas conteniendo radios
mezcladas entre otras que nos los contenían. Los resultados
se resumen a continuación:
Inspectores
1
2
3
Radios detectados
Radios no detectados
27
3
25
5
22
8
¿Con un 95% de confianza, existe una diferencia entre los
inspectores?
Ho: p1 = p2 = p3; Ha: al menos una es diferente
Grados de libertad = (columnas - 1) ( filas -1)
196
Ejercicios
1. Se quiere evaluar si hay preferencia por manejar en un
carril de una autopista dependiendo de la hora del día. Los
datos se resumen a continuación:
Carril
Izquierdo
Central
Derecho
Hora del día
1:00
3:00
44
37
28
50
8
13
5:00
18
72
30
¿Con un 95% de confianza, existe una diferencia entre las
preferencias de los automovilistas dependiendo de la hora?
Ho: P1 = P2 = P3; Ha: al menos una es diferente
Grados de libertad = (columnas - 1) ( filas -1)
197
Coeficiente de Contingencia

Coeficiente de contingencia es el grado de relación o
dependencia de las clasificaciones en la tabla de contingencias
es:
C 
X
2
X

2
2
 N
Donde N es la frecuencia total y X es el estadístico Chi
Cuadrado calculado
198
Coeficiente de Contingencia

Para los datos del ejemplo anterior se tiene:
C 
X
2
X

2
2
 N
2
66 . 22
66 . 22
2
2
 393
 0 . 38
El valor máximo de C se obtiene de:
Max C 
k 2
k

82
 0 . 866
8
199
Correlación de atributos

Para tablas de orden k * k, el coeficiente de correlación, r, es :
r 

X
2
N ( k  1)
Donde 0<= r <= 1
200
VI.C.9 Pruebas de Hipótesis
no paramétricas
201
Pruebas no paramétricas




Las pruebas paramétricas asumen una distribución para la
población, tal como la Normal
Las pruebas no paramétricas no asumen una distribución
específica de la población
Bajo los mismos tamaños de muestra la Potencia o probabilidad
de rechazar Ho cuando es falsa es mayor en las pruebas
paramétricas que en las no paramétricas
Una ventaja de las pruebas no paramétricas es que los
resultados de la prueba son más robustos contra violación de
los supuestos
202
Prueba de Hipótesis
Atributo
Variable
No Normal
Varianza
Homogeneidad
de la Variación
de Levene
Tablas de
Contingencia de
Medianas
Correlación
Correlación
Prueba de signos
Wilcoxon
MannWhitney
KurskalWallis
Prueba de Mood
Friedman
Normal
Variancia
Medias
Pruebas de t
Prueba-F
Homogeneidad
de la Variación
de Bartlett
Muestra-1
Muestra-2
ANOVA
Una vía
Dos vías
Correlación
Regresión
Residuos
distribuidos
normalmente
203
Resumen de pruebas de Hipótesis
Datos Normales
Datos No Normales
Pruebas de Variancias
Pruebas de Varianzas
X2 : Compara la variancia de una Homogeneidad de la varianza de
muestra con una variancia de un Levene : Compara dos o más
universo conocido.
varianzas de muestras de la misma
población.
Prueba F : Compara dos varianzas
de muestras.
Homogeneidad de la variancia de
Bartlett: Compara dos o más
varianzas muestras de la misma
población.
204
Resumen de pruebas de Hipótesis
Datos Normales
Pruebas de los Promedios
Datos No Normales
Pruebas de la Mediana
Prueba t de 1 muestra : Prueba si el promedio
de la muestra es igual a un promedio
conocido o meta conocida.
Prueba t de 2 muestras : Prueba si los dos
promedios de las muestras son iguales.
ANOVA de un factor: Prueba si más de dos
promedios de las muestras son iguales.
ANOVA de dos factores : Prueba si los
promedios de las muestras clasificadas
bajo dos categorías, son iguales.
Prueba de signos o Prueba Wilcoxon : Prueba
si la mediana de la muestra es igual a un valor
conocido o a un valor a alcanzar.
Prueba Mann-Whitney : Prueba si dos medianas
de muestras son iguales.
Prueba Kruskal-Wallis: Prueba si más de dos
medianas de muestras son iguales. Asume que
todas las distribuciones tienen la misma forma.
Prueba de la mediana de Mood : Otra prueba
para más de dos medianas. Prueba más firme
para los valores atípicos contenidos en la
información.
Prueba Friedman : Prueba si las medianas de las
muestras, clasificadas bajo dos categorías, son
iguales.
Correlación : Prueba la relación lineal entre dos
variables.
Correlación : Prueba la relación lineal entre
dos variables.
Regresión : Define la relación lineal entre una
variable dependiente y una independiente.
(Aquí la "normalidad" se aplica al valor
residual de la regresión)
205
Acciones a tomar con datos No Normales
Revise y asegúrese de que los datos no siguen una distribución normal.
• Desarrollar una Prueba de normalidad (para verificar realmente lo
anormal. Para la prueba de Bartlet el valor de p debe ser < 0.05)
• Desarrollar una Prueba de Corridas (para verificar que no existen
sucesos no aleatorios que puedan haber distorsionado la información)
• Revisar la información para detectar errores (tipográficos, etc.).
Investiguar los valores atípicos.
• Una muestra pequeña (n < 30) proveniente de un universo normal, se
mostrará algunas veces como anormal.
Intentar transformar los datos. Las transformaciones comunes incluyen:
- Raíz cuadrada de todos los datos
- Logaritmo de todos los datos
- Cuadrado de todos los datos
• Si la información es todavía anormal, entonces usar las herramientas no
paramétricas.
206
7B8. Definiciones

Promedio : Es la media aritmética de la información. Es la suma de todos
los datos, dividida entre el número de datos de referencia.

Mediana: Valor del punto medio de los datos, cuando se ordenan en forma
ascendente (en caso de datos pares, obtener promedio).

Moda : Valor que se repite con más frecuencia sobre el conjunto de datos.
Ejemplo:
Se cuestionó a veinte personas sobre cuánto tiempo les tomaba estar
listas para ir a trabajar, en las mañanas. Sus respuestas (en minutos) se
muestran más adelante. ¿Cuáles son el promedio y la mediana para esta
muestra?
30, 37, 25, 35, 42, 35, 35, 47, 45, 60
39, 45, 30, 38, 35, 40, 44, 55, 47, 43
207
Un dibujo dice más que mil palabras
Promedio
Mediana
28.0
35.0
42.0
49.0
56.0
63.0
-------+---------+---------+---------+---------+---------+------
Promedio = 40.35
C1
Mediana = 39.5
El promedio puede estar influenciado considerablemente por los
valores atípicos porque, cuando se calcula un promedio, se incluyen los
valores reales de estos valores.
La mediana, por otra parte, asigna la misma importancia a todas las
observaciones, independientemente de los valores reales de los
valores atípicos, ya que es la que sencuentra en la posición media de
los valores ordenados.
208
Pruebas Alternativas comúnmente usadas
Pruebas para datos No normales
Analogía con datos normales
•
Prueba de Corridas : Calcula la
probabilidad de que un X número de
puntos de referencia, esté por encima o
por debajo del promedio aleatoriamente.
•
•
•
Prueba de signos, de 1 muestra :
Prueba la probabilidad de que la
mediana de la muestra, sea igual al valor
hipotético.
•
Prueba Mann-Whitney : Comprueba el
rango de dos muestras, por la diferencia
entre dos medianas del universo.
•
Prueba t de 2 muestras
•
Prueba de la Mediana de Mood :
Prueba para más de dos medianas del
universo. Más robusta para los valores
atípicos o para los errores en la
información.
•
ANOVA de un factor
Prueba de Corridas (la misma
prueba para ambos tipos de
información)
Prueba t de una muestra
209
Prueba de Rachas
Considere los siguientes datos (que se muestran aquí en orden cronológico):
325, 210, 400, 72, 150, 145, 110, 507, 56, 120, 99, 144, 110, 110,
320, 290, 101, 0, 80, 500, 201, 50, 140, 80, 220, 180, 240, 309, 80
Es importante tener los datos registrados en orden cronológico.
Una representación gráfica de los datos se asemeja a esto:
600
Promedio
500
Primera
"corrida"
400
300
200
100
0
Segunda ”racha"
Racha: Un punto o una serie consecutiva de puntos que caen
en un lado del promedio.
Número total de Rachas: 12
Número total de puntos > al promedio: 11
Número total de puntos < al promedio: 18
Prueba de Rachas
Ho: Los datos son aleatorios
Ha:Los datos NO so aleatorios
Prueba de Rachas
Promedio K = 184.4483
Promedio
Número de rachas observado = 12
Número de rachas esperado = 14.6552
=> No se rechaza Ho
11 observaciones por encima de K; 18 por
debajo
La prueba es significativa en p= 0.2860
No se puede rechazar Ho con valor alfa = 0.05
Este es el valor p
de las Prueba de
Corridas
Ya que p > 0.05, no podemos rechazar la hipótesis nula.
Los datos son aceptados, siendo aleatorios.
Cálculos de la Prueba de Rachas
El estadístico Z cuando n > 20 se calcula como:
Z = (G - MediaG) / DesvStG
Con MediaG = 1 + (2n1*n2) / (n1 + n2)
DesvStG = Raiz [ (2n1*n2) (2n1*n2 - n1 -n2) / (n1 + n2)^2* (n1+n2 -1)
Del ejemplo anterior G = 12;
MediaG = 14.655
n1 = 11n2 = 18
DesStG = 2.4843
Z1 = (12 - 14.655) / 2.4843 = -1.0687
P(Z1) = 0.1430 y para dos colas se tiene
P(Z1) + P(Z2) = 0.2860 > Alfa crítico de 0.05, no rechazándose Ho
Si las n1 y n2 son menores a 21, entonces se consulta la tabla de
valores críticos para el número de Rachas G
212
Corrida con Minitab

Stat > Nonparametrics > Runs Test
Variable C1, Above and below the mean
Runs Test: C1
Runs test for C1
Runs above and below K = 184.448
The observed number of runs = 12
The expected number of runs = 14.6552
11 observations above K, 18 below
P-value = 0.285
P > 0.05
No rechazar
Ho
213
Prueba de Signos de la Mediana
Ho : La mediana de la muestra es igual a la mediana de la hipótesis
Ha : Las medianas son diferentes
Ejemplo (usando los datos del ejemplo anterior):
Ho: Valor de la mediana = 115.0
Ha: Valor de la mediana diferente de 115.0
N DEBAJO IGUAL ENCIMA VALOR P MEDIANA
29 12
0
17
0.4576
144.0
Ya que p >0.05, no se puede rechazar la hipótesis nula.
No se puede probar que la mediana real y la mediana hipotética son
diferentes.
En las páginas siguientes se muestra el detalle del cálculo.
214
Cálculos de la Prueba de Signos de la Mediana
Ejemplo: Con los datos del ejemplo anterior y ordenándo de menor a
mayor se tiene: n = 29, Mediana de Ho = 115
No.
1
2
3
4
5
6
7
8
9
10
Valor
0
50
56
72
80
80
80
99
101
110
Signo
-
No.
11
12
13
14
15
16
17
18
19
20
Valor
110
110
120
140
144
145
150
180
201
210
Signo
+
+
+
+
+
+
+
+
No.
21
22
23
24
25
26
27
28
29
Valor
220
240
290
309
320
325
400
500
507
Signo
+
+
+
+
+
+
+
+
+
Con la mediana en 144. Si el valor contra el cual se desea
probar es 115, entonces hay 12 valores por debajo de el (-) y 17
valores por arriba (+).
215
Cálculos de la Prueba de Signos de la Mediana
El estadístico X es el el número de veces que ocurre el signo menos
frecuente, en este caso el 12 (-).
Cómo n  25, se calcula el estadístico Z para la prueba de signos con:
Z = [ (Y + 0.5) - (0.5*n) ]/ 0.5  n
En este caso Z1 = - 0.74278 y P(Z1) = 0.2288 para la cola izquierda
en forma similar P(Z2) 0-2288 para la cola derecha, por lo que la
probabilidad total es 0.4576 >> 0.05 del criterio de rechazo.
Si n hubiera sido < 25 entonces se hubiera consultado la tabla de
valores críticos para la prueba de signo.
216
Prueba de Signos de la Mediana
¿Es esto correcto?¿144 podría ser igual a 115?
Bueno, veamos una gráfica de la información
0
115
100
200
300
400
500
144
Después de todo, tal vez
esto SEA lo correcto.
217
Corrida en Minitab

Stat > Nonparametrics > 1-Sample sign Variable C1
Confidence interval 95% Test Median 115 Alternative Not equal
Sign Test for Median: Signos
Sign test of median = 115.0 versus not
= 115.0
P
Signos
0.4583
N Below Equal
Median
29
12
0
144.0
Above
17
Como P > 0.05 no se rechaza Ho y la mediana es 115
218
Prueba de Signos de la Mediana
Para observaciones pareadas
Calificaciones de amas de casa a dos limpiadores de ventanas:
Ho: p = 0.5 no hay preferencia de A sobre B
Ha: p<>0.5
Ama
Limpiador
Casa
A
B
1
10
7
2
7
5
3
8
7
4
5
2
5
7
6
6
9
6
¿Hay evidencia que indique
cierta preferencia de las amas
de casa por lo limpiadores?
219
Prueba de Signos de la Mediana
Producto
Familia
A
B
1
-
+
2
-
+
3
+
-
4
-
+
5
0
0
6
-
+
7
-
+
8
+
-
9
-
+
10
-
+
11
-
+
Media = 0.5*n
Desv. Estand.= 0.5*raiz(n)
Zc = (Y – media) / Desv. Estánd.
Rechazar Ho si Zc ><Zalfa/2
¿Hay evidencia que indique
cierta preferencia por un
Producto A o B?
220
Prueba de Signos de la Mediana
Media = 0.5*11 = 5.5
Desv. Estand.= 0.5*raiz(n) = 1.67
Para Zc = (8 – 5.5) / 1.67 = 1.497
Zexcel = 1.96 para alfa/2 = 0.025
Como Zc < Zexcel no se rechaza Ho o
Como p value = 0.067 > 0.025
No hay evidencia suficiente de que los
Consumidores prefieran al producto B
221
Prueba rango con signo de Wilconox


Es la alternativa no paramétrica de la prueba paramétrica de muestras
pareadas
Ejemplo: HO: Las poblaciones son idénticas Ha: Caso contrario
Trabaja
dor
Método
1
Método
2
Diferen
cias
Abs(difere
n.)
Rango
c/signo
Rango
1
10.2
9.5
0.7
0.7
8
8
2
9.6
9.8
-0.2
0.2
2
-2
3
9.2
8.8
0.4
0.4
3.5
3.5
4
10.6
10.1
0.5
0.5
5.5
5.5
5
9.9
10.3
-0.4
0.4
3.5
-3.5
6
10.2
9.3
0.9
0.9
10
10
7
10.6
10.5
0.1
0.1
1
1
8
10
10
0
0
Eliminar
9
11.2
10.6
0.6
0.6
7
7
10
10.7
10.2
0.5
0.5
5.5
5.5
11
10.6
9.8
0.8
0.8
9
9
T =222
44
Prueba rango con signo de Wilconox
Distribución muestral T para poblaciones idénticas
Se aproxima a la distribución normal para n >= 10
T 0
T 
n ( n  1)( 2 n  1)
6
En este caso n = pares eliminando las que son iguales con dif. = 0 para el
trabajador 8.
 = raiz(10 x 11 x 21/6) = 19.62
Z = (T – )/ = 44/19.62 = 2.24
Z alfa/2 = Z0.025 = 1.96
Como Zc = 2.24 > Z0.025 se rechaza Ho, los métodos son diferentes
223
Prueba en Minitab para prueba de
mediana con Wilconox


File> Open worksheet > Exh_Stat
Stat > Nonparametrics > 1-Sample Wilconox
Variables C1 Test Median 77
Altenative Not equal
Achievement
77
88
Wilcoxon Signed Rank Test: Achievement
Test of median = 77.00 versus median not = 77.00
for Wilcoxon
Estimated
for Wilcoxon
Estimated
N Test Statistic
P
Median
Achievement 9
8
19.5 0.889
77.50
85
Ho: Mediana = 77 Ha: Mediana <> 77
Como P de 0.889 >> alfa de 0.05 no se rechaza Ho
70
74
75
62
80
83
224
Prueba de Mann-Whitney
Se llevó a cabo un estudio que analiza la frecuencia del pulso en dos
grupos de personas de edades diferentes, después de diez minutos de
ejercicios aeróbicos.
Los datos resultantes se muestran a continuación.
¿Tuvieron diferencias
significativas las frecuencias de
pulso de ambos grupos?
Edad 40-44
C1
140
135
150
140
144
154
160
144
136
148
Edad 16-20
C2
130
166
128
126
140
136
132
128
124
225
Prueba de Mann-Whitney

Ordenando los datos y asignándoles el (rango) de su posición relativa se tiene (promediando
posiciones para el caso de que sean iguales):
Edad 40-44
C1
(7) 135
(8.5) 136
(11) 140
(11) 140
(13.5) 144
(13.5) 144
(15) 148
(16) 150
(17) 154
(18) 160
Edad 16-20
C2
(1) 124
(2) 126
(3.5) 128
(3.5) 128
(5) 130
(6) 132
(8.5) 136
(11)140
(15)166
n1 = 10
Ta = 130.5
n2 = 9
Tb = 55.5
226
Prueba de Mann-Whitney
Ho: Las distribuciones de frecuencias relativas de las poblaciones A y B son iguales
Ha: Las distribuciones de frecuencias relativas poblacionales no son idénticas
Ho: 1 = 2
Ha: 1  2
1, 2 = Medianas de las poblaciones
Ordenando los datos y asignándoles su posición relativa se tiene:
Ua = n1*n2 + (n1) * (n1 + 1) /2 - Ta
Ub = n1*n2 + (n2) * (n2 + 1) /2 - Tb
Ua + Ub = n1 * n2
Ua = 90 + 55 - 130.5 = 14.5
P(Ua) = 0.006
Ub = 90 + 45 - 55.5 = 79.5
El menor de los dos es Ua.
Para alfa = 0.05 el valor de Uo = 25
Como Ua < 25 se rechaza la Hipótesis Ho de que las medianas son iguales.
Dado que p < 0.05, rechazamos la hipótesis nula. Estadísticamente
existe una diferencia significativa entre los dos grupos de edad.
227
Prueba de Mann-Whitney
Ho: Las distribuciones de frecuencias relativas de las poblaciones A y B son iguales
Ha: Las distribuciones de frecuencias relativas poblacionales no son idénticas
Ua = 14.5
Ub = 79.5
Utilizando el estadístico Z y la distribución normal se tiene:
45
12.24
Z = [ (U - (n1* n2 / 2 ) / Raiz (n1 * n2 * (n1 + n2 + 1) / 12)
Con Ua y Ub se tiene:
Za = (14.5 - 45) / 12.24 = - 2.49 P(Z) = 0.0064 similar a la anterior
Zb = (79.5 -45) / 12.24 = 2.81 P(total) = 2 * 0.0064 = 0.0128 menor  = 0.05
El valor crítico de Z para alfa 0.025 por ser prueba de dos colas, es 1.96.
Como Za > Zcrítico se rechaza la Hipótesis Ho de que las medianas son iguales.
Dado que p < 0.05, rechazamos la hipótesis nula. Estadísticamente
existe una diferencia significativa entre los dos grupos de edad.
228
Prueba de Mann-Whitney
16-20 años de edad
166
128
126
140
136
132
128
124
140
10
-2 6
12
14
0
4
8
12
16
135
5
-3 1
7
9
-5
-1
3
7
11
150
20
-1 6
22
24
10
14
18
22
26
140
10
-2 6
12
14
0
4
8
12
16
144
14
-2 2
16
18
4
8
12
16
20
154
24
-1 2
26
28
14
18
22
26
30
160
30
-6
32
34
20
24
28
32
36
144
14
-2 2
16
18
4
8
12
16
20
136
6
-3 0
8
10
-4
0
4
8
12
148
18
-1 8
20
22
8
12
16
20
24
40-44 años de
edad
130
Diferencias entre los encabezados de
los renglones y las columnas
De esta manera, se calcula la mediana de todas estas diferencias, denominada
"punto estimado". Este punto estimado es una aproximación de la diferencia entre
las medianas de los dos grupos (ETA1 y ETA2).
Una vez ajustados los "enlaces" (eventos de un mismo valor en ambos grupos de
información), Minitab usa este punto estimado para calcular el valor p.
Corrida en Minitab

Stat > Nonparametrics > Mann Whitney
First Sample C1 Second Sample C2 Conf. Level 95%
Alternative Not equal
Mann-Whitney Test and CI: C1, C2
N Median
P>0.05
C1 10 144.00
Se rechaza Ho
C2 9 130.00
Point estimate for ETA1-ETA2 is 12.00
95.5 Percent CI for ETA1-ETA2 is (4.01,20.00)
W = 130.5
Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.0143
The test is significant at 0.0140 (adjusted for ties)
230
Prueba de Kruskal Wallis
Ordenando los datos de ventas y asignándoles el (rango) de su posición relativa se tiene
(promediando posiciones para el caso de que sean iguales):
Zona 1
(15.5) 147
(17.5) 17.5
(9) 128
(19) 162
(12) 135
(10) 132
(22) 181
(13) 138
Zona 2
(17.5) 160
(14) 140
(21) 173
(4) 113
(1) 85
(7) 120
(25) 285
(5) 117
(11) 133
(6) 119
Zona 3
(24) 215
(8) 127
(2) 98
(15.5) 127
(23) 184
(3) 109
(20) 169
n1 = 8
Ta = 118
n2 = 10
Tb = 111.5
n3 = 7
Tc = 95.5
N = n1 + n2 + n3 = 25
231
Prueba de Kruskal Wallis
Ho: Las poblaciones A, B y C son iguales
Ha: Las poblaciones no son iguales
Ho: 1 = 2 = 3 Ha: 1  2  3 ; 1, 2, 3 = Medianas de las poblaciones
Calculando el valor del estadístico H se tiene:
H = [ 12 /( N* ( N + 1)) ] * [ Ta2 / n1 + Tb2 / n2 + Tc2 / n3 ] - 3 * ( N +1 )
H = 0.01846 * (1740.5 + 1243.225 + 1302.893 ) - 78 = 1.138
Se compara con el estadístico 2 para  = 0.05 y G.l. = k - 1 = 3-1 = 1 (k muestras)
2 crítico = 5.991 (válido siempre que las muestras tengan al menos 5 elementos)
Como H < 2 crítico, no se rechaza la Hipótesis Ho: Afirmando que no hay
diferencia entre las poblaciones
232
Corrida en Minitab

Stat > Nonparametrics > Kruskal Wallis
Response C1 Factor C2 OK
Kruskal-Wallis Test: Datos versus Factor
Kruskal-Wallis Test on Datos
Factor N Median Ave Rank
Z
Zona 1 7 138.0
14.7 0.98
Zona 2 10 126.5
11.1 -0.82
Zona 3 7 127.0
12.3 -0.10
Overall 24
12.5
P > 0.05
H = 1.08 DF = 2 P = 0.581 No se rechaza Ho
H = 1.09 DF = 2 P = 0.581 (adjusted for ties)
233
Prueba de Medianas de Mood




Realiza prueba de hipótesis de igualdad de medias en un diseño de una
vía. La prueba es robusta contra Outliers y errores en datos y es
adecuada para análisis preliminares
Determina si K grupos independientes han sido extraidas de la misma
población con medianas iguales o poblaciones con formas similares
Con base en la gran mediana, anotar un signo positivo si la
observación excede la mediana o un signo menos si es menor. Los
valores que coincidan se reparten en los grupos
Hacer una tabla de contingencia K x 2 con las frecuencias de signos
más y menos en cada grupo K
234
Prueba de Medianas de Mood

Se determina el estadístico Chi Cuadrada con:
 
2

(O  E )
2
E
Probar Ho: Todas las medianas son iguales
Ha: Al menos una mediana es diferente
Se compara Chi Cuadrada calculada con Chi Cuadrada de alfa para
0.05 y (reng – 1)*(Col – 1) grados de libertad
235
Corrida con Minitab
Se les da a 179 participantes una conferencia con
dibujos para ilustrar el tema. Después se les da la
prueba OTIS que mide la habilidad intelectual. Los
participantes se clasificaron por nivel educativo 0-No
prof., 1-Prof., 2-Prepa
Ho: h1 = h2 = h3
iguales


Ha: no todas las medianas son
File > Open Worksheet > Cartoon.mtw
Stat > Nonparametrics > Mood’s Median Test
Response Otis Factor ED Ok
236
Corrida con Minitab
Mood Median Test: Otis versus ED
P>0.05
Mood median test for Otis
Chi-Square = 49.08
DF = 2
P = 0.0005 Se rechaza Ho
Individual 95.0% CIs
ED N<= N> Median Q3-Q1 ----+---------+---------+--------+--
0
47 9
97.5 17.3 (-----*-----)
1
29 24 106.0 21.5
2
15 55 116.5 16.3
(------*------)
(----*----)
----+---------+---------+---------+-96.0
Overall median = 107.0
104.0
112.0
120.0
237
Diseños factoriales aleatorias
bloqueados de Friedman
Esta prueba es una alternativa al ANOVA de dos vías, es
una generalización de las pruebas pareadas con
signo. La aditividad es requerida para para estimar
los efectos de los tratamientos
Ho: Los tratamientos no tienen un efecto significativo
Ha: Algunos tratamientos tienen efecto significativo
238
Diseños factoriales aleatorias
bloqueados de Friedman
Resultados de salida:
 Se muestra el estadístico de prueba con distribución
Chi Cuadrada aproximada con gl = Tratamientos – 1.


Si hay observaciones parecidas en uno o más
bloques, se usa el rango promedio y se muestra el
estadístico corregido
La mediana estimada es la gran mediana más el
efecto del tratamiento
239
Diseños factoriales aleatorias
bloqueados de Friedman
Ejemplo:
 Se evalúa el efecto del tratamiento de una droga en
la actividad enzimática con tres niveles, probado en
cuatro animales


Open the worksheet EXH_STAT.MTW.
Stat > Nonparametrics > Friedman.
Response, seleccionar EnzymeActivity.
En Treatment, seleccionar Therapy.
En Blocks, seleccionar Litter. Click OK.
240
Diseños factoriales aleatorias
bloqueados de Friedman
Datos:
EnzymeActivity
Therapy
Litter
0.15
1
1
0.26
1
2
0.23
1
3
0.99
1
4
0.55
2
1
0.26
2
2
-0.22
2
3
0.99
2
4
0.55
3
1
0.66
3
2
0.77
3
3
0.99
3
4
241
Diseños factoriales aleatorias
bloqueados de Friedman
Resultados:
Friedman Test: EnzymeActivity versus Therapy
blocked by Litter
S = 2.38 DF = 2 P = 0.305 No rechazar Ho
S = 3.80 DF = 2 P = 0.150 (adjusted for ties)
Sum
of
Therapy N Est Median Ranks
1
4
0.2450
6.5
2
4
0.3117
7.0
3
4
0.5783 10.5
Grand median = 0.3783
242
Diseños factoriales aleatorias
bloqueados de Friedman
Resultados:

El estadístico de prueba S tiene un valor P de 0.305 sin ajustar
para observaciones en cero y 0.150 para el valor ajustado.



Por tanto no hay evidencia suficiente para rechazar Ho
Las medianas estimadas asociadas con los tratamientos son la
gran mediana más los efectos estimados de los tratamientos.
El estadístico de prueba se determina con base a los rangos en
cada bloque y totales
243
Diseños factoriales aleatorias
bloqueados de Friedman
Resultados:
244
Diseños factoriales aleatorias
bloqueados de Friedman
Resultados:
245
Diseños factoriales aleatorias
bloqueados de Friedman
Resultados:
246
Prueba de igualdad de
varianzas de Levene




Se usa para probar la hipótesis nula de que las varianzas de k
múltiples poblacionales son iguales
Las igualdad de varianzas en las muestras se denomina
homogeneidad de varianzas
La prueba de Levene es menos sensible que la prueba de
Bartlett o la prueba F cuando se apartan de la normalidad
La prueba de Bartlett tiene un mejor desempeño para la
distribución normal o aproximadamente normal
247
Prueba de igualdad de
varianzas de Levene
Para dos muestras el procedimiento es como sigue:


Determinar la media
Calcular la desviación de cada observación respecto a la
media

Z es el cuadrado de las desviaciones respecto a la media

Aplicar la prueba t a las dos medias de los datos
248
Prueba de igualdad
de Varianzas-Minitab
Se estudian tamaños de papa
inyectando con bacterias y
sujetas a diferentes
temperaturas. Antes del
ANOVA se verifica la
igualdad de varianzas

Stat > ANOVA > Test for
equal variances
Response Rot
Factors Temp Oxigen
Confidence level 95%
Rot
Temp
Oxygen
13
10
2
11
10
2
3
10
2
10
10
6
4
10
6
7
10
6
15
10
10
2
10
10
7
10
10
26
16
2
19
16
2
24
16
2
15
16
6
22
16
6
18
16
6
20
16
10
24
16
10
8
16
10
249
Resultados
250
Resultados
Test for Equal Variances: Rot versus Temp, Oxygen
95% Bonferroni confidence intervals for standard deviations
Temp Oxygen N
Lower
StDev
Upper
10
2 3 2.26029 5.29150 81.890
10
6 3 1.28146 3.00000 46.427
10
10 3 2.80104 6.55744 101.481
16
2 3 1.54013 3.60555 55.799
16
6 3 1.50012 3.51188 54.349
16
10 3 3.55677 8.32666 128.862
Bartlett's Test (normal distribution)
Test statistic = 2.71, p-value = 0.744 P>0.05 no rechazar Ho
Levene's Test (any continuous distribution)
Test statistic = 0.37, p-value = 0.858
251
Prueba de la concordancia del
Coeficiente de Kendall

El coeficiente expresa el grado de asociación entre las
calificaciones múltiples realizadas por un evaluador
Ho: Las variables son independientes
Ha: Las variables están asociadas

Kendall usa la información relacionada con las calificaciones
relativas y es sensible a la seriedad de mala clasificación
Por ejemplo para K = jueces N = Muestras = 10
Rango medio = 220 / 22 S = 1066 Gl = n-1 = 9
Chi Cuadrada crítica = X2 0.01,9 = 21.67
252
Prueba de la concordancia del
Coeficiente de Kendall


El Estadístico Chi Cuadrada calculado es:
Como Chi Cuadrada de alfa es menor que la calculada, los
cuatro jueces están asociados significativamente. Constituyen
un panel uniforme. No quiere decir que estén en lo correcto,
solo que responden de manera uniforme a los estímulos
253
El coeficiente de correlación de
rangos de Spearman (rs)

El coeficiente de correlación es una medida de la asociación que
requiere que ambas variables sean medidas en al menos una
escala ordinal de manera que las muestras u observaciones a
ser analizadas pueden ser clasificadas en rangos en dos series
ordenadas
2
Ho: Las variables son independientes
Ha: Las variables están asociadas

rs  1 
6 d
N
3
 N
Para el ejemplo anterior si N = 10, el coeficiente es:
rs  1 
6 (5 .5 )
990
 1  0 . 03  0 . 97
254
Coeficiente de correlación de
rangos para monotonía de
preferencias
Una persona interesada en adquirir un TV asigna
rangos a modelos de cada uno de 8 fabricantes
Rango
Di
Fab.
Preferencia
Precio
(rango)
1
7
449.50 (1)
6
36
2
4
525.00 (5)
-1
1
3
2
479.95 (3)
-1
1
4
6
499.95 (4)
2
4
5
1
580.00 (8)
-7
49
6
3
549.95 (7)
-4
16
7
8
469.95 (2)
6
36
8
5
532.50 (6)
-1
1
Di cuadrada
255
Coeficiente de correlación de
rangos para monotonía de
preferencias
Ho: No existe asociación entre los rangos
Ha: Existe asociación entre los rangos o es positiva o negativa
El coeficiente de correlación de rangos de Spearman es:
Rs = 1 – 6*suma(di cuadrada) / (n(n cuadrada – 1))
En este caso: Rs = 1 – 6(144)/(8*(64-1) = -0.714
R0 se determina de la tabla de Valores críticos del coeficiente de
correlación del coeficiente de correlación de rangos de Spearman
Rt = 0.686
Por tanto si hay asociación significativa en las preferencias
256
Tabla de constantes
n
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Alfa=0.05
0.900
0.829
0.714
0.643
0.600
0.564
0.523
0.497
0.475
0.457
0.441
0.425
0.412
0.388
0.377
0.368
0.359
0.351
0.343
0.336
0.329
0.329
0.323
0.317
0.311
0.305
Alfa = 0.025
0.886
0.786
0.738
0.683
0.648
0.623
0.591
0.566
0.545
0.525
0.507
0.490
0.476
0.462
0.450
0.438
0.428
0.418
0.409
0.400
0.392
0.385
0.377
0.370
0.364
257
Corrida con Minitab
Para la corrida en Minitab primero se
deben determinar los rangos en
forma manual para las variables X
y Y.

Stat > Basic statistics > Correlation
Variables Preferencia Precio
Fabric Prefeante rencia Precio
Preci
o
1
7
1
449
2
4
5
525
3
2
3
479
4
6
4
499
Pearson correlation of
Preferencia and Precio = -0.714
5
1
8
580
6
3
7
549
P-Value = 0.047
7
8
2
469
8
5
6
532
Correlations: Preferencia, Precio
258
Ejemplo con Minitab
Se estudia la relación entre colágeno y
Proline en pacientes con cirrosis

Stat > Basic statistics > Correlation
Variables Colágeno Proline
Correlations: Colageno, Proline
Pearson correlation of Colageno
and Proline = 0.935
P-Value = 0.002
Paciente
Colágeno
Proline
1
7.1
2.8
2
7.1
2.9
3
7.2
2.8
4
8.3
2.6
5
9.4
3.5
6
10.5
4.6
7
11.4
5
259
Resumen de pruebas
no paramétricas



Prueba de signos de 1 muestra: Prueba la igualdad de la
mediana a un valor y determina el intervalo de confianza
Prueba de Wilconox de 1 muestra: Prueba la igualdad de la
mediana a un valor con rangos con signo y determina el
intervalo de confianza
Comparación de dos medianas poblacionales de Mann Whitney:
Prueba la igualdad de las medianas y determina el intervalo de
confianza
260
Resumen de pruebas
no paramétricas


Comparación de igualdad de medianas poblacionales de Kruskal
Wallis: Prueba la igualdad de las medianas en un diseño de una
vía y determina el intervalo de confianza
Comparación de medianas poblacionales de Mood: Prueba la
igualdad de medianas con un diseño de una vía
261
262
263
Salidas de la Fase de Análisis

Causas raíz validadas

Guía de oportunidades de mejora
264
Descargar

Presentación de PowerPoint - Contacto: 55-52-17-49-12