DETECCÓN Y DIAGNÓSTICO DE FALLOS.
ESTADÍSTICAS MULTIVARIANTES
Variabilidad del proceso
Variaciones
ambientales,
v
Cambios en los
materiales, r
Proceso
Factores asignables:
Personal,equipos, etc,
u
Cambios en
el producto,
q
q  f (r, a i , v i )
• En ausencia de
variaciones asignables o
de materias primas, si se
toman muestras de q:
q(t)= ivi
• las medidas de la serie
q(t) son independientes
• q(t) es un proceso
estacionario N(,2) En
estas condiciones se
dice que el proceso está
“bajo control”
En un proceso bajo control
2
La media  y la varianza
pueden estimarse mediante:
n
ˆ 

t 1
0,1
n
ˆ 

0,2
0,15
qt
n
2
0,25
( q t  ˆ )
t 1
n 1
2
0,05
0
frec 0,009 0,121 0,176 0,065
n suele ser pequeño (4 -10)
para evitar la aparición de causas asignables durante ese tiempo
En un proceso en estado de control, el 99.7% de las muestras
están en la región R = [-3, -3]
Estadística Univariable
• Gráficos de control: Dr. Shewart, USA 1924. Gráficos de
evolución temporal de valores medios y su span, etc.
• Definen, a través de los límites de control, el estándar de
funcionamiento a alcanzar
• Permiten detectar la presencia de factores asignables que
desvían la producción del estándar a alcanzar
5
LSC: m + 3 /n
4.5
4
3.5
3
2.5
LIC: m - 3 /n
2
1.5
0
5
10
15
20
25
Estadísticas multivariables
• ANÁLISIS DE COMPONENTES PRINCIPALES (PCA)
• PCA determina un conjunto de vectores de carga
ortogonales que pueden ser ordenados por la cantidad de
variabilidad del proceso que pueden explicar.
• Si se tiene m variables y n observaciones de cada
variable se construye la matriz X:
 x 11

 x 21
X 
...

x
 n1
x 12
...
x 22
...
...
...
x n2
...
x 1m 

x 2m 
... 

x nm 
Los vectores de carga se
calculan mediante la
descomposición de valores
singulares de:
1
n 1
X  UV
Análisis de componentes principales I
• Lo cual es equivalente a calcular los valores y vectores
propios de: A= XTX
A 
1
n 1
T
X X  VV
T
• Con =T, una matriz que contiene los valores propios
reales no negativos de A. Se eligen los “a” vectores
propios de A correspondientes a los “a” valores propios
más grandes y se forma P.
• La proyección de los datos observados X en este espacio
de dimensión reducida es: T = XP
• Los datos originales pueden calcularse como: Xˆ  TP T
Análisis de componentes principales II
• La matriz de residuos: E  X  Xˆ
• Los componentes principales son los vectores ti, i=1,...,a
y cuando hay datos nuevos se calculan como: ti = xTpi.
• Detección de fallos:
– Se calcula la estadística Hostellings: T2=xTPa-2PTx
– Se compara dicha estadística con un umbral calculado
como:
(n
2
Ta 
2
 1)a
n(n  a)
Fα (a, n  a)
– Si T2 > Ta => el sistema está fuera de control, es decir
hay un fallo
Análisis de componentes principales III
– Para monitorizar los restante “m-a” variables se utiliza
la estadística Q => Q = rTr, con r = (I – PPT)x
– Q también se conoce como SPE
– Cuando el sistema está bajo control Q es muy
pequeña, (variaciones debido al ruido), para detectar
un fallo se pone un umbral Q
• Diagnosis de fallos:
– Calcular PCA para cada clase de datos que tengamos
(fallos) y aplicar la estadística T2 y Q a cada modelo
PCA para decidir que fallos ha ocurrido
Análisis de componentes principales IV
• PCA dinámicos:
 yt

 y t 1
X(h)  


y
 thn
ut
y t 1
u t 1

y th
u t 1
y t2
u t2

y t  h 1





u thn
y t  h  n 1
u t  h  n 1

y tn
• PCA no lineales:
• Red neuronal
u th 

u t  h 1 



u t  n 
Análisis de componentes principales VI
• Ejemplo (datos de Fisher),
– consisten en m=4 variables y n=50 medidas de cada
variable y 3 clases distintas:
Análisis de componentes principales VII
• Con los datos de la clase 1:
– Se normalizan para tener media 0 y varianza 1
– Se construye la matriz X
– Se calculan los valores y vectores propios de A
 2.075

 0
 
0


 0
0
0
0.986
0
0
0.692
0
0


0 
0 


0.247 
0
 - 0.601

 - 0.584
V 
- 0.361


 - 0.411
0.341
0.132
0.420
0.003
- 0.673
0.639
- 0.506
- 0.758
- 0.711 

0.695 
0.101 


- 0.036 
– Se eligen 2 componentes principales que explican la
variabilidad del proceso en (2.075+0.986)/4*100 =
76.52%. Y se construye la matriz P
Análisis de componentes principales VIII
 - 0.601

 - 0.584
P 
 0 . 361


  0 . 411
0 . 341 

0 . 420 
 0 . 673 


 0 . 506 
• La matriz T=XP
• Para detectar fallo (distinguir entre las clases) se
proyectan todos los datos en los componentes principales
de la clase 1 (t1 y t2) => ti = xTpi
• Se calcula la región de confianza de la clase 1 con el
umbral T:
T
2
T
2
T
 x P Σ a P x  6.64
 2 . 075
2
 a  

0


0 . 986 
0
2
t1
2 . 075
2

t2
0 . 986
 6 . 64
Análisis de componentes principales IX
• Detección de fallos:
– Distinguir datos entre las clases:
Discriminante de Fisher (FDA) I
• FDA es una técnica que reduce la dimensionalidad del
espacio en términos de máxima separación entre clases.
– Se construye la matriz X
n
T
– Se calcula la matriz de dispersión total: S t   (x i  x )(x i  x )
i 1
– Se calcula la matriz de dispersión para cada clase:
Sj 
 (x i  x j )(x i  x j )
x i X
T
j
p
– La matriz de dispersión dentro de la clase:
Sw 
Sj
j1
– Se calcula la matriz de dispersión entre clases:
p
Sb 
 n j ( x j  x )( x j  x )
j1
T
Discriminante de Fisher (FDA) II
• Si todo ha ido bien: St = Sb + Sw
• El primer vector de Fisher se calcula maximizando la
dispersión entre clases y minimizando la dispersión dentro
de la clase:
max
v
T
Sbv
v0 vTS
wv
• El segundo vector de Fisher se calcula cumpliendo la
misma condición pero además asegurando que es
ortogonal al primer vector.......
• Esto es equivalente a resolver el siguiente problema de
valores y vectores propios:
Sb wk = k Sw wk
Discriminante de Fisher (FDA) III
• Donde los vectores propios wk son los vectores de Fisher
y los valores propios k indican el grado de separabilidad
entre clases al proyectar los datos en la dirección wk.
• Wa es la matriz formada por a= (p-1) vectores FDA (con p
igual al número de clases)
• La proyección de los datos sobre este nuevo espacio es:
zi = WaTxi
• Detección de fallos:
– Utilizar una función discriminante para cada clase de
datos (fallos) que diga a que clase pertenecen los
datos actuales:
gi(x) > gj(x)  ij
Discriminante de Fisher (FDA) IV
• Con gi(x) = P(wi | x) => probabilidad a posteriori que los
datos x pertenezcan a la clase i
• Aplicando la regla de Bayes y suponiendo que los datos
están normalmente distribuidos:
 1
1
T
g j (x)   (x  x j )W a 
W a S jW a
 n 1
2
 j




1
1   1
T
T
W a (x  x j )  ln(p i )  ln  det
W a S jW a
2   n j 1
 
• Para introducir dinámica, se introducen datos pasados en
la matriz X como se hacía con pCA




Discriminante de Fisher (FDA) V
• Ejemplo (datos de Fisher):
– Construir la matriz X con todos los datos (3 clases, 4
variables y n=50 medidas de cada variable)
– Cálculo de Sb y Sw:
 38.96

 13.68
Sw  
24.61


 5.65
13.68
24.61
17.03
8.12
8.12
27.22
4.91
6.25
5.65 

4.91 
6.25 


6.17 
 63.21

 - 19.53
Sb  
165.16


 71.36
- 19.53
165.16
10.98
- 56.05
- 56.05
436.64
- 22.49
186.91
71.36 

- 22.49 
186.91 


80.6 
– Calculo de los valores y vectores propios, 1 = 32.27, y
2=0.2776.
 0 . 009 
  0 . 205 

 0 . 387
w1  
 0 . 546

 0 . 714






0 . 589
w2  
  0 . 254

 0 . 767





Discriminante de Fisher (FDA) VI
– Cálculo de la proyección de los datos de cada clase
sobre el espacio creado de dimensión 2: zi = WaTxi.
– Representación de las clases en este espacio:
Discriminante de Fisher (FDA) VI
– Calcular g1, g2 y g3 para cada clase la mayor de ellas
nos dice que fallo ocurre :
– Tasa de acierto: 100% para la clase 1, 98% para la
clase 2 (1 dato de 50 mal clasificado), 94% para 3
Mínimos cuadrados parciales (PLS) I
• PLS es una técnica de reducción de la dimensionalidad,
maximizando la covarianza entre la matriz de predicción
(X) y la matriz predicha (Y).
 x 11

 x 21
X 
...

x
 n1
x 12
...
x 22
...
...
...
x n2
...
x 1m 

x 2m 
... 

x nm 
1


1

0



Y  0




0


0

0
0




0
0

1
0




1
0







0
0




0
0

p columnas
0


0

0



0




1


1 
n1 filas indican que
hay un fallo de tipo 1
Mínimos cuadrados parciales (PLS) II
•
•
•
•
•
X = TPT + E
Y = U QT + F
La técnica PLS relaciona X e Y => Uˆ  TB
Y = TBQT+ F
Ahora hay que calcular estos valores para asegurar que
la covarianza entre X e Y sea máxima.
• Algoritmo:
– Escalar X e Y para que tengan media nula y varianza 1
– Inicializar: E0 = X, F0= Y, j=1 y uj = a una de las
columnas de Fj-1
– Resolver iterativamente hasta converger:
Mínimos cuadrados parciales (PLS) III
T
wj 
E j1u j
• Si converge calcular:
T
E j1u j
2
T
t j  E j1 w j
pj 
E j1 t j
T
tj tj
T
qj 
F j1 t j
T
T
F j1 t j
u j  F j1q j
bj 
2
uj tj
T
tj tj
• Hacer
T
E j  E j -1  t j p j
T
F j  F j -1  b j t j p j
• Repetir el procedimiento para
j=1,2,..min(n,m)
Mínimos cuadrados parciales (PLS) IV
• Se calcula la matriz:
T
B2 j  W j (P j W j )
1
T
 (T j T j )
1
T
T j F0
• La predicción de la matriz Y se calcula como:
Y entrenamie nto, a  X * B2 a
• Detección y diagnóstico de fallos:
– Utilizando la estadística T2 y Q.
• PLS dinámico
• PLS no-lineal
Mínimos cuadrados parciales (PLS) V
• Ejemplo:
– Se construye X con todos los datos.
– Se construye Y
– Se aplica el algoritmo dado para j=1,2 obteniendose:
 0 . 4722 
 0 . 5869 
w1  

 0 . 31


 0 . 58 
  0 . 2732
  0 . 0355
w2  
 0 . 931

  0 . 2397
 0 . 5145
 0 . 5818
p1  
 0 . 2811

 0 . 5661










  0 . 3867
  0 . 0599
p2  
 0 . 9274

  0 . 1203





  0 . 171
  0 . 259
B22  
0 . 284

  0 . 225
 0 . 042
0 . 056
 0 . 367
 0 . 018
0 . 213 
0 . 204 


0 . 243 
0 . 083
Mínimos cuadrados parciales (PLS) VI
• Se calcula Y entrenamie nto, a  X * B2 a
• Se representan y1 vs y2 vs y3
Mínimos cuadrados parciales (PLS) VII
• Si proyectamos los datos en sobre los vectores PLS (t1 y
t2):
Descargar

Condiciones de Kuhn