6. ANÁLISIS DISCRIMINANTE
 Introducción
 Regla discriminante lineal de Fisher


Versión poblacional
Versión muestral
 El problema general de clasificación para
dos poblaciones




Probabilidad a priori
Costes de clasificación
Coste esperado por mala clasificación
Regiones óptimas
1
6. ANÁLISIS DISCRIMINANTE
 Clasificación para dos poblaciones normales

Versión poblacional

Versión muestral
 Clasificación general para g poblaciones



Costes de clasificación
Coste esperado por mala clasificación
Regiones óptimas
2
6. ANÁLISIS DISCRIMINANTE
 Clasificación para g poblaciones normales


Score cuadrático de clasificación
Versión muestral
 Clasificación para g poblaciones normales con
matrices de covarianzas iguales


Score lineal de clasificación
Versión muestral
3
Introducción
Supervisada: Análisis discriminante
Clasificación
No supervisada: Análisis de conglomerados (clustering)
El análisis discriminante es una técnica de
clasificación para asignar nuevas observaciones
a grupos ya conocidos.
ANÁLISIS DISCRIMINANTE
4
Regla discriminante lineal de Fisher
Sea la variable
 X1 


X   


X
 p
y dos poblaciones  1 y  2 .
Sean E  ( X )   1 y E  ( X )   2
1
2
V 1 ( X )  V 2 ( X )   .
Se busca una combinación lineal de la forma
Y  l ' X  l1 X 1  l 2 X 2    l p X
p
que sea óptima para clasificar una observación
en alguna de las dos poblaciones.
ANÁLISIS DISCRIMINANTE
5
Regla discriminante lineal de Fisher
Se tiene que
E  1 (Y )  E  1 ( l ' X )  l '  1  
Y1
E  2 (Y )  E  2 ( l ' X )  l '  2  
Y2
V  1 (Y )  V  1 ( l ' X )  l '  l   Y  V  2 ( l ' X )  V  2 (Y )
2
ANÁLISIS DISCRIMINANTE
6
Regla discriminante lineal de Fisher
Hay que buscar l que optimice la separación entre las
dos poblaciones: se maximiza la separación entre
las medias:
maxp ( 
l

Y1
)  maxp ( l '  1  l '  2 )
Y2
2
2
l
ANÁLISIS DISCRIMINANTE
7
Regla discriminante lineal de Fisher
Si se maximiza sin restricciones, el máximo puede
no ser finito: se maximiza dividiendo por la
varianza
maxp
(  Y 1  Y 2 )

l 
Nota:
Y
2
2
Y
2
 maxp
l 
(l '  1 l '  2 )
2
Y
2
es común.
La solución que se obtiene es:
Y  (  1   2 )' 
1
X
Función discriminante
lineal de Fisher
ANÁLISIS DISCRIMINANTE
8
Regla discriminante lineal de Fisher
 X1 
En el caso en que X    , se tiene:
X2
Y (mejor recta)
2
Proyección de 2
π2
1
π1
Proyección de 1
Y  l ' X  l1 X 1  l 2 X 2
l1 y l2 determinan la recta
ANÁLISIS DISCRIMINANTE
9
Regla discriminante lineal de Fisher
El punto medio es: m 
2
Y=l’X
Y2
m
l’x0
x0
1
2
(  1   2 )' 
1
(  1  2 )
Dada una nueva observación x0:
1
 Asignar x0 a π1 si
(  1   2 )' 
Y1
1
x0  m  0
 Asignar x0 a π2 si
(  1   2 )' 
1
x0  m  0
ANÁLISIS DISCRIMINANTE
10
Regla discriminante lineal de Fisher
Proposición
 E  1 (Y )  m  0

 E  2 (Y )  m  0
ANÁLISIS DISCRIMINANTE
11
Regla discriminante lineal de Fisher:
Versión muestral
Dadas dos poblaciones  1 y  2 , se tienen las
siguientes matrices de datos:
X
(1 )
 X 11(1 )

(1 )
 X 21



 X (1 )
 n1 1
(1 )

X 22
(1 )



X 12
(1 )
X n1 2

(1 )
X 1p 

(1 )
X 2p 



(1 )
X n1 p 
X
(2)
 X 11( 2 )

(2)
 X 21



 X (2)
 n2 1
(2)

X 22
(2)



X 12
(2)
X n2 2

(2)
X 1p 

(2)
X 2p 



(2)
X n 2 p 
Nota: no es necesario n1=n2
y sean
X1 , X 2
y Sp 
( n 1  1) S 1  ( n 2  1) S 2
n1  n 2  2
.
ANÁLISIS DISCRIMINANTE
12
Regla discriminante lineal de Fisher:
Versión muestral
La regla lineal es:
1
ˆ
Y  l ' X  ( X 1  X 2 )' S p X
Función discriminante lineal muestral de Fisher
que es óptima para clasificar entre las dos poblaciones.
El punto medio es: mˆ 
1
2
1
( X 1  X 2 )' S p ( X 1  X 2 ).
ANÁLISIS DISCRIMINANTE
13
Regla discriminante lineal de Fisher:
Versión muestral
X2
Y=l’X
X
Y2
m
l’x0
X1
x0
X Y1
Dada una nueva observación x0 , la regla de clasificación
sería:
1
(
X

X
)'
S
x 0  mˆ  0
 Asignar x0 a π1 si
1
2
p
 Asignar x0 a π2 si
1
( X 1  X 2 )' S p x 0  mˆ  0
ANÁLISIS DISCRIMINANTE
14
Clasificación
Ejemplo
3

X1  2

 4
3
x1   
6 
7

4

7 
X2
5 
x2   
8 
6

 5

 4
9

7

8 
Sp
1
 
1
1

2
(i) Calcular la función de discriminación lineal.
(ii) Clasificar la observación x o '  2 7 .
ANÁLISIS DISCRIMINANTE
15
El problema general de clasificación para dos
poblaciones
Dada la variable
 X1 


X   


X
 p
y dos poblaciones  1 y  2 ,
siendo f1 la función de densidad de  1 y f2 la función
de densidad de  2 .
ANÁLISIS DISCRIMINANTE
16
El problema general de clasificación para dos
poblaciones
El problema es separar el espacio muestral  en
dos regiones R1 y R2 disjuntas tales que:
  R1  R 2 , R1  R 2  
En 
1
f1
R1
f2
R2
ANÁLISIS DISCRIMINANTE
17
El problema general de clasificación para dos
poblaciones
 Probabilidad de clasificar en  1 si viene de  1
P (1 | 1) 

R1
f 1 ( x ) dx
 Probabilidad de clasificar en  1 si viene de  2
P (1 | 2 ) 

R1
f 2 ( x ) dx
 Probabilidad de clasificar en  2 si viene de  1
P ( 2 | 1) 

R2
f 1 ( x ) dx
 Probabilidad de clasificar en  2 si viene de  2
P (2 | 2) 

R2
f 2 ( x ) dx
ANÁLISIS DISCRIMINANTE
18
El problema general de clasificación para dos
poblaciones
 p1 : probabilidad de que venga de  1
 p2 : probabilidad de que venga de  2
 P(clasificar correctamente en  1 ) = P (1 | 1)  p 1
 P(clasificar incorrectamente en  1 ) = P (1 | 2 )  p 2
 P(clasificar correctamente en  2 ) = P ( 2 | 2 )  p 2
 P(clasificar incorrectamente en  2 ) = P ( 2 | 1)  p 1
ANÁLISIS DISCRIMINANTE
19
El problema general de clasificación para dos
poblaciones
El objetivo es encontrar la mejor regla de clasificación,
que proporcionará las regiones que minimicen
el coste esperado por mala clasificación.
CLASIFICAR EN
1
1
2
VIENE DE
0
C(2&1)
2
C(1&2)
0
ANÁLISIS DISCRIMINANTE
20
El problema general de clasificación para dos
poblaciones
El coste esperado por mala clasificación para
dos regiones es:
CEMC  C (1 & 2 )  P (1 | 2 )  p 2  C ( 2 & 1)  P ( 2 | 1)  p 1
El objetivo es hallar dos regiones que minimicen el CEMC.
ANÁLISIS DISCRIMINANTE
21
El problema general de clasificación para dos
poblaciones
Teorema
Las regiones R1 y R2 que minimizan el coste esperado por
mala clasificación son:

R1   x  


R2   x  

p
p
:
:
f1 ( x )

C (1 & 2 )

p2 
f2 ( x )
C ( 2 & 1)

p1 
f1 ( x )
C (1 & 2 )
p2 
f2 ( x )

C ( 2 & 1)


p1 
ANÁLISIS DISCRIMINANTE
22
El problema general de clasificación para dos
poblaciones
Corolario

p1 = p2


C(1&2) = C(2&1) 

R1   x  


R2   x  

p
:
C (1 & 2 ) 


C ( 2 & 1) 
f2 ( x )
p

R1   x  

R2
f1 ( x )

 x  

f1 ( x )
:
C (1 & 2 ) 


C ( 2 & 1) 
f2 ( x )
p
p
:
:
f1 ( x )

p2 

f2 ( x )
p1 
f1 ( x )
p2 
f2 ( x )


p1 
ANÁLISIS DISCRIMINANTE
23
El problema general de clasificación para dos
poblaciones
 p1= p2 y C(1&2) = C(2&1) 

R1   x  


R2   x  

p
p

:
 1
f2 ( x )

f1 ( x )
:
f1 ( x )
f2 ( x )

 1

ANÁLISIS DISCRIMINANTE
24
Clasificación para dos poblaciones normales
En este caso se conoce la función de densidad para
1 y  2.
Dada la variable
con
 X1 


X   


X
 p
y las dos poblaciones  1 y  2
X ~ N p ( 1 ,  1 )
X ~ N p ( 2 ,  2 )
,
respectivamente, el objetivo es hallar
las dos regiones R1 y R2 que minimizan el CEMC.
ANÁLISIS DISCRIMINANTE
25
Clasificación para dos poblaciones normales
Teorema
Las regiones R1 y R2 que minimizan el CEMC son:

x


R1  



p
:
1
x '1   2
1
1
 x   '
1
1
x
2
 C (1& 2 ) p 2 


C
(
2
&1)
p

1 
 lo g 
1

p
x   ;  X '   1 1   2 1 

2

R2  
 C (1& 2 ) p 2

 lo g 


 C ( 2 &1) p 1

siendo
 1   '2  2
1
k 
1
2
log
1
2

1
'

2
X 
  '1  1   '2  2
1
1


 k 






X  k 






,



 1  1   '2  2  2  .
1
1
1
ANÁLISIS DISCRIMINANTE
26
Clasificación para dos poblaciones normales
Observación
 Si
 Si
1   2
1   2
la regla de clasificación es cuadrática.
se obtienen las regiones:

 C (1& 2 ) p 2
p
1
R1   x   :   1   2  '  x  k  log 

 C ( 2&1) p1





 C (1& 2 ) p 2
p
1
R 2   x   :   1   2  '  x  k  log 

 C ( 2&1) p1




ANÁLISIS DISCRIMINANTE
27
Clasificación para dos poblaciones normales
Si se considera
C (1 & 2 )
p2

C ( 2 & 1)
1
, entonces se
p1
llega a la regla discriminante lineal de Fisher.
( 1   2 ) ' 
1
x
1
2
 '
 1  1   '2  2  2   0
1
1
1
ANÁLISIS DISCRIMINANTE
28
Clasificación para dos poblaciones normales
Versión muestral
Dadas dos poblaciones  1 y  2 y las matrices de datos
Nota: no es necesario n1= n2
X
(1 )
(1 )
 X 11

(1 )
 X 21



 X (1 )
 n1 1
(1 )

X 22
(1 )



X 12
(1 )
X n1 2

(1 )
X 1p 

(1 )
X 2p 



(1 ) 
X n1 p 
X
(2)
(2)
 X 11

(2)
 X 21



 X (2)
 n2 1
(2)

X 22
(2)



X 12
(2)
X n2 2

(2)
X 1p 

(2)
X 2p 
,


(2) 
X n2 p 
ANÁLISIS DISCRIMINANTE
29
Clasificación para dos poblaciones normales:
Versión muestral
estimando fˆ1 ( x ) y fˆ2 ( x ) , se tiene:


R1   x  


R2


 x  


p
p
:
fˆ ( x )
C (1 & 2 ) p 2
1


ˆ
f (x)
C ( 2 & 1)
p
2
1





:
fˆ ( x )
C (1 & 2 ) p 2
1


ˆ
f (x)
C ( 2 & 1)
p
2
1





ANÁLISIS DISCRIMINANTE
30
Clasificación general para g poblaciones
Sea la variable
 X1 


X   


X
 p
y las g poblaciones  1 ,  2 ,  g
siendo f 1 ,  , f g sus respectivas funciones de densidad
y p 1 ,  , p g las probabilidades a priori.
ANÁLISIS DISCRIMINANTE
31
Clasificación general para g poblaciones
El coste de clasificar en  i viniendo de
C(i&k), siendo C(i&i) = 0, i  1,..., g .
k
es
Las g regiones en las se puede clasificar vienen
dadas por:
R i   x   : x se clasifica en  i 
p
ANÁLISIS DISCRIMINANTE
32
Clasificación general para g poblaciones
La probabilidad de clasificar en  k si viene de  i es
P (k | i) 

Rk
f i ( x )dx
ik
La probabilidad de clasificar en  i si viene de  i es
g
P (i | i ) 

Ri
f i ( x )dx  1 
 P (k | i)
i k
k 1
ANÁLISIS DISCRIMINANTE
33
Clasificación general para g poblaciones
El objetivo es encontrar la mejor regla de clasificación,
que dará lugar a las regiones que hacen mínimo
el coste por mala clasificación.
CLASIFICAR EN
1
1
0
2
C(1&2)
 2 C(2&1) 0
 
 g C(g&1) C(g&2)
VIENE DE





g
C(1&g)
C(2&g)

0
ANÁLISIS DISCRIMINANTE
34
Clasificación general para g poblaciones
El coste esperado por mala clasificación dado que la
observación viene de  i es:
g
C E M C (i ) 
 C (k & i) p (k | i)
k 1
k i
En general, el coste esperado por mala clasificación
es:
g
CEM C 
g
  C (k & i) p 
i
i 1 k 1
k i
Rk
f i ( x ) dx
ANÁLISIS DISCRIMINANTE
35
Clasificación general para g poblaciones
El CEMC también se puede escribir como:
g
CEM C 
g
  C (k
i 1
& i ) P (k | i ) pi
k 1
k i
ANÁLISIS DISCRIMINANTE
36
Clasificación general para g poblaciones
Teorema
El CEMC se minimiza asignando la observación x a la
población  k para la cual
g
 C (k & i) p
i
fi ( x)
es m ínim a
i 1
Corolario
Si todos los costes de gclasificación son iguales, el CEMC
se minimiza cuando

pi f i ( x )
es mínima, es decir,
i 1
cuando se clasifica x en la población donde p k f k ( x )
es máxima.
ANÁLISIS DISCRIMINANTE
37
Clasificación general para g poblaciones
La región de puntos que se clasifican en la población i es
ANÁLISIS DISCRIMINANTE
38
Clasificación para g poblaciones normales
En este caso se conoce la función de densidad para
1, 2 ,
, g .
 X1 


X   


X
p


Dada la variable
con
y las g poblaciones  1 ,  2 , ,  g
X ~ N p ( 1 ,  1 )

X ~ N p (  g ,  g ),
respectivamente, el objetivo es hallar las g regiones
R1,R2 ,...,Rg que minimizan el CEMC.
ANÁLISIS DISCRIMINANTE
39
Clasificación para g poblaciones normales
La función de densidad en el caso normal para las
poblaciones  1 ,  2 , ,  g es:
fi ( x ) 
i  1, 2,
1
(2  )
p/2
exp   12 ( x   i ) '  i ( x   i ) ,
1
i
1/ 2
,g
Si los costes son iguales, hay que maximizar p i f i ( x ) .
ANÁLISIS DISCRIMINANTE
40
Clasificación para g poblaciones normales
Se clasifica x en  k si
es decir, si:
log p k 
p
2
log 2  
1
2
p k f k ( X )  max log p i f i ( x ) ,
i  1 ,..., g
log  k 
1
2
1
(x  k ) ' k (x  k ) 
 m ax p i f i ( x )
i  1,... g
ANÁLISIS DISCRIMINANTE
41
Clasificación para g poblaciones normales
Como las matrices de covarianzas son distintas, se
tiene una expresión cuadrática:
d ( x )  log p i 
Q
i
1
log
2

i

1
2
( x   i )' 
1
i
(x  i )
Score cuadrático de clasificación
Se clasifica x en  k si
d k ( x )  max d i ( x )
Q
Q
i 1 ,... g
Nota: Si no hay probabilidades a priori, log pi = 0.
ANÁLISIS DISCRIMINANTE
42
Clasificación para g poblaciones normales
Versión muestral
Sea
.
 X1 


X   


X
 p
y sean g poblaciones conocidas  1 ,  2 , ,  g
g matrices de datos, de tamaños n1, n2,...,ng, no
necesariamente iguales:
X
(1 )
(1 )
 X 11

(1 )
 X 21



 X (1 )
 n1 1
(1 )

(1 )
22

X 12
X
X


(1 )
n1 2

(1 )
X 1p 

(1 )
X 2p 
 , , X


(1 ) 
X n1 p 
(g)
(g)
 X 11

(g)
 X 21



 X n( g1)
g

(g)

(g)
22



(g)
ng 2

X 12
X
X
ANÁLISIS DISCRIMINANTE
(g)
X 1p 

(g)
X 2p 



(g)
X ng p 

43
Clasificación para g poblaciones normales
Versión muestral
Sean X 1 , X 2 ,  , X
g
S1 , S 2 , , S g
p1 , p 2 ,  , p g
ANÁLISIS DISCRIMINANTE
44
Clasificación para g poblaciones normales
Versión muestral
La función de densidad estimada es:
fi ( x ) 
i  1, 2,
1
(2  )
p/2
exp   12 ( x  X i ) ' S i ( x  X i ) ,
1
Si
1/ 2
,g
El score cuadrático de clasificación es:
Q
1
dˆi ( x )  log p i  12 log S i  12 ( x  X i ) ' S i ( x  X i ).
Se clasifica x en  k si
decir, si
d k ( x )  max d i ( x )
Q
Q
, es
i 1 ,... g
p k fˆk ( x )  p i fˆi ( x ), i  k
ANÁLISIS DISCRIMINANTE
45
Clasificación para g poblaciones normales con
matrices de covarianzas iguales
Score lineal de clasificación
Sean X ~ N p (  i ,  ),
i  1,  , g
Nota:
si las matrices de covarianzas son:
•Iguales: caso lineal
•Distintas: caso cuadrático
Si todas las poblaciones tienen distribución normal, el
score cuadrático sería:
d i  lo g p i 
Q
1
2
lo g  
1
2
(x  i ) '
1
(x  i )
ANÁLISIS DISCRIMINANTE
46
Clasificación para g poblaciones normales con
matrices de covarianzas iguales:
Score lineal de clasificación
Si  i   , desarrollando la forma cuadrática
llega al score lineal de clasificación.
d i ( dx i)  log p i  12 log  
1
2
x '
1
x
1
2
x '
1
 i  12  'i 
1
x
se
1
2
 'i 
ANÁLISIS DISCRIMINANTE
1
i.
47
Clasificación para g poblaciones normales con
matrices de covarianzas iguales
Score lineal de clasificación
Para clasificar, hay que maximizar
d i ( x )   'i 
1
x
1
2
 'i 
1
 i  lg p i .
Score lineal de clasificación
La regla de clasificación por tanto, es clasificar x en  k
si d k ( x )  max d i ( x )
i 1 ,... g
ANÁLISIS DISCRIMINANTE
48
Clasificación para g poblaciones normales con
matrices de covarianzas iguales
Versión muestral
 X1 


Sea la variable X    
con distribuciones  X p 


y las g poblaciones  1 ,  2 ,  ,  g
estimadas
X ~ N p ( X 1 , S1 )

X ~ N p ( X g , S g ),
respectivamente. Si se estima con Si=S, el score lineal
de clasificación queda
1
1
1
ˆ
d i ( x )  x 'i S x  x 'i S x i  log p i
2
Score lineal muestral de clasificación
ANÁLISIS DISCRIMINANTE
49
Clasificación para g poblaciones normales con
matrices de covarianzas iguales
Versión muestral
La regla de clasificación es asignar x a  k si
dˆ k ( x )  max dˆ i ( x )
i  1 ,..., g
X i es el estimador de la media y S es el estimador
de :
S 
( n1  1) S 1  ( n 2  1) S 2    ( n g  1) S g
n1  n 2    n g  g
ANÁLISIS DISCRIMINANTE
50
Descargar

Análisis Discriminante