Aprendizaje y Optimización de
Redes Neuronales
Enrique Ferreira
Reconocimiento de Patrones
Instituto de Ingeniería Eléctrica
07 de octubre de 2015
Organización
 Mapeo Universal
 Teoremas
 Casos
 Aprendizaje
 Optimización
 Algoritmos de adaptación de las redes
 Ejemplos y Aplicaciones
 Vista más detallada de arquitecturas y su uso
07/10/2015
Reconocimiento de Patrones
2
Propiedades: Mapeo Universal
 Pregunta:
 Qué tipo de funciones puedo representar con una ANN?
 La idea se remonta al problema #13 de Hilbert (1900).
 Representar función de N variables como combinación lineal de
funciones en una variable (bajar dimensionalidad del problema)
 Respuesta:






Puedo representar el conjunto de funciones “suaves”.
Hay varias pruebas para diferentes arquitecturas
Kolgomorov (1957)
Cybenko (1960)
Hornik (1989)
Chen (1991)
07/10/2015
Reconocimiento de Patrones
3
Propiedades: Mapeo Universal
x1
 Red de 2 capas ocultas:
 Ejemplo en R2  R.




Funciones no lineales
Genera picos localizados
Similar a lo visto con FIS
Combinando estos picos se
puede aproximar cualquier
función de R2  R con el
grado de error que desee.
a
-a
c1
x2
a
-a
x1

1

1
d1

e1
1
1
b1
1
a
-a
1
x2
a
Reconocimiento de Patrones
-a
1
f1
-2

1

1

1
dn
en


bn
cn
1
07/10/2015


fn

1
-2
4
y
Propiedades: Mapeo Universal
 Teorema: (Chen ’91)
 F = { f:RR, f(x)=i=1N ci (x.wi + di),  sigmoide } es denso en
C(Rext)
 Sigmoide generalizada: acotada, no necesariamente continua o
monótona
 Prueba constructiva, extensible a Rn.
 Dem:

x  M  f ( x )  A  4
 0

Dado
,M , N  0 
x   M  f ( x )  B  4
S  sup(| ( x ) |)
 x ' x"  1  f ( x' )  f ( x" )  min( ,  )
N
4 4S

 M  x0  x1  x2    x2 MN 1  x2 MN  M , ti  12 ( xi  xi 1 )
 W  0, u  W   (u )  1 
1
MN
, u  W   (u ) 
1
MN
Sea K  0, K  2 NW
g ( x)  f ( M ) 
2 MN
  f ( x )  f ( x ). ( K ( x  t
i 1
07/10/2015
i
i 1
i 1
Reconocimiento de Patrones
))
5
Propiedades: Mapeo Universal
 Luego se desarrollaron pruebas con solamente una capa oculta que son las más
usadas en la actualidad
 Otras usan el teorema de Stone-Weiertrass: (ej. Hornik’89)
 D compacto en Rn, sea F el conjunto de funciones reales sobre D que satisfacen:
 Identidad: {f: f(x)=1 x  D}  F
 Separabilidad:  x1  x2 en D   f  F | f(x1)  f(x2)
 Clausura: f,g  F  f.g  F; af+bg  F  a,b  R
 T) F es denso en C(D) el conjunto de funciones reales continuas sobre D.
 dado  > 0, g  C(D),  f  F tq |f(x) – g(x)| <   x  D
07/10/2015
Autor
Activacion
Dominio
Prueba
Cybenko
Cont, sigm
C(K)
existencial
Hornik
Monot, sigm
C(K)
constructiva
Ito
Monot, sigm
Co(Rn)
Existencial
Hornik
Cont, no-cte
C(Rn)
Existencial
Stinchcombe
Lploc  L1(R)
Lp(K)
Constructiva
Cybenko
Acotada sigm
Lp(K)
Existencial
Chen
Acotada sigm
C(Rn)
Constructiva
Chen
Lploc  sigm
Lp(K)
constructiva
Chen
No-cte en C0(Rn)
C(Rn)
existencial
Reconocimiento de Patrones
6
Simplificaciones prácticas
 Trabajaremos con redes feedforward
 elimina dinámica interna
 puede existir dinámica a partir de interconexiones con otros
sistemas
 mapa estático entrada-salida
 uso extendido en aplicaciones y neuro-fuzzy
 reconocimiento de patrones
 data mining
 neuro-control
 mayor desarrollo teórico y experiencia práctica
 mapeo universal
 aprendizaje
 algoritmos, convergencia, complejidad
 regularización
07/10/2015
Reconocimiento de Patrones
7
Aprendizaje
 Dada estructura de red, proceso de modificación de
sus parámetros para lograr un comportamiento
deseado de la misma
 Estructura de la red también puede ser “aprendida”
 Métodos de aprendizaje:
 Supervisado
 existe “tutor” que me dice lo que la red debe hacer
 ej: reproducir mapeo entrada-salida dado (patrón)
 No supervisado
 generar clasificación propia de conjunto de patrones
 ej: clustering
 Reinforcement Learning
 aprende basado en señal de evaluación : bien/mal (reward)
 ej: ajedrez, backgammon (señal de refuerzo: gané/perdí)
07/10/2015
Reconocimiento de Patrones
8
Aprendizaje: On-line vs Off-line
 Diferentes formas de adaptar la red de acuerdo con la forma
en que se usa la información de entrenamiento (e.g.
patrones).
 Aprendizaje Off-line (batch)
 adaptación de parámetros de la red tomando el conjunto total de
patrones de entrenamiento
 usualmente llamado época (epoch)
 problemático con muchos datos
 Aprendizaje On-line (recursivo)
 adaptación de parámetros hecha a medida que los patrones son
obtenidos o usados en la red
 problema de “olvido” de patrones “viejos”
 Métodos intermedios
 adaptación cada k patrones (epoch size)
07/10/2015
Reconocimiento de Patrones
9
Aprendizaje: Optimización
 La capacidad de aprender proviene en general de la elección
de los parámetros de la red.
 Comportamiento deseado de la red  error asociado
 Adaptación de parámetros  optimización de una función de
error
 Métodos de optimización:
 Error lineal en parámetros
 mínimos cuadrados y derivados
 batch o recursivo
 Error no-lineal en los parámetros
 con/sin uso de derivadas
 batch o recursivo
 Más complejos que lineales
 Combinación de ambos según arquitectura de ANN
 Aprendizaje de la estructura de ANN
 En gral se realiza en un lazo superior del algoritmo (batch).
07/10/2015
Reconocimiento de Patrones
10
Aprendizaje: Perceptron
 Perceptron
 Separa espacio con hiperplano
 y = f ( w1 u1 + w2 u2 + ... + wn un ),
 f(s) = { 1 si s0, 0 si s<0 }
 Puede incluir offset w0.
u2
Clase I
u1
Clase 0
wt.u=0
 Importante históricamente
 estudiado muy detalladamente (Minsky y Papert ‘69)
 Es un clasificador lineal en 2 clases.
 bueno si patrones linealmente separables
 XOR problem
 Análogo a clasificador de Bayes gaussiano.
 minimiza probabilidad de error
 clasificador denominado paramétrico
07/10/2015
Reconocimiento de Patrones
11
Aprendizaje: Perceptron
 Separabilidad Lineal:
 patrones (uk,vk)
 condición:
 sgn(wt.uk)=vk
 wt.zk > 0, con zk = vkuk
 Algoritmos:
 muchas opciones basadas en error
en la salida
 : umbral de corrección
 n

new
old
y ( x )  sgn   wi xi  w0  wi  wi  wi
 i 1

2v p u p , si v p  y (u p )
wi  
 0, de otraforma
wi   1  v p y (u p ) v p ui
 distancia de solución a patrones
 medida de separabilidad
D( w ) 
1
min wt z p
w p
w   M pz p
Dmax  max D( w)
w
M M p
p
p
w t w*  MD( w*) w *  w  N (  2 )
 Convergencia
 Cota para M, número total de
pasos para llegar a solución w*.
07/10/2015
wi   v p  y (u p ) ui
w   N  w t z z p
 separarme de zona de transición
 D: medida de performance
p
Reconocimiento de Patrones
2
( w t w*)2
D 2 ( w*)
1 2
2  M
N (  2 )
w w*
MN
1  2

D 2 max
12
p
Ejemplo de Neurona: Adaline
 Adaptive Linear Element
 Estructura:
y=0
 Como un Perceptron pero con
función lineal a la salida.
 Permite trabajar con problemas
más generales
 Widrow y Hoff propusieron un
método computacionalmente más
eficiente denominado LMS para
determinar parámetros del Adaline
(1962).
 similar a aplicar gradiente
descendente
 muy intuitivo
07/10/2015
Reconocimiento de Patrones
n
y   wi xi  w0
i 1
1
2

tp  yp 
2
 p wi   t p  y p xi
Ep 
13
Aprendizaje: Adaline
 Adaptive Linear Element”
 Aprendizaje
 La salida lineal permite aplicar método de
gradiente en aprendizaje
 Widrow y Hoff propusieron un método
computacionalmente más eficiente
denominado LMS (1962)
n
o   wi xi  w0
 error instantáneo
 aplica gradiente descendente a estimación
actual de gradiente
i 1
E p ( w)  12 e 2 ( w) 
 aproximación estocástica
 muy intuitivo
 p wi  
 Convergencia
 Depende de  y valores propios de
función E
 matrix de correlación de entradas
 malos valores de  pueden causar
lentitud u oscilación
 : medida de memoria de algoritmo
 variar  durante aprendizaje
 disparidad de valores i.
07/10/2015
1
2
t
 op 
2
p
E p
  t p  o p xi
w
n
E  E0   i ( wi  wi 0 ) 2
i 1
wi  
E
 2i wi  wi 0 
wi
wi new  wi old  wi  (1  2i )wi old
Reconocimiento de Patrones
14
Optimización Lineal: Least-Squares (LSE)
 Dado conjunto de pares entradasalida deseados y modelo lineal
paramétrico
 podemos asumir yi  R sin perder
generalidad
 obtenemos sistema lineal
 con mayor número de ecuaciones
que incógnitas
 minimizando el error cuadrático E
 Off-line: Pseudoinverse
 si podemos armar el sistema
lineal de antemano
 On-line: Obtención recursiva de la
pseudoinverse
 datos obtenidos en forma
secuencial durante cálculo
 Variantes:
 forgetting factor
 LSE vs Kalman Filter
 LSE vs MLE, unbiased,
consistent
07/10/2015
(ui , yi ), i  1,...,m
y  1 f1 (u)  2 f 2 (u)  ...  n f n (u)
ait  [ f1 (ui ), f 2 (ui ),..., f n (ui )]
 t  [1 , 2 ,..., n ], y t  [ y1 ,..., ym ]
y  A
E  ( yi  ait )2  ( y  A )t ( y  A )
i
  (At A)1 At y
 k  Pk A tk y k Pk  ( A tk A k ) 1


Pk ak 1akt 1Pk
Pk 1  Pk 
,
P0  I

t
1

a
P
a

k 1 k k 1
 k 1   k  Pk 1ak 1 ( yk 1  akt 1 k ),  0  0
Reconocimiento de Patrones
15
Perceptron Multicapa: Backpropagation
 Procedimiento para encontrar el vector gradiente de una
función error asociada a la salida de la red con respecto a los
parámetros de la misma
 El nombre backpropagation surge pues el cálculo se hace en
el sentido inverso de la red, propagándose desde los nodos
de salida hacia los nodos de entrada
 Werbos (’72) desarrolló la idea de derivadas ordenadas en
general, siendo Rumelhart quien lo aplicó a ANN en los 80’s
 Esto permite poder aplicar a posteriori alguno de los muchos
métodos de optimización con gradiente para obtener el
comportamiento deseado de la red
07/10/2015
Reconocimiento de Patrones
16
Backpropagation
 Para red feedforward:
 ANN define mapa: y(u) = f(u)
 Dado conjunto de patrones
u1
Wij1
Wij2
3
Wij3
1
y1
7
y2
4
u2
 vector de entrada u
 vector de salida deseada d
 Defino Error:
 Distancia entre salida de red y salida
deseada
 Usual: E = ½.|| d – y(u) ||2
 Se suma en pares {u,d} disponibles
2
5
xi0  ui
x k  g k (W k x k 1 ), k  1, ,L  1
y (u )  g L (W L x L 1 )
 Calcular:
 derivadas de error con respecto a salidas de
nodo y parámetros de red
 Actualizar parámetros de red usando
derivadas calculadas
 gradiente descendente
07/10/2015
6
Reconocimiento de Patrones
17
Ejemplo: Perceptron Multicapa
Wij1
 Veamos como aplicamos
backpropagation en más
detalle
u1
 A tener en cuenta
 tamaño y funciones a usar
 mínimos locales
 problemas de generalización
07/10/2015
P
Wij    i
p ,L
p 1
y1
6
xj
p , L 1
, i
p ,L
y2
7
5
k
E
k
Wij
 gi ' ( W Lx p ,L1 )(vi  xi
p
p ,L
)
for k  2 , ,L-1 :
P
Wij    i
k
p ,k
p 1
 inicialización de pesos
 randomizar orden de patrones
 introducir ruido
 sobre-entrenamiento
 tamaño de red
2
Wij  
L
 complejidad polinomial en #W
 arquitectura de la red
1
3
3 Wij
4
u2
 derivadas de funciones de
activación
 Calculo de gradiente por
capas
 Gradiente descendente
Wij2
xj
p ,k 1
, i
p ,k
k
j
P
W    i u j ,  i
1
ij
 gi ' ( W k x p ,k 1 )Wij  j
p 1
p ,1
p
p ,1
 gi ' ( W1u p )Wij  j
1
j
1
 g ' ( x )  2  g ( x )(1  g ( x ))
1  e 2  x
g ( x )  tanh( x )  g ' ( x )   (1  g 2 ( x ))
g ( x) 
Reconocimiento de Patrones
18
2
k 1
Ejemplo: Perceptron Multicapa
 Backpropagation
 descripción gráfica usando grafos
 ejemplo con red de 2 capas
v2
v1 g(.)
g(.)
x1 W2
u W1
-1
e
v
x2
g’(.)
g’(.)
e
W2
1
07/10/2015
Red auxiliar
2
Reconocimiento de Patrones
19
Variantes del Back-propagation
 Variantes en aprendizaje
 Momento
 Adaptación de 
 Otras funciones de costo
 e.g.: entropía relativa
 Inicialización de pesos ~(fan-in)-1/2
 Escalado de datos
 preprocesamiento entrada-salida.
 media nula y similar varianza



E
  wk 1
w
   , si E  0
  
  , si E  0
wk  
p
p
1

1

v
1

v
p
p
1
i
i
Generación de datos


E    2 (1  vi ) log
p  2 (1  vi ) log
p 
 con ruido
1  yi
1  yi 
p ,i 
 propiedades de estructura de datos
Validación, sobre-ajuste
E
yip  vip

 early-stopping
p
yi 1  ( yip )2
Métodos mas avanzados de optimización de
error
ropt 
 Arquitectura
 Otras funciones de activación
# Pval
1
 1
# Ptrain
2W
 continuas y derivables mejor
 saturacion
 Tamaño
 importante para propiedades
 Experimentación
 minimización de riesgo, uso de validación
07/10/2015
Reconocimiento de Patrones
20
Optimización no lineal: Usando gradiente
 Minimizar función error E()
 Algoritmo de actualización para  dependiente del E
k 1  k  k Gk gk , gk   E(k ),k  0, Gk  0
 Varios métodos:
 Gradiente descendente, siguiendo la dirección del
gradiente,  puede hallarse por minimización
unidimensional o no
Gk  I, k  arg min E( k   gk )
 0
 Gradientes son ortogonales:
gkt 1 gk  0
 Newton-Raphson y variaciones
 usa el Hessiano, muy bueno para funciones cuadráticas
 k 1   k  k (Hk  I) gk ,
1
 0 Newton-Raphson clásico.
  gradiente descendente
 costoso calcular H-1
07/10/2015
2 E
gk   E( k ), Hk 
,k  0
 2
Reconocimiento de Patrones
21
Optimización no lineal: Usando gradiente
 Método de LevenbergMarquardt
Ek 
1
1
2
2
e
(

)

e
(

)
p k 2 k ,
2 p
e( k 1 )  e( k )  J ( k 1   k ), J 
e

 Estimación del Hessiano
usando aproximación lineal.
1
1
2
2
t
E

e
(

)

J
(



)





(H=J J)
k 1
k
k 1
k
k 1
k ,
2
2
 Específico para función de
t
1 t




(
J
J


I
)
J e( k ),
k 1
k
error cuadrática
e p e p
 2e p
2 E
 Dirección de optimización
H ij 

 ep
oscila entre Gauss-Newton y
 i  j




 i  j
p
i
j
máxima pendiente.
t
H   J pJ p
  también controla el paso de
p
actualización
t
 si es muy grande dejaría de
valer aproximación lineal
 Aproximación recursiva del
Hessiano H y H-1.
07/10/2015
H p 1  H p  J p 1 J p 1
( A  BC) 1  A1  A1B ( I  CA1B ) 1 CA1
1
H p 1  H p
Reconocimiento de Patrones
1
H p1 J p 1 J pt 1H p1

1  J pt 1H p1 J p 1
22
Optimización no lineal: Usando gradiente
 k 1   k  k M k g k ,
 Métodos QuasiNewtonianos
 k 1   k  M k 1 ( g k 1  g k ),
 Estimación del Hessiano o
M 0  I,
su inverso
t
t




M

g

g
Mk
k
k
k
k
k
 Davidon-Fletcher-Powell
M k 1  M k 

DFP :
t
t



g

g
M k g k
k
k
k
 Broyden-Fletcher-GoldfardShanno

 k g kt  
g k  kt   k  kt
 DFP dual BFGS
M k  I 
 
BFGS : M k 1   I 
t
t



g



g
 kt g k
k
k 
k
k 


 El parámetro k se calcula
minimizando en la dirección
dada por Mk.gk.
 QuickProp:
 Estimación de 2o orden
para cada peso por
separado
07/10/2015
Quickprop:  k 1 
Reconocimiento de Patrones
J k
 k
J k 1  J k
23
Optimización: Minimización unidimensional
 Determinar coeficiente 
 En 3 pasos:
 ' (k )
 " (k )
 Bracketing
 Encontrar intervalo [a,b]
 ' (k )(k  k 1 )
Secante: k 1  k 
donde esta el mínimo
 ' (k )   ' (k 1 )
 Asumo unicidad
Bisection:
k 1  12 (k  k 1 )
 Refinamiento





Newton
Secante
Bisection
Golden section search
Polinomial
 2do orden
 cúbica
Newt on: k 1  k 
sk  bk  1 (bk  ak ), tk  ak  1 (bk  ak ),  12 5
Golden search : if  ( sk )   (tk )  ak 1  sk , bk 1  bk
else ak 1  ak , bk 1  tk
P ol.2do gr : next
 Terminación
 Golden test
 Wolfe test
 Armijo test
07/10/2015
(22  32 )1  (32  12 )2  (12  22 )3

(2  3 )1  (3  1 )2  (1  2 )3
1
2
next  2  (2  1 )
P ol.3er gr :
 ' (2 )    
 ' (2 )   ' (1 )  2
 ( )  (2 )
  '(1 )  '(2 ) 3 1
,   2  '(1 ) '(2 )
1 2
Reconocimiento de Patrones
24
Optimización: Tests de Terminación
 Determinar  con mucha
precisión consumiría mucho (0)
tiempo en optimización total
 Golden test:
 Con este test se decide
terminar cuando la mejora
está en cierta franja
dependiente de un
parámetro 

’(0)
’(0)

(1-) ’(0)
(1  ) ' (0)   ()   (0)   ' (0), 0    12
 ( )   (0)   ' (0) , 0   
 Wolfe test:
1
2
 ' ( )  (1   ) ' (0)
 Armijo test:
 0<<1
 >1
07/10/2015
if  (0 )   (0)   ' (0)0 , 
else
k  k 1
until  (k )   (0)   ' (0)k
do
k  k 1 / 
until  (k )   (0)   ' (0)k
do
Reconocimiento de Patrones
25
Optimización: Gradiente conjugado
 Direcciones conjugadas:
 Generalización de ortogonalidad: djt.Q.dk = 0, Q = Qt > 0
 Lema: {di} conjugadas son linealmente independientes
 Puedo crear base de Rn
k 1
ditQsk
de vectores conjugados entre si
d k  sk   t
di
i 0 d i Qdi
 Método gradiente conjugado
 Generalización de “gradiente descendente” usando Q=H,
sk=gk y minimizando en dirección dk.
 Exacto para funciones de error cuadráticas igual que
Newton y quasi-Newton (pero menos costoso)
 Calculo exacto para 
gkt d k
k   t
 Lema: gkt.dj = 0, j<k
d k Hd k
 Corolario: gkt.gj = 0, j<k
07/10/2015
Reconocimiento de Patrones
26
Optimización: Gradiente conjugado
 Algoritmos:
 Generación de direcciones conjugadas
 Elimina Hessiano H de fórmula,
es exacta para caso cuadrático:
gk+1 – gk = k H dk




Beale-Sorenson
Polak-Ribiere
Fletcher-Reeves
Inicialización: 0=0, d0=g0
 Minimización unidimensional
 Usando lo ya visto para otros métodos
d k   gk   k d k 1
gkt ( g k  g k 1 )
B  S : k  t
d k 1 ( g k  g k 1 )
gkt ( gk  gk 1 )
P  R : k 
gkt 1. gk 1
gkt . g k
F  R : k  t
gk 1. g k 1
k 1  k  k dk
 Reinicialización
 En general, se reinicializan fórmulas para dk cada un número
determinado de pasos (e.g. n).
07/10/2015
Reconocimiento de Patrones
27
Comparación de métodos
 Comparemos los resultados de optimización de los
diferentes métodos con una función cuadrática:
07/10/2015
Reconocimiento de Patrones
28
Comparación de métodos
 Gradiente conjugado
 Quasi-Newtonianos
 menos costoso en
memoria, O(W)
 optimización lineal debe ser
bastante precisa para
cumplir condición de
conjugación
 en gral: PR mejor que FR
07/10/2015
 memoria: necesita
almacenar Hessiano, O(W2)
 calculo de inversa
 mas robusto a optimización
lineal
 en gral: BFGS mejor que
DFP.
Reconocimiento de Patrones
29
Optimización: Sin usar gradiente
 A veces no se puede acceder a
gradiente o muy costoso
 Para tratar de evitar mínimos locales
 Más usados:




Algoritmos genéticos
Búsqueda aleatoria
Simulated Annealing
Simplex y variaciones
 No serán usados explícitamente en
este curso
 métodos con gradientes son más
eficientes y backpropagation nos
permite su cálculo en gral
 pero podrán ser desarrollados para
proyectos de fin de curso!
07/10/2015
Reconocimiento de Patrones
30
Backpropagation Through Time (BPTT)
 Método de entrenamiento para redes recurrentes o datos con
dependencia temporal
 desdoblar red M veces transformándola en red feed-forward
 M: horizonte de cálculo o longitud de secuencias temporales conocidas
 aplicar algoritmos de aprendizaje usando backpropagation usual, con
secuencias patrones
 parámetros de red compartidos entre nodos correspondientes
 muy caro computacionalmente hablando
07/10/2015
t=1
t=2
t=3
t=4
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
Reconocimiento de Patrones
31
Real-Time Recurrent Learning (RTRL)
n
 Método más económico que
BPTT
 no utiliza horizonte
 algoritmo adapta parámetros
en cada paso de secuencia
Ejemplo: n=3
1
2
3
07/10/2015
t
t’=t+1
1
1
2
2
3
3
E '   ( d i  x 'i ) 2
i 1
n
  x 'i x 'i
x 'i   xk


a j
a j k 1 xk a j
n
E'
E '   xk

a j
k 1 xk a j
  x'1 x'1 x'1   x2


a j
a j x2 a j
  x'2 x'2 x'2   x1 x'2   x3



a j
a j x1 a j x3 a j
  x'3 x'3 x'3   x1 x'3   x3



a j
a j x1 a j x3 a j
Reconocimiento de Patrones
32
Aprendizaje Híbrido
 El uso de backpropagation para el cálculo de gradientes para
posterior optimización hace a dichos algoritmos costosos y
lentos
 En muchos casos, las salidas de ciertas redes neuronales
presentan dependencia lineal en algunos de sus parámetros.
 Para dichos parámetros se podrían usar algoritmos LSE que son
más rápidos
 Surgen así, 2 clases de parámetros a optimizar, lineales y nolineales. Existen diversas estrategias para la adaptación
conjunta de ambas clases:
 Tratar todos los parámetros como no-lineales
 Un paso de LSE para inicializar lineales y luego NLO con todos
los parámetros
 En cada epoch usar NLO y LSE
 Linealizar red y usar solamente LSE
 Lo que se denomina NL-LSE. (e.g. Gauss-Newton, EKF, L-M)
07/10/2015
Reconocimiento de Patrones
33
Referencias
 C. Bishop, “Neural Networks for pattern recognition”,
Oxford Press, 1995.
 Simon Haykin, “Neural Networks”, 2nd edition,
Prentice Hall, 1999.
 Hertz, Krogh and Palmer, “Introduction to the theory
of Neural Computation”, Addison-Wesley, 1991.
 Jang et al. “Neuro-fuzy and Soft Computing”, Cap.
8-11, Prentice Hall, 1997.
 C-T Lin y G. Lee, “Neural Fuzzy Systems”, Prentice
Hall, 1995.
07/10/2015
Reconocimiento de Patrones
34
Descargar

Aprendizaje en ANN