Reconnaissance de mots
manuscrits cursifs par modèles
de Markov cachés en contexte
Application au français, à l’anglais et à l’arabe
Anne-Laure Bianne-Bernard
21 novembre 2011
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
• Introduction à la reconnaissance d’écriture
manuscrite
• Objectifs et contributions de la thèse
• Les modèles de Markov cachés en contexte
• Applications et résultats
• Conclusions et perspectives
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
2
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
La reconnaissance d’écriture
De la page au mot
Extraction de caractéristiques
Modélisation HMMs
• Introduction à la reconnaissance d’écriture
manuscrite
• Objectifs et contributions de la thèse
• Les modèles de Markov cachés en contexte
• Applications et résultats
• Conclusions et perspectives
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
2
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
La reconnaissance d’écriture
De la page au mot
Extraction de caractéristiques
Modélisation HMMs
Reconnaissance d’écriture
En ligne
21
21 Novembre
Novembre 2011
2011
Hors ligne
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
3
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
La reconnaissance d’écriture
De la page au mot
Extraction de caractéristiques
Modélisation HMMs
Reconnaissance d’écriture hors ligne
Imprimé
21
21 Novembre
Novembre 2011
2011
Manuscrit
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
Autres
4
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Extraction des blocs de texte
La reconnaissance d’écriture
De la page au mot
Extraction de caractéristiques
Modélisation HMMs
Extraction des lignes de texte
Extraction de mots
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
5
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
La reconnaissance d’écriture
De la page au mot
Extraction de caractéristiques
Modélisation HMMs
Prétraitements des images
de mots :
– Correction de la pente
du mot (skew)
– Correction de l’angle
d’inclinaison des caractères
(slant)
– Re-proportionnement
– Binarisation
21
21 Novembre
Novembre 2011
2011




Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
6
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
La reconnaissance d’écriture
De la page au mot
Extraction de caractéristiques
Modélisation HMMs
Stratégies de parcours de l’image
• Segmentation explicite
• Sans segmentation : approche par fenêtres glissantes
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
7
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
La reconnaissance d’écriture
De la page au mot
Extraction de caractéristiques
Modélisation HMMs
Extraction de caractéristiques par fenêtres glissantes
– Caractéristiques géométriques et statistiques (El Hajj et al. 2005)
• configurations de pixels
• centre de gravité de la fenêtre
• densité de pixels dans la fenêtre, etc.
– Caractéristiques directionnelles (Rodriguez et al. 2008)
2
3
• histogrammes de gradients
1
4
0
5
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
6
7
8
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
La reconnaissance d’écriture
De la page au mot
Extraction de caractéristiques
Modélisation HMMs
Modélisation et reconnaissance de mots isolés
– Objectif : trouver le mot ŵ tel que
wˆ  arg max P( w OT )
w
• OT : la séquence de vecteurs de caractéristiques
– Règle de Bayes :
wˆ  arg max
w
P(w) P(OT w)
P(OT )
 arg max P(w) P(OT w)
w
modélisation
lexicale
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
calculé par
des HMMs
9
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
La reconnaissance d’écriture
De la page au mot
Extraction de caractéristiques
Modélisation HMMs
Modélisation par HMMs
hmm_e :
– Un mot = concaténation des caractères qui le composent
modèle(pendant) = hmm_p + hmm_e + hmm_n + hmm_d + hmm_a +
hmm_n + hmm_t
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
10
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Objectifs
Contributions
• Introduction à la reconnaissance d’écriture
manuscrite
• Objectifs et contributions de la thèse
• Les modèles de Markov cachés en contexte
• Applications et résultats
• Conclusions et perspectives
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
11
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Objectifs
Contributions
Objectifs
• Reconnaissance de mots manuscrits avec HMMs et
sans segmentation
• Système à l’état de l’art
• Reconnaisseur robuste indépendamment de la base
de données utilisée :
– script (alphabet)
– grande taille du dictionnaire ( ≥105 mots)
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
12
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Objectifs
Contributions
Contributions
• Raffinement de la modélisation HMM de caractères
– optimisation du nombre d’états des HMMs
– ajout de caractéristiques dynamiques
• Elaboration de modèles HMMs dépendants de leur
contexte : les trigraphes
– création de questions binaires originales sur la forme des
caractères pour le clustering d’états des trigraphes
– mise en place des modèles contextuels pour le français,
l’anglais et l’arabe
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
13
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Objectifs
Contributions
Système existant à A2iA
Binarisation, deslant, etc.
Pré-traitements
Segmentation explicite
(graphèmes)
Briques ajoutées/modifiées
Binarisation, deslant, etc. new
Segmentation implicite
new
(fenêtres glissantes)
Extraction de
caractéristiques
74 caractéristiques (profil, ratio
H/L, centre de gravité, etc.)
34 caractéristiques
+ caract. dynamiques
new
Modèles
de caractères
Modèles
hybrides
HMM/NN
21
21 Novembre
Novembre 2011
2011
HMMs type
Bakis (loi
gaussienne)
new
+ prise en
Reconnaissance
compte du
de mots
contexte
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
14
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
• Introduction à la reconnaissance d’écriture
manuscrite
• Objectifs et contributions de la thèse
• Les modèles de Markov cachés en contexte
• Applications et résultats
• Conclusions et perspectives
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
15
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
• Introduction à la reconnaissance d’écriture
manuscrite
• Objectifs et contributions de la thèse
• Les modèles de Markov cachés en contexte
– Adaptation de la topologie des HMMs
– Ajout de caractéristiques dynamiques
– Modélisation de HMMs contextuels
• Applications et résultats
• Conclusions et perspectives
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
15
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Adaptation de la topologie des modèles
Calcul du nombre optimal d’états Ls(C) par HMM de caractère
Ls (C ) 
21
21 Novembre
Novembre 2011
2011
 ( s )
sS C
C
–
Γ(s) : statistique de passage dans l’état s
–
Sc : états du caractère C
–
|C| : nombre de caractères utilisés pour calculer Γ(s)
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
16
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Adaptation de la topologie des modèles
Exemple sur
la base
OpenHart
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
17
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Adaptation de la topologie des modèles (cont.)
Optimisation du nombre de gaussiennes par état
temps de décodage (s)
Exemple
sur la base
Rimes
taux de reconnaissance
Rimes-validation 2011
lexique :1612
Point de fonctionnement
nombre de gaussiennes par mélange
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
18
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Ajout de caractéristiques dynamiques
 o1 
o 
 2 
  


o
o~ j   n  et
 o1 


 o 2 
  


on 
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
 i ( o j  i  o j i )
o j  i1... K2 i 2

i 1... K
19
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Les HMMs contextuels
•
Prennent en compte la variabilité des caractères
manuscrits en fonction de leur contexte :
phénomène de co-articulation
•
Modélisent plus finement les caractères
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
20
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Les HMMs contextuels : modélisation
d –a+ n
contexte précédent – caractère central + contexte suivant
pendant = (Ø-p+e) (p-e+n) (e-n+d) (n-d+a) (d-a+n) (a-n+t) (n-t+Ø)
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
21
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Modélisation plus fine MAIS
• Augmentation du nombre d’états
base de
données
# mots
apprentissage
# monographes
# trigraphes
Rimes-2011
5335
81
5175
x60
IAM
7097
75
6614
x90
OpenHart-2010
36303
147
22183
x150
– 1 modèle  environ 10 états
• Peu de données d’apprentissage pour un grand
nombre de trigraphes
– < 10 exemples pour 70% des trigraphes
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
22
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Comment réduire le nombre de paramètres?
• Partage de paramètres (tying)
– modèles semi-continus : Gaussiennes partagées pour tous les états et tous les
modèles
– Gaussiennes partagées par les trigraphes avec même caractère central
– états centraux des HMMs partagés par les trigraphes avec même caractère
central (Nedel et al., 2000)
• Suppression de modèles
– modèles bigraphes ou trigraphes avec peu d’exemples (Schussler et al. 08)
• Regroupement de modèles (Fink and Plotz 07, El-Hajj et al. 08)
– modèles avec contextes similaires regroupés (ascendants, descendants, …)
• Clustering par position d’état (state-based clustering, Natarajan et al. 06 & 09, Fink
and Ploetz 07, Bianne-Bernard et al. 10)
– états regroupés par lettre centrale et position dans le HMM
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
23
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Apprentissage des modèles contextuels
monographes initialisés
(1 distribution Gauss.
par état)
duplication :
trigraphes
estimation des
Paramètres
(Baum-Welch)
clustering par
position d’état
trigraphes finaux
(n distributions Gauss. par
état)
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
incrémentation
# gaussiennes
par mélange
24
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Clustering par position d’état
e-b+r
e-b+i
e-b+r
a-b+s
o-b+s
e-b+i
a-b+s
m-b+i
r-b+o
o-b+s
m-b+i
etc …
position d’état
21
21 Novembre
Novembre 2011
2011
1
2
…..
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
n-1
n
25
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Comment réaliser le clustering ?
• Directement sur les données (data-driven)
• Par arbre de décision (tree-based)
– lexique de décodage
indépendant de
l’apprentissage
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
26
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Clustering par position d’état à base d’arbres binaires
• Notre contribution principale
• Arbres construits à partir de questions binaires sur la
forme des caractères à gauche et à droite de la lettre
centrale
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
27
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Clustering par position d’état à base d’arbres binaires
• 1 arbre construit pour chaque numéro d’état des
trigraphes *-x+*
• Trouver la question q* maximisant ΔLq sur les
données (frames) (Young et al. 1994)
Lq  LSq   LSq   LS 
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
28
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Formule de Young (Young et al. 1997)
L(S )   logPro f ;  (S ), (S ))  s o f 
f F sS
L(S) = log vraisemblance de l’ensemble S des états s générant
l’ensemble F de vecteurs de caractéristiques of sachant que
les états s S sont liés


– les états s S partagent µ et ∑
– Pr(o f ;  (S ), (S )) gaussienne
– ∑(S) diagonale

– les observations f F correspondent à l’ensemble S
– γs(of) probabilité a posteriori de générer of par s
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
29
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Exemple : construction de l’arbre pour la position
d’état n°2 des trigraphes *-b+*
*-b+*
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
30
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Exemple : construction de l’arbre pour la position
d’état n°2 des trigraphes *-b+*
ensemble des états 2 pour *-b+*
Q1
q tel que
21
21 Novembre
Novembre 2011
2011
Lq  LSq   LSq   LS  maximal
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
31
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Exemple : construction de l’arbre pour la position
d’état n°2 des trigraphes *-b+*
ensemble des états 2 pour *-b+*
Q1 : contexte gauche minuscule?
non
oui
Q3
sil-b+r
A-b+i
…
21
21 Novembre
Novembre 2011
2011
Q2
a-b+e
a-b+d
i-b+l
…
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
31
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Exemple : construction de l’arbre pour la position
d’état n°2 des trigraphes *-b+*
ensemble des états 2 pour *-b+*
Q1 : contexte gauche minuscule?
non
Q3 : contexte droit en
forme de « u »?
oui
Q2 : lien avec contexte gauche
sur ligne de base basse?
Critères d’arrêt
• ΔL < seuil défini ΔLmin
• # observations par nœud < seuil défini Γmin
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
31
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Exemple : construction de l’arbre pour la position
d’état n°2 des trigraphes *-b+*
ensemble des états 2 pour *-b+*
Q1 : contexte gauche minuscule?
non
oui
Q3 : contexte droit en
forme de « u »?
non
Q2 : lien avec contexte gauche
sur ligne de base basse?
oui
non
oui
Q4
non
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
oui
31
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
• Réduction du nombre d’états
base de
données
Rimes
2011
IAM
OpenHart
2010
Phase1
# mots
apprentissage
5335
7097
36303
type
# modèles
# états
trigraphes init.
5175
60408
trigraphes + clustering
1691*
2804
trigraphes init.
6614
76137
trigraphes + clustering
2700*
3171
trigraphes init.
22183
287127
trigraphes + clustering
2782 *
9631
* nombre de trigraphes différents après regroupement de
modèles identiques
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
32
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Clustering par arbres binaires important pour le
décodage :
• Un mot hors du lexique d’apprentissage peut être
modélisé
• Les trigraphes non appris sont modélisés
– attribution d’un cluster à chaque état
– en répondant aux questions des arbres construits à
l’apprentissage
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
33
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Exemple : attribution d’un cluster à l’état n°2 du
trigraphe non appris e-b+l
État n°2 de e-b+l
• e-b+l n’est pas
dans l’ensemble
d’apprentissage
Q1 : contexte gauche minuscule?
• Les arbres pour
toutes les positions
d’état des trigraphes*-b+* sont
disponibles
• Descendre les
arbres permet
d’allouer un cluster
à chaque état du
nouveau trigraphe
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
34
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Exemple : attribution d’un cluster à l’état n°2 du
trigraphe non appris e-b+l
État n°2 de e-b+l
• e-b+l n’est pas
dans l’ensemble
d’apprentissage
• Les arbres pour
toutes les positions
d’état des trigraphes*-b+* sont
disponibles
Q1 : contexte gauche minuscule?
non
oui
Q3
Q2 : lien avec contexte
gauche sur ligne de
base basse?
• Descendre les
arbres permet
d’allouer un cluster
à chaque état du
nouveau trigraphe
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
34
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Exemple : attribution d’un cluster à l’état n°2 du
trigraphe non appris e-b+l
État n°2 de e-b+l
• e-b+l n’est pas
dans l’ensemble
d’apprentissage
• Les arbres pour
toutes les positions
d’état des trigraphes*-b+* sont
disponibles
Q1 : contexte gauche minuscule?
non
oui
Q3
Q4 : contexte droit
contient un ascenoui
dant avec boucle?
• Descendre les
arbres permet
d’allouer un cluster
à chaque état du
nouveau trigraphe
21
21 Novembre
Novembre 2011
2011
Q2 : lien avec contexte
gauche sur ligne de
oui base basse?
e-b+l
a-b+h
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
34
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Exemple : attribution d’un cluster à l’état n°2 du
trigraphe non appris e-b+l
e-b+l
a-b+h
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
35
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Elaboration de HMMs de caractères robustes
Modélisation
Clustering par position d’état
Arbres binaires pour le clustering
Décodage
Bilan des modèles HMMs en contexte
• Modélisation d’un caractère en fonction de son
voisinage
• Augmentation du nombre d’états  clustering par
position d’états
• Arbres binaires pour le clustering, questions sur la
morphologie des caractères
• Lexique de test indépendant du lexique
d’apprentissage
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
36
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
• Introduction à la reconnaissance d’écriture
manuscrite
• Objectifs et contributions de la thèse
• Les modèles de Markov cachés en contexte
• Applications et résultats
• Conclusions et perspectives
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
37
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
Rimes : courriers manuscrits en français (Augustin et al. 2006)
– 12500 documents
– 1300 scripteurs
– campagne 2011 mots isolés
• 51738 mots pour
l’apprentissage
• 7464 mots pour la
validation
• 7776 mots pour le
test
• lexique de 5744 mots
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
38
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
IAMdb : documents en anglais (Marti et Bunke 1999)
– 1540 documents
– 671 scripteurs
– IAM-words :
• 46901 mots pour
l’apprentissage
• 13503 mots pour la
validation
• 13750 mots pour
le test
– lexique : 10K mots les plus
fréquents du LOB corpus
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
39
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
OpenHart : documents manuscrits en arabe (
site web)
– 40 000 documents
– 450 scripteurs
– 4x106 images de mots
– Phase 1 :
• 758 936 mots pour l’apprentissage
• 84405 mots pour la validation
• 48342 mots pour le test
– lexique : 20K mots les plus fréquents de Phase1_Train
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
40
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
Elaboration d’un système robuste à base de HMMs
indépendants du contexte
Taux d’erreur sur base de validation, dictionnaire restreint (1-10K mots),
nombre de gaussiennes par mélange restreint (=5)
base de
données
Syst. initial
+ caract.
dynamiques
+ topologie
adaptée
Rimes 2011
30,5%
26,84%
26,6%
IAM
38,7%
35,1%
33,3%
OpenHart 2010
Phase1
N/A
60,7%
57,0%
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
41
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
Elaboration d’un système à base de HMMs contextuels
• Construction des arbres : 2 paramètres à optimiser
– ΔLmin : contrôle la variation de la vraisemblance des
clusters enfants vs parent
– Γmin : contrôle le taux d’occupation de chaque noeud
ΔLmin et Γmin sont optimisés sur une base de validation
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
42
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
Rimes : optimisation de ΔLmin et Γmin
nombre final de clusters
seuil sur ΔLmin
seuil sur Γmin
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
43
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
Rimes : optimisation de ΔLmin et Γmin
taux de reconnaissance
système choisi
Γmin = 200 et
ΔLmin=1000
nombre de clusters
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
44
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
Résultats des HMMs contextuels
(taux d‘erreur sur les bases de test)
base de données
HMMs indépendants
du contexte
HMMs contextuels
Rimes 2011
24,6%
20,1%
IAM
32,1%
30,5%
OpenHart 2010*
55,1%
46%
* Un modèle de langage (trigrammes de mots) a été utilisé
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
45
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
Comparaison à l’état de l’art : Rimes 2011
Système
Taux d’erreur
1-best
10-best
HMMs contextuels
20,1%
5,6%
IRISA (1)
21,4%
11,5%
ParisTech
24,9%
6,9%
IRISA (2)
25,5%
16,1%
Systèmes isolés à base de HMMs
E. Grosicki et H. El Abed : “ICDAR 2011 - French Handwriting Recognition Competition”, in Proceedings of the 11th International
Conference on Document Analysis and Recognition (ICDAR 2011), p. 1459-1463, 2011.
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
46
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
Comparaison à l’état de l’art : Rimes 2011
Système
Taux d’erreur
1-best
10-best
HMMs contextuels
20,1%
5,6%
IRISA (1)
21,4%
11,5%
ParisTech
24,9%
6,9%
IRISA (2)
25,5%
16,1%
E. Grosicki et H. El Abed : “ICDAR 2011 - French Handwriting Recognition Competition”, in Proceedings of the 11th International
Conference on Document Analysis and Recognition (ICDAR 2011), p. 1459-1463, 2011.
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
46
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
Comparaison à l’état de l’art : Rimes 2011
Système
Taux d’erreur
1-best
10-best
A2iA *
5,1%
0,4%
Jouve *
12,5%
2,0%
HMMs contextuels
20,1%
5,6%
IRISA (1)
21,4%
11,5%
ParisTech
24,9%
6,9%
IRISA (2)
25,5%
16,1%
* systèmes issus de combinaison de systèmes
E. Grosicki et H. El Abed : “ICDAR 2011 - French Handwriting Recognition Competition”, in Proceedings of the 11th International
Conference on Document Analysis and Recognition (ICDAR 2011), p. 1459-1463, 2011.
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
46
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
Comparaison à l’état de l’art : Rimes 2011
Système
Taux d’erreur
1-best
10-best
A2iA *
5,1%
0,4%
Jouve *
12,5%
2,0%
HMMs contextuels
20,1%
5,6%
IRISA (1)
21,4%
11,5%
ParisTech
24,9%
6,9%
IRISA (2)
25,5%
16,1%
* systèmes issus de combinaison de systèmes
E. Grosicki et H. El Abed : “ICDAR 2011 - French Handwriting Recognition Competition”, in Proceedings of the 11th International
Conference on Document Analysis and Recognition (ICDAR 2011), p. 1459-1463, 2011.
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
46
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
Comparaison à l’état de l’art : OpenHart
Système
Taux d’erreurs
A2iA.primary.1
37,69%
HMMs contextuels
42%
UPV-PRHLT.primary.1
51,49%
Tous les systèmes utilisent un modèle de langage (trigrammes
de mots)
Source : site web Openhart
21
21 Novembre
Novembre 2011
2011
(compétitions 2010).
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
47
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Les bases de données
Construction d’un système HMM générique
Elaboration du système HMMs contexuels
Comparaison à l’état de l’art
Participation aux compétitions internationales de
reconnaissance d’écriture manuscrite
– compétition Rimes ICDAR 2009 (reconnaissance de mots
manuscrits français) : 2ème place
– compétition IFN-Enit ICDAR 2009 (reconnaissance de
noms de villes (mots manuscrits) arabes) : 2ème place
– compétition OpenHart 2010 (reconnaissance de lignes
manuscrites arabes pré-segmentées) : 1ère place
– compétition Rimes ICDAR 2011 (reconnaissance de mots
et de lignes manuscrits français) : 1ère place
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
48
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Conclusion
Perspectives
• Introduction à la reconnaissance d’écriture
manuscrite
• Objectifs et contributions de la thèse
• Les modèles de Markov cachés en contexte
• Applications et résultats
• Conclusions et perspectives
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
49
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Conclusion
Perspectives
• Mise en place d’un système robuste de
reconnaissance de mots à base de HMMs
– ajout d’une dimension dynamique aux caractéristiques
extraites
– mise en place de calcul automatique de longueur de
modèle optimale
• Amélioration du taux de reconnaissance
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
50
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Conclusion
Perspectives
• Application d’un outil inédit en reconnaissance de
l’écriture manuscrite : les modèles contextuels
– utilisés en reconnaissance de la parole
– modélisent plus finement les caractères
– nécessitent un partage de paramètres
• Clustering basé sur des arbres binaires de décision
– clustering par position d’état
– questions originales basées sur expertise humaine
– trigraphes inconnus sont modélisés
• Application avec succès sur 2 alphabets et 3 tailles
de base de données différents
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
51
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Conclusion
Perspectives
Perspectives
• Combinaison de systèmes
• Généralisation des résultats d’une base à une autre
Base de test
Rimes valid2011
IAM valid
21
21 Novembre
Novembre 2011
2011
Base d’apprentissage
Taux d’erreurs
Rimes train2011
15,8%
IAM train
42,7%
Rimes train2011
55,9%
IAM train
32,1%
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
52
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Conclusion
Perspectives
Perspectives (cont.)
• Utilisation d’autres techniques connues des HMMs
mais non / peu pratiquées en HWR
– adaptation au scripteur
– apprentissage discriminant
– subspace-GMM
• Passage du niveau mots au niveau lignes
– nouveaux challenges de prétraitement des images
– utilisation de modèles de langage innovants :
• Modèle M
• RNN-LM
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
53
Merci de votre attention.
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Publications
A-L. Bianne-Bernard, F. Menasri, R. Al-Hajj Mohamad, C. Mokbel, C. Kermorvant and L. LikformanSulem. Dynamic and contextual information in HMM modeling for handwritten word
recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(10) : 2066-2080,
2011.
A-L. Bianne-Bernard, C. Kermorvant, L. Likforman-Sulem and C. Mokbel. Modélisation de HMMs en
contexte avec des arbres de décision pour la reconnaissance de mots manuscrits. Document
Numérique, 14(2) :29-52, 2011.
A-L. Bianne-Bernard, F. Menasri, L. Likforman-Sulem, C. Mokbel and C. Kermorvant. Variable length
and context-dependent HMM letter form models for Arabic handwritten word recognition. In
Proccedings of the 19th Document Recognition and Retrieval Conference, part of the IS\&T-SPIE
Electronic Imaging Symposium - DRR2012, vol. 8297 : pages to appear, 2012.
A-L. Bianne, C. Kermorvant and L. Likforman-Sulem. Context-dependent {HMM} modeling using treebased clustering for the recognition of handwritten words. In Proccedings of the 17th Document
Recognition and Retrieval Conference, part of the IS&T-SPIE Electronic Imaging Symposium DRR2010, vol. 7534, 2010.
A-L. Bianne, C. Kermorvant and L. Likforman-Sulem. Modélisation de HMMs en contexte avec des
arbres de décision pour la reconnaissance de mots manuscrits. In Proccedings of the Colloque
International Francophone sur l'Ecrit et le Document - CIFED2010, 2010.
A-L. Bianne, C. Kermorvant, P. Marty and F. Menasri. Les caractères ne sont pas la clef des champs. In
Proceedings of the 11th Conférence Francophone sur l'Apprentissage Artificiel - CAP2009, 2009 .
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Publications
C. Kermorvant, F. Menasri, A-L. Bianne, R. Al-Hajj Mohamad, C. Mokbel and L. Likforman-Sulem. The
A2iA-Télécom ParisTech-UOB system for the ICDAR 2009 handwriting recognition competition. In
Proceedings of the 12th International Workshop on Frontiers of Handwriting Recognition IWFHR2010, pages 247-252, 2010.
F. Menasri, J. Louradour, A-L. Bianne-Bernard, C. Kermorvant. The A2iA French handwriting
recognition system at the Rimes-ICDAR2011 competition. In Proccedings of the 19th Document
Recognition and Retrieval Conference, part of the IS\&T-SPIE Electronic Imaging Symposium DRR2012, vol. 8297 : pages to appear, 2012.
C. Kermorvant, A-L. Bianne, P. Marty and F. Menasri. From isolated handwritten characters to fields
recognition: There's many a slip twixt cup and lip. In Proceedings of the Tenth International
Conference on Document Analysis and Recognition - ICDAR2009, pages 1031-1035, 2009.
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Annexe
Calcul de l’angle d’inclinaison des caractères
pseudo-entropie :
ncol
H   pi log( pi )
pseudo-entropie normalisée
pseudo-entropie
pseudo-entropie
pi = projection de la
colonne de pixels i
normalisée entre
0 et 1.
(les pi ne somment
pas à 1)
pseudo-entropie normalisée
i 1
angles
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Annexe
Comparaison à l’état de l’art : IAM
Système
Taux d’erreur
HMMs contextuels
30,5%
TU Dortmund
28,9%
IAM (Univ. Bern)
37,3%
BBN technologies
40,1%
• comparaison à titre indicatif
• Reconnaissance de
– lignes / mots,
– avec / sans modèle de langage.
T. Plötz et G. A. Fink: “Markov models for offline handwriting recognition: a survey ”, in Proceedings of the International Journal on
Document Analysis and Recognition, vol. 12, pp. 269-298, 2009.
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Annexe
QS "R_isnotchar" {*+sA,*+sB,*+sT,*+sN}
QS "R_lowercase"{*+1,*+8,*+a,*+b,*+c,*+d,*+e,*+f,*+g,*+h,*+i,*+j,
*+k,*+l,*+m,*+n,*+o,*+p,*+q,*+r,*+s,*+t,*+u,*+v,*+w,*+x,*+y,
*+z,*+ç}
QS "R_uppercase" {*+2,*+3,*+4,*+6,*+7,*+9,*+A,*+B,*+C,*+D,*+E,
*+F,*+G,*+H,*+I,*+J,*+K,*+L,*+M,*+N,*+O,*+P,*+Q,*+R,*+S,*+T,
*+U,*+V,*+W,*+X,*+Y,*+Z,*+À,*+É}
QS "R_LC_descender" {*+f,*+g,*+j,*+p,*+q,*+y,*+z,*+ç}
QS "R_LC_ascender" {*+1,*+8,*+b,*+d,*+f,*+h,*+k,*+l,*+t}
QS "R_LC_small" {*+a,*+c,*+d,*+e,*+i,*+m,*+n,*+o,*+q,*+r,*+s,
*+u,*+v,*+w,*+x,*+z}
QS "R_LC_accent" {*+à,*+â,*+é,*+è,*+ê,*+ë,*+î,*+ï,*+ô,*+ù,*+û}
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Annexe
Adaptation du modèle au scripteur
Transformation linéaire : CMLLR (Constrained MLLR)
– Réduction de la distance entre le modèle et les données
d’adaptation
– Transformation linéaire W appliquée aux moyennes µ :
µadapt = W ξ = A µ + b
( ξ=[bµ] )
– Même transformation appliquée à la matrice de covariance
(diagonale) :
Σadapt = A Σ AT
Base
d’apprentissage
Base de test
IAM train
IAM test
21
21 Novembre
Novembre 2011
2011
Taux d’erreurs
Sans adaptation
Avec adaptation
30,5%
30,1%
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Annexe
Combinaison de sorties de systèmes
reconnaisseur 1
sous 0,5129
vous 0,3265
nous 0,1606
score(m ot) 
reconnaisseur 2
vous 0,5629
avons 0,2793
sous 0,1578
reconnaisseur 3
sous 0,4047
vous 0,3419
Nous 0,2534
1 N
scoren (m ot)

N n1
(N=3)
21
21 Novembre
Novembre 2011
2011
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
vous 0,4103
sous 0,359
avons 0,093
Nous 0,0843
nous 0,0534
Introduction
Objectifs et contributions
Les HMMS contextuels
Expériences
Conclusion
Annexe
Intuition : variabilité des modèles
Exemple sur la base Rimes
σvrais = 43 versus σvrais = 17
21
21 Novembre
Novembre 2011
2011
(≈ 300 exemples)
Soutenance
de thèse
Bianne-Bernard
Soutenance de
thèse Anne-Laure
Anne-Laure Bianne-Bernard
Descargar

HMM - Tel