Introduction à la psycholinguistique
• Introduction générale
Juan Segui
• Perception de la parole 1
notions de base, étapes prélexicales
Pierre Hallé
• Perception de la parole 2
accès lexical : segmentation, parallélisme
"
• Perception de la parole 3
traitement des variations,
Interactions orthographe x phonologie
"
CogMaster mardi 11 octobre 2011
1
outline
• reprise : Categorical perception: Is speech special? …………….
5
• segmentation : …………………………………………………………
MSS (anglais); marqueurs prosodiques/syntaxiques (français)
18
• données empiriques sur la sélection au cours du temps, …….
traitements parallèle, effets de compétition…
33
• modèles :
- Cohort …………………………………………………………………
- TRACE …………………………………………………………………
- Shortlist ……………………………………………………………….
• extras ……………………………………………………………………
a case study: the "Christmas capes and foolish tapes" saga
43
55
59
65
2
Rappel : "Perception Catégorielle"
point essentiel :
bonne discrimination entre catégories,
mauvaise discrimination au sein d’une catégorie
=> notion centrale de frontière catégorielle.
PC pour les différents types de sons
• Consonnes
- occlusives : très “catégoriel”
- fricatives et glides : moins catégoriel
• Voyelles
typiquement : perception “continue” plutôt
que catégorielle / sensibilité au contexte
• Tons (ex. chinois) : semblable aux voyelles
3
Voyelles
(e.g., /a/-/ɛ/)
100
80
80
60
60
40
40
20
20
0
0
S1
S2
S3
S4
S5
S6
Occlusives
(e.g., /d/-/g/)
100
S7
S1
S2
S3
S4
S5
S6
S7
Pisoni (1973)
100
100
90
90
80
80
70
70
60
60
50
50
S1-S3
S2-S4
S3-S5
S4-S6
S5-S7
S1-S3
S2-S4
S3-S5
S4-S6
S5-S7
4
Deux théories opposées
(A) années 60-80 (Haskins): "speech is special"
– sons de parole traités par un module phonétique distinct
– PC pour speech-like stimuli: e.g., continuums comme [ba]-[da]-[ga]
– pas de PC pour nonspeech stimuli: e.g., transitions F3 isolées
– effet duplex (Mattingly et al., 1971; Liberman & Mattingly, 1989)
=> théorie motrice de la perception (Liberman et al., 1967, 1985)
– nous percevons l’intention phonétique, pas le résultat acoustique
(B) années 70-90 (Pisoni, Kluender…): "general auditory mechanisms"
– mêmes mécanismes pour [ba]-[ga] et porte qui claque
– PC non spécifique à l’homme, ni aux sons de parole (TOTs, chords)
non-linéarités du système auditif => catégories naturelles
– catégories phonétiques universelles non-spécifiques à la parole
(Miller et al., 1976; contrepartie ‘production’: Stevens, 1989, théorie quantale)
5
(chinchillas) Kuhl & Miller (1978). JASA, 63, 905-917
6
(rhesus monkeys=macaques) Kuhl & Padden (1983). JASA, 73, 1003-1010
7
Speech is special: duplex perception
isolated transitions
percept = "chirp"
isolated "base"
percept=ambiguous syllable
combined dichotically
=> two sources perceived
integrated percept for one
source, chirp for the other
=> distinct general auditory and speech modules?
8
Speech is special: duplex perception
continuum /da/-/ga/ (Mann & Liberman, 1983)
P
C
P
C
pas de PC
9
Arguments pour la théorie motrice
l’écoute passive de parole
(mots ou pseudo-mots) induit
une excitabilité des muscles
impliqués dans sa production.
technique:
• TMS sur aires motrices
• EMG muscle(s) impliqué(s)
ici, muscles commandant la
pointe de la langue pour /rr/
(italien)
écoute => activité EMG
rr
rr
ff
QuickTime™ and a
decompressor
are needed to see this picture.
ff
Exemples:
birra vs. baffo (W)
berro vs. biffo (NW)
Fadiga et al. (2002)
10
Arguments pour la théorie motrice
listening to speech
vs. noise
looking at lips vs. eyes
QuickTime™ et un
décompresseur
sont requis pour visionner cette image.
TMS + EMG of orbicularis
oris
Motor excitability during speech perception. (A) Data from stimulation of the left primary motor face
area in a single subject when listening to speech, listening to non-verbal sounds, viewing speech
and viewing eye movements. EMG recordings from individual trials are superimposed and the
dotted line indicates the time of TMS stimulation. (B) Average MEP sizes for the same 4 stimulus
conditions with stimulation to the left hemisphere face area, right face area and hand area of motor
11
cortex. (Watkins et al., 2003)
Speech is special: cross-linguistic perception
(américains)
/b/
/p/
QuickTime™ and a
TIFF (Uncompressed) decompressor
are needed to see this picture.
20ms
(thai)
QuickTime™ and a
TIFF (Uncompressed) decompressor
are needed to see this picture.
[p]
[b]
-10ms
(Abramson & Lisker 1970)
45ms
—VOT—>
[ph]
12
AXB discrimination by Chinese vs. French listeners
100
Chinese
% correct
90
80
French
70
60
50
1-3
2-4
3-5
4-6
5-7
6-8
Stimulus Pair
13
Prototypes de catégories
(une autre façon de comprendre la perception catégorielle ?)
L'emphase est sur les prototypes ("bons exemplaires") de catégories plutôt
que sur les frontières entre catégories
Les catégories ont une structure interne : “centrées” sur un prototype qui
distord localement l’espace perceptif:
“magnet effect” = moins grande sensibilité autour des prototypes
L’appartenance d'un son à une catégorie n’est plus binaire mais graduée,
quantifiée par la “similarité” (acoustique ?, articulatoire ?) entre ce son et le
prototype de la catégorie.
L'effet magnet est compatible avec le point central de la PC :
"meilleure discrimination inter- que intra-catégorielle"
=> la notion de catégorie n'est pas remise en cause
14
Magnet effect
easy discrimination
non prototype
difficult discrimination
prototype
15
shrinking of perceptual distances around prototypes
/la/
physical distances
/ra/
perceived distances (from
ratings on all pairs and
MDS)
Iverson & Kuhl (1996). JASA, 99, 1130-40
16
Les grandes questions
unités prélexicales
non séquentialité et variabilité, mais percepts stables :
mécanismes d'identification et de classification: PC, prototypes
mots
absence de frontières claires entre mots,
plus problèmes du décours temporel, et de la variabilité.
Mais mots reconnus :
quels mécanismes d'accès, quelles représentations ?
17
questions essentielles pour l'accès au lexique
(1) La segmentation de la parole continue en mots
- pré-lexicale ? Donc induite par des indices dans le signal
- sous-produit de la reconnaissance des mots ?
(2) La reconnaissance proprement dite des mots :
(étapes proposées par Frauenfelder & Tyler, 1987)
(a) contact initial (input-form <--> lexical form => hypotheses)
(b) sélection (best match, threshold match => select one entry)
(c) intégration (access to lexical entry information)
(3) Les (possibles) interactions entre niveau lexical et niveaux “supérieurs”
(syntaxique, sémantique, pragmatique) ou "inférieurs" (sub-lexicaux)
18
Problème des frontières : peu de marques fiables
i l
ɛ
t
a
m
w
a
On peut identifier des «évènements» (explosion, silence...) qui peuvent marquer des
frontières entre sons. Mais ils marquent rarement des frontières de mots
19
arguments pour segmentation donnée par le signal
• Anne Cutler distingue "explicit" et "serendipitous" segmentation.
- serendipitous: by-product of word recognition
(i.e., something accidentally discovered…)
- explicit:  (explicit) mechanism(s) for the location of word boundaries.
• arguments généraux pour explicit segmentation :
- explication simple du "bootstrap lexical" (nécessaire continuité entre
l'enfant et l'adulte…) (cf. Mehler, Dupoux, & Segui, 1990)
- ou du problème des mots enchâssés
(cat in catalog, sack in sacrifice, bone in trombone…)
• En anglais : MSS (metrical segmentation strategy)
la plupart des mots anglais commencent par une syllabe forte (Cutler &
Carter, 1987) => strategy: strong syllable = word onset
20
arguments pour MSS
• tâche de word spotting (McQueen, Norris, & Cutler, 1994)
MESS détecté plus facilement dans neMESS [nəˈmɛs]
que dans MESStem [ˈmɛstəm]
WS > SW
SACK dans kleSAK [kləˈsæk] que SAKrek [ˈsækɹək]
interprétation : frontière de mot entre sylllabe 1 et 2 pour neMESS
=> match parfait avec MESS
placée en onset de syllabe 1 pour MESStem
=> reste à extraire MESS de MESStem
MESS plus difficile à détecter dans deMESS que neMESS
- interprétation : compétition entre demess et domestic
(aussi sackref et sacrifice)
21
QuickTime™ and a
decompressor
are needed to see this picture.
McQueen, Norris, & Cutler (1994), JEP:LM&C, 20(3), 621-638
22
arguments pour MSS
• "slips of the ear" : erreurs de segmentation
=> (souvent) frontière de mot sur syllabe forte
ex. by loose analogy –heard as–> by Luce and allergy
how big is it? ––> how bigoted?
• MINTAYVE vs. MINTesh (word spotting: Cutler & Norris, 1988)
MINT détecté plus facilement dans
(1) MINTesh [ˈmintəʃ] que (2) MINTAYVE [ˈminˈteɪv]
(1st vs. both syllables stressed)
WS > SS
proposition : (2) est segmenté en 2 éléments MIN et TAYVE qu'il faut
recomposer pour trouver MINT ; (1) n'est pas segmenté.
mais : dans (1), il faut quand-même extraire MINT de MINTesh
23
QuickTime™ and a
decompressor
are needed to see this picture.
Figure 1. Mean word detection response times (milliseconds) for SS
(two strong syllables) and SW (strong first, weak second syllable)
items, Experiment 1.
(Cutler & Norris, 1988)
24
Les indices prosodiques aident ou non la segmentation
• indices prosodiques => frontières des groupements prosodiques
intonational phrase > phonological phrase > prosodic word
([the little dog]pp [was running fast]pp)IP, ([I could hardly see it]pp)IP
prosodic word
[Le livre] [racontait l'histoire]
1. [d'un grand chat grincheux][qui …]
2. [d'un grand chat drogué][qui …]
(chagrin vs. *chadr…)
effet d'ambiguité locale : détection de
"chat" plus difficile en (1)
- interprétation : compétition entre mot
enchâssé et mot enchâssant non résolue
: indices insuffisants
(word monitoring)
phonological phrase
[D'après ma soeur],
1. [le gros chat] [grimpait aux arbres]
2. [le gros chat] [dressait l'oreille]
- pas d'effet d'ambiguité locale
- interprétation : indices suffisants pour
isoler les groupes, donc le mot "chat" de
la suite => la compétition entre "chat" et
"chagrin" est résolue.
• quels indices ?
–allongement final net pour PP
–F0 resetting pour PP, pas pour PW
25
Les indices prosodiques aident ou non la segmentation
(1)
prosodic word
(2)
QuickTime™ and a
decompressor
are needed to see this picture.
phonological
phrase
QuickTime™ and a
decompressor
are needed to see this picture.
(2)
(1)
Christophe et al. (2004). JML, 51
26
Les "mots vides" aident la segmentation
(Christophe et al., 1997)
mots vides : articles, prépositions, etc.
• statut particulier des articles : ils "marquent" le mot suivant
détection de phonème
(1) en début de mot vs. (2) généralisée
QuickTime™ and a
decompressor
are needed to see this picture.
idée : si frontières de mot disponibles à partir
de la reconnaissance de mot, (1) demande
plus de calcul que (2)
=> RTs plus longs pour (1) que (2)
résultat : on trouve (1) > (2)
pour /g/ dans …pas gracieux…
pas pour /f/ dans …un fou larmoyant…
proposition : l'article "un" permet de postuler
une frontière de mot après lui.
27
other prelexical infos for 'explicit segmentation'
1) Niveau phonémique
- régularités phonotactiques (e.g., (Fr) */-ʒf-/ => /-ʒ#f-/)
2) Niveau phonético-acoustique
- indices de durées (e.g., [mati] vs. [ma#ti])
- autres indices prosodiques (e.g., stress => MSS anglais)
- cohésion perceptive (~perceptual grouping) :
indices articulatoires/prosodiques de cohésion
par exemple, degré de coarticulation ou pattern métrique ;
en français, un rythme iambique (court-long) est cohésif :
"cerceau" davantage activé par /sɛr.s o/ que par /s ɛ r.so/
=> aide à résoudre mots enchâssés: serre seau vs. cerceau
3) Probabilités de transition
28
word segmentation based on detection of recurrent patterns:
Saffran et al. 1996: learning "words" from a stream of syllables with
manipulation of syllable transition probabilities (TPs)
S-words: S2S3S4 S5S6S7 … defined by TP "dips"
… S1
S2
.3
S3
.7
S4
.7
S5
.3
S6
.7
.7
S7
…
.3
…bidakupadotigolabubidakugolabubidakupadoti
…
Both 8-month-olds (HPP) and adults (forced-choice) succeed in
"segmenting" S-words: (e.g., golabu >> dakugo)
they have learned S2S3S4 rather than e.g. S4S5S6
29
Consonant-vowel asymmetry
– Elaboration: TPs between Cs or between Vs (Bonatti et al. 2005)
C-words: p_r_g_ b_d_k_ m_l_t_
success
(87.7 > chance)
QuickTime™ and a
decompressor
are needed to see this picture.
V-words: _ɔ̃_i_a _o_ɛ_
̃ y _u_e_ɑ̃_
failure
(54.2 ≈ chance)
QuickTime™ and a
decompressor
are needed to see this picture.
30
click detection within vs. between “words”
• in syllable streams inducing statistical-learning of “words,” faster RTs to clicks
appearing between than within words, from minute#3 on.
=> Suggests listeners do segment the stream into words after ~2 mn.
QuickTime™ et un
décompresseur
sont requi s pour visi onner cette image.
pabudagifotominaropabuda
Gómez, Bion, & Mehler (2011), LCP, 26, 212-223
QuickTim e™ et un
dé com pres seu r
so nt requ is po ur vision ner cette im ag e.
31
Décours temporel: continuité, parallélisme et compétition
• traitement continu
=> traitement effectué au fur et à mesure de la disponibilité de
l’information en input ; traitement continu plutôt que par étapes sérielles
(≠production, cf. cours Segui).
• hypothèses concurrentes en parallèle (=> compétition)
=> plusieurs hypothèses en parallèle pour
(1) le découpage des énoncés et
(2) l’appariement des morceaux avec des mots en compétition
=> Traitement continu, parallèle avec compétition
• tolérance aux variations (cours suivant)
tolérance au mismatch mais critères d’appariement suffisamment stricts pour
ne pas confondre les mots proches (e.g., bain ≠ pain).
=> flexibilité relative
32
Données empiriques
• continuité: le traitement commence avant la fin des mots
(Marslen-Wilson 1987) amorçage sémantique inter-modal :
QuickTime™ and a
decompressor
are needed to see this picture.
Cible visuelle présentée plus ou moins tard dans le mot :
- au son /r/ ou au dernier son (/l/ ou /s/).
Résultats :
- en /r/, les 2 mots “army” et “gift” sont activés
- en /l/ ou /s/, seul “army” ou “gift” reste activé
Conclusion :
(1) un traitement qui va jusqu’au niveau sémantique est effectué pour
tous les mots compatibles avec l’input en t < fin
(2) la réponse à la cible présentée au moment t n’intègre que les infos
reçues jusqu’au temps t.
33
paradigme expérimental : priming sémantique inter-modal
amorces (primes) auditives, cibles (targets, probes) visuelles.
timing : t=0 : présentation amorce ; t=tc : prés. cible ; [réponse]
tâche : le plus souvent, décision lexicale sur la cible
design : paires amorce–cible reliées (association sémantique) ou non
exemple : papier–CRAYON ou chaussure–CRAYON
- une moitié des sujets voit CRAYON précédé de papier
- l’autre moitié voit CRAYON précédé de chaussure.
effet d’amorçage : DRT entre relié et non-relié pour chaque cible
Convention de noatation: X —> Y pour X "facilite" Y
34
Données empiriques (suite)
• le traitement commence avant la fin des mots
(Zwitserlood, 1989) données semblables à Marslen-Wilson (1987)
primes :
kapitein et kapitaal (présentés tronqués
de [kap] à [kapit(e/a)])
targets : SCHIP et GELD présentés à
l'offset des primes
4 durées de fragments: G1 à G4
amorce: kap+i+t+aal
non-relié
SCHIP
GELD/SCHI
P
(divers contextes ± neutres)
QuickTime™ and a
decompressor
are needed to see this picture.
résultats :
G1-2 : facilitation de GELD et SCHIP
G3-4 : G(kapitaal) facilite GELD
mais pas SCHIP
GELD
G1
kap
G2
kapi
G3
G4
35
kapit kapitaa
Données empiriques (suite)
• activations multiples en parallèle
(1) gener… —> {ARMY, GIFT}
kap[i] —> {GELD, SCHIP}
(2) mots enchâssants ou enchâssés :
- two lips —> {FLOWER, MOUTH} (Gow & Gordon, 1995)
- trombone —> RIB (ass. à ‘bone’) (Shillcock, 1990)
NB. quelques restrictions :
priming pour enchâssement en début de non-mot, pas de mot :
le mot enchâssant finit par l’emporter sur l’enchâssé => enchâssé en début de
mot désactivé plus rapidement que enchâssé en fin de mot.
(e.g., SACK plus difficile à détecter dans SAKref [ˈsækɹəf] que dans SAKrek
[ˈsækɹək] car compétition entre 'sack' et 'sacrifice')
36
Eye Tracking
Enregistrement on-line
des mouvements oculaires:
– en lecture
– face à une scène visuelle
– face à une grille d'images
Indices temporels sur le balayage oculaire
- Ce qui est regardé, comment
(fixations / saccades), combien de temps
- Les retours en arrière (régressions)
37
Procédure "visual word"
Le "visual world paradigm" (Tanenhaus): permet de déterminer
on-line ce que le sujet regarde en fonction de ce qu’il entend.
Scène présentée
Mouvements des yeux
38
Procédure "visual word"
Présentation auditive de: … candle …
39
Données empiriques (suite)
• compétition entre candidats multiples activés en parallèle
activations multiples en parallèle = hypothèses entretenues en parallèle
sur la valeur lexicale de l’input.
Exemple, l’input [kæn] active les hypothèses “candy” et “candle”
On appelle ces hypothèses les “candidats en compétition”
La compétition est-elle active et dynamique ou bien statique* ?
– effets de densité de voisinage :
un voisinage dense (beaucoup de mots “voisins” = de forme sonore
proche) induit une plus grande difficulté de reconnaissance (RTs,
précision)**.
(Cluff & Luce, 1990; Luce & Large, 2001).
40
Modèles de reconnaissance des mots parlés
• Cohort (1, 2, DCM) (Marslen-Wilson et coll., 1978, 1987, 1995)
• TRACE (McClelland & Elman, 1986)
• Shortlist (Norris, 1994) ; Merge (Norris et al., 2000)
• NAM (Luce, 1986) ; PARSYN (Luce et al., 2000)
• older models: Logogens (Morton, 1969) ; Autonomous Search (Forster,
1989) ; LAFS (Klatt, 1979) ; Race model (Cutler & Norris, 1979)
• less known models: ARTSTREAM, ARTWORD (Grossberg et coll., 2004,
2000)
points d’accord entre les principales approches
– traitement continu sans attente
– (massivement) parallèle avec candidats multiples
– compétition entre candidats
41
references
Marslen-Wilson, W., & Welsh, A. (1978). Processing interactions and lexical access during word recognition in
continuous speech. Cognitive Psychology, 10, 29–63.
Marslen-Wilson,W. (1987). Functional parallelism in spoken word-recognition. Cognition, 25, 71–102.
Gaskell, M. G., Hare, M., & Marslen-Wilson, W. D. (1995). A connectionist model of phonological representation in
speech perception. Cognitive Science, 19, 407–439.
McClelland, J. L., & Elman, J. L. (1986). The TRACE model of speech perception. Cognitive Psychology, 18, 1–86.
Norris, D. (1994). Shortlist: A connectionist model of continuous speech recognition. Cognition, 52, 189–234.
Norris, D., McQueen, J. M., & Cutler, A. (2000). Merging information in speech recognition: Feedback is never
necessary. Behavioral & Brain Sciences, 23, 299–370.
Luce, P. A. (1986). A computational analysis of uniqueness points in auditory word recognition. Perception &
Psychophysics, 39, 155–158.
Luce, P. A., Goldinger, S. D., Auer, E. T., Jr., & Vitevitch, M. S. (2000). Phonetic priming, neighborhood activation, and
parsyn. Perception and Psychophysics, 62, 615–625.
Morton, J. (1969). Interaction of information in word recognition. Psychological Review, 76, 165–178.
Forster, K. I. (1989). Basic issues in lexical processing. In: W. Marslen-Wilson (Ed.), Lexical representation and
process. Cambridge, MA: MIT Press.
Klatt, D. H. (1979). Speech perception: A model of acoustic-phonetic analysis and lexical access. Journal of
Phonetics, 7, 279–312.
Cutler, A., & Norris, D. (1979). Monitoring sentence comprehension. In:W. E. Cooper, & E. C. T. Walker (Eds),
Sentence processing: Psycholinguistic studies presented to Merrill Garrett. Hillsdale: Erlbaum.
Grossberg , S., Govindarajan, K.K., Wyse, L.L., & Cohen, M.A. (2004) ARTSTREAM: A neural network model of
auditory scene analysis and source segregation”. Neural Networks, 17, 511–536.
Grossberg, S., & Myers, C. W. (2000). The resonant dynamics of speech perception: Interword integration and
duration-dependent backward effects. Psychological Review, 107, 735–767.
42
Cohort: initial automatic activation
Cohorte
lard
mare
par
dard
tard
cas canne casser
partir
carte
carton
cap
car
cure
bar cor
cartable carré
cape cale
argent
CA
43
e
l
contact
1) cohorte initiale
élaborer
élargir
élastique
électron
élégance
élégie
élément
éléphant
élévateur
élider
éligible
éliminer
élire
élixir
…
e
f
ɑ̃
sélection
2) réduction
élégance
élégie
élément
éléphant
élévateur
3) identification
éléphant
PU = Point d'Unicité
‘Uniqueness point’
ici /f/
PU valable pour un lexique ne
contenant pas de mots dérivés
de «éléphant» (éléphantesque,
éléphanteau, etc.)
Le PU considéré est en
général le PU de famille
morphologique
44
Point d’unicité (PU) :
Le phonème qui correspond au point pour lequel il n’existe plus d'autre mot
dans le lexique qui soit compatible avec le début de la séquence ; “point”
dans le mot à partir duquel ce mot ne peut plus être confondu avec un autre
mot.
Exemples: /f/ dans éléphant ; second /o/ dans crocodile
Point de reconnaissance (PR) : Le moment où le mot est véritablement
reconnu dans des expériences de gating.
Le modèle COHORT prédit qu’un mot présenté hors contexte peut être
reconnu dès son point d’unicité.
C’est à dire: PR = PU
En contexte de phrase la reconnaissance peut même avoir lieu avant le PU, si
le contexte contraint suffisamment la sélection.
PR < PU
45
Cohort : PU avant ou après la fin de mot
• Exemple 1 : mot long et peu de voisins (ou de dérivés)
crocodile /krokodil/ : Point d’Unicité = deuxième /o/
info disponible
cohorte de candidats
/kr/
/kro/
/krok/
/kroko/
cratère, cruel, crottin … crocodile ….
crottin, croquette … crocodile ….
croquette … crocodile …
crocodile
• Exemple 2 : mot court ou “enchâssé” dans un autre ou avec dérivés
mairie /meri/ : Point d’Unicité après le mot …
info disponible
cohorte de candidats
/me/
/mer/
/meri/
/meri#/
métier, ménage, mérite … mairie
mérou, mérite, méridien … mairie
mérite, méridien … mairie
mairie
46
versions de Cohort
– essentiellement bottom-up, mais possibilité que la sélection (réduction de
la cohorte) soit contrainte par le contexte syntaxique et sémantique. Le
contact initial repose uniquement sur l’information sensorielle.
– Cohort 1: fréquence ignorée, mismatch interdit au contact initial
(=> “tableau” prononcé /kablo/ ne sera pas reconnu)
– Cohort 2: notion de niveau d'activation. Fréquence prise en compte dans
le niveau d'activation de base (na) des candidats. Par exemple, pour
l’input /da/, na(“dame”) > na(“dalle”), suivant les fréquences de ces mots.
Tolérance au mismatch via niveaux d'activation sous-optimaux.
– DCM (Distributed Cohort Model): connexionniste ; input codé au niveau
des traits ; traits phonologiques et traits sémantiques traités au même
niveau ; pas d’interactions top-down.
47
Données empiriques à l’appui de Cohort
• données (general/generous)–(ARMY-GIFT) (Marslen-Wilson 1987)
Cohort : jusqu'en /r/, la cohorte contient encore “general” et “generous”;
après /r/, elle se réduit au seuls candidats compatibles
données : general facilite GIFT et ARMY, si présentés en tc = /r/ mais
seulement ARMY pour tc = /l/
même chose pour (kapitaal/kapitein)–(GELD/SCHIP) (Z 1989)
• données de gating (Grosjean 1980)
identification (recognition point) d’un mot dès que le fragment (‘gate’)
présenté contient le PU.
D’autre part, la position du point de reconnaissance peut être modulée
par le contexte linguistique, conformément aux prédictions de Cohort.
48
exemple de “gating”: “abscisse” de [a] à [apsis]
a
p
s
i…
49
• données “visual word” : elles montrent explicitement le décours temporel
des activations. Ici, l’instruction est “cliquer sur les boutons”
(Dahan et al., 2000)
“bouton”
bouton
QuickTime™ and a
decompressor
are needed to see this picture.
QuickTime™ and a
decompressor
are needed to see this picture.
bouteille
chien
“bouteille”
50
• données “visual word” (suite) : influence du contexte sur la sélection
(Dahan et al., 2000)
Même chose que précédemment, mais
avec l’instruction "cliquez sur le
bouton" ou bien "cliquez sur la
bouteille" (le genre du mot à cliquer
est donc ici donné explicitement par
l'article) :
Cette fois-ci, pas d’activation
transitoire du compétiteur.
Interprétation "Cohort" : les infos
syntactico-sémantiques (ici, genre
grammatical) contraignent la cohorte
=> bouteille est éliminé par la
contrainte [+masculin].
bouton
QuickTime™ and a
decompressor
are needed to see this picture.
chien
bouteille
51
• données similaires avec des paires d’homophones de genre opposé,
comme sel/selle (Spinelli & Alario, 2002) :
le genre explicite de l'article contraint l'activation du nom qui le suit
(amorçage sémantique inter-modal)
[sɛl] facilite {POIVRE, CHEVAL}
[lasɛl] facilite CHEVAL mais pas POIVRE
cible
QuickTime™ and a
decompressor
are needed to see this picture.
poivre
cheval
52
Les données empiriques que Cohort n’explique pas
• effets de fréquence (mais Cohort 2 les prend en compte)
• effets de voisinage : les mots avec beaucoup de voisins
phonologiques (ex : BALLE - salle, cale, dalle, bol, bar …) sont
plus difficilement identifiés que les mots avec peu de voisins
(ex : BOMBE - bonde)
(selon une définition simple de voisinage)
• la tolérance aux variations (mais Cohort 2…)
53
Les questions que Cohort n’aborde pas
• détail sous-phonémique : Cohort (1, 2) intègre un calcul d’appariement
par tout ou rien au niveau des phonèmes. DCM raffine les choses
jusqu’au niveau du trait. Cependant, les détails phonétiques qui révèlent
l’intention du locuteur se situent plutôt au niveau prosodique des durées
(cas du /r/ dans dernier oignon vs. dernier rognon) et non des traits
classiques.
• reste vague sur les mécanismes d’appariement (cf. suite)
• segmentation : Cohort ne “marche” que pour des mots isolés, en tout
cas après une étape de segmentation. Dans les cas où le PU survient
avant la fin du mot, il est envisageable d'anticiper la frontière de mot
suivante (=> segmentation "séquentielle").
Mais un tel mécanisme est peu plausible car peu de mots avec PU avant
la fin.
54
TRACE
• modèle interactif de propagation d'activation basé sur le modèle interactif
d’activation de McClelland et Rumelhart (1981) (reconnaissance visuelle des
mots, cf. cours B. New).
• architecture à 3 niveaux : unités = traits, phonèmes, mots ; notion de niveau
d'activation des unités ; ces niveaux dépendent (1) de l'activation reçue, et
(2) d'une fonction du tps "rise and decline" ; TRACE implémente un réseau
exhaustif (tout le lexique)
- connexions inter-niveaux excitatrices seulement, bidirectionnelles (bottomup et top-down) entre mots et phonèmes
- connexions intra-niveaux inhibitrices seulement
• aspects temporels : l’état du réseau d’activation est “recopié” pour chaque
nouvelle “time slice” (~phonème) et un nouvel état calculé pour l’input mis à
jour ; déclin progressif "naturel" des activations
• mots en compétition : tous ceux qui partagent une partie de l’input courant. Ex.,
pour l’entrée chômage, ‘chaumière’, ‘hommage’, ‘magique’, etc. dont
‘chômage’ partagent au moins un phonème et s’inhibent mutuellement. Des
cohortes sont activées au départ de tous les phonèmes (=> TRACE vu
comme généralisation de Cohort)
55
QuickTime™ et un décompresseur
Photo - JPEG sont requi s pour visuali ser
cette image.
56
TRACE (suite)
• le processus d’inhibition latérale conduit à l’émergence d’un mots ou d’une
suite de mots. Cette solution de reconnaissance fournit en même temps
la segmentation en mots : la segmentation est ici un sous-produit de la
reconnaissance.
chaud
chômage
/ʃomaʒ/
chômage finira par l’emporter sur
chaud (recevra davantage
d’excitation)
=> output = “chômage”
temps
chaud
/tɑ̃ʃo/
temps et chaud ne partagent pas de
phonème et donc ne s’inhiberont
pas
=> output = “temps”#“chaud”
57
TRACE (suite)
• TRACE comporte un mécanisme sommaire qui simule la coarticulation (3
time slices/phoneme) => traite un peu le problème de la variabilité à un
niveau sub-phonémique.
• Le feedback mot –> phonème est un mécanisme puissant pour rendre
compte de la tolérance aux variations
• Les effets de fréquence lexicale peuvent être implémentés de plusieurs
façons (activations “au repos” ou “poids” des connexions sortantes)
• Dans l’idéal, le modèle produit en sortie une suite segmentée
• Un problème est le nombre de paramètres à régler. Manque d’études
montrant que les choix ne sont pas arbitraires...
58
Shortlist
at any given time point
(= phoneme), set of
candidates = 30 best
activated words
containing that
phoneme.
QuickTime™ et un décompresseur
Photo - JPEG sont requis pour visualiser
cette image.
example:
at /æ/: 'at', 'cat'…
at /l/: 'log', 'cattle'
…and 'catalog'
59
QuickTime™ et un décompresseur
Photo - JPEG sont requi s pour visualiser
cette image.
commun à TRACE et
Shortlist : la solution la plus
longue l’emporte.
60
Différences entre TRACE et Shortlist :
interactivité vs. autonomie
Shortlist
modèle autonome
(feedforward)
TRACE
modèle interactif
(ff + feedback)
mots
mots
phonèmes
phonèmes
signal
signal
61
Shortlist (suite)
• la différence essentielle avec TRACE est l’absence de connexions
descendantes (top-down).
• Parmi tous les candidats considérés pour l’input courant, Shortlist ne
retient que les plus activés (i.e., les mieux supportés par l’input) à raison
de 30 par position phonémique. Ceci simplifie beaucoup par rapport à
TRACE. Le réseau de compétition est donc dynamique, alors qu’il est fixe
et exhaustif pour TRACE
=> grande économie de calcul.
• exemple: ship inquiry /ʃɪpinkwaɪri/
- shortlist au 1er phonème /ɪ/ : ship, shipping
- shortlist au phonème /k/ : inquiry domine la shortlist locale dont
shipping fait partie mais pas ship ; inquiry inhibe et élimine
shipping, d’où l’analyse finale de l’input en ship inquiry.
62
Merge (Norris et al., 2000)
lexical nodes
decision nodes
QuickTime™ and a
decompressor
are needed to see this picture.
input nodes
• counter-intuitive : the locus of sublexical decision is post-lexical
The Merge model. The basic architecture is shown, together with the connectivity patterns
for the node types used in the simulations. Activation spreads from the input nodes to the
lexical nodes and to the phoneme decision nodes, and from the lexical nodes to the phoneme
decision nodes; inhibitory competition operates at the lexical and phoneme decision levels.
Excitatory connections, shown with bold lines and arrows, are unidirectional; inhibitory
connections, shown with fine lines and closed circles, are bidirectional
63
EXTRAS
64
Lexical feed-back? "Christmas capes and foolish tapes"
– Ecole "bottom-up only" (Merge : "feedback is never necessary"
– Ecole "interactive activation" (TRACE ; Samuel et coll.)
(1) Effet “Ganong” (Ganong, 1980)
Un son ambigu entre deux phonèmes est désambiguïsé par le contexte lexical.
Par exemple, un son ambigu entre /s/ et /ʃ/, soit ?, est interprété comme /s/
dans Christma? et /ʃ/ dans fooli?
L’effet est fort en fin de mot, et d’autant plus que le mot est long.
Cette perception est elle induite par feedback ?
- TRACE : le feedback modifie l'information prélexicale
- Merge : pas de feedback ; l'info prélexicale ne peut être modifiée ;
les décisions sur le niveau prélexical sont prises en combinant
cette info proprement dite et celle du niveau lexical.
=> l'idée est de tester la nature du percept reconstruit
(par exemple /s/ dans Christma?)
65
(2) Compensation pour la Coarticulation (effet de niveau prélexical)
La catégorisation d'un continuum /t/-/k/ est biaisée par le contexte phonétique /s/
vs. /ʃ/ : /ʃ/ biaise vers /t/, /s/ vers /k/
Après /s/ dental, /k/ est antériorisé => un son
jugé normalement /t/ est considéré comme un
/k/ “d’avant”
% réponses /t/
Identification de /t/-/k/ après /s/, /ʃ/ ou après
contexte neutre (/f/).
100
80
60
40
20
0
[t]
[k]
(1) et (2) => (A) Elman & McClelland (1988)
• L’idée est d’induire un effet de CFC (Compensation For Coarticulation) avec
un phonème reconstruit par effet Ganong.
Si l’effet CFC est bien induit, c'est que l'effet Ganong modifie bien l'information
prélexicale : le feedback serait avéré
66
Elman & McClelland’s design :
/ʃ/ de foolish remplacé par ? entre /ʃ/ et /s/.
Si fooli? biaise /t/-/k/ vers /t/ (? agit comme un /ʃ/) et que Christma? biaise /t/-/k/
vers /k/ (? agit comme un /s/), c’est que le percept produit par ? agit comme un
“vrai” son acoustique
=> ? serait modifié en /ʃ/ ou /s/ par feedback lexical.
Elman et McClelland ont bien trouvé l’effet CFC :
Christma? et fooli? biaisent /t/-/k/ vers /k/ et /t/, respectivement.
=>proposition :
? est reconstruit comme /ʃ/ ou /s/ au niveau prélexical puisqu'il produit le même
effet prélexical qu'un son réel intact [ʃ] ou [s] .
67
(B) Pitt & McQueen (1998)
Il a fallu 10 ans pour que le camp “no feedback” relève le défi. Pitt et
McQueen remarquent qu’en anglais, le son /s/ est plus probable après /a/ que /i/
et /ʃ/ plus probable après /i/ que /a/ (probabilités de transition). La “réparation” de
? en /s/ ou /ʃ/ pourrait donc être un effet prélexical de TPs plutôt qu’un feedback
lexical...
(a) Pitt et McQueen testent directement l'hypothèse "TP" avec des non-mots
terminés par [i?] ou [a?] : ces non-mots produisent la même CFC que foolish et
Christmas, resp.
(b) de plus, P & McQ utilisent des mots terminés en /s/ ou /ʃ/, mais contrôlés
pour les TPs : ex. bush vs. juice (/bʊʃ/ vs. /dʒu:s/) :
avec bu? et jui?, aucun CFC n’est observé.
=>proposition :
? est reconstruit comme /ʃ/ ou /s/ via les probabilités de transition
68
(C) Samuel & Pitt (2003), Magnuson et al. (2003)
• S & P conduisent une étude systématique avec contrôle acoustique du
matériel. Ils trouvent un effet CFC avec des mots pour lesquels biais lexical et
biais TP sont opposés
(par exemple, des mots en –is vs. mots en –ash).
• Magnuson et al. réanalysent les données initiales de E & McC '88 et trouvent
que les mots où –/s/ ou –/ʃ/ ne sont pas prédictibles par les TPs produisent
pourtant l’effet CFC.
Ils conduisent des analyses de corpus et trouvent que les TPs pour diphones
mais aussi pour tout n-phones ne peuvent prédire les données CFC…
Leurs propres données avec des mots comme bliss et brush (cooccurrences
non TP) semblent confirmer E & McC…
69
(D) McQueen, Jesse, & Norris (2009)
• l'histoire ne s'arrête pas là !
arguments de McQ et al. à la fois méthodologiques et de fond
(1) méthodo : dans l'étude de Magnuson et al. (2003), les sujets reçoivent des
mots "ambigus" (e.g., bli? et bru?), les mots intacts correspondants (bliss et
brush) (qui devraient induire une CFC claire), mais pas les séquences
inversées du type blish et bruss.
McQ et al. montrent que ce design induit un apprentissage statistique de TP
… dès la phase de training !
(2) de fond : l'effet Ganong est très robuste (e.g., bu? perçu comme 'bush' et
jui? comme 'juice') mais l'effet CFC est très fragile (peu reproductible). Si le
percept "Ganong" avait sa source au niveau prélexical (modifié), l'effet CFC
devrait lui aussi être robuste: les deux effets devraient être indissociables.
• pour conclure, McQ et al. pensent qu'il est temps de passer à autre chose…
70
Descargar

CA3b-11_parole2