Introduction à la psycholinguistique
• Introduction générale
Juan Segui
• Perception de la parole 1:
notions de base, étapes prélexicales
Pierre Hallé
• Perception de la parole 2
segmentation, reconnaissance lexicale
"
• Perception de la parole 3
traitement des variations,
compensation pour l’assimilation,
Interactions orthographe x phonologie
"
CogMaster mardi 4 octobre 2011
1
modèles de traitement de l’information linguistique
Entrée
Boîte Noire?
Sortie
Skinner (behaviorisme) : pas de boîte noire, seulement des
associations “stimulus – réponse”
Entrée
Processu
s
Représentation
s
Processu
s
Sortie
Chomsky : il y a une boîte noire ; avec dedans une structure de
représentations et de processus
2
compétence linguistique : sommaire
1. briques de base
sons élémentaires (phonèmes)
morphèmes et mots
2. règles combinatoires (productivité)
unit level
well-formed
ill-formed
phonemes
/fatal/
*/tlafa/
morphemes
inter-nation-al
*al-nation-inter
words
(le chat court)
*(chat court le)
NB. "*" indique une séquence mal formée
3
Linguistique structuraliste vs. générative
(a) lg. structuraliste : vise à décrire le système de la langue à partir d'un
corpus. Description “de l'extérieur” des objets linguistiques, ne
recherche pas de réalité psychologique.
(b) lg. générative : vise à expliquer/modéliser la capacité humaine à
générer une infinité d'énoncés à partir d'un nombre limité d'unités et de
règles combinatoires.
=> (a) ≠ (b) surtout sur l'idée qu'on peut produire ou comprendre des
énoncés JAMAIS rencontrés auparavant :
• phonologie : les unités sont les phonèmes, les règles sont d'une part des
règles phonotactiques et d'autre part des règles de changement
contextuel => séquences de phonèmes.
• morphologie : les unités sont les morphèmes. Qui obéissent à une sousgrammaire de règles combinatoires => mots.
4
productivité de la phonologie
Avec peu de sons ou de phonèmes, il est possible de construire
beaucoup de morphèmes ou de mots.
Un principe exponentiel définit le nombre maximal de mots :
Nm(L) = Np L
nombre de mots Nm de longueur L possibles avec un inventaire de Np
phonèmes
ex. pour L = 4 et Np =20, Nm(4) = 160 000
MAIS, les contraintes phonotactiques limitent le nombre de
séquences légales dans la langue
5
productivité de la morphologie
A partir du stock de morphèmes disponibles et des règles de
combinaisons autorisées (±spécifiques à chaque langue), on peut en
principe fabriquer tous les mots que l’on veut et leur affecter un sens.
Exemple: *rapid-ifier sur le modèle de solid-ifier
Nous comprenons le sens de ce genre de néologisme, même si nous ne
l'avons JAMAIS rencontré…
et bien sûr, productivité de la syntaxe …
6
(quasi) infinité de néologismes possibles
Quelques exemples
autre genre:
autre classe syntaxique:
libre-penseuse
se lunetter, fourire, confusionner
analyse erronée:
bikini > monokini
dialogue > trilogue
nouveau suffixe:
-nik dans spoutnik
> peacenik
mot-valise (fusion):
cocacolaniser
smog (de smoke et fog)
(île bikini ≠ bi- kini)
(dia- ≠ 2)
7
Problème fondamental du traitement de la parole :
un traitement de type "pattern matching" est-il plausible ?
- impossible pour les énoncés complets :
- on ne peut pas stocker une infinité potentielle d’énoncés …
- on n’attend pas la fin pour commencer à “décoder”
- possible pour mots et/ou unités infra-lexicales, mais :
a) quid des néologismes? e.g., *rapidifier compris bien
qu’absent du "lexique mental".
b) quid des non-mots? e.g., *crépascole analysable en sons.
=> étapes que l'on peut logiquement postuler
• première tâche: décodage phonétique, du signal aux “sons”
• seconde tâche: des sons aux morphèmes et aux mots
• troisième tâche: des mots à la phrase => sens du message
8
=> approche classique :
niveaux de traitement <--> niveaux d'organisation
signal de parole --> unités infra-lexicales --> morphèmes
mots --> structure morphosyntaxique --> sens
?
signal
acoustique
continu, variable
?
détection/
identification de
mots
segmentation,
reconnaissance
des mots
unités infra-lexicales
discrètes, invariantes
(phonèmes, traits?)
PS
Compréhensio
n de la phrase
structure
syntaxique,
=>accès au sens
--> ≈ "sons"
9
Niveaux d'organisation du langage parlé
(du "bas niveau" aux niveaux “supérieurs”)
• patterns acoustiques
• interprétation phonétique
• codage phonologique
• codage morphologique: mots de contenu et de fonction
• structure syntaxique de surface (e.g., constituants)
• structure profonde
• contenu sémantique
• message pragmatique
10
niveaux d’organisation
acoustique
phonétique
phonologique
[ɔ̃netú̜ fd̥ɑ̃sɛtpʲɛs]
/ɔ̃.ne.tuf.dɑ̃.sɛt.pjɛs/
morphologique
(on) (étouffe) (dans) (cette) (pièce)
surf. structure
(onPrn (étouffeVp3s (dansPrep (cetteDet pièceN)NP)PP)VP)S
deep structure
( (X est-dans (cette pièce)) (X étouffe) )
pragmatique
Ouvre la fenêtre !
11
Les sons élémentaires
les “briques” pour construire les énoncés parlés
• niveau segmental
- consonnes (C), voyelles (V), et semi-voyelles (G)
• niveau suprasegmental
- accents
- tons
- patterns d'intonation (mélodie)
- pauses, durées (rythme)
• organisation hiérarchique : découpage sonore des énoncés
- groupes prosodiques :
mot prosodique < … < groupe d'intonation
- syllabes
- segments (C, V, G)
Glossaire :
12
Pullum, G., & Ladusaw, W. (1986). Phonetic symbol guide. The university of Chicago Press.
notation des sons
alphabet phonétique
international
IPA 1993 -->
(l'IPA évolue encore…)
Origine:
Paul Passy et Daniel Jones
en 1886, Passy fonde l'Association
phonétique internationale
Lien vers l'IPA
http://www.langsci.ucl.ac.uk/ipa/
13
niveau segmental: 2+1 grandes catégories phonétiques
• les consonnes
- caractérisées par la formation puis le relâchement d'un obstacle au
passage de l'air dans le conduit vocal.
Exemples de consonnes : /f, n, t, k/ comme dans "phonétique"
• les voyelles
- pas d'obstacle au passage de l'air dans le conduit vocal.
Exemples de voyelles : /a, i/ comme dans "tapis"
• les semi-voyelles ou semi-consonnes
- intermédiaires entre consonnes et voyelles. Articulation semblable à celle
des voyelles; mais fonctionnent (phonologiquement) comme des consonnes
(ces deux points sont débattus).
Exemples de semi-voyelles : /j, w/ comme dans "yaourt" et "oie"
14
source
soufflerie vocale
conduit vocal
résonateurs
Comment sont produits les sons de la parole
larynx
trachée
air expulsé
poumons
15
articulation supralaryngale : les cavités
cavité nasale
cavité
labiale
cavité orale
passage
velopharyngé
cavité
pharyngale
larynx
16
articulation supralaryngale : les articulateurs
alvéoles
lèvres
dents
palais dur
velum (voile du
palais, palais mou)
uvula ou
luette
langue
(larynx : cordes
vocales, glotte)
17
Les consonnes
Les consonnes se distinguent selon quatre dimensions (4 traits articulatoires):
1- le voisement se manifeste par la vibration des cordes vocales. Les consonnes sont
soit voisées (sonores), soit non voisées (sourdes).
2- le mode d’articulation qui
caractérise la forme et la façon
dont la constriction est produite
dans le conduit vocal
3- le lieu d’articulation est
caractérisé par la position de
l’obstruction dans le conduit vocal
(position d’un articulateur au point le
plus fermé du conduit)
4- la nasalité caractérise les consonnes pour
lesquelles le flux d’air passe par les fosses nasales
4
3
2
1
18
modes d’articulation des consonnes
D'après la forme et la façon dont la constriction est produite
dans le conduit vocal, on distingue (en français) :

Occlusives (plosives)
 Orales
[b, d]
 Nasales
[m, n]

Fricatives (constrictives)
[s, z, f, v]
 Latérales
[l]
19
les consonnes du français
lieu
mode
occlusive
orale
occlusive
nasale
fricative
latérale
Bilabial
Labiodental
Apico-dental PredorsoDorsopost/alvéolaire
alvéolaire palatal
[p] [b]
[t] [d]
pou
tout
boue
Dorsovélaire
Dorsouvulaire
[k] [g]
doux
cou
goût
[m]
[n]
[ɲ]
[ŋ]
mou
nous
agneau
parking
[f] [v] [s] [z] [ʃ] [ʒ]
[ʁ]
fou
roue
vous
sous
zoo
choux j oue
[l]
loup
non-voisé
voisé
20
Les voyelles
Les voyelles se distinguent selon quatre dimensions:
1- aperture : ouverture ou fermeture du conduit buccal sont caractérisées par l’ouverture
de la mandibule et la position de la langue (haute ou basse)
2- lieu d’articulation : caractérisé
par la position de la langue (antérieure
ou postérieure)
3- arrondissement et protrusion :
se manifestent par le rétrécissement de
l’orifice labial et la projection des lèvres
en avant
4
2
3
1
4- nasalité : distingue les voyelles
nasales pour lesquelles le flux d’air passe
par les fosses nasales, des voyelles orales
21
les voyelles du français
antérieures
fermées
mi-fermées
[ɛ]̃
sai nt
brin
[œ̃]
postérieures
[i]
[y]
[u]
si
su
sous
[e]
[ø]
[o]
ses
ceux
sot
brun
mi-ouvertes
légende :
arrondies
centrales
[ə]
[ɛ]
[œ]
sait
soeur
ouvertes
ce
[ɔ]
[ɔ̃]
son
sort
[a]
sa
patte
[ɑ]
[ɑ̃]
sans
pâte
non arrondies
nasales
22
les semi-voyelles du français
Les semi-voyelles (appellées aussi semi-consonnes) sont des sons intermédiaires
entre les voyelles et les consonnes.
Il y en a 3 en français, qui se distinguent par leur lieu d'articulation qui est parfois
double :
- la labio-vélaire est produite par un
resserrement au niveau des lèvres et au niveau
du palais mou (velum)
- la labio-palatale est produite par un
resserrement au niveau des lèvres et au niveau
du palais dur
- la palatale est produite par un resserrement au
niveau du palais dur
soin
swɛ ̃
ɥ
suint
ɥɛ ̃
sien
ɛ̃
23
Voisement et contours F0
• F0: fréquence de vibration des cordes vocales
<--> hauteur mélodique (pitch)
• contours F0:
- tons (chinois, anglais, etc.)
- stress (anglais, italien, etc.)
- intonation
24
Pour en savoir plus …
Description articulatoire de plusieurs sons des langues du monde
http://www.unil.ch/ling/phon/index.html (université de Lausanne)
http://hctv.humnet.ucla.edu/departments/linguistics/VowelsandConsonants (UCLA)
Exercices pratiques de transcription et classification des sons (en anglais)
http://home.cc.umanitoba.ca/~krussll/phonetics/index.html
Description phonétique de variantes du français et info sur les langues
http://accentsdefrance.free.fr
(les accents des français)
http://www.ethnologue.com/web.asp (langues du monde)
http://wals.info/ (world atlas of language structures)
http://web.phonetik.uni-frankfurt.de/upsid.html (=> interrogation de UPSID)
Livres:
Ladefoged, P., & Maddieson, I. (1996). The sounds of the world's languages.
Cambridge, MA: Blackwell.
25
représentation temps x fréquence x énergie
— temps —>
énergie :
niveau de gris
“c’est de l’eau”
26
Formants
Kuhl (2000). PNAS, 97, 11850-57
27
voyelles de l'anglais (contexte [h_d])
QuickTime™ and a
decompressor
are needed to see this picture.
28
Transitions CV /ga, da, ba/
/gar/
/dar/
/bar/
29
VOT (délai de voisement)
• s'applique aux occlusives
suivies d'une voyelle
"a toe"
• intervalle de temps entre
relâchement de l'occlusion et le
début de la voyelle
ə
tʰ
oʊ
• VOT > 30-40 ms
/t/ [th] anglais ("toe")
• VOT ~0-20 ms
/d/ [t] anglais ("doe")
ou /t/ [t] français
"a doe"
• VOT négatif
/d/ [d] français
(diapo précédente)
ə
t
oʊ
30
Phonologie
La phonologie décrit les sons de parole pour leur fonction linguistique : leur
place dans le système d'oppositions, restrictions combinatoires, règles
contextuelles de changement
• missions de la phonologie
- pour chaque langue dresser un inventaire des phonèmes :
jeu de sons nécessaire et suffisant pour "coder" tous les mots.
critère de commutation/permutation : P et P' sont deux phonèmes distincts
ssi en remplaçant P par P' dans un mot M on obtient un mot différent M’ : (
“paire minimale” M-M’ <=>  contraste P-P')
exemple: /t/ et /d/ sont distincts car toit ≠ doigt
- restrictions combinatoires : règles phonotactiques
- processus phonologiques : règles de changement phonémique ou
allophonique dépendantes du contexte
(synchroniques ou diachroniques)
31
Retour sur quelques définitions
phonème : plus petite unité sonore distinctive dans une langue
Critère : commutation/permutation entre 2 phonèmes => différence de sens.
Exemples:
/ʃ a p o/ “chapeau” ≠ /ʃ a t o/ “château” => /p/ ≠ /t/
/ʃ a t o/ “château” ≠ /b a t o/ “bateau” => /ʃ/ ≠ /b/
• Chaque langue a son inventaire fini de phonèmes.
• phonème : classe d'équivalence regroupant des sons qui peuvent être
phonétiquement différents selon position et contexte
• allophone(s) d'un phonème : variantes phonétiques équivalentes.
Exemples :
- [χ] et [ʁ] allophones du 'R' (/r/) français parisien
- [tʰ], [t], [t̚], [ɾ] allophones du /t/ anglais : 'water' [ˈwɔɾɚ]
- variation selon la position…
Convention: phonèmes notés entre / /, sons ("phones") entre [ ].
32
Tableau des phonèmes d’une langue
L’inventaire dans le désordre
est peu éclairant.
Exemple :
consonnes du catalan
D’où la présentation standard selon
les catégories phonétiques
— lieu (POA) —>
mʑbŋtjd
dʑ r dz w ɕ k
l g z v ts c ɟ
ɲ n ɾ s tɕ p ʎ
33
Traits phonétiques, traits distinctifs
• traits "classiques" de la phonétique articulatoire :
correspondent aux catégories de place, manière, et voisement.
ex. /p/ voiceless, bilabial, plosive
=> "multivalued" features
• traits distinctifs : système de traits binaires qui permet de générer tous les
phonèmes possibles (--> universalité)
–voiced
–syllabic
ex. /p/ =
–continuant
+anterior
–coronal
historique:
structuralisme (Jakobson, Trubetzkoy,
etc. Ecole de Prague) ; SPE (1968) ;
Géométrie des traits (Clements, 1985) :
traits organisés hiérarchiquement.
34
unités prosodiques : de la more au groupe d'intonation
• more (mora) = unité rythmique (C)V ([consonne]voyelle-courte)
ex. 田 /da/ 1 more (だ), mais 本 /hon/, 東 /to:/: 2 mores (ほん, とう)
• syllabe :
- une syllabe <--> un noyau vocalique ou consonantique
(problématique pour le berbère : [tfktstt] "tu l'as donnée")
- contour de sonorité (Clements, 1990)
(sonority hierarchy: stop < fricative < nasal < glide < vowel)
well-formed: (max)rising –> nucleus [–>falling]
ex. (French) /bras/, /pnø/; (English) /blu/, /plan/, but */stop/
- structure syllabique
ex. (anglais) "limit"
Clements, G.N. (1990). The role of the sonority cycle in core syllabification. In J. Kingston
&
35
M. Beckman (Eds.), Papers in Laboratory Phonology I. Cambridge University Press.
unités prosodiques : de la more au groupe d'intonation
• niveaux d'organisation plus larges que la syllabe
- pied (foot) : unité rythmique induite par l'accent. En anglais, portion
allant d'une syllabe accentuée (stressed) à la suivante.
- prosodic word < phonological phrase < intonational phrase
([the little dog]pp [was running fast]pp)IP, ([I could hardly see it]pp)IP
• hiérarchie débattue / lien avec la syntaxe, mais…
• s'applique plus ou moins bien selon les langues.
par exemple, en japonais, on postule :
mora < foot < PW < PP < IP
• cohésion temporelle intra-groupe vs. fluctuations inter-groupe.
• typologie des langues en classes rythmiques
- mora timed / syllable timed / stress timed
36
phonotactique: restrictions combinatoires
• restrictions intra-syllabiques
- phonème P interdit dans la position X (onset, coda…)
ex. (anglais) /ŋ/ interdit en onset, /h/ en coda : /noʊt/ mais */ŋoʊh/
- séquence P1P2 interdite dans la position X
ex. (français) /tl/ interdit en onset : /klu/ mais */tlu/
ex. géminées souvent interdites en onset. Mais (albanais) /llara/
beaucoup de langues interdisent tous les clusters
• restrictions inter-syllabiques
- séquence …P1.P2… interdite ('.' = frontière syllabique)
ex. (coréen) /k/ possible en coda, /m/ possible en onset, mais */k.m/
=> 'Pacman' adapté en /paŋ.man/ et non */pak.man/
37
processus phonologiques
• changement phonétique contextuel
- variations allophoniques
ex. (anglais) /p/ --> [ph] en initiale de syllabe accentuée, [p] sinon
• changement phonémique contextuel
- formulation générale : X --> Y / A_B
les règles sont ordonnées (Dell, F. (1973), "Les règles et les sons")
- neutralisation : dévoisement final en allemand (Rad --> /rat/)
règle simple ! [+voiced] --> [-voiced]/_#
- assimilation : propagation régressive ou progressive
ex. (français) [-voiced] --> [+voiced] /_#[+voiced, -nasal, -syll]
=> jupe jaune --> jube jaune mais jupe noire -X-> jube noire
ex. (anglais) [coronal] --> [labial] /_#[labial]
- liaison en français : notion de forme sous-jacente à coda
ex. /petit/ pour "petit" : _tit#C --> _ti#C ; _tit#V inchangé
38
Lectures suggérées
Bybee, Joan (2001). Phonology and Language Use.
Cambridge University Press.
Dell, François (1973). Les règles et les sons: introduction a la
phonologie générative. Paris: Hermann. (réédition 1985)
Pinker, Stephen (1999). Words and rules: The ingredients of
language (348 p). New York: HarperCollins.
Pinker, Stephen (1994). The language instinct: The new
science of language and mind (495 p). London: Penguin.
39
choix d'articles à présenter / commenter
(perception/compréhension de la parole)
Dahan, D., Swingley, D., Tanenhaus, M. K., & Magnuson, J. S. (2000). Linguistic gender
and spoken-word recognition in french. Journal of Memory and Language, 42, 465-480.
Ranbom, L., & Connine, C. (2011). Silent letters are activated in spoken word recognition.
Language and Cognitive Processes, 26, 236-261.
Gomez, D., Bion, R., & Mehler, J. (2011). The word segmentation process as revealed by
click detection. Language and Cognitive Processes, 26, 236-261.
Pour télécharger, suivre ce lien dans votre explorateur
https://files.me.com/pahalle/5djdlr
40
Dahan et al.: Eye movements were monitored as French participants followed spoken instructions
to use a computer mouse to click on one of four displayed pictures. Experiment 1 demonstrated
that, in the absence of grammatical gender in the context preceding the referent name [e.g.,
cliquez sur les boutons], participants fixated pictures with names sharing initial sounds with the
target [e.g., bouteilles more than on pictures with phonologically unrelated names, replicating
“Cohort” effects previously found with this paradigm. When a gender-marked article immediately
preceded the noun [e.g., cliquez sur le bouton], the early activation of the gender-inconsistent
cohort was completely eliminated (Experiment 2). This demonstrates that the set of candidates
initially considered for recognition of the noun is constrained by the gender-marked article. Two
alternative accounts of these results, one based on grammatical level of processing and the other
based
on
form-based
statistics,
are
discussed.
Key Words: spoken-word recognition; linguistic gender; French; eye tracking.
Ranbom & Connine: Four experiments are reported that investigate processing of mispronounced
words for which the phonological form is inconsistent with the graphemic form (words spelled
with silent letters). Words produced as mispronunciations that are consistent with their spelling
were more confusable with their citation form counterpart than mispronunciations that are
inconsistent with their spelling in a same/different task. Cross-modal repetition priming for
orthographically supported productions and their citation form counterparts was equivalent; in
contrast, orthographically unsupported productions showed reduced priming relative to the
citation form. The findings are discussed in light of models of cross-modal interaction between
spoken and written lexical representations. We argue that the results support a restructuring model
where reading promotes development of a phonological representation used during spoken word
recognition.
41
propriétés importantes de la parole
(1) La parole est rapide, mais précise :
10-15 sons (phonèmes) par seconde ; < 1% erreurs
(2) La parole est variable
Les sons/mots varient selon contexte, débit, locuteur…
Pas de correspondance biunivoque son/pattern acoustique
Les sons sont coarticulés.
(3) La parole est continue
Les sons/mots ne sont pas séparés par des pauses.
Les frontières ne sont pas marquées systématiquement.
(4) La parole est lacunaire
Les mots sont souvent prononcés incomplètement avec des
phonèmes ou des syllabes qui sont omis.
42
Pas ou peu de correspondances biunivoques
différents patterns acoustiques <--> même percept /d/
même pattern acoustique <--> différents percepts : /d/ vs. /g/
/d/ in /di/
vs.
/d/ in /du/
/d/ in /do/
vs.
/g/ in /ga/
43
Coarticulation
QuickTime™ and a
decompressor
are needed to see this picture.
Schematic spectrogram for the syllable
"bag," indicating the overlap of the
information specifying the different
phonemes (from Liberman, 1970).
Les propriétés biomécaniques du
système articulatoire, en particulier
son inertie, font qu’il n’est pas
possible de produire une suite
concaténée de sons stables, bien
définis acoustiquement, chacun
correspondant à une consonne ou
une voyelle.
Les gestes articulatoires se
recouvrent en partie : les onsets des
gestes pour C et V d’une syllabe CV
coïncident => transmission parallèle.
(cf. Phonologie Articulatoire…)
44
Coarticulation et redondance
Info(/p/)
Info(/a/)
Info(/a/)
Coarticulation :
deux segments consécutifs X+Y
des infos sur Y dans X (cf. [sy])
des infos sur X dans Y
Redondance :
plus d'infos que strictement
nécessaire…
a
p
a
côtés positifs de la coarticulation
- permet la redondance
- efficacité de transmission
45
non-séquentialité
• Le langage écrit a une organisation séquentielle, linéaire
- les lettres se succèdent dans un ordre séquentiel
- à chaque lettre (ou graphème) correspond un son de la langue.
pharmacie
/f a r m a s i/
• Si la parole était strictement séquentielle et linéaire, on devrait trouver dans
le signal un segment acoustique précis correspondant à chaque segment de
parole perçu.
• Pour une séquence perçue comme X suivi de Y (ex. /d/+/i/), les segments
acoustiques correspondant à X et Y se succèdent bien temporellement (dans
la mesure où l'on peut les repérer), mais n'ont pas de propriétés invariantes
(< coarticulation).
46
caractère "continu" de la parole
i l
ɛ
t
a
m
w
a
On peut identifier certains «évènements» acoustiques (ex. discontinuités) qui peuvent être
interprétés comme des frontières entre sons. Mais ces évènements sont nombreux et ne sont
47
pas en correspondance un à un avec les segments de parole.
Perception passive versus construction active
Les sons élémentaires (consonnes et voyelles) ne sont sans doute pas
perçus directement de façon séquentielle mais plutôt reconstruits à
partir d'unités plus larges (peut-être de type CV, qui correspondraient à
des patterns articulatoires de base).
Donc le mécanisme de base de décodage phonétique ne serait pas un
pattern-matching passif mais une reconstruction active.
Nombreuses illustrations, dont les "illusions perceptives" du type
"phonemic restoration", et le rôle du contexte
Interprétation en termes de feedback (cf. cours suivants)
48
Phénomène de "phonemic restoration"
Warren, R.M. (1970). Perceptual restoration of missing speech sounds. Science, 167, 392-393.
49
rôle du contexte
Détection de voyelle : isolée (extraite), en contexte
syllabique, en contexte lexical
(Meunier & Floccia)
 Le contexte syllabique (= les informations coarticulatoires) améliore très nettement
l’identification de la voyelle
 Le contexte lexical permet une identification quasi parfaite
50
exemple : identification de
contexte
voyelle syllabe
/a/
mot
cacahuète
/kakaɥɛt/
spaghetti
/spageti/
51
Le traitement de la parole est performant
1. Parole perçue comme suite d’évènements discrets
(une séquence de “segments”)
malgré la nature continue du signal,
malgré le recouvrement des segments
2. Relative invariance perceptive des segments (stabilité des
percepts)
malgré absence de correspondance univoque
(acoustique <–> percept),
malgré la variabilité du signal acoustique
52
Ce qui peut aider le traitement de la parole
• peut-on trouver quelques invariants ?
malgré la variabilité du signal, il existe —au moins pour certains
sons de parole— des indices acoustiques stables qui peuvent servir
à leur identification phonétique.
indice acoustique : paramètre physique du signal
- qui peut varier selon l’identité phonétique des sons produits
- dont la variation peut modifier l'identité phonétique du son perçu
ex. pattern de formants, présence de friction, de voisement…
• exploration des indices acoustiques
utilisation de la parole synthétique (années 50) :
analyse/synthèse/test perceptif --> indices pertinents
• exemple d'indice pour le lieu d’articulation des occlusives :
forme spectrale du burst et le locus des transitions
53
indices acoustiques pour la place (POA) des occlusives
la forme spectrale du burst
labial
alveolar
velar
54
indices acoustiques pour la place (POA) des occlusives
le locus des transitions des formants
labial
alvéolaire
vélaire
POA
locus
labial
alvéolaire
vélaire
low
mid
high
55
Ce qui peut aider le traitement de la parole
La perception catégorielle
• problème des sons "ambigus" (ex. entre /b/ et /p/)
• traitement simplifié par la conversion rapide de grandeurs physiques
continues à des catégories perceptives discrètes.
• la perception catégorielle permet cette conversion :
un continuum de stimuli (ex. /ba/ à /ga/) est perçu de façon
“discontinue”, de façon catégorielle :
soit /ba/, soit /ga/, pas de percept intermédiaire
(années 50-60, labos Haskins, grâce au Pattern Playback)
=> Le système perceptif impose des catégories
sur des stimuli physiques continus
56
57
Perception Catégorielle
(Liberman et al. (1957) J. Exp. Psychol. 54, 358-368)
Un continuum de stimuli sur lequel sont définies des catégories perceptives est perçu
de manière catégorielle si les stimuli ne sont discriminables que lorsqu'ils sont perçus
comme appartenant à des catégories différentes.
PC : discriminabilité de S et S' <--> probabilité que S et S' soient identifiés dans 2
catégories différentes.
Le "degré" de PC est d'autant plus élevé que la relation entre discrimination et
identification est étroite.
définition opérationalisée par la comparaison des fonctions de discrimination
empiriques aux fonctions théoriques déduites des fonctions observées d’identification
(pour des performances strictement catégorielles).
(formules: Pollack & Pisoni (1971) Psychon. Sci. 24, 299)
p(Si≠Sj) = ( p(Si=a) x p(Sj=b) + p(Si=b) x p(Sj=d) ) / 2
58
Exemple d’application de la PC
(Liberman et al., 1957: Fig.2)
p(Si≠Sj) = ( p(Si=b) x p(Sj=d) + p(Si=d) x p(Sj=b) ) / 2
59
Démo de perception catégorielle
Stimuli synthétiques de [ba] vers [da]
1 2
3 4 5
6 7
/ba/
/da/
F2
F1
1
2
3
4
5
6
7
à noter, la variation dans la direction de la transition du 2ème formant
Expérience en deux étapes :
(1) test d’identification
(2) test de discrimination
60
% de réponses
"différent"
100
80
60
40
20
0
1*2 2*3 3*4 4*5 5*6 6*7
paires à discriminer
61
1
2
3
4
5
6
7
Récolte des études "PC"
• point central : bonne discrimination entre catégories,
versus mauvaise à l'intérieur d’une catégorie
=> notion centrale de frontière catégorielle.
Perception des différents types de sons
(technique : continua entre deux sons de parole)
• Consonnes
- occlusives : très “catégoriel”
- fricatives et glides : moins catégoriel
• Voyelles
typiquement : perception “continue” plutôt
que catégorielle / sensibilité au contexte
• Tons (ex. chinois) : semblable aux voyelles
62
100
Occlusives 100
(e.g., /d/-/g/)
80
90
60
80
40
70
20
60
0
S1
S2
S3
S4
S5
S6
S7
50
100
Voyelles
100
(e.g., /a/-/ɛ/)
80
90
60
80
40
70
20
S1-S3
S2-S4
S3-S5
S4-S6
S5-S7
S1-S3
S2-S4
S3-S5
S4-S6
S5-S7 63
60
0
S1
S2
S3
S4
S5
S6
S7
50
extras
64
quelques chiffres
(1) La parole est rapide …
150-300 mots /min. (Macley & Osgood, 1959)
3-5 syllabes /sec. (Deese, 1984)
10-15 phonèmes /sec.
Estimation de la taille du lexique: 30,000 à 100,000 mots
… mais précise
Les erreurs de production sont relativement rares :
77 erreurs morpho-syntaxiques dans 15,000 phrases (Deese, 1984) (ex.
some shells is even soft)
1.5 à 3.2 erreurs phonologiques dans 10,000 mots (Deese, 1984; Garnham
et al. 1984) (ex. berre de vière)
2.5 à 5.1 erreurs lexicales sur 10,000 mots (Rossi & Peter-Defare, 1998)
(ex. la chambre de ma porte)
65
pourquoi le traitement de la parole est complexe
(1) La parole est rapide, mais précise :
10-15 sons (phonèmes) par seconde ; < 1% erreurs
(2) La parole est variable
Les sons/mots varient selon le contexte, le débit, le locuteur...
Les sons sont coarticulés.
66
Invariance and variability
Le signal de parole est variable. Le traitement perceptif le convertit
en unités infra-lexicales et lexicales discrètes et invariantes.
Première étape : les segments
Peut-on trouver dans le signal, pour chaque segment de parole
perçu, un certain nombre de corrélats acoustiques spécifiques qui
le caractériseraient toujours ?
Idéalement, les corrélats acoustiques d'un segment S devraient
tous apparaître à chaque occurrence de S mais pas (ou pas tous)
en l'absence de S.
De tels corrélats sont difficiles à trouver (mais cf. suite).
La plupart du temps, pas de correspondance univoque entre
percept (son perçu) et manifestation acoustique.
67
Exemples de disparition de sons ou de mots
processus phonologiques de réduction
[il.tə.di.kil.nə.lə.sɛ.pa]
"il te dit qu'il ne le sait pas"
[il.tə.di.kil.nəl.sɛ.pa]
"il te dit qu'il ne l'sait pas"
[i.tə.di.kil.nəl.sɛ.pa]
"i te dit qu'il ne l'sait pas"
[it.di.ki.sɛ.pa]
"it'dit qu'i sait pas"
erreurs de production (lapsus)
"un instument de mesure" ; "des écrivains pestigeux"
68
indices acoustiques pour la place (POA) des occlusives
le locus des transitions des formants
occlusion de [k]
F3
F2
F1
transition formantique : trajectoire d'un formant au passage
entre consonne et voyelle (ou sonante)
69
indices acoustiques pour l'identification des voyelles
fréquences relatives des formants 1 à 3 --> voyelle
mais : voyelles intermédiaires…
voyelle
[a]
[i]
[u]
F1
F2
600 1200
300 2500
300 600
F2/F1 ne suffit pas !
(=2 pour [a] et [u])
[a]
[i]
[u]
=> F3 : en général
vers 3000 Hz,
sauf [y]…
formants F1, F2, et F3 des voyelles [a, i, u]
70
Descargar

ppt - Pierre A. Hallé