Perspectives industrielles dans le
domaine des technologies vocales
Frédéric Beaugendre
Plan
Les technologies


Synthèse Vocale & Reconnaissance Vocale


Historique/Evolution
Quelles applications pour les technologies vocales?


Applications principales
Verrous
Les acteurs du marché



Principaux acteurs
Exemples au sein de quelques secteurs




Aide aux handicapés
Navigation
Dictée
Multimédia/Indexation
Conclusion & Perspectives

2
Frédéric Beaugendre
MajecSTIC 2009
Synthèse de la parole
Text-To-Speech (TTS) Synthesis
La machine de
Von Kempelen (1769)
•
•
•
4
Souflet : source d’énergie
analogue aux poumons
Cavité déformable (cuir)
analogue au conduit vocal
Anche : cordes vocales
Cooper’s Pattern Playback
5
Frédéric Beaugendre
MajecSTIC 2009
Trois méthodes de synthèse

Synthèse articulatoire :


Modélise le mouvement des articulateurs et la forme du
conduit vocal
Synthèse par formant :

Part du niveau acoustique et phonétique, vise à créer des
règles/filtres pour créer les formants et phénomènes
associés à chaque phonème, ainsi que leur coarticulation


, Paul , Betty , Infovox formants
Synthèse par concaténation d’unités :

Utilise des bases de données de parole enregistrée pour
créer de nouvelles phrases (diphones -> unités plus larges)

6
Dectalk 1985
Infovox diphone
, Limsi &991
, Mbrola , L&H , CNET
Frédéric Beaugendre
MajecSTIC 2009
Architecture d’un système TTS
Entrée
“Texte”
Analyse textuelle
Normalization Textuelle
Part-of-Speech tagging
Traitement des homonymes
Désambiguisation
Analyse phonétique
Dictionary Lookup
Grapheme-to-Phoneme
Analyse Prosodique
Placement des frontières
Réalisation des accents
Traitement des durées
Production de la forme
d’onde
7
Frédéric Beaugendre
Sortie
“Parole”
MajecSTIC 2009
Synthèse par sélection d’unités

Bases de segments pré-enregistrés (voix humaine, 1
locuteur unique par voix de synthèse)

Base de sons prononcés par un locuteur


Unité de base : le diphone



8
Environ 1200 en français
Certains diphone difficiles à segmenter
Unités plus longues


Voix et intonation homogènes
Polysons, dissyllabes
Unités de taille variables
Frédéric Beaugendre
MajecSTIC 2009
Synthétiseur par Diphone

Préparation :




Synthèse :


9
Choix du type d’unités (type de diphone)
Enregistrement de la base de diphones (chambre
anéchoïque, …)
Etiquetage des diphones
Aller chercher la suite de diphones pour la phrase à
synthétiser
Traitement du signal pour modifer la prosodie (F0, energie,
durée) pour obtenir la synthèse désirée
Frédéric Beaugendre
MajecSTIC 2009
Diphone boundaries in end phones
10
Frédéric Beaugendre
MajecSTIC 2009
Synthèse par sélection d’unités

Généralisation de l’approche par diphone




11
Unités enregistrées plus larges
Grand nombre de copies de chaque unité (1-5 heures ou
plus)
Permet de choisir l’unité la plus appropriée par rapport à
l’unité précédente (contexte prosodique,
limitation/élimination des distorsions)
Contextes retenu plus large -> qualité transparente (mis
à part de rares discontinuitées lors d’enchaînement
d’unités)
Frédéric Beaugendre
MajecSTIC 2009
Sélection d’unités



Etant donné une base de donnée de grande taille
Trouver l’unité dans la base de donnée qui permet au
mieux de synthétiser le segment S
“Au mieux” en fonction de quels critères?

“Target cost”: meilleur choix par rapport à la description de
la cible en terme de:



“Join cost”: meilleure critères de concaténation:



12
Contexte phonétique
F0, accent, position dans la phrase
Characteristiques spectrales et formants
Energie
F0
Frédéric Beaugendre
MajecSTIC 2009
Les systèmes en synthèse vocale

Synthèse articulatoire (pas utilisé commercialement)



Synthèse par règles (plus utilisée)



Cons: Complexe à modéliser
Pros: Reproduction fidèle de l’appareil vocale
Pros: léger en terme de footprint
Reproduction du fonctionnement vocal sous une forme simplifiée: résonnateurs +
générateurs de bruits
Synthèse par concaténation d’unités:


Diphones (small footprint, remplacée par la synthèse HMM)
Unité plus larges (très utilisée)




Pros: Enregistrement, donc parfaitement fidèle à la voix originale, combinaison possible avec des
parties de phrases pré-enregistrées avec la voix du même locuteur (pour encore plus de fidélité)
Cons: Ne permet que de synthétiser une seule voix par base de donnée
Cons: Problème de continuité, en grande partie résolu par l’utilisation de base de données plus large
Synthèse par HMMs (débuts, très prometteur)


13
Pros: Utilisation d’une base de données pour la construction d’un modèle paramétrique:
accès à la manipulation des différents, paramètre de la voix, adaptation à de nouvelles voix
Cons: Modèle simplifié d’excitation de la source: en passe d’être résolu
Frédéric Beaugendre
MajecSTIC 2009
Comparaison entre les deux approches
Large base de données enregistrée
(20-100Mo)
Modèles statistiques (<1Mo)
Avantages:
• Concaténation de phrases
enregistrées : très haute qualité
segmentale
Inconvénients:
• Discontinuité parfois audibles
• Modifications prosodiques limitées
Inconvénient
• Utilisation de Vocoder : buzzy 
travaux sur le modèle de source en
vue de résoudre ce problème
Avantages:
• Transitions lisses, stables
Voix fixe, utilisation d’un « talent »
Adaptation au locuteur avec quelques
minutes de parole
Modèle paramétrique : pouvant à terme
s’adapter à plusieurs styles de parole, …
14
Frédéric Beaugendre
MajecSTIC 2009
Synthèse Vocale par HMMs

Nouvel engouement d’un point de vue recherche



Méthode paramétrique
Morphing ou interpolation de voix, adaptation au locuteur,
synthèse des emotions, eigenvoices (production de nouvelles
voix), synthèse multilingue
Exemple tiré du projet EMIME

Exemples:
Homme


15
Femme
Voix Indien
Voix célèbre
Carte du monde
You can listen a demonstration sample for the Majestic
conference.
Frédéric Beaugendre
MajecSTIC 2009
Domaines de recherche encore ouverts

Modélisation prosodique



Prosodie acceptable voir naturelle pour des phrases courtes
Pas ou peu de prise en compte des niveaux sémantiques et
pragmatiques de représentation
Emotions
16
Frédéric Beaugendre
MajecSTIC 2009
Reconnaissance de la parole (RAP)
Automatic Speech Recognition (ASR)
Les étapes de la RAP

Paramétrisation



Modélisation Acoustique




Représentation spectrale, cepstrale, prédiction linéaire
Mécanismes pour la robustesse : soustraction spectrale, …
HMM
Adaptation acoustique (MLLR, MAP, …)
Décodage
Modélisation de la langue


18
Modèle stochastiques
Grammaires contraintes (type BNF)
Frédéric Beaugendre
MajecSTIC 2009
Schema global d’un système de
reconnaissance vocale
Modèles
Acoustiques
Reduction
de bruit
Feature
Extraction
Recognition
Search
Resultats de
reconnaissance
(N-best List)
Module
Spelling
Conversion
graphème-phonème
Grammar
Grammaire
Compiler
statistiques
Dictionnaire
d‘exceptions
19
Module
NLU
Nom
Epellé
NLU
Resultats
Modèles
BNF de
Language
Grammar
statistiques
Frédéric Beaugendre
MajecSTIC 2009
Nouvelles idées chaque année, mais
technologie de base inchangée
20
Frédéric Beaugendre
MajecSTIC 2009
Reconnaissance de parole : problématiques

Nombre de locuteurs reconnus : systèmes mono/multilocuteur

Nombre de mots à reconnaître : petits à grands
vocabulaires


Canal de transmission : micro, téléphone, GSM, …
Environnement acoustique : calme, normal (bureau), bruité
(rue, gare, voiture, …), très bruité

Type de parole : digits, mots isolés, mots enchaînés, parole
continue (lue, spontanée)
21
Frédéric Beaugendre
MajecSTIC 2009
Architecture d’un système de dialogue
22
Frédéric Beaugendre
MajecSTIC 2009
Systèmes de dialogue déployés
aujourd’hui





Grammaire contraintes souvent privilégiées car plus facile à
interpréter en terme sémantique (tag sémantique associé à
une branche locale)
Modèles de langage dépendants du contexte, de l’état du
dialogue
Prise en compte de spécificités du locuteur : adaptation
Barge-in (interruption de la synthèse lors d’une nouvelle
requête du locuteur)
Score de confiance


23
Les parties “reconnues à coup sûr” retenues
Confirmation demandées par retour vers l’utilisateur
Frédéric Beaugendre
MajecSTIC 2009
Evolution de la technologie


Des systèmes experts (80s) vers les systèmes fondés
sur des bases de données réelles (parole, texte)
Corpus de texte


Importants pour l’entraînement de modèles de la langue en
reconnaissance, de phonétiseurs et de tagueurs pour le TTS
Corpus de parole étiquetés phonétiquement


Reconnaissance : 100 heures, multi-locuteur
Synthèse :



Bases de données:


24
Par unités concaténées: 1 locuteur, 1-5 heures
Par HMM: large base de données pour la construction du modèle
général, mais adaptation possible…
ELRA (European Language Resources Association) & LDC
(Language Data Consortium): données parfois chères et pas
toujours adaptées aux applications/modèles désirés
Part importante/primordiale de ces bases de données dans
la valeur de ces technologies
Frédéric Beaugendre
MajecSTIC 2009
Les technologies vocales pour quelles
applications ?

Années 90:


« Vers une substitution aux interfaces hommesmachines conventionnelles ? »
Marchés d’emblée adaptés




25
Handicap
Commandes « mains-libres »
Téléphonie
Indexation
Frédéric Beaugendre
MajecSTIC 2009
Facteurs d’adoption des technologies
vocales

Politiques




Economiques






Emploi
Aspects légaux/atteinte à la vie privée
Technologies jugées acceptable ?
Est-ce réellement plus économique ?
Montant global et retour sur investissement ?
Coût de maintenance ?
Evolutivité de l’application ?
Modèle économique adapté ?
Sociaux

Acceptabilité des technologies


Habitudes, réticences, mauvaises expériences, vecteur(s) d’acceptation ?
Techniques


26
Platformes adaptées ?
Technologie mature ? Qualité acceptable pour l’application ?
Frédéric Beaugendre
MajecSTIC 2009
Verrous technologiques pour
la reconnaissance vocale
Les taux d’erreurs dépendent sensiblement de
:

La taille des vocabulaires et la complexité des grammaires de phrases

La qualité des représentation phonétiques des noms propres

Le degré de familarité de l’utilisateur avec l’application vocale

Le degré d’adaptation du système à la voix du locuteur

La qualité des systèmes d’enregistrement et de transmission du son

Le niveau de bruit et l’environnement d’utilisation
27
Frédéric Beaugendre
MajecSTIC 2009
Verrous économiques pour
les technologies vocales


La disponibilité de plateformes adaptée (CPU & mémoire)
La question multilingue




Contrôle et optimisation des performances

28
Développer et améliorer des versions pour toutes les langues
Disposer de bases de données vocales multilocuteurs
multiconditions
Disposer de lexiques d’exceptions phonétiques de noms propres
Principalement pour la reconnaissance vocale
Frédéric Beaugendre
MajecSTIC 2009
Applications dans le domaine de
la synthèse vocale

Handicapés



Téléphonie:




Messagerie (lecture d’email, …)
Standardiste automatique
Consultation de bases de données (événements, météo, données
bancaires, navigation, réservation de tickets (train, avion, concerts),
etc…)
Multimédia




29
Aide à la communication pour les muets
Lecture automatique pour aveugles
CDRoms
Livres et tutoriel parlants
Jeux interactifs
Apprentissage des langues étrangères
Frédéric Beaugendre
MajecSTIC 2009
Applications dans le domaine de
la synthèse vocale


Retour d’information en gardant une
indépendance visuelle (en voiture par exemple)
Dialogue (combiné avec ASR)



30
Kiosk intéractifs : dans les gares, aéroports
PDAs, Pocket PCs (interfaces de taille réduite)
Monitoring et maintenance
Frédéric Beaugendre
MajecSTIC 2009
Applications Vocales dans le domaine
de la reconnaissance vocale

Handicapés


Téléphonie



Commandes pour handicapés moteur
Demande d’information automatique téléphone (bancaires,
navigation au travers de menus, réservation de tickets,…
Assistant automatique (standardiste vituel)
Dictée vocale


Grand public
Domaine Médical et Légal


31
Création de rapports, résumés, diagnostiques…
Commandes “main-libres” (en voiture ou dans le domaine de
la logistique par exemple)
Frédéric Beaugendre
MajecSTIC 2009
Applications Vocales dans le domaine
de la reconnaissance vocale

Multimédia:



Dialogue (avec ASR)



32
Apprentissage des langues étrangère ('L2') (aide à la
prononciation)
Inedexation : recherche à l’intérieur d’archives audio/video
Kiosk intéractifs : dans les gares, aéroports
PDAs, Pocket PCs (interfaces de taille réduite)
Monitoring et maintenance, gestion et controle des stocks
Frédéric Beaugendre
MajecSTIC 2009
Applications en reconnaissance du
locuteur et de la langue

Système de reconnaissance de paroles multilingues
(indexation automatique, routage d’appels téléphoniques,
…)

Reconnaissance du locuteur

Verification du locuteur (décision binaire)


Identification du locuteur (un parmi N)

33
Mot de passe vocal, …
Investigation criminelle
Frédéric Beaugendre
MajecSTIC 2009
Acteurs du Marché

Laboratoires de recherche académiques/instituts:


Fournisseurs de technologie



France : ENST, ICP-INPG, IRIT, LIA, LIMSI, Loria, …; Belgique :
KUL, FPM/Multitel,VUB, Gent, UCL…
Acapela (Babel Tech + Elan + Infovox), AT&T, IBM, Loquendo
(Telecom Italia), Microsoft, Apple, Nuance, Telisma, …
Concurence réduite en raison de séries d’acquisitions/fusions
Intégrateurs : multitude, dans chaque domaine
d’application, l’intégrateur étant aussi parfois le
fournisseur
34
Frédéric Beaugendre
MajecSTIC 2009
Acquisitions de Nuance (source Nuance)
Revenu par année fiscale
2002
L&H
Dictation, TTS
Embedded
ASR and
Audiomining
2003
2004
SpeechWorks
Network and
embedded
speech
Rhetorical
TTS tools and
European
customers
Philips Speech
Assets
DA, ASR,
embedded
Telelogue
DA application
and
ASP platform
LocusDialog
Auto
attendant
B&G
Assistive
technologies
for embedded
Lobby7
Wireless
multimodal
applications
35
$232 million
2005
Nuance
Network
speech
channels
and core
technologies
Phonetic
DA and
enterprise
solutions
MedRemote
Transcription
workflow
ART
Speech for
mobile devices
$401 million $613 million $919 million
$1011 to
1135 million
2006
2007
2008
2009
Dictaphone
Healthcare
solutions
BeVocal
On-demand
self-service
Viecore
professional
Services
IBM
Technology
Licenses for
Mobile and
Enterprise
Mobile Voice
Control
Voice search
and messaging
Tegic
Predictive text
VoiceSignal
Mobile device
control &
voice search
Focus
Medical
transcription
Commissure
Radiology
solutions
Vocada
radiology
solutions
Jott
Voice Mail
Services
eScription
hosted
dictation
solutions
Philips Speech
Recognition
Medical speech
recognition
solutions
Frédéric Beaugendre
Harmann
Becker
Speech
recognition for
Automotive
eCopy
MRP document
solutions
MajecSTIC 2009
Quelques chiffres

Chiffres:






Nuance : 919M€, env. 6000 employés
Acapela : env. 5-6M€, env. 50 employés
Loquendo : env. 8-10M€, env. 100 employés
Svox : croissance récente importante, env. 80 employés
…
Répartition du CA Nuance 2008-2009 :
45% healthcare-dictation
29% embedded (automotive...)
26% enterprise (téléphonie…)

Evolution (Datamonitor)


36
Marché de la reconnaissance vocale dans le marché mobile: 32.7 million
$ en 2009 à 99.6 million $ en 2014
Les prévisions concernant l’automotive : 64.3 million $ en 2009 à 208.2
million $ en 2014
Frédéric Beaugendre
MajecSTIC 2009
Nuance Embedded TTS Language Roll-out
(source Nuance)
Region
Americas
Western
Europe
Northern
Europe
2006
37
2008
2009
2010
US English
US Spanish
Canadian French
Brazialian Portuguese
UK English, German, French,
Italian, Spanish, Portuguese,
Greek, Dutch, Flemish
Swedish, Danish,
Norwegian
Japanese, Korean,
Mandarin Chinese,
Cantonese,
Australian English
Catalan, Basque,
Irish, Scottish
Finnish
Russian,
Czech,
Polish
Eastern
Europe
Asia Pacific
2007
Turkish
Taiwanese,
Indian English,
Thai, Indonesian
Welsh
>50 languages with
>75 voices available
by end of 2010
Icelandic
Hungarian,
Slovakian,
Romanian
Slowenian, Croatian,
Bulgarian, Serbian
Arabic
Hindi
Frédéric Beaugendre
MajecSTIC 2009
Nuance Embedded ASR Language Roll-out
(source Nuance)
Region
Americas
Western
Europe
Northern
Europe
Eastern
Europe
Asia Pacific
38
2006
2007
2008
US English
US Spanish
Canadian French
Brazialian Portuguese
Greek
Swedish
Danish
Japanese, Korean,
Mandarin Chinese,
Cantonese
2010
>35 languages
available by end of
2010
22 languages
available by end
of 2007
UK English, German, French,
Italian, Spanish, Portuguese,
Dutch, Flemish
Russian,
Czech,
Polish
2009
Norwegian,
Finnish
Hungarian, Slovakian,
Romanian, Slowenian
Turkish,
Bulgarian
Australian
English
Extended German
(Swiss, Austrian)
Mandarin
Chinese
(update)
Indian
English,
Hindi
Arabic
Répartition géographique du marché de la
synthèse (source Acapela)
Competition /
Presence
North-America
South-America
North Europe
South Europe
East Europe Russia
Asia
MEA
Comments
Microsoft
IBM
Nuance
licencing
Apple
Nuance
Strong
Acapela Group
10%
Loquendo
SvOX
0%
80%
Strong
Starting
2%
3%
1%
4%
2008
Revenues
Strong
Strong
Cepstral
Wizzard AT&T
Korea
NeoSpeech Voice
Ware
Fonix
Iflytek
China
Sinovoice
China
Ivona
Poland
Cereproc
UK
Animo
Japan
HCI-Lab
Korea
Sakhr
Sakrament
39
Russia
Frédéric Beaugendre
MajecSTIC 2009
Répartition par domaine du marché de la
synthèse (source Acapela)
Competition / Markets
Accessibility
Automotive
Consumer
Electronics
Industry
Mobility
Multimedia
Telecom
VaaS / Web Online
1%
7%
2%
17%
20%
VaaS
Main
Pronuncia
Microsoft
IBM
Apple
Education
Nuance
Acapela Group
34%
17%
Loquendo
Low
Second
SvOX
Main
Cepstral
Voice Forge
Wizzard Software AT&T
NeoSpeech – Voice Ware
NS WebService
Fonix
Iflytek
Sinovoice
Ivona
Ivona Online
Cereproc
Animo
HCI-Lab
Sakrament
40
Frédéric Beaugendre
MajecSTIC 2009
Languages available TTS
Loquendo (26 lang.)
Svox (23lang.)
Acapela (21 lang.)
American Spanish
American Spanish
American Spanish
Nuance (35-40
lang.)
Greek
Greek
Greek
Greek
Hindi
Arabic
Arabic
Hungarian
Arabic
Icelandic
Argentinean
Indian English
Basque
Brazilian Portuguese
Brazilian ortuguese
Brazilian Portuguese
Irish English
Italian
Bulgarian
Canadian French
Canadian French
Canadian French
Catalan (bilingual)
Canadian French
Italian
Cantonese
Japanese
Korean
Korean
Taiwanese
Mexican
Chilean
Chinese Mandarin
Italian
Japanese
Catalan
Cantonese
Chinese
Italian
Mexican Spanish
Norwegian
Norwegian
Norwegian
Mandarin Chinese
Polish
Polish
Polish
Polish
Croatian
Portuguese
Portuguese
Portuguese
Portuguese
Colombian
Romanian
Czech
Czech
Czech
Russian (2008)
Russian
Russian
Russian
Danish (2008)
Danish
Danish
Danish
Scottish
Dutch
Dutch
Dutch (B/N)
Dutch Netherlands
Slovenian
Flemish
Spanish
Spanish
Spanish
Castilian Spanish
Australian English
Swedish
Swedish
Swedish
Swedish
English UK
English UK
British English
British English
English US
English US
American English
American English
Finnish (2008)
Finnish
Finnish
Finnish
French
French
French
French
German
German
German
Galician (bilingual)
German
Thai
Turkish
Turkish
Turkish
Turkish
Valencian
Welsh
Fonctionalités
Nuance
Language Identification (which languages)
Multilingual voice talent (which languages)
Phonetic Conversion (language pairs)
Phoneme morphing
√ (10 languages)
DE, IT, UK Eng,Fr
√
Partial
Loquendo
Svox
(most EU
languages)
X
√
X
X (partially)
X (1)
√
X
√
√
√ Fr, Es, UK Eng
√
X
√
X
X
X (2)
X
√ Harmonizer
√
√ Speech Create&
√ Splice design
√
Galician ES +
Catalan
Valencian
√
All
X In dev.
SMS normalization (lexicon+rules)
√
Email normalization
X
√
TMC normalization
X
X
MP3 normalization
√
X
Prompt Pre-processing (fine tuning) Prerecorded prompts integrated in
speech
√ PromptSculptor
√
All languages
Acapela
In dev.
√ Loquendo
√ Director
Voice talents available to record new
prompts
√
?
√
√
Navigation specific prompts
X
√
X
X
www.voice-insight.com
p. 42
All
Exemples: quelques secteurs





Logistique
Navigation
Dictée
Aide aux handicapés
Indexation
43
Frédéric Beaugendre
MajecSTIC 2009
Logistique

Dialogue/mise à jour en temps réel des stocks
44
Frédéric Beaugendre
MajecSTIC 2009
Embarqué (Embedded Market)

Navigation

Synthèse

Concaténation de :



Reconnaissance


Lecture de portions pré-enregistrées ou préparées à partir de modèles de
tailles importante (« tournez à gauche »)
Parties dynamiques (synthèse)
VDE (Voice destinatino entry), commande d’ordinateur de bord,
sélection de plages musicales, radios
Logistique & maintenance


45
Mise à jour en temps réel de stick (picking de palettes de
produits en entrepots, aide au tri postal
Acteurs: Vocolect,Voice-Insight, …
Frédéric Beaugendre
MajecSTIC 2009
Solutions Multilingues

Apparition d’applications TTS combinant plusieurs langues

Navigation au sein/vers nom de villes et points d’intérêts d’origine
étrangères





e.g. Navigation au sein de l’Europe, prononciation de nom dorigine
étrangère
MP3: nom d’artistes et de titres de morceaux
VAD: foreign names in address book
SMS: Mélanges de mots anglais/autre
Solutions techniques



46
Mapping inter-langues + extension
Bases de données multi-lingues natives
Combination de ces deux technologies
Frédéric Beaugendre
MajecSTIC 2009
Mapping inter-langues

Exemples

Allemand + extension en Italien


Allemand + extension en Français



Bitte nach Rechts in die « Rue Alexis de Tocqueville » abbiegen.
Français + Allemand / extension en English

Dans 150 mètres, tourner à droite, dans la rue « Dorfstrasse »

Dans 50 mètres, tourner à gauche, dans la rue « Baker Street »
Solution rapide et efficace, souvent déployée
•

Bitte dem Straßenverlauf in Richtung das « Lago di Garda » folgen.
Immediatement disponible pour langues cross-EU et cross-NA
N’est pas capable de gérer toutes les prononciations étrangères en raison des
limitations dues à l’utilisation de bases de données monolingue
Bases de données Multilingues

Exemples de Navigation

<GED::Sie fahren in Richtung><FRF::Clermont-Ferrand>

<GED::Verlassen Sie die Autobahn in><ITI::Perugia>

<GED::Sie fahren in Richtung><ENG::Manchester>

Exemples de sélection MP3

Arrivée de la synthèse HMM
48
Frédéric Beaugendre
MajecSTIC 2009
Evolution des Technologies Vocales dans le
secteur Automotive (source NUANCE)
Lecture de SMS,
Traffic Messages
Mobile
Communication
Nom de Station
Radio
Loisirs
Navigation
Voice Destination Entry,
TTS Route Guidance
Radio /
Controle
ordinateur
Telephonie /
Kits Main-Libres
49
Dictée Mobile
(SMS, Notes)
Sélection de
plages musicale
à la voix (MP3)
One-shot address entry,
POI Search, Multilingual
VDE
Command
& Control
Commandes
Naturelles
Numérotation
Vocale
2000
2002
2004
2006
2008
2010
Introduction sur le marché
2012
Aide aux handicapés
Nouvelles applications utilisant des interfaces portables :
ici l’Ipod Touch ou Iphone
Apple Voice Over
Acapela with Proloquo2go

50
Frédéric Beaugendre
MajecSTIC 2009
Dictée vocale

Grand public


Professionnelle



Domaine médical
Domaine légal
Nuance devenu acteur quasi unique (sauf Asie)


Demo
Dictaphone® Enterprise Speech System — On-premise, dictation
and speech recognition for enterprise-wide medical transcription with a
wide range of speech-driven dictation options to match diverse
workflows and changing clinical documentation needs, all on a single
platform.
Dragon® Medical — A real-time speech recognition program that
works with virtually any Windows®-based or Citrix® EMR system for
efficient report completion, and easy navigation and adoption of the EMR.
eScription — An on-demand platform for computer-aided medical
transcription, using background speech recognition to turn clinician
dictation into formatted draft documents that medical transcriptionists—
whether in-house or outsourced—can quickly review and edit, often
doubling productivity.
PowerScribe® — A web-based speech recognition solution that can
help radiology departments significantly reduce report turnaround time
and lower transcription costs by as much as 75%-100% a year.
RadCube™ — A comprehensive, yet flexible, data warehouse for multidimensional business analysis and visualization.
RadPort™ — A secure, web-based decision support application for
appropriate diagnostic image order entry that satisfies pre-certification
requirements.
RadWhere™ — A data-driven, front-end speech recognition reporting
application designed for multi-site workflow orchestration.
SpeechMagic™ — A document creation platform which enables
healthcare IT systems providers to deliver seamlessly integrated digital
dictation and speech recognition capabilities to hospitals, clinics and
group practices.
Veriphy™ — A critical test results management solution that enhances
patient care, increases physician productivity, improves risk management
and automates compliance. Frédéric Beaugendre
MajecSTIC 2009
Acquisition de Dragon, Philips SpeechMagic (25 Languages),
MacSpeech, accord commercial avec IBM
Autres :


51
Sous-titrage en temps réel (Ninsight)
…
Dictée vocale


Grand public
Professionnelle



Nuance devenu acteur quasi unique (sauf Asie)


Domaine médical
Domaine légal
Acquisition de Dragon, Philips SpeechMagic, MacSpeech, accord
commercial avec IBM
Autres :


52
Sous-titrage en temps réel (Ninsight)
…
Frédéric Beaugendre
MajecSTIC 2009
Speech Recognition in Healthcare: Workflow dimension
The classical documentation workflow enhanced with speech recognition.
Raw data
Text
Text
attached
EMR
Report
Billing
Evolution of Speech Recognition in Healthcare
SpeechMagic
InterOp
SpeechMagic
/ Discharge
Summary
SpeechMagic
InterActive
/ Patient
Encounter with
NoteStructured Data
EMR using
Nuance
/ SpeechMagic
File
File
Tools Tools
File
Tools
File
Tools
Concepts
ICD-10ICD-10
Medications
Map ofMap
Medicine
Problem List
Medications
of Medicine
Chief Complaint
Chest pain
Patient
Name:John
Doe
Allergies:None
Chest
pain
Chief Complaint
[The patient
is a 58 yearLipitor,
old male
complaining
of chest
pain and shortness of
Medications:
Lisinopril
DoB:
15.5.1951
Shortness
of breath
The patient
a 58 year
old
male
of
chestofpain
and
shortness
of breath.
[The is
patient
is a 58
year
oldcomplaining
male complaining
chest
pain
and shortness
of breath.]
Shortness
of breath
breath.]
The Patient has been suffering from hypertension and high cholesterol. The patient is currently on High cholesterol
High cholesterol
Chief Complaint
Lipitor Past
and Lisinopril.
Medical
History History
Past Medical
Sinus
pain
Sore
throat
SoB
Head
ache
Feeling
down
...
His father
died of
an MI
hisand
60s.
[Hypertension
andinhigh
cholesterol.
The patient
currently
on Lipitoronand
Lisinopril.]
[Hypertension
high cholesterol.
Theispatient
is currently
Lipitor
and
The patient smokes
one half pack per day. Denies alcohol.]
Lisinopril.]
Family History
Congestion
Cough
Cough
Runny nose
Chest pain
...
Physical
Examination
[Father
died
of anHistory
MI in his 60s.]
Family
Patient’s vital signs
are died
within
The patient appears to be in moderate distress. Skin is
[Father
of normal
an MI
inlimits.
his 60s.]
Pyhsical
Exam
diaphoretic.
are equal
and react to light.
SocialPupils
History
General
Social
History
[The patient
smokes
one half
Denies alcohol.]
WNLpack per day.
underweight
Moderate distress
Severe Distress
[The patient smokes one half pack per day. Denies alcohol.]
Physical Examination
asleep
awake
oriented
Examination
[Patient’sPhysical
vital signs
are within normal limits. The patientalert
appears to be in moderate
distress. Skin is
[Patient’s
vital
signs
are
within
normal
The patient appears to be in
Narrative:
diaphoretic. Pupils are equal and react to light.limits.
]
moderateThe
distress.
Skin
diaphoretic.
Pupils
are equal of
and
react
to and
light.shortness
]
patient
is ais58
year old male
complaining
chest
pain
of
breath.
The Patient has been suffering from hypertension and high cholesterol. The
patient is currently on Lipitor and Lisinopril.
His father died of an MI in his 60s.
The patient smokes one halfStatus
pack per
day. Denies alcohol.
divider
Status Status
bar barStatus barStatus bar
StatusStatus
dividerdivider Status divider
Indexation de documents audios/videos,
autres…

Acteurs du domaine:







Laboratoires universitaires français proposant une solution complète :



Cimwos, Reveal This, Kiras, Pharos, Ester (évaluation francophone), Aidar (région
bruxelloise), Sigmund (ANR), …
Quearo (198M€, 5 ans) : analyse automatique, classification et utilisation de documents
multimédias multilingues ( Thomson, Exalead, France Télécom, Jouve, NIST, LIMSI, IMMI,
INRIA, …)
Potentiel important



LIA, LIMSI
Nombreux projets de recherche pour le développement technologique et
l’évaluation


Nuance audiomining
Sail-Labs
Autonomy (Virage) : indexation/clustering de documents texte/audio/video
Google : http://labs.google.com/gaudi
X-tensive Technologies (technologie LIA)
Vecsys (technologie LIMSI)
Web
Marché audio-visuel
Besoin d’outils d’interprétation et classification conjoints puissants
55
Frédéric Beaugendre
MajecSTIC 2009
Autonomy
Recherche au travers
de requêtes
56
Frédéric Beaugendre
MajecSTIC 2009
Autonomy

Clustering de documents
57
Frédéric Beaugendre
MajecSTIC 2009
Applications pour Smartphones

Svox : VDE, recherche
de contacts
58
Frédéric Beaugendre
MajecSTIC 2009
Perspectives applicatives
Intégration de systèmes de plus en plus complets sur des
plateformes de plus en plus petites, bon marchés, et adaptées

Intégration de VDE one-shot et SLMs embarqués (ex: Vocon3200)


Technologie grand vocabulaire


Quelques applications ciblées dans le domaine de la dictée
Traitement du langage naturel: nécessité de modules d’interprétation
robustes par domaine

Quelques modèles/applications existantes pour des domaines restreints


« automotive », voice-dialing, demandes d’itinéraires
Nouvelle technologies

59
Synthèse par HMMs (nouvelles technologies en cours de
développement pour l’adaptation des modèles multilingues…)
Frédéric Beaugendre
MajecSTIC 2009
Vers des architectures distribués
(virtualisation des systèmes/services)


A l’instar d’autres domaines comme la bureautique (suite google
email/documents)
ASR

Permet du langage naturel sur de petites plateformes:


TTS

Synthèse à la demande, proposition de services virtualisés sur serveurs
Exemple : Marketing Viral, traduction, ….,



Vous écoutez actuellement un exemple de synthèse à partir du texte dans le cadre
de la conférence Majestic.
Avantages:





Ex: Dictée de SMS, requêtes complexes…
Vente de service à la requête
Pas de déploiement de technologie sur site
Plateforme dépendant uniquement du coté client
Pas de support externe
Nécessité de développer des infrastructures de communications adaptées
60
Frédéric Beaugendre
MajecSTIC 2009
Merci de votre attention
Descargar

majecstic2009.univ