Application à la reconnaissance vocale
Exemples d’application :
On trouve aujourd’hui de multiples applications aux réseaux de neurones artificiels dans des secteurs très variés :
Reconnaissance vocale :
La reconnaissance vocale (ou ARS automatic speech recognition/ RAP reconnaissance automatique de la parole) est une technologie de transcription d’un système « phonatoire organique » exploitable par une machine, technique informatique permettant d'analyser la parole captée à l’aide d’un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
C’est l’une des techniques du traitement de la parole qui comprend aussi :
Elles permettent notamment de réaliser des interfaces vocales c'est-à-dire des interfaces homme-machine (IHM) où une partie de l'interaction se fait à la voix.
Parmi les nombreuses applications, on peut citer les applications de dictée vocale sur PC où la difficulté tient à la taille du vocabulaire et à la longueur des phrases, mais aussi les applications téléphoniques de type serveur vocal, où la difficulté tient plutôt à la nécessité de reconnaître n'importe quelle voix dans des conditions acoustiques variables et souvent bruyantes (téléphones mobiles dans des lieux publics).
Histoire :
Les premiers travaux sur la reconnaissance vocale datent du début du xxe siècle.
Plus précisément, le premier système de reconnaissance de la parole date de 1952 conçu par Davis, Biddulph et Balashek aux laboratoires Bell Labs.
Ce système était essentiellement composé de relais et nepouvait reconnaître des chiffres isolés.
Durant les années 1970, la recherche s’est approfondie avec les travaux de Jelinek chez IBM (1972-1993).
La société Threshold Technologies fut la première à commercialiser en 1972 un système de reconnaissance d'une capacité de 32 mots, le VIP100. Aujourd'hui, la reconnaissance de la parole est un domaine à forte croissance grâce à la déferlante des systèmes embarqués.
Fonctionnement :
L'apprentissage automatique réalise une association entre les segments élémentaires de la parole et les éléments lexicaux. Cette association fait appel à une modélisation statistique entre autres par modèles de Markov cachés (HMM, Hidden Markov Models) et/ou par réseaux de neurones artificiels (ANN, Artificial Neural Networks).
On trouve aujourd’hui de multiples applications aux réseaux de neurones artificiels dans des secteurs très variés :
- Traitement d’images : reconnaissance de caractères et de signatures, compression d’images, reconnaissance de forme, cryptage, classification, etc.
- Traitement du signal : filtrage, classification, identification de source, traitement de la parole…
- Contrôle : commande de processus, diagnostic, contrôle qualité, asservissement de robots…
- Optimisation : planification, allocation de ressource, gestion de finances, etc.
- Simulation : simulation de boîte noire, prévision météorologique, recopie de modèle…
Reconnaissance vocale :
La reconnaissance vocale (ou ARS automatic speech recognition/ RAP reconnaissance automatique de la parole) est une technologie de transcription d’un système « phonatoire organique » exploitable par une machine, technique informatique permettant d'analyser la parole captée à l’aide d’un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
C’est l’une des techniques du traitement de la parole qui comprend aussi :
- (La reconnaissance de la parole)
- la synthèse de la parole
- l'identification du locuteur
- la vérification du locuteur
Elles permettent notamment de réaliser des interfaces vocales c'est-à-dire des interfaces homme-machine (IHM) où une partie de l'interaction se fait à la voix.
Parmi les nombreuses applications, on peut citer les applications de dictée vocale sur PC où la difficulté tient à la taille du vocabulaire et à la longueur des phrases, mais aussi les applications téléphoniques de type serveur vocal, où la difficulté tient plutôt à la nécessité de reconnaître n'importe quelle voix dans des conditions acoustiques variables et souvent bruyantes (téléphones mobiles dans des lieux publics).
Histoire :
Les premiers travaux sur la reconnaissance vocale datent du début du xxe siècle.
Plus précisément, le premier système de reconnaissance de la parole date de 1952 conçu par Davis, Biddulph et Balashek aux laboratoires Bell Labs.
Ce système était essentiellement composé de relais et nepouvait reconnaître des chiffres isolés.
Durant les années 1970, la recherche s’est approfondie avec les travaux de Jelinek chez IBM (1972-1993).
La société Threshold Technologies fut la première à commercialiser en 1972 un système de reconnaissance d'une capacité de 32 mots, le VIP100. Aujourd'hui, la reconnaissance de la parole est un domaine à forte croissance grâce à la déferlante des systèmes embarqués.
Fonctionnement :
L'apprentissage automatique réalise une association entre les segments élémentaires de la parole et les éléments lexicaux. Cette association fait appel à une modélisation statistique entre autres par modèles de Markov cachés (HMM, Hidden Markov Models) et/ou par réseaux de neurones artificiels (ANN, Artificial Neural Networks).
Ce diagramme montre le modèle conceptuel du système de reconnaissance de la parole de l’être humain. Le signal acoustique en entrée est analysé par un « modèle auditif » qui fournit des informations spectrales du signal et les sauvegardent dans une mémoire sensorielle. Des informations sensorielles provenant d’autres sources (vision, toucher, ...) sont également présentes dans cette mémoire et servent à enrichir les différents niveaux de description du signal. L’analyse auditive est principalement basée sur le traitement acoustique de l’oreille. Ensuite, a lieu dans le cerveau une analyse de caractéristiques à différents niveaux. Quant aux mémoires à court et à long termes, elles offrent un contrôle externe au processus neuronal.
Finalement, il est à remarquer que la configuration globale du modèle s’apparente à un réseau connexionniste « feed forward », et c’est en s’inspirant de ce schéma perceptuel du processus de reconnaissance que nous croyons que le connexionnisme offre une alternative prometteuse pour la modélisation des tâches cognitives.
Architecture générale :
Finalement, il est à remarquer que la configuration globale du modèle s’apparente à un réseau connexionniste « feed forward », et c’est en s’inspirant de ce schéma perceptuel du processus de reconnaissance que nous croyons que le connexionnisme offre une alternative prometteuse pour la modélisation des tâches cognitives.
Architecture générale :