Surpasser les facultés humaines ou du moins les égaler, constitue à l’heure actuelle un des objectifs que cherchent à atteindre les chercheurs. Après le robot humanoïde qui fait des saltos comme un vrai athlète, Google conçoit un système de synthèse vocale d’un nouveau genre, qui le distingue des autres par le fait qu’il est indifférenciable d’une voix humaine.
Le fonctionnement de Tacotron 2, ce système développé par Google, a fait l’objet d’une publication scientifique par l’université de Cornell.
Pour mettre au point un tel prototype, Google s’inspire des humains et de la complexité de leur réseau neuronal. Par le biais de deux réseaux neuronaux artificiels, un texte est décrypté puis traduit en langage sonore.
Le premier réseau neuronal utilise un modèle informatique de manière à faire traduire des séquences de texte en spectrogramme audio, celui-ci est retranscrit par la suite en sons par le biais du second réseau neuronal artificiel.
Grâce à ce système d’encodage et de traduction, le système de synthèse vocale réalise des performances hors norme, Tacotron 2 est capable de prononcer correctement des mots compliqués. Il réagit également à la ponctuation et peut même simuler correctement une intonation.
Cette nouvelle prouesse technologique semble permettre d’améliorer les services de la firme américaine. Tacotron 2 sera en effet, dans un avenir proche, la voix des applications de Google telles que Google Assistant ou Google Traduction.
Avant même que ce système ne soit officiellement lancé, Google propose en ligne des extraits sonores de Tacotron 2 et ceux d’une voix humaine, afin que les utilisateurs vérifient d’eux-mêmes qu’il est impossible de les distinguer l’une de l’autre. Fini donc les voix de synthèse qui donnent froid dans le dos, et place à un système de synthèse vocale bluffant de réalisme.
Jusqu’à présent ce nouveau prototype, et ce malgré toutes les prouesses dont il est capable, ne parle que l’anglais et est limité à la voix d’une femme.