Voix off de synthèse pour les modules e-learning, pour ou contre ?

Utiliser des voix off de synthèse, ou pas, dans les modules e-learning ? Cette question nous est de plus en plus souvent posée. Le développement de l’IA, l’intelligence artificielle, fait débat dans la société en général et le secteur de la formation est bien sûr concerné. Le sujet soulevé est le principe bénéfice / risque. Bénéfices en termes de temps de production et de possibilités de création démultipliées – risques en termes d’usages, de respect des droits, de « remplacement » de l’humain par la machine et d’uniformisation des créations.

En ce qui concerne la création de modules e-learning, l’IA propose des solutions à des tâches parfois répétitives (copier-coller les textes de sous-titres dans le logiciel versus les générer automatiquement). Elle nous propose aussi de générer les voix off de nos modules e-learning automatiquement à partir du texte (script) de la formation.

Pour commencer, à quoi sert la voix off en e-learning ?

Comme pour un film ou une publicité, la voix off porte le propos, la narration. En digital learning, le 1^er objectif d’une VO est d’emmener l’apprenant, le prendre par la main, le guider et l’aider à s’immerger dans la formation.

La voix off narratrice est un fil conducteur qui apporte une personnalité, un état d’esprit, une ambiance, un ton et dynamise les écrans. Les apports pédagogiques de la voix off ne sont pas négligeables car elle :

Capte l’attention de l’apprenant
Appuie et complète le propos des écrans (visuels et textes)
Apporte un confort en permettant à l’apprenant de suivre même quand il n’est pas concentré sur le contenu de l’écran
Participe à l’accessibilité du module e-learning ( et est idéalement complétée par le sous-titrage.

Outre cette voix off narratrice, on peut avoir recours à la voix off de personnages intervenants ou dans le cadre de dialogues, notamment dans les séquences de motion design.

On pourrait dire également que la voix-off humanise les modules suivis en distanciel.
Et c’est là, en plus des problématiques déontologiques, que le débat sur l’arrivée des voix de synthèse se pose. En effet, humaniser avec du numérique, de la robotique, de l’artificiel, n’est-ce pas contradictoire, voire incompatible ? A chacun de se faire son opinion sur la question. Nous nous interrogeons ici sur l’intérêt (opérationnel, pédagogique) et la qualité de cet outil issu de l’IA.

Comment créer une voix-off ?

Pour commencer, écrire le script ! En effet, le texte doit être prêt à être « interprété » à l’oral, donc adapté en termes de vocabulaire, tournures de phrases et doit être un vrai complément aux écrans du module de formation.

Ensuite, il existe 3 solutions :

Enregistrer en interne, sa propre voix ou celle d’un collègue. Cela nécessite du temps (lire le script d’une formation nécessite du temps, il faudra recommencer certaines prises plusieurs fois). Cela nécessite également de la patience et un certain talent (pour trouver le ton, le bon rythme, bien articuler) et de disposer du matériel approprié : au moins un micro externe de bonne qualité et un logiciel (de type Audacity par exemple).

Confier cet exercice à une agence dont c’est le métier. C’est bien sûr la solution idéale pour avoir une ou des voix off de qualité, des séquences de dialogues bien jouées et impactantes (les voix off des studios spécialisés sont souvent des acteurs professionnels). Nous avons par exemple sollicité le studio normand COM UN SON qui nous a proposé des voix variées très qualitatives, en français mais aussi en anglais pour des doublages.

Et dernière solution, rendue possible grâce au développement de l’IA : la voix de synthèse, ou via les dernières avancées bluffantes de l’IA, la voix clonée.

Au commencement, la voix de synthèse n’était qu’une suite de mots très robotiques comme nous l’avons connu avec les voix de nos GPS et téléphones. De nombreux logiciels permettent aujourd’hui à tout internaute de transformer du texte en voix. C’est d’ailleurs maintenant une fonction courante proposé sur les réseaux sociaux à l’instar de TikTok.

Qu’est-ce qu’une voix off de synthèse ?

Afin de bien comprendre de quoi nous parlons, précisons ce qu’est une voix artificielle et comment la voix de synthèse est fabriquée. Comme l’explique Nicolas Obin, enseignant-chercheur à l’Ircam et Sorbonne Université : « Il y a toujours une ou plusieurs voix humaines à l’origine des voix de synthèse. On parle de « synthèse par corpus ». Une personne enregistre en studio des phrases optimisées pour contenir le plus de phonèmes possible. Il s’agit toujours de phrases et non de mots isolés pour avoir le contexte, les silences et les liaisons […] Ensuite, pour générer une parole de synthèse à partir de ces enregistrements, on a longtemps fonctionné par « morceaux ». On cherchait dans la base de données le bon phonème avec la bonne intonation pour reconstituer le mot puis la phrase voulue. Mais l’intelligence artificielle a changé les pratiques. Une voix de synthèse est désormais créée par un réseau de neurones artificiels. Ce dernier étudie les enregistrements et établit un modèle statistique qui lui permet de créer des phrases. En un sens, elles sont donc beaucoup plus artificielles » *.

Cette explication nous montre l’évolution vers la voix dite « neuronale ».

Pour réaliser du « Text to Speech », c’est-à-dire générer automatiquement une voix qui énonce le texte du script inséré par un simple copié-collé dans l’outil, il suffit de faire une recherche Google pour voir que l’offre est pléthorique. Mais on constate vite que la qualité est souvent très aléatoire et que les sites dits « gratuits » ne permettent pas de télécharger la VO générée sans souscrire à un compte payant (ou permettent de télécharger le fichier mais avec un Watermark vocal qui le rend inutilisable).

Pour les professionnels du digital learning, il est de toute façon nécessaire de respecter le droit de propriété intellectuelle et d’utilisation – et de disposer d’une licence commerciale pour pouvoir utiliser les voix générées et les intégrer dans un module créé pour un client.

Voix off de synthèse : quelle qualité peut-on espérer aujourd’hui ?

La qualité des voix générées via l’IA s’améliore, elles paraissent moins robotiques, même si, selon les outils, il reste encore une réelle différence concernant le ton, le souffle et les pauses qui caractérisent une voix naturelle et qui sont tout de même les signes d’un élément primordial d’une voix off : la personne qui parle comprend ce qu’elle lit et nous transmet cette interprétation du texte à travers sa voix.

Autre problème : étant donné que l’IA est historiquement développée aux Etats-Unis, les outils de génération de VO proposent peu ou pas de voix françaises. Donc la plupart des outils utilisent une voix d’origine anglaise ou américaine qui lit le texte en français. Même quand l’accent est quasiment imperceptible, il faudra modifier l’orthographe de certains mots du script pour éviter des erreurs de prononciation et de liaison.

A ce propos, notons les travaux de l’association française Le Voice lab, qui regroupe différents acteurs institutionnels (universités, laboratoires de recherche…) et des entreprises privées travaillant sur tous les aspects du marché de la voix. Cet écosystème français qui travaille au lancement d’une plateforme française, a lancé une campagne publique d’enregistrement de voix françaises. Elle a en effet constaté que les développeurs français manquaient de voix source et que leur « stock » datait des années 70, ce qui implique des problèmes de vocabulaire et d’accent. **

VO de synthèse, VO neuronale : les résultats des outils auteurs digital learning et de la star Elevenlabs

Dans la cadre de mes travaux de conception de modules e-learning, j’ai plus particulièrement testé les voix proposées dans les fonctionnalités des outils que nous utilisons au quotidien.

Mon objectif n’était pas de remplacer nos voix-off narratives « maison » mais de voir par exemple si des voix variées pour des dialogues de personnages animés étaient utilisables, c’est-à-dire assez qualitatives et convaincantes pour être intégrées à nos motion design par exemple.

Je citerais notamment Storyline 360 (un des outils de création de modules e-learning interactifs les plus utilisés) et Animaker Voice (option voix de l’outil de création de motion design Animaker). Mais j’ai également testé un outil dédié à la génération de voix qui fait actuellement le buzz : Elevenlabs.

Articulate Storyline 360 a annoncé durant l’été 2023 qu’elle lançait ses voix « neuronales » (plus « naturelles » que les anciennes voix de synthèse disponibles). Qu’en est-il en termes de qualité ?

Les voix proposées dans Animaker Voice sont-elles satisfaisantes ?

Que vaut Elevenlabs, la star de la voix générée via l’IA qui propose également le clonage de n’importe quelle voix à partir d’un simple fichier audio ?

Je vous détaille le résultat de mes tests dans un prochain article !

*Article Comment fabrique-t-on une voix de synthèse ? du journal La Croix du 22/01/2019

** Article Intelligence artificielle : une campagne pour recueillir des voix françaises du 08 avril 2023 sur le site d’Europe 1

La suite de l’article est disponible :