Logo de Formaxis, votre agence digital learning

Test comparatif de voix de synthèse pour formations e-learning

Comme évoqué dans l’article précédent « Voix off de synthèse pour les modules e-learning, pour ou contre ? », la qualité de la voix off est un élément important dans un module de formation digitalisé. Que cette voix soutienne l’ensemble du module ou qu’elle soit utilisée de façon ponctuelle dans des séquences audio et vidéo, elle participe à la qualité générale.
L’offre d’outils développés via l’IA et permettant notamment de créer une voix-off à partir d’un script (text-to-speech) est maintenant pléthorique. Je propose ici mon retour sur les outils testés dans le cadre de mes missions de conception de modules e-learning. Afin de vous faire une opinion sur la qualité de ces voix de synthèse, je vous propose, pour pouvoir les comparer, d’écouter des VO générées via : Voicemaker, Storyline, Vyond et Elevenlabs, ainsi qu’un enregistrement traditionnel effectué dans un studio professionnel.

Pour commencer, rappelons que l’enjeu de la voix off est bien sûr de participer à l’accessibilité du module, mais c’est aussi : 

  •      Un enjeu pédagogique : compléter et soutenir les éléments visuels, participer à la compréhension et à l’ancrage
  •     Un enjeu d’engagement : donner envie de continuer, dynamiser, permettre de s’identifier, impliquer
  • Un enjeu en termes d’image et de qualité : une voix off de mauvaise qualité (que ce soit un problème de son, de prononciation, de timbre de voix ou de rythme) nuit à la crédibilité du module en lui-même – et également à celle de la structure qui propose cette formation et son fournisseur

Le script de la voix off

Pour effectuer ce comparatif, je propose de partir du même script basique et de l’utiliser en text-to-speech : « Bienvenue dans ce comparatif des voix off des modules e-learning. Ma voix vous convient-elle ? J’espère en tout cas que le timbre, le rythme et le ton soutiennent bien ce que les apprenants voient à l’écran et que le module est agréable à écouter. »

Le problème récurrent, quel que soit l’outil, est l’accent, la prononciation. En effet, ces outils, majoritairement américains, ont des bases de données qui n’incluent quasiment pas de voix francophones. Et quand elles sont annoncées françaises, il s’agit en fait de voix anglophones transformées avec l’accent français (multilingual). Les exemples ci-dessous sont volontairement ceux des rendus bruts, sans corrections : cela montre qu’il est en effet souvent nécessaire de faire plusieurs tentatives, voir d’intégrer volontairement des erreurs d’orthographe dans le script pour forcer la prononciation, ou éviter une faute de liaison.

Test de voix off générée sur Voicemaker

Commençons avec un outil grand public gratuit pour les fonctionnalités de base : Voicemaker .
Cet outil en ligne propose 1 voix « française », voici donc Jeanne :

Test de voix off générée sur Articulate Storyline 360

Articulate Storyline 360, l’outil star des concepteurs digital learning, propose 2 voix standard et 2 voix neuronales dans Storyline. C’est assez limité pour un outil professionnel dont le coût d’abonnement est tout de même conséquent. Les voix standard sont extrêmement mécaniques, les voix neuronales sont plus « naturelles » mais pas encore assez convaincantes, de mon point de vue. 

Voici la voix « standard » féminine :

Voici la voix neuronale féminine nommée Lea :

Il faut noter que Storyline propose d’améliorer cette voix via le format ssml (langage de balisage de synthèse vocale) :

Test de voix off générée sur Vyond

Vyond est également un outil très populaire chez les prestataires digital learning. Cet outil de création de motion design permet de créer une voix pour un personnage à partir de nombreuses voix dans plusieurs langues. 

Voici donc Ava, une voix indiquée en « haute qualité » et « française » :

Les voix proposées sur Vyond peuvent « faire l’affaire », de mon point de vue, sur une scénette, un court dialogue, mais pas sur une narration complète. Point positif, il est possible, comme via les VO Storyline, de générer automatiquement le fichier des sous-titres.
A noter : Vyond propose aussi en option payante complémentaire des liens vers 2 entreprises partenaires (américaines), prestataires de voix professionnelles (Bunnystudio et Inwhatlanguage). Ces entreprises établissent un devis en ligne et livrent la VO à partir du script.

Voix off enregistrée par un acteur en studio professionnel

A propos de prestataire professionnel de voix off, voici un exemple de voix produite par l’agence française, basée en Normandie, que j’avais évoqué dans l’article précédent : le studio COM’ UN SON. Le script n’est pas le même que pour les autres tests, il s’agit d’une mise à disposition gracieuse et nous les en remercions.

Voici une de leurs voix féminines françaises enregistrée pour une formation e-learning :

Outre la qualité sonore et le timbre de voix, ce qui me parait le plus différenciant avec cette VO professionnelle, c’est que le texte est interprété, il est rendu « vivant ». Et cela peut vraiment être un atout pour l’engagement des apprenants et la dynamisation d’un module.

Test de voix off générée sur Elevenlabs

Elevenlabs est sans doute l’outil le plus populaire du moment, aussi bien auprès du grand public qui l’utilise pour des publications sur les réseaux sociaux, qu’auprès des professionnels. Elevenlabs permet en effet de générer des voix off sans compte ou en compte gratuit et propose aux professionnels d’obtenir des options supplémentaires et les licences commerciales ad’hoc via ses formules payantes.

Voici la Vo de Mathilda générée en option multilingual v1 (permettant de transformer une voix anglophone en voix « française ») :

A noter, ces fonctionnalités intéressantes via les abonnements : le Dubbing, doublage dans une autre langue à partir d’un fichier audio, vidéo ou lien (Youtube, TikTok etc.). Et le Voice lab, espace pour cloner une voix à partir d’un ou plusieurs fichiers nous appartenant et permettant d’utiliser ensuite cette voix en « text to speech » à volonté. Il est cependant dommage et étonnant que Elevenlabs ne permette pas de générer le fichier des sous-titres.

Pour conclure, je dirais que ces outils de génération de voix off sont pratiques et permettent de gagner un temps considérable par rapport à un enregistrement « maison ». Les rendus « bruts » nécessitent toutefois des ajustements et essais multiples. Voix professionnelle, voix « maison » ou voix de synthèse, c’est un choix en fonction de la qualité attendue et des objectifs poursuivis par l’intégration de cette VO dans un module e-learning.

Je vous invite au passage, si vous souhaitez estimer le tarif de votre projet de création de module de formation e-learning, à tester l’innovation Formaxis : le simulateur de tarif de conception e-learning !