Nous lançons une nouvelle génération d’avatars : zoom sur la technique et le pourquoi

Depuis le premier jour, notre ambition chez Complement est simple : rendre l’apprentissage plus engageant, plus interactif et plus efficace. Et très vite, une conviction s’est imposée : l’incarnation joue un rôle clé. Un contenu, aussi bon soit-il, n’a pas le même impact selon la manière dont il est porté à l’écran.

C’est pour cette raison que nous avons toujours misé sur les avatars. Aujourd’hui, je suis particulièrement fier d’annoncer une évolution majeure : l’arrivée de nos nouveaux avatars photoréalistes.

Pourquoi nous n’avons pas choisi la vidéo générée par IA

Ces derniers mois, les technologies de génération de vidéo par IA ont fait des progrès impressionnants. Des acteurs comme Heygen, Synthesia ou encore Tavus permettent de produire des avatars très réalistes, souvent à partir de simples enregistrements.

Sur le papier, c’est extrêmement séduisant. Dans la réalité, cela ne correspond pas à notre produit : chez Complement, tout est pensé pour le temps réel. L’avatar parle, on l’interrompt, on pose une question, on demande une reformulation - et il répond instantanément. Cette interactivité est au cœur de l’expérience.

Or, les solutions de vidéo générée par IA reposent sur du pré-calcul ou sur des pipelines de génération lourds. Elles ne permettent pas aujourd’hui d’avoir une interaction fluide et instantanée. Même lorsqu’on parle de “temps réel”, cela reste incompatible avec les exigences de latence et de fluidité que nous avons.

Il y a aussi une autre réalité, plus pragmatique : le coût et l’impact énergétique. Générer ce type de contenu repose sur des infrastructures très lourdes, avec des GPUs de type Nvidia H100 ou H200. Le coût est considérable - on parle facilement de plusieurs dizaines d’euros par heure - et la consommation énergétique est difficilement justifiable à grande échelle.

Ce n’est ni soutenable économiquement pour notre modèle de proposer des avatars vidéo IA, ni cohérent avec notre volonté de construire un produit responsable.

Le choix du temps réel, vraiment

Dès le départ, nous avons fait un choix radical : celui des avatars 3D temps réel.

Au lieu de streamer une vidéo depuis des serveurs distants, nous chargeons un fichier de caractère 3D, directement dans le navigateur. Une fois chargé, il reste en cache. Les animations sont elles aussi embarquées, et nous les déclenchons en fonction des interactions et échanges avec l’apprenant.

Le calcul est donc effectué localement, sur le processeur et chipset graphique du téléphone, de la tablette ou de l’ordinateur. C’est beaucoup plus léger qu’on pourrait le penser, car nous optimisons fortement les assets. Résultat : une expérience locale fluide, instantanée, et scalable sans frais de serveurs.

Jusqu’ici, nos avatars avaient un style plutôt cartoon. C’était cohérent avec notre approche technique, mais cela limitait le niveau d’immersion.

Passer au photoréalisme sans sacrifier la performance

Nous avons donc décidé de franchir un cap. Pour cela, nous avons travaillé avec un partenaire issu du monde du cinéma de la 3D. Nous avons filmé des acteurs dans un studio équipé de caméras 3D, afin de capturer leurs expressions, leurs gestes, leur manière de s’exprimer.

À partir de ces données, nous avons conçu des versions photoréalistes de nos avatars existants - Victor, Olivia, Arthur et Anna. Ils conservent leur identité, leurs caractéristiques, mais gagnent en crédibilité visuelle.

Ensuite, nous avons mappé les mouvements réels des acteurs sur ces avatars. Le résultat est très clair : des mouvements naturels, des micro-expressions crédibles, une présence à l’écran qui change complètement la perception du cours. On ne regarde plus un personnage animé. On interagit avec une présence incarnée.

Une expérience adaptée à chaque contexte métier

Au-delà du réalisme, nous avons aussi voulu répondre à un enjeu très concret côté clients : le contexte. Tous les environnements de formation ne se ressemblent pas.

C’est pourquoi nous proposons désormais plusieurs types de tenues pour les avatars :

des tenues corporate, adaptées aux environnements de bureau
des tenues “casual”, plus pertinentes pour l’enseignement supérieur, les PME ou les centres de formation
des tenues médicales, pour les hôpitaux et les établissements de santé
des tenues orientées terrain, pour l’industrie, le BTP et les métiers opérationnels

Nos clients peuvent ainsi aligner l’apparence des avatars avec leur réalité métier, ce qui renforce encore la crédibilité et l’engagement.

Et demain ?

Nous sommes convaincus que les avatars générés par IA à partir de vidéos personnelles vont continuer à progresser. Le jour où ces technologies seront réellement “temps réel”, économiquement viables et énergétiquement soutenables, elles ouvriront des perspectives extrêmement puissantes - notamment la possibilité pour un formateur de “cloner” sa présence et d’avoir un jumeau numérique.

C’est une direction que nous suivons de près ! Mais aujourd’hui, notre responsabilité est de proposer la meilleure expérience possible, dans un cadre réaliste.

Le meilleur des deux mondes

Avec cette nouvelle génération d’avatars, nous pensons avoir atteint un point d’équilibre : le réalisme d’une captation humaine, combiné à la performance et à l’interactivité du temps réel. Et ces nouveaux avatars représentent ce qui se fait de mieux dans le software B2B & B2C pour l’échange en temps réel avec des avatars, avec un rendu supérieur à Praktika, Ardoise.ai, et même Emma.app.

Très concrètement, cela se traduit par plus d’engagement, une meilleure attention et une immersion plus forte dans les contenus. Et c’est exactement ce que nous cherchons à construire depuis le début.

Ces nouveaux avatars sont disponibles dès maintenant sur Complement !

Pour en avoir une démonstration et discuter de vos projets e-learning, prenez rendez-vous au lien suivant : https://www.complement.education/rendez-vous