L'IA vocale en hausse : comment les assistants audio vont dominer 2026
L'IA vocale passe de robots maladroits à des agents intelligents avec 6,6 milliards $ de financement VC.
Lire l'article →
NVIDIA a publié PersonaPlex-7B-v1, un modèle parole-à-parole de 7 milliards de paramètres qui transforme fondamentalement la façon dont l’IA vocale gère la conversation. Contrairement à tous les assistants vocaux que vous avez utilisés jusqu’ici, PersonaPlex n’attend pas que vous ayez fini de parler pour commencer à répondre. Il écoute et parle en même temps.
C’est ce qu’on appelle l’interaction full-duplex, et c’est exactement ainsi que les humains conversent naturellement. Vous pouvez l’interrompre en plein milieu de phrase, et il s’adapte. Il produit des signaux de retour comme « hum-hum » et « ah d’accord » pendant que vous parlez encore. Il fait des pauses quand c’est approprié. Pas de tour de parole rigide. Pas de silence gênant pendant que l’IA traite vos mots.
PersonaPlex-7B-v1 est publié sous la licence NVIDIA Open Model (poids) et la licence MIT (code). Les deux autorisent l’utilisation commerciale. Téléchargez sur Hugging Face ou GitHub.
Les assistants vocaux traditionnels utilisent un pipeline en trois étapes qui crée un flux de conversation peu naturel :
Le pipeline en cascade derrière Siri, Alexa et Google Assistant
| Étape | Processus | Problème |
|---|---|---|
| 1. ASR | La reconnaissance vocale automatique convertit la parole en texte | Ajoute de la latence |
| 2. LLM | Le modèle de langage génère une réponse textuelle | Ne peut pas vous entendre pendant qu'il réfléchit |
| 3. TTS | La synthèse vocale convertit la réponse en audio | Plus de latence, pas de chevauchement |
Chaque étape ajoute du délai, et le système ne peut pas vous entendre pendant qu’il génère une réponse. C’est pourquoi les conversations avec Siri, Alexa ou Google Assistant semblent robotiques. Vous parlez, attendez, recevez une réponse, reparlez.
PersonaPlex remplace l’intégralité de ce pipeline par un modèle Transformer unique qui traite l’audio entrant et génère la parole simultanément.
Écoute et parle simultanément avec interruptions naturelles, signaux de retour et alternance rapide des tours de parole - sans attente
Définissez tout rôle via des prompts textuels (personnalité, règles métier) et un conditionnement vocal audio (accent, ton, prosodie)
Temps de réponse moyen de 0,205 à 0,265 secondes - 5,7 fois plus rapide que Moshi, le modèle sur lequel il s'appuie
Gère des scénarios hors de ses données d'entraînement, comme la gestion de crise technique, grâce au modèle de langage Helium
Produit des pauses, des tons émotionnels, du stress, de l'urgence et des réponses contextuelles qui reflètent les schémas de conversation humains
La licence NVIDIA Open Model (poids) et MIT (code) permettent un déploiement et une modification commerciale complets
PersonaPlex s’appuie sur l’architecture Moshi de Kyutai, avec Helium comme modèle de langage sous-jacent. L’architecture utilise deux flux parallèles :
Les deux flux partagent le même état du modèle. PersonaPlex peut ainsi ajuster sa réponse en temps réel pendant que l’utilisateur parle, permettant l’interruption, le chevauchement de parole, l’alternance rapide des tours et les signaux de retour contextuels.
Le codec audio neuronal Mimi gère l’encodage et le décodage audio à 24 kHz, convertissant les formes d’onde en tokens discrets que le Transformer peut traiter.
PersonaPlex utilise deux entrées pour définir l’identité conversationnelle :
Cette approche hybride permet de créer un agent de service client pour une entreprise précise avec une voix spécifique, un enseignant sage au ton chaleureux et patient, ou un personnage de fiction avec une inflexion dramatique. La personnalité reste cohérente tout au long de la conversation.
PersonaPlex maintient la cohérence des personnalités sur des conversations prolongées
Le scénario de l’astronaute est particulièrement notable. La gestion de crise d’urgence, le vocabulaire de physique des réacteurs et l’urgence émotionnelle n’ont jamais fait partie des données d’entraînement. PersonaPlex a généralisé à partir de son modèle de langage Helium pour gérer des domaines entièrement nouveaux.
NVIDIA a évalué PersonaPlex sur FullDuplexBench et une nouvelle extension appelée ServiceDuplexBench pour les scénarios de service client. Les résultats montrent des avantages nets par rapport aux alternatives open source et commerciales.
Taux de réussite (plus élevé = mieux)
| Métrique | PersonaPlex | Moshi | Gemini Live | Qwen 2.5 Omni |
|---|---|---|---|---|
| Alternance fluide des tours | 90,8 % | 1,8 % | 43,9 % | N/A |
| Interruption utilisateur | 95,0 % | 65,3 % | 54,7 % | N/A |
| Gestion des pauses | 60,6 % | 33,6 % | 65,5 % | N/A |
Temps de réponse en secondes (plus bas = mieux)
| Métrique | PersonaPlex | Moshi | Gemini Live |
|---|---|---|---|
| Alternance fluide des tours | 0,170 s | 0,953 s | N/A |
| Interruption utilisateur | 0,240 s | 1,409 s | N/A |
| Moyenne | 0,205 s | 1,181 s | N/A |
Score du juge GPT-4o sur 5 (plus élevé = mieux)
| Benchmark | PersonaPlex | Moshi | Gemini Live | Qwen 2.5 Omni |
|---|---|---|---|---|
| FullDuplexBench | 4,29 | 0,77 | 3,38 | 4,59 |
| ServiceDuplexBench | 4,40 | 1,75 | 4,73 | 2,76 |
| Moyenne | 4,34 | 1,26 | 4,05 | 3,68 |
PersonaPlex est le seul modèle qui dépasse 4,0 sur les deux benchmarks, combinant une solide connaissance générale avec une adhérence fiable aux tâches dans les scénarios métier structurés.
PersonaPlex a été entraîné en une seule étape avec un mélange soigneusement conçu de conversations réelles et synthétiques.
7 303 appels (1 217 heures) du corpus Fisher English ont fourni des schémas conversationnels naturels - signaux de retour, disfluences, réponses émotionnelles et comportement authentique d’alternance des tours. Ces enregistrements ont été annotés rétrospectivement avec des prompts de personnalité via GPT-OSS-120B à différents niveaux de détail.
La conception de l’entraînement sépare deux qualités : la naturalité des conversations réelles et l’adhérence aux tâches des scénarios synthétiques. Le format de prompt hybride relie les deux sources de données, permettant au modèle de combiner des schémas de parole naturels avec un suivi précis des instructions.
PersonaPlex représente un tournant important dans ce que l’IA vocale open source peut accomplir. Jusqu’à présent, le choix était entre des systèmes en cascade personnalisables mais robotiques et des modèles full-duplex naturels mais inflexibles. PersonaPlex élimine ce compromis.
Le modèle est prêt pour un usage commercial. Les développeurs qui créent des agents vocaux, des bots de service client ou des personnages interactifs disposent désormais d’une base open source qui rivalise avec les systèmes propriétaires. Le code sous licence MIT signifie une liberté totale de modification et de déploiement.
L’interaction full-duplex a été le graal de l’IA conversationnelle. Google, OpenAI et d’autres ont investi massivement pour rendre les assistants vocaux plus naturels. NVIDIA a désormais publié en open source un modèle qui y parvient à l’échelle de 7B paramètres, abaissant la barrière pour quiconque souhaite créer de véritables interfaces vocales conversationnelles.
Les interfaces vocales-first se multiplient dans le service client, les outils d’accessibilité, le gaming et la création de contenu. Le contrôle des personnalités de PersonaPlex le rend pratique pour des cas d’usage métier spécifiques où l’IA doit sonner conforme à la marque et suivre des scripts structurés tout en restant humaine.
Comparez les meilleurs générateurs de voix IA pour la synthèse vocale, le clonage vocal et l'IA conversationnelle.
Essayer ElevenLabs gratuitement →PersonaPlex-7B-v1 est une première version impressionnante, mais il existe des contraintes à connaître avant le déploiement.
Tout ce dont vous avez besoin pour exécuter PersonaPlex
Nécessite une machine Linux avec un GPU NVIDIA (Ampere ou Hopper) et Python installé.
1. Installez le codec audio et clonez le dépôt :
# Ubuntu/Debian
sudo apt install libopus-dev
# Cloner et installer
git clone https://github.com/NVIDIA/personaplex.git
cd personaplex
pip install moshi/.
2. Acceptez la licence du modèle sur Hugging Face, puis configurez votre token :
export HF_TOKEN=your_token_here
3. Lancez le serveur (génère automatiquement des certificats SSL temporaires) :
SSL_DIR=$(mktemp -d); python -m moshi.server --ssl "$SSL_DIR"
4. Ouvrez https://localhost:8998 dans votre navigateur. Commencez à parler — PersonaPlex répond en temps réel.
Ajoutez --cpu-offload à la commande du serveur pour décharger les couches vers le CPU. Nécessite pip install accelerate au préalable.
PersonaPlex-7B-v1 est un modèle d'IA parole-à-parole de 7 milliards de paramètres de NVIDIA qui permet des conversations vocales en temps réel et full-duplex. Il peut écouter et parler simultanément, gérer les interruptions naturellement et maintenir des personnalités personnalisables via le prompting hybride.
Les assistants vocaux traditionnels utilisent un pipeline en trois étapes (reconnaissance vocale, modèle de langage, synthèse vocale) qui crée des délais et ne peut pas gérer le chevauchement de parole. PersonaPlex utilise un modèle unique qui traite l'audio en temps réel, permettant une conversation naturelle avec une latence inférieure à la seconde de 0,205 à 0,265 secondes.
Oui. Les poids du modèle sont publiés sous la licence NVIDIA Open Model et le code est sous licence MIT. Les deux autorisent l'utilisation commerciale. Vous pouvez tout télécharger sur Hugging Face et GitHub gratuitement.
PersonaPlex nécessite des GPU NVIDIA, spécifiquement des cartes d'architecture Ampere ou Hopper comme l'A100 ou le H100. Il n'est pas actuellement optimisé pour les GPU grand public ou le matériel non-NVIDIA.
Pas encore. La version actuelle est en anglais uniquement. Les données d'entraînement sont entièrement en anglais, utilisant le corpus Fisher English plus des conversations synthétiques en anglais.
PersonaPlex utilise le prompting hybride. Un prompt textuel définit le rôle, le contexte et le scénario (par ex. « Vous travaillez pour First Neuron Bank et vous vous appelez Sanni Virtanen »). Un prompt vocal fournit un embedding audio qui contrôle les caractéristiques vocales comme l'accent, le ton et le style de parole. Ensemble, ils créent une personnalité cohérente.