Voix IA 2026 : Top 4 Générateurs Testés
J'ai testé ElevenLabs, Murf AI, Speechify et LOVO pour 2026. Clonage vocal, offres gratuites, tarifs dès $5/mois et échantillons audio réels comparés.
Lire l'article →
xAI a lancé Custom Voices le 30 avril 2026, ajoutant le clonage vocal à sa plateforme API Grok. Les utilisateurs enregistrent environ 60 secondes de parole naturelle via la console xAI, et le système génère un modèle vocal prêt à l’emploi en moins de deux minutes. La voix clonée fonctionne avec les API Text-to-Speech et Voice Agent de Grok aux tarifs API standard. xAI a également élargi son catalogue de voix intégrées à plus de 80 options en 28 langues.
À 3 $/heure pour les agents vocaux, xAI casse les prix face à ElevenLabs et OpenAI. L’éventail de fonctionnalités reste plus restreint, mais les coûts changent la donne pour quiconque intègre la voix dans un produit.
Le processus de clonage s’effectue entièrement via la console xAI. Les utilisateurs lisent à voix haute plusieurs passages de dialogues variés pendant que le système enregistre. Un pipeline de vérification en deux étapes fait le reste : d’abord, le locuteur prononce une phrase de vérification que le moteur speech-to-text de Grok transcrit et compare en temps réel, confirmant l’intention et la présence physique. Ensuite, le système calcule des empreintes vocales (speaker embeddings) à partir du clip de vérification et de l’enregistrement complet pour confirmer qu’ils proviennent de la même personne.
Cette conception signifie qu’il est impossible de cloner une voix à partir d’un fichier audio préexistant, ni de cloner la voix de quelqu’un d’autre. Une fois la vérification effectuée, le système traite l’enregistrement et fournit un voice_id alphanumérique de 8 caractères utilisable partout où les voix intégrées de xAI fonctionnent. Chaque équipe peut créer jusqu’à 30 voix personnalisées simultanément, et toute voix peut être supprimée en un clic.
Enregistrez environ une minute de parole naturelle. Le système fournit un modèle vocal prêt à l'emploi en moins de deux minutes.
La vérification du locuteur par correspondance de phrase en temps réel et comparaison d'empreintes vocales bloque tout clonage non autorisé.
Les voix personnalisées héritent des capacités TTS multilingues, y compris les balises vocales, rires, chuchotements et pauses.
Chaque voix personnalisée est privée au sein de votre équipe. Jamais partagée avec d'autres utilisateurs ni utilisée pour l'entraînement de modèles.
La bibliothèque vocale (Voice Library) est une nouvelle section de la console xAI qui regroupe toutes les voix disponibles au même endroit. Les voix personnalisées apparaissent à côté des cinq options intégrées (Eve, Ara, Rex, Sal et Leo). Avec ce lancement, xAI a également étendu le catalogue de voix préconstruites à plus de 80 options en 28 langues. Vous pouvez prévisualiser n’importe quelle voix dans différents contextes avant de faire votre choix.
Chaque voix intégrée possède une personnalité distincte : Eve est énergique, Ara est chaleureuse et conversationnelle, Rex penche vers le professionnel, Sal est fluide et Leo sonne autoritaire. Les voix personnalisées bénéficient des mêmes capacités TTS que les voix intégrées, y compris les balises vocales pour les chuchotements, rires, soupirs et accentuations. La sortie fonctionne en REST et en streaming WebSocket.
La création de voix personnalisées n’entraîne aucun frais supplémentaire. La tarification suit les taux API standard de xAI :
Tarification de l'API vocale xAI en mai 2026
| Service | Tarification | Notes |
|---|---|---|
| Text-to-Speech | 4,20 $ / 1M de caractères | 5 voix intégrées + voix personnalisées, 28 langues |
| Voice Agent (temps réel) | 3,00 $ / heure (0,05 $/min) | Speech-to-speech via WebSocket |
| Speech-to-Text (streaming) | 0,20 $ / heure | Transcription en temps réel |
| Speech-to-Text (batch) | 0,10 $ / heure | Traitement hors ligne |
| Création de voix personnalisée | Gratuit | Inclus avec l'accès API |
L’API Voice Agent fonctionne sur grok-voice-think-fast-1.0, qui combine le raisonnement avec la parole en temps réel. Elle prend en charge l’utilisation d’outils — recherche web, recherche X, recherche de fichiers et connexions à des serveurs MCP externes — permettant à l’agent d’agir concrètement en cours de conversation, pas seulement de parler. Pour les applications côté client, les Ephemeral Tokens permettent d’ouvrir des connexions WebSocket sans exposer votre clé API principale.
L’accès programmatique au point de terminaison de création de voix personnalisées (POST /v1/custom-voices) est actuellement réservé aux équipes disposant d’un plan Enterprise. L’outil de création vocale via la console est accessible à tous les utilisateurs ayant un accès API.
Custom Voices est disponible via la console xAI. La documentation complète de l’API et les outils de création vocale sont sur docs.x.ai/docs/guides/voice.
L’écart de prix entre xAI et ElevenLabs est important, bien qu’ils ne vendent pas exactement la même chose :
Comparaison basée sur les tarifs publics en mai 2026
| Fonctionnalité | xAI Custom Voices | ElevenLabs |
|---|---|---|
| Voice Agent (par heure) | 3,00 $ | 10,80 $ - 18,00 $ |
| TTS (par 1M de car.) | 4,20 $ | ~3,00 $ - 18,00 $ (selon le plan) |
| Bibliothèque vocale intégrée | 80+ voix, 28 langues | 3 000+ voix, 32+ langues |
| Temps de clonage | ~60 secondes d'enregistrement | ~30 secondes d'enregistrement |
| Accès API de clonage | Plan Enterprise uniquement | Plan Starter et supérieur |
| Disponibilité géographique | États-Unis uniquement (hors Illinois) | Mondial |
| Vérification de sécurité | Vérification du locuteur en deux étapes | Système de consentement vocal |
| Marketplace | Non | Iconic Marketplace (voix sous licence) |
ElevenLabs conserve la plus grande bibliothèque vocale, fonctionne partout dans le monde et gère l’Iconic Marketplace pour les voix de célébrités sous licence. xAI l’emporte sur la tarification des agents vocaux et ne facture pas la création de voix personnalisées. ElevenLabs exige au minimum un abonnement Starter (5 $/mois) avant de pouvoir cloner quoi que ce soit.
xAI Custom Voices est actuellement réservé aux utilisateurs situés aux États-Unis, l’Illinois étant exclu en raison du Biometric Information Privacy Act (BIPA). ElevenLabs fonctionne à l’échelle mondiale sans restriction géographique sur l’accès au clonage vocal.
Si vous êtes en dehors des États-Unis ou avez besoin d’un catalogue de voix plus étoffé, ElevenLabs fonctionne dans le monde entier et propose plus de 3 000 voix disponibles dès maintenant.
La vérification en deux étapes de xAI est plus stricte que ce qu’exigent la plupart des plateformes de clonage vocal. La correspondance de phrase en temps réel confirme que le locuteur est physiquement présent lors de la session de clonage, et non qu’il soumet un fichier préenregistré. La comparaison d’empreintes vocales vérifie ensuite que la phrase de vérification et l’enregistrement complet proviennent bien de la même personne.
Les voix personnalisées restent privées au sein de l’équipe qui les a créées. xAI affirme que les données audio sont traitées en temps réel et jamais stockées ni utilisées pour l’entraînement. La plateforme dispose de la certification SOC 2 Type II, de l’éligibilité HIPAA et de la conformité RGPD pour les données européennes — bien que la fonctionnalité de clonage elle-même reste limitée aux États-Unis.
Les agents vocaux à 3 $/heure changent l’équation économique pour quiconque fait tourner de la voix à grande échelle. Les bots de support client et les systèmes SVI qui coûtent 10 à 18 $/heure sur ElevenLabs deviennent soudain plus viables sur l’infrastructure xAI. La compatibilité avec l’API Realtime d’OpenAI signifie également que les applications vocales existantes construites pour OpenAI peuvent migrer sans réécrire beaucoup de code.
Le clonage vocal se structure désormais en trois niveaux. ElevenLabs possède le plus de fonctionnalités, la plus grande bibliothèque et une portée mondiale — nous couvrons l’ensemble du paysage dans notre comparatif des meilleurs générateurs de voix IA. OpenAI se situe au milieu avec le TTS dans ChatGPT. xAI est de loin l’option la moins chère, avec une vérification plus stricte que ses deux concurrents.
La restriction aux États-Unis pèse lourd. Toute personne en dehors du territoire américain ne peut toujours pas créer de voix personnalisées, ce qui maintient ElevenLabs comme choix par défaut à l’international. Pour les alternatives gratuites, consultez notre guide des meilleurs outils de clonage vocal gratuits. Si xAI ouvre cette fonctionnalité à d’autres pays, la pression tarifaire sur les concurrents deviendra bien réelle.
xAI Custom Voices permet aux utilisateurs de cloner leur voix en enregistrant environ 60 secondes de parole naturelle via la console xAI. Le système exécute un processus de vérification en deux étapes : d'abord la correspondance d'une phrase prononcée en temps réel, puis la comparaison d'empreintes vocales pour confirmer l'identité. Le résultat est un identifiant vocal de 8 caractères utilisable sur toutes les API vocales xAI, y compris Text-to-Speech et Voice Agent.
La création d'une voix personnalisée sur xAI est gratuite. Le coût provient de l'utilisation de l'API : le Text-to-Speech coûte 4,20 $ par million de caractères, et l'API Voice Agent revient à 3,00 $ par heure (0,05 $ par minute) pour les interactions speech-to-speech en temps réel. Aucun supplément n'est facturé pour l'utilisation d'une voix personnalisée au lieu d'une voix intégrée.
Non. En mai 2026, xAI Custom Voices est réservé aux utilisateurs situés aux États-Unis, l'Illinois étant exclu en raison du Biometric Information Privacy Act. xAI n'a pas annoncé de calendrier pour une expansion internationale. Les utilisateurs hors des États-Unis peuvent toujours accéder aux voix TTS intégrées de xAI mais ne peuvent pas créer de clones vocaux personnalisés.
xAI casse les prix face à ElevenLabs : 3 $/heure pour les agents vocaux contre 10 à 18 $/heure chez ElevenLabs. ElevenLabs garde l'avantage sur les fonctionnalités avec plus de 3 000 voix, 32+ langues, une disponibilité mondiale et l'Iconic Marketplace pour les voix sous licence. xAI dispose d'une vérification de sécurité plus stricte avec la correspondance du locuteur en deux étapes, mais reste limité au marché américain.
Non. Le processus de vérification en deux étapes de xAI exige que le locuteur soit physiquement présent lors du clonage. L'utilisateur doit lire une phrase de vérification à voix haute en temps réel, et le système compare les empreintes vocales entre la phrase et l'enregistrement complet pour confirmer la correspondance. Les enregistrements préexistants ne peuvent pas être utilisés, et le clonage de la voix d'autrui est bloqué par le pipeline de vérification.