xAI Custom Voices : clonez votre voix en 2 minutes

Darius Z. Par Darius Z. 6 min de lecture
Microphone de studio avec ondes sonores turquoise pour le clonage de voix xAI et Grok voix personnalisées

Points Clés

  • xAI a lancé Custom Voices le 30 avril, permettant aux utilisateurs de cloner leur voix à partir d'environ 60 secondes d'enregistrement vocal et de l'utiliser sur toutes les API vocales de Grok
  • La nouvelle bibliothèque vocale comprend plus de 80 voix intégrées en 28 langues, accessibles sans frais supplémentaires via la console xAI
  • L'API Voice Agent est facturée 3 $/heure (0,05 $/minute), tandis que le TTS seul coûte 4,20 $ par million de caractères
  • Un processus de vérification en deux étapes empêche le clonage à partir d'enregistrements préexistants ou de la voix d'une autre personne
  • Custom Voices est actuellement réservé aux utilisateurs situés aux États-Unis, l'Illinois étant exclu en raison de ses lois sur la confidentialité biométrique
80+ Voix intégrées
28 Langues
3 $/h API Voice Agent
<2 min Temps de clonage

xAI a lancé Custom Voices le 30 avril 2026, ajoutant le clonage vocal à sa plateforme API Grok. Les utilisateurs enregistrent environ 60 secondes de parole naturelle via la console xAI, et le système génère un modèle vocal prêt à l’emploi en moins de deux minutes. La voix clonée fonctionne avec les API Text-to-Speech et Voice Agent de Grok aux tarifs API standard. xAI a également élargi son catalogue de voix intégrées à plus de 80 options en 28 langues.

À 3 $/heure pour les agents vocaux, xAI casse les prix face à ElevenLabs et OpenAI. L’éventail de fonctionnalités reste plus restreint, mais les coûts changent la donne pour quiconque intègre la voix dans un produit.

Comment fonctionne le clonage vocal de xAI ?

Le processus de clonage s’effectue entièrement via la console xAI. Les utilisateurs lisent à voix haute plusieurs passages de dialogues variés pendant que le système enregistre. Un pipeline de vérification en deux étapes fait le reste : d’abord, le locuteur prononce une phrase de vérification que le moteur speech-to-text de Grok transcrit et compare en temps réel, confirmant l’intention et la présence physique. Ensuite, le système calcule des empreintes vocales (speaker embeddings) à partir du clip de vérification et de l’enregistrement complet pour confirmer qu’ils proviennent de la même personne.

Cette conception signifie qu’il est impossible de cloner une voix à partir d’un fichier audio préexistant, ni de cloner la voix de quelqu’un d’autre. Une fois la vérification effectuée, le système traite l’enregistrement et fournit un voice_id alphanumérique de 8 caractères utilisable partout où les voix intégrées de xAI fonctionnent. Chaque équipe peut créer jusqu’à 30 voix personnalisées simultanément, et toute voix peut être supprimée en un clic.

Clonage vocal en 60 secondes

Enregistrez environ une minute de parole naturelle. Le système fournit un modèle vocal prêt à l'emploi en moins de deux minutes.

Vérification en deux étapes

La vérification du locuteur par correspondance de phrase en temps réel et comparaison d'empreintes vocales bloque tout clonage non autorisé.

28 langues prises en charge

Les voix personnalisées héritent des capacités TTS multilingues, y compris les balises vocales, rires, chuchotements et pauses.

Confidentialité par équipe

Chaque voix personnalisée est privée au sein de votre équipe. Jamais partagée avec d'autres utilisateurs ni utilisée pour l'entraînement de modèles.

Qu’est-ce que la bibliothèque vocale ?

La bibliothèque vocale (Voice Library) est une nouvelle section de la console xAI qui regroupe toutes les voix disponibles au même endroit. Les voix personnalisées apparaissent à côté des cinq options intégrées (Eve, Ara, Rex, Sal et Leo). Avec ce lancement, xAI a également étendu le catalogue de voix préconstruites à plus de 80 options en 28 langues. Vous pouvez prévisualiser n’importe quelle voix dans différents contextes avant de faire votre choix.

Chaque voix intégrée possède une personnalité distincte : Eve est énergique, Ara est chaleureuse et conversationnelle, Rex penche vers le professionnel, Sal est fluide et Leo sonne autoritaire. Les voix personnalisées bénéficient des mêmes capacités TTS que les voix intégrées, y compris les balises vocales pour les chuchotements, rires, soupirs et accentuations. La sortie fonctionne en REST et en streaming WebSocket.

Combien coûte le clonage vocal de xAI ?

La création de voix personnalisées n’entraîne aucun frais supplémentaire. La tarification suit les taux API standard de xAI :

Tarification de l'API vocale xAI en mai 2026

Service Tarification Notes
Text-to-Speech 4,20 $ / 1M de caractères 5 voix intégrées + voix personnalisées, 28 langues
Voice Agent (temps réel) 3,00 $ / heure (0,05 $/min) Speech-to-speech via WebSocket
Speech-to-Text (streaming) 0,20 $ / heure Transcription en temps réel
Speech-to-Text (batch) 0,10 $ / heure Traitement hors ligne
Création de voix personnalisée Gratuit Inclus avec l'accès API

L’API Voice Agent fonctionne sur grok-voice-think-fast-1.0, qui combine le raisonnement avec la parole en temps réel. Elle prend en charge l’utilisation d’outils — recherche web, recherche X, recherche de fichiers et connexions à des serveurs MCP externes — permettant à l’agent d’agir concrètement en cours de conversation, pas seulement de parler. Pour les applications côté client, les Ephemeral Tokens permettent d’ouvrir des connexions WebSocket sans exposer votre clé API principale.

L’accès programmatique au point de terminaison de création de voix personnalisées (POST /v1/custom-voices) est actuellement réservé aux équipes disposant d’un plan Enterprise. L’outil de création vocale via la console est accessible à tous les utilisateurs ayant un accès API.

Essayez xAI Custom Voices

Custom Voices est disponible via la console xAI. La documentation complète de l’API et les outils de création vocale sont sur docs.x.ai/docs/guides/voice.

Comment se positionne xAI face à ElevenLabs en termes de prix ?

L’écart de prix entre xAI et ElevenLabs est important, bien qu’ils ne vendent pas exactement la même chose :

Comparaison basée sur les tarifs publics en mai 2026

Fonctionnalité xAI Custom Voices ElevenLabs
Voice Agent (par heure) 3,00 $ 10,80 $ - 18,00 $
TTS (par 1M de car.) 4,20 $ ~3,00 $ - 18,00 $ (selon le plan)
Bibliothèque vocale intégrée 80+ voix, 28 langues 3 000+ voix, 32+ langues
Temps de clonage ~60 secondes d'enregistrement ~30 secondes d'enregistrement
Accès API de clonage Plan Enterprise uniquement Plan Starter et supérieur
Disponibilité géographique États-Unis uniquement (hors Illinois) Mondial
Vérification de sécurité Vérification du locuteur en deux étapes Système de consentement vocal
Marketplace Non Iconic Marketplace (voix sous licence)

ElevenLabs conserve la plus grande bibliothèque vocale, fonctionne partout dans le monde et gère l’Iconic Marketplace pour les voix de célébrités sous licence. xAI l’emporte sur la tarification des agents vocaux et ne facture pas la création de voix personnalisées. ElevenLabs exige au minimum un abonnement Starter (5 $/mois) avant de pouvoir cloner quoi que ce soit.

Disponibilité limitée aux États-Unis

xAI Custom Voices est actuellement réservé aux utilisateurs situés aux États-Unis, l’Illinois étant exclu en raison du Biometric Information Privacy Act (BIPA). ElevenLabs fonctionne à l’échelle mondiale sans restriction géographique sur l’accès au clonage vocal.

Si vous êtes en dehors des États-Unis ou avez besoin d’un catalogue de voix plus étoffé, ElevenLabs fonctionne dans le monde entier et propose plus de 3 000 voix disponibles dès maintenant.

Quelles mesures de sécurité sont en place ?

La vérification en deux étapes de xAI est plus stricte que ce qu’exigent la plupart des plateformes de clonage vocal. La correspondance de phrase en temps réel confirme que le locuteur est physiquement présent lors de la session de clonage, et non qu’il soumet un fichier préenregistré. La comparaison d’empreintes vocales vérifie ensuite que la phrase de vérification et l’enregistrement complet proviennent bien de la même personne.

Les voix personnalisées restent privées au sein de l’équipe qui les a créées. xAI affirme que les données audio sont traitées en temps réel et jamais stockées ni utilisées pour l’entraînement. La plateforme dispose de la certification SOC 2 Type II, de l’éligibilité HIPAA et de la conformité RGPD pour les données européennes — bien que la fonctionnalité de clonage elle-même reste limitée aux États-Unis.

Ce que cela signifie

Pour les développeurs d’IA vocale

Les agents vocaux à 3 $/heure changent l’équation économique pour quiconque fait tourner de la voix à grande échelle. Les bots de support client et les systèmes SVI qui coûtent 10 à 18 $/heure sur ElevenLabs deviennent soudain plus viables sur l’infrastructure xAI. La compatibilité avec l’API Realtime d’OpenAI signifie également que les applications vocales existantes construites pour OpenAI peuvent migrer sans réécrire beaucoup de code.

Pour le marché du clonage vocal

Le clonage vocal se structure désormais en trois niveaux. ElevenLabs possède le plus de fonctionnalités, la plus grande bibliothèque et une portée mondiale — nous couvrons l’ensemble du paysage dans notre comparatif des meilleurs générateurs de voix IA. OpenAI se situe au milieu avec le TTS dans ChatGPT. xAI est de loin l’option la moins chère, avec une vérification plus stricte que ses deux concurrents.

La restriction aux États-Unis pèse lourd. Toute personne en dehors du territoire américain ne peut toujours pas créer de voix personnalisées, ce qui maintient ElevenLabs comme choix par défaut à l’international. Pour les alternatives gratuites, consultez notre guide des meilleurs outils de clonage vocal gratuits. Si xAI ouvre cette fonctionnalité à d’autres pays, la pression tarifaire sur les concurrents deviendra bien réelle.

Questions fréquentes

Comment fonctionne xAI Custom Voices ?

xAI Custom Voices permet aux utilisateurs de cloner leur voix en enregistrant environ 60 secondes de parole naturelle via la console xAI. Le système exécute un processus de vérification en deux étapes : d'abord la correspondance d'une phrase prononcée en temps réel, puis la comparaison d'empreintes vocales pour confirmer l'identité. Le résultat est un identifiant vocal de 8 caractères utilisable sur toutes les API vocales xAI, y compris Text-to-Speech et Voice Agent.

Combien coûte le clonage vocal de xAI ?

La création d'une voix personnalisée sur xAI est gratuite. Le coût provient de l'utilisation de l'API : le Text-to-Speech coûte 4,20 $ par million de caractères, et l'API Voice Agent revient à 3,00 $ par heure (0,05 $ par minute) pour les interactions speech-to-speech en temps réel. Aucun supplément n'est facturé pour l'utilisation d'une voix personnalisée au lieu d'une voix intégrée.

Le clonage vocal de xAI est-il disponible hors des États-Unis ?

Non. En mai 2026, xAI Custom Voices est réservé aux utilisateurs situés aux États-Unis, l'Illinois étant exclu en raison du Biometric Information Privacy Act. xAI n'a pas annoncé de calendrier pour une expansion internationale. Les utilisateurs hors des États-Unis peuvent toujours accéder aux voix TTS intégrées de xAI mais ne peuvent pas créer de clones vocaux personnalisés.

Comment xAI Custom Voices se compare-t-il à ElevenLabs ?

xAI casse les prix face à ElevenLabs : 3 $/heure pour les agents vocaux contre 10 à 18 $/heure chez ElevenLabs. ElevenLabs garde l'avantage sur les fonctionnalités avec plus de 3 000 voix, 32+ langues, une disponibilité mondiale et l'Iconic Marketplace pour les voix sous licence. xAI dispose d'une vérification de sécurité plus stricte avec la correspondance du locuteur en deux étapes, mais reste limité au marché américain.

Quelqu'un peut-il cloner ma voix sur xAI sans ma permission ?

Non. Le processus de vérification en deux étapes de xAI exige que le locuteur soit physiquement présent lors du clonage. L'utilisateur doit lire une phrase de vérification à voix haute en temps réel, et le système compare les empreintes vocales entre la phrase et l'enregistrement complet pour confirmer la correspondance. Les enregistrements préexistants ne peuvent pas être utilisés, et le clonage de la voix d'autrui est bloqué par le pipeline de vérification.


Sources

  1. Custom Voices and Voice Library - xAI Official - 30 avril 2026
  2. xAI launches Grok 4.3 and voice cloning suite - VentureBeat - 1er mai 2026
  3. xAI’s Custom Voices feature - The Decoder - 2 mai 2026
  4. xAI Voice API Documentation - Mai 2026

Cet article vous a-t-il été utile ?

0:00