xAI Custom Voices: Clone de Voz em 2 Min

Darius Z. Por Darius Z. 6 min de leitura
Microfone de estúdio com ondas sonoras em azul-petróleo para clonagem de voz xAI e Grok vozes personalizadas

Pontos Principais

  • A xAI lançou o Custom Voices em 30 de abril, permitindo que usuários clonem sua voz a partir de cerca de 60 segundos de fala gravada e a usem em todas as APIs de voz do Grok
  • A nova Voice Library inclui mais de 80 vozes integradas em 28 idiomas, disponíveis sem custo adicional pelo console da xAI
  • A API Voice Agent custa $3/hora ($0.05/minuto), enquanto o TTS avulso custa $4.20 por milhão de caracteres
  • Um processo de verificação do locutor em duas etapas impede a clonagem a partir de gravações pré-existentes ou da voz de outra pessoa
  • O Custom Voices está atualmente limitado a usuários nos Estados Unidos, excluindo Illinois devido a leis de privacidade biométrica
80+ Vozes Integradas
28 Idiomas
$3/hr API Voice Agent
<2 min Tempo de Clone

A xAI lançou o Custom Voices em 30 de abril de 2026, adicionando clonagem de voz à sua plataforma Grok API. Os usuários gravam cerca de 60 segundos de fala natural pelo console da xAI, e o sistema retorna um modelo de voz pronto para produção em menos de dois minutos. A voz clonada funciona nas APIs Text-to-Speech e Voice Agent do Grok com as tarifas padrão da API. A xAI também expandiu seu catálogo de vozes integradas para mais de 80 opções em 28 idiomas.

A $3/hora para agentes de voz, a xAI está cobrando bem menos que a ElevenLabs e a OpenAI. O conjunto de recursos é mais enxuto, mas a economia muda a conta para quem está integrando voz em um produto.

Como Funciona a Clonagem de Voz da xAI?

O processo de clonagem roda inteiramente pelo console da xAI. Os usuários leem em voz alta várias passagens de diálogos diferentes enquanto o sistema grava. Um pipeline de verificação em duas etapas cuida do resto: primeiro, o locutor lê uma frase de verificação que o mecanismo de speech-to-text do Grok transcreve e confere em tempo real, confirmando intenção e presença. Depois, o sistema calcula embeddings do locutor a partir do clipe de verificação e da gravação completa para confirmar que ambos pertencem à mesma pessoa.

Esse design significa que não é possível clonar uma voz a partir de um arquivo de áudio pré-existente, nem clonar a voz de outra pessoa. Após a verificação, o sistema processa a gravação e entrega um voice_id alfanumérico de 8 caracteres que funciona em qualquer lugar onde as vozes integradas da xAI funcionam. Cada equipe pode criar até 30 vozes personalizadas simultaneamente, e qualquer voz pode ser excluída com um único clique.

Clone de Voz em 60 Segundos

Grave cerca de um minuto de fala natural. O sistema entrega um modelo de voz pronto para produção em menos de dois minutos.

Verificação em Duas Etapas

Verificação do locutor via correspondência de frase em tempo real e comparação de embeddings bloqueia clonagem não autorizada.

28 Idiomas Suportados

Vozes personalizadas herdam recursos multilíngues de TTS incluindo tags de fala, risadas, sussurros e pausas.

Privacidade por Equipe

Cada voz personalizada é privada para sua equipe. Nunca é compartilhada com outros usuários ou usada para treinamento de modelos.

O Que É a Voice Library?

A Voice Library é uma nova seção no console da xAI que reúne todas as vozes disponíveis em um só lugar. Vozes personalizadas aparecem ao lado das cinco opções integradas (Eve, Ara, Rex, Sal e Leo). Com este lançamento, a xAI também expandiu o catálogo pré-construído para mais de 80 vozes em 28 idiomas. É possível ouvir uma prévia de qualquer voz em diferentes cenários antes de escolher.

Cada voz integrada tem uma personalidade diferente: Eve é enérgica, Ara é calorosa e conversacional, Rex é mais profissional, Sal é suave, e Leo soa autoritativo. Vozes personalizadas recebem os mesmos recursos de TTS que as integradas, incluindo tags de fala inline para sussurros, risadas, suspiros e ênfase. A saída funciona tanto via REST quanto por streaming WebSocket.

Quanto Custa a Clonagem de Voz da xAI?

Não há custo adicional para usar vozes personalizadas. Os preços seguem as tarifas padrão da API da xAI:

Preços da API de Voz xAI em maio de 2026

Serviço Preço Observações
Text-to-Speech $4.20 / 1M caracteres 5 integradas + vozes personalizadas, 28 idiomas
Voice Agent (tempo real) $3.00 / hora ($0.05/min) Fala para fala via WebSocket
Speech-to-Text (streaming) $0.20 / hora Transcrição em tempo real
Speech-to-Text (batch) $0.10 / hora Processamento offline
Criação de voz personalizada Grátis Incluído com acesso à API

A API Voice Agent roda no grok-voice-think-fast-1.0, que combina raciocínio com fala em tempo real. Ela suporta uso de ferramentas — busca na web, busca no X, busca de arquivos e conexões com servidores MCP externos — para que o agente possa de fato realizar ações durante a conversa, não apenas falar. Para aplicações do lado do cliente, Ephemeral Tokens permitem abrir conexões WebSocket sem expor sua chave de API principal.

O acesso programático ao endpoint de criação de voz personalizada (POST /v1/custom-voices) está atualmente limitado a equipes no plano Enterprise. A ferramenta de criação de voz pelo console está disponível para todos os usuários com acesso à API.

Experimente o xAI Custom Voices

O Custom Voices está disponível pelo console da xAI. A documentação completa da API e as ferramentas de criação de voz estão em docs.x.ai/docs/guides/voice.

Como os Preços da xAI se Comparam com a ElevenLabs?

A diferença de preço entre a xAI e a ElevenLabs é grande, embora não vendam exatamente a mesma coisa:

Comparação baseada em preços públicos de maio de 2026

Recurso xAI Custom Voices ElevenLabs
Voice Agent (por hora) $3.00 $10.80 - $18.00
TTS (por 1M caracteres) $4.20 ~$3.00 - $18.00 (varia por plano)
Biblioteca de vozes integradas 80+ vozes, 28 idiomas 3.000+ vozes, 32+ idiomas
Tempo de clonagem de voz ~60 segundos de gravação ~30 segundos de gravação
Acesso à API de clonagem Apenas plano Enterprise Plano Starter ou superior
Disponibilidade geográfica Apenas EUA (excl. Illinois) Global
Verificação de segurança Verificação do locutor em duas etapas Sistema de consentimento de voz
Marketplace Não Iconic Marketplace (vozes licenciadas)

A ElevenLabs ainda tem a maior biblioteca de vozes, funciona em qualquer lugar e opera o Iconic Marketplace para vozes licenciadas de celebridades. A xAI ganha no preço de agentes de voz e não cobra pela criação de vozes personalizadas. A ElevenLabs exige pelo menos uma assinatura Starter ($5/mês) antes de permitir qualquer clonagem.

Disponibilidade Apenas nos EUA

O xAI Custom Voices está atualmente restrito a usuários nos Estados Unidos, com Illinois excluído devido à Lei de Privacidade de Informações Biométricas (BIPA) do estado. A ElevenLabs opera globalmente sem restrições geográficas para acesso à clonagem de voz.

Se você está fora dos EUA ou precisa de acesso a um catálogo de vozes maior, a ElevenLabs funciona globalmente e tem mais de 3.000 vozes disponíveis hoje.

Quais Medidas de Segurança Existem?

A verificação em duas etapas da xAI é mais rigorosa do que a maioria das plataformas de clonagem de voz exige. A correspondência de frase em tempo real confirma que o locutor está fisicamente presente durante a sessão de clonagem, não enviando um arquivo pré-gravado. A comparação de embeddings então verifica se a frase de verificação e a gravação completa realmente vêm da mesma pessoa.

Vozes personalizadas permanecem privadas para a equipe que as criou. A xAI afirma que os dados de áudio são processados em tempo real e nunca armazenados ou usados para treinamento. A plataforma possui certificação SOC 2 Type II, elegibilidade HIPAA e conformidade com GDPR para dados europeus — embora o recurso de clonagem em si ainda seja exclusivo dos EUA.

O Que Isso Significa

Para Desenvolvedores de IA de Voz

Agentes de voz a $3/hora mudam a economia para qualquer um operando voz em volume. Bots de suporte ao cliente e sistemas IVR que custam $10-18/hora na ElevenLabs de repente fazem mais sentido na infraestrutura da xAI. A compatibilidade com a API Realtime da OpenAI também significa que apps de voz existentes construídos para a OpenAI podem migrar sem reescrever muito código.

Para o Mercado de Clonagem de Voz

A clonagem de voz agora tem três níveis. A ElevenLabs tem mais recursos, a maior biblioteca e alcance global — cobrimos o panorama completo no nosso comparativo de melhores geradores de voz com IA. A OpenAI fica no meio com TTS no ChatGPT. A xAI é a opção mais barata, com verificação mais rigorosa que ambos os concorrentes.

A restrição aos EUA importa muito. Quem está fora dos Estados Unidos ainda não pode criar vozes personalizadas, o que mantém a ElevenLabs como padrão internacionalmente. Para alternativas gratuitas, veja nosso guia de melhores ferramentas gratuitas de clonagem de voz. Se a xAI abrir isso para mais países, a pressão de preço sobre todos os outros se torna real.

Perguntas Frequentes

Como funciona o xAI Custom Voices?

O xAI Custom Voices permite que usuários clonem sua voz gravando cerca de 60 segundos de fala natural pelo console da xAI. O sistema executa um processo de verificação em duas etapas: primeiro faz a correspondência de uma frase falada em tempo real, depois compara embeddings do locutor para confirmar a identidade. O resultado é um voice ID de 8 caracteres que funciona em todas as APIs de voz da xAI, incluindo Text-to-Speech e Voice Agent.

Quanto custa a clonagem de voz da xAI?

Criar uma voz personalizada na xAI é gratuito. O custo vem do uso da API: Text-to-Speech custa $4.20 por milhão de caracteres, e a API Voice Agent custa $3.00 por hora ($0.05 por minuto) para interações de fala em tempo real. Não há cobrança adicional por usar uma voz personalizada em vez de uma integrada.

A clonagem de voz da xAI está disponível fora dos EUA?

Não. Em maio de 2026, o xAI Custom Voices está restrito a usuários nos Estados Unidos, com Illinois excluído devido à Lei de Privacidade de Informações Biométricas do estado. A xAI não anunciou um cronograma para expansão internacional. Usuários fora dos EUA ainda podem acessar as vozes TTS integradas da xAI, mas não podem criar clones de voz personalizados.

Como o xAI Custom Voices se compara ao ElevenLabs?

A xAI cobra menos que a ElevenLabs: $3/hora para agentes de voz contra $10-18/hora da ElevenLabs. A ElevenLabs lidera em recursos com 3.000+ vozes, 32+ idiomas, disponibilidade global e o Iconic Marketplace para vozes licenciadas. A xAI tem verificação de segurança mais rigorosa com correspondência de locutor em duas etapas, mas está atualmente limitada ao mercado dos EUA.

Alguém pode clonar minha voz usando a xAI sem permissão?

Não. O processo de verificação em duas etapas da xAI exige que o locutor esteja fisicamente presente durante a clonagem. O usuário precisa ler uma frase de verificação em voz alta em tempo real, e o sistema compara embeddings de voz entre a frase e a gravação completa para confirmar que correspondem. Gravações pré-existentes não podem ser usadas, e a clonagem da voz de outra pessoa é bloqueada pelo pipeline de verificação.


Fontes

  1. Custom Voices and Voice Library - xAI Official - 30 de abril de 2026
  2. xAI launches Grok 4.3 and voice cloning suite - VentureBeat - 1 de maio de 2026
  3. xAI’s Custom Voices feature - The Decoder - 2 de maio de 2026
  4. xAI Voice API Documentation - Maio de 2026

Este artigo foi útil?

0:00