Geradores de Voz IA 2026: Top 4
Testei ElevenLabs, Murf AI, Speechify e LOVO lado a lado. Planos grátis, preços a partir de $5/mês, clonagem de voz e amostras de áudio reais.
Ler Artigo →
A xAI lançou o Custom Voices em 30 de abril de 2026, adicionando clonagem de voz à sua plataforma Grok API. Os usuários gravam cerca de 60 segundos de fala natural pelo console da xAI, e o sistema retorna um modelo de voz pronto para produção em menos de dois minutos. A voz clonada funciona nas APIs Text-to-Speech e Voice Agent do Grok com as tarifas padrão da API. A xAI também expandiu seu catálogo de vozes integradas para mais de 80 opções em 28 idiomas.
A $3/hora para agentes de voz, a xAI está cobrando bem menos que a ElevenLabs e a OpenAI. O conjunto de recursos é mais enxuto, mas a economia muda a conta para quem está integrando voz em um produto.
O processo de clonagem roda inteiramente pelo console da xAI. Os usuários leem em voz alta várias passagens de diálogos diferentes enquanto o sistema grava. Um pipeline de verificação em duas etapas cuida do resto: primeiro, o locutor lê uma frase de verificação que o mecanismo de speech-to-text do Grok transcreve e confere em tempo real, confirmando intenção e presença. Depois, o sistema calcula embeddings do locutor a partir do clipe de verificação e da gravação completa para confirmar que ambos pertencem à mesma pessoa.
Esse design significa que não é possível clonar uma voz a partir de um arquivo de áudio pré-existente, nem clonar a voz de outra pessoa. Após a verificação, o sistema processa a gravação e entrega um voice_id alfanumérico de 8 caracteres que funciona em qualquer lugar onde as vozes integradas da xAI funcionam. Cada equipe pode criar até 30 vozes personalizadas simultaneamente, e qualquer voz pode ser excluída com um único clique.
Grave cerca de um minuto de fala natural. O sistema entrega um modelo de voz pronto para produção em menos de dois minutos.
Verificação do locutor via correspondência de frase em tempo real e comparação de embeddings bloqueia clonagem não autorizada.
Vozes personalizadas herdam recursos multilíngues de TTS incluindo tags de fala, risadas, sussurros e pausas.
Cada voz personalizada é privada para sua equipe. Nunca é compartilhada com outros usuários ou usada para treinamento de modelos.
A Voice Library é uma nova seção no console da xAI que reúne todas as vozes disponíveis em um só lugar. Vozes personalizadas aparecem ao lado das cinco opções integradas (Eve, Ara, Rex, Sal e Leo). Com este lançamento, a xAI também expandiu o catálogo pré-construído para mais de 80 vozes em 28 idiomas. É possível ouvir uma prévia de qualquer voz em diferentes cenários antes de escolher.
Cada voz integrada tem uma personalidade diferente: Eve é enérgica, Ara é calorosa e conversacional, Rex é mais profissional, Sal é suave, e Leo soa autoritativo. Vozes personalizadas recebem os mesmos recursos de TTS que as integradas, incluindo tags de fala inline para sussurros, risadas, suspiros e ênfase. A saída funciona tanto via REST quanto por streaming WebSocket.
Não há custo adicional para usar vozes personalizadas. Os preços seguem as tarifas padrão da API da xAI:
Preços da API de Voz xAI em maio de 2026
| Serviço | Preço | Observações |
|---|---|---|
| Text-to-Speech | $4.20 / 1M caracteres | 5 integradas + vozes personalizadas, 28 idiomas |
| Voice Agent (tempo real) | $3.00 / hora ($0.05/min) | Fala para fala via WebSocket |
| Speech-to-Text (streaming) | $0.20 / hora | Transcrição em tempo real |
| Speech-to-Text (batch) | $0.10 / hora | Processamento offline |
| Criação de voz personalizada | Grátis | Incluído com acesso à API |
A API Voice Agent roda no grok-voice-think-fast-1.0, que combina raciocínio com fala em tempo real. Ela suporta uso de ferramentas — busca na web, busca no X, busca de arquivos e conexões com servidores MCP externos — para que o agente possa de fato realizar ações durante a conversa, não apenas falar. Para aplicações do lado do cliente, Ephemeral Tokens permitem abrir conexões WebSocket sem expor sua chave de API principal.
O acesso programático ao endpoint de criação de voz personalizada (POST /v1/custom-voices) está atualmente limitado a equipes no plano Enterprise. A ferramenta de criação de voz pelo console está disponível para todos os usuários com acesso à API.
O Custom Voices está disponível pelo console da xAI. A documentação completa da API e as ferramentas de criação de voz estão em docs.x.ai/docs/guides/voice.
A diferença de preço entre a xAI e a ElevenLabs é grande, embora não vendam exatamente a mesma coisa:
Comparação baseada em preços públicos de maio de 2026
| Recurso | xAI Custom Voices | ElevenLabs |
|---|---|---|
| Voice Agent (por hora) | $3.00 | $10.80 - $18.00 |
| TTS (por 1M caracteres) | $4.20 | ~$3.00 - $18.00 (varia por plano) |
| Biblioteca de vozes integradas | 80+ vozes, 28 idiomas | 3.000+ vozes, 32+ idiomas |
| Tempo de clonagem de voz | ~60 segundos de gravação | ~30 segundos de gravação |
| Acesso à API de clonagem | Apenas plano Enterprise | Plano Starter ou superior |
| Disponibilidade geográfica | Apenas EUA (excl. Illinois) | Global |
| Verificação de segurança | Verificação do locutor em duas etapas | Sistema de consentimento de voz |
| Marketplace | Não | Iconic Marketplace (vozes licenciadas) |
A ElevenLabs ainda tem a maior biblioteca de vozes, funciona em qualquer lugar e opera o Iconic Marketplace para vozes licenciadas de celebridades. A xAI ganha no preço de agentes de voz e não cobra pela criação de vozes personalizadas. A ElevenLabs exige pelo menos uma assinatura Starter ($5/mês) antes de permitir qualquer clonagem.
O xAI Custom Voices está atualmente restrito a usuários nos Estados Unidos, com Illinois excluído devido à Lei de Privacidade de Informações Biométricas (BIPA) do estado. A ElevenLabs opera globalmente sem restrições geográficas para acesso à clonagem de voz.
Se você está fora dos EUA ou precisa de acesso a um catálogo de vozes maior, a ElevenLabs funciona globalmente e tem mais de 3.000 vozes disponíveis hoje.
A verificação em duas etapas da xAI é mais rigorosa do que a maioria das plataformas de clonagem de voz exige. A correspondência de frase em tempo real confirma que o locutor está fisicamente presente durante a sessão de clonagem, não enviando um arquivo pré-gravado. A comparação de embeddings então verifica se a frase de verificação e a gravação completa realmente vêm da mesma pessoa.
Vozes personalizadas permanecem privadas para a equipe que as criou. A xAI afirma que os dados de áudio são processados em tempo real e nunca armazenados ou usados para treinamento. A plataforma possui certificação SOC 2 Type II, elegibilidade HIPAA e conformidade com GDPR para dados europeus — embora o recurso de clonagem em si ainda seja exclusivo dos EUA.
Agentes de voz a $3/hora mudam a economia para qualquer um operando voz em volume. Bots de suporte ao cliente e sistemas IVR que custam $10-18/hora na ElevenLabs de repente fazem mais sentido na infraestrutura da xAI. A compatibilidade com a API Realtime da OpenAI também significa que apps de voz existentes construídos para a OpenAI podem migrar sem reescrever muito código.
A clonagem de voz agora tem três níveis. A ElevenLabs tem mais recursos, a maior biblioteca e alcance global — cobrimos o panorama completo no nosso comparativo de melhores geradores de voz com IA. A OpenAI fica no meio com TTS no ChatGPT. A xAI é a opção mais barata, com verificação mais rigorosa que ambos os concorrentes.
A restrição aos EUA importa muito. Quem está fora dos Estados Unidos ainda não pode criar vozes personalizadas, o que mantém a ElevenLabs como padrão internacionalmente. Para alternativas gratuitas, veja nosso guia de melhores ferramentas gratuitas de clonagem de voz. Se a xAI abrir isso para mais países, a pressão de preço sobre todos os outros se torna real.
O xAI Custom Voices permite que usuários clonem sua voz gravando cerca de 60 segundos de fala natural pelo console da xAI. O sistema executa um processo de verificação em duas etapas: primeiro faz a correspondência de uma frase falada em tempo real, depois compara embeddings do locutor para confirmar a identidade. O resultado é um voice ID de 8 caracteres que funciona em todas as APIs de voz da xAI, incluindo Text-to-Speech e Voice Agent.
Criar uma voz personalizada na xAI é gratuito. O custo vem do uso da API: Text-to-Speech custa $4.20 por milhão de caracteres, e a API Voice Agent custa $3.00 por hora ($0.05 por minuto) para interações de fala em tempo real. Não há cobrança adicional por usar uma voz personalizada em vez de uma integrada.
Não. Em maio de 2026, o xAI Custom Voices está restrito a usuários nos Estados Unidos, com Illinois excluído devido à Lei de Privacidade de Informações Biométricas do estado. A xAI não anunciou um cronograma para expansão internacional. Usuários fora dos EUA ainda podem acessar as vozes TTS integradas da xAI, mas não podem criar clones de voz personalizados.
A xAI cobra menos que a ElevenLabs: $3/hora para agentes de voz contra $10-18/hora da ElevenLabs. A ElevenLabs lidera em recursos com 3.000+ vozes, 32+ idiomas, disponibilidade global e o Iconic Marketplace para vozes licenciadas. A xAI tem verificação de segurança mais rigorosa com correspondência de locutor em duas etapas, mas está atualmente limitada ao mercado dos EUA.
Não. O processo de verificação em duas etapas da xAI exige que o locutor esteja fisicamente presente durante a clonagem. O usuário precisa ler uma frase de verificação em voz alta em tempo real, e o sistema compara embeddings de voz entre a frase e a gravação completa para confirmar que correspondem. Gravações pré-existentes não podem ser usadas, e a clonagem da voz de outra pessoa é bloqueada pelo pipeline de verificação.