xAI Custom Voices: Clona Tu Voz en 2 Minutos

Darius Z. Por Darius Z. 6 min de lectura
Micrófono de estudio con ondas sonoras en verde azulado para clonación de voz xAI y Grok voces personalizadas

Puntos Clave

  • xAI lanzó Custom Voices el 30 de abril, permitiendo a los usuarios clonar su voz a partir de unos 60 segundos de grabación y usarla en todas las APIs de voz de Grok
  • La nueva Voice Library incluye más de 80 voces integradas en 28 idiomas, disponibles sin coste adicional a través de la consola de xAI
  • La Voice Agent API cuesta $3/hora ($0,05/minuto), mientras que el TTS independiente cuesta $4,20 por millón de caracteres
  • Un proceso de verificación del hablante en dos etapas bloquea la clonación a partir de grabaciones preexistentes o de la voz de otra persona
  • Custom Voices está disponible actualmente solo para usuarios en Estados Unidos, excluyendo Illinois por leyes de privacidad biométrica
80+ Voces Integradas
28 Idiomas
$3/hr Voice Agent API
<2 min Tiempo de Clonación

xAI lanzó Custom Voices el 30 de abril de 2026, incorporando la clonación de voz a su plataforma Grok API. Los usuarios graban unos 60 segundos de habla natural a través de la consola de xAI, y el sistema devuelve un modelo de voz listo para producción en menos de dos minutos. La voz clonada funciona en las APIs de Text-to-Speech y Voice Agent de Grok a las tarifas estándar. xAI también amplió su catálogo de voces integradas a más de 80 opciones en 28 idiomas.

A $3/hora para agentes de voz, xAI está ofreciendo precios muy por debajo de ElevenLabs y OpenAI. El conjunto de funciones es más limitado, pero la economía cambia las cuentas para cualquiera que esté integrando voz en un producto.

¿Cómo Funciona la Clonación de Voz de xAI?

El proceso de clonación se ejecuta completamente a través de la consola de xAI. Los usuarios leen en voz alta varios pasajes de diálogo no relacionado mientras el sistema graba. Un pipeline de verificación en dos etapas se encarga del resto: primero, el hablante lee una frase de verificación que el motor speech-to-text de Grok transcribe y compara en tiempo real, confirmando intención y presencia. Después, el sistema calcula embeddings del hablante a partir del clip de verificación y la grabación completa para confirmar que ambos pertenecen a la misma persona.

Este diseño significa que no se puede clonar una voz a partir de un archivo de audio preexistente, ni clonar la voz de otra persona. Una vez verificado, el sistema procesa la grabación y entrega un voice_id alfanumérico de 8 caracteres que funciona en cualquier lugar donde funcionen las voces integradas de xAI. Cada equipo puede crear hasta 30 voces personalizadas simultáneamente, y cualquier voz se puede eliminar con un solo clic.

Clonación de Voz en 60 Segundos

Graba aproximadamente un minuto de habla natural. El sistema entrega un modelo de voz listo para producción en menos de dos minutos.

Verificación en Dos Etapas

Verificación del hablante mediante coincidencia de frases en tiempo real y comparación de embeddings que bloquea la clonación no autorizada.

28 Idiomas Soportados

Las voces personalizadas heredan las capacidades TTS multilingües, incluyendo etiquetas de habla, risas, susurros y pausas.

Privacidad por Equipo

Cada voz personalizada es privada para tu equipo. Nunca se comparte con otros usuarios ni se utiliza para entrenar modelos.

¿Qué Es la Voice Library?

La Voice Library es una nueva sección en la consola de xAI que reúne todas las voces disponibles en un solo lugar. Las voces personalizadas aparecen junto a las cinco opciones integradas (Eve, Ara, Rex, Sal y Leo). Con este lanzamiento, xAI también amplió el catálogo predefinido a más de 80 voces en 28 idiomas. Se puede previsualizar cualquier voz en diferentes escenarios antes de elegir una.

Cada voz integrada tiene una personalidad diferente: Eve es enérgica, Ara es cálida y conversacional, Rex se inclina hacia lo profesional, Sal es suave y Leo suena autoritario. Las voces personalizadas obtienen las mismas capacidades TTS que las integradas, incluyendo etiquetas de habla en línea para susurros, risas, suspiros y énfasis. La salida funciona tanto por REST como por streaming WebSocket.

¿Cuánto Cuesta la Clonación de Voz de xAI?

No hay cargo adicional por usar voces personalizadas. Los precios siguen las tarifas estándar de la API de xAI:

Precios de la xAI Voice API a mayo de 2026

Servicio Precio Notas
Text-to-Speech $4,20 / 1M caracteres 5 voces integradas + personalizadas, 28 idiomas
Voice Agent (tiempo real) $3,00 / hora ($0,05/min) Speech-to-speech vía WebSocket
Speech-to-Text (streaming) $0,20 / hora Transcripción en tiempo real
Speech-to-Text (por lotes) $0,10 / hora Procesamiento offline
Creación de Custom Voice Gratis Incluida con acceso a la API

La Voice Agent API funciona con grok-voice-think-fast-1.0, que combina razonamiento con habla en tiempo real. Soporta uso de herramientas — búsqueda web, búsqueda en X, búsqueda de archivos y conexiones a servidores MCP externos — para que el agente pueda realizar acciones durante la conversación, no solo hablar. Para aplicaciones del lado del cliente, los Ephemeral Tokens permiten abrir conexiones WebSocket sin exponer la clave API principal.

El acceso programático al endpoint de creación de voces personalizadas (POST /v1/custom-voices) está actualmente limitado a equipos con un plan Enterprise. La herramienta de creación de voces basada en la consola está disponible para todos los usuarios con acceso a la API.

Prueba xAI Custom Voices

Custom Voices está disponible a través de la consola de xAI. La documentación completa de la API y las herramientas de creación de voces están en docs.x.ai/docs/guides/voice.

¿Cómo Se Comparan los Precios de xAI con ElevenLabs?

La diferencia de precios entre xAI y ElevenLabs es grande, aunque no venden exactamente lo mismo:

Comparación basada en precios públicos a mayo de 2026

Característica xAI Custom Voices ElevenLabs
Voice Agent (por hora) $3,00 $10,80 - $18,00
TTS (por 1M caracteres) $4,20 ~$3,00 - $18,00 (varía según plan)
Biblioteca de voces integradas 80+ voces, 28 idiomas 3.000+ voces, 32+ idiomas
Tiempo de clonación de voz ~60 segundos de grabación ~30 segundos de grabación
Acceso a API de clonación Solo plan Enterprise Plan Starter en adelante
Disponibilidad geográfica Solo EE. UU. (excl. Illinois) Global
Verificación de seguridad Verificación de hablante en dos etapas Sistema de consentimiento de voz
Marketplace No Iconic Marketplace (voces con licencia)

ElevenLabs sigue teniendo la biblioteca de voces más grande, funciona en todo el mundo y gestiona el Iconic Marketplace para voces de celebridades con licencia. xAI gana en precios de agentes de voz y no cobra por la creación de voces personalizadas. ElevenLabs requiere al menos una suscripción Starter ($5/mes) antes de poder clonar cualquier voz.

Disponibilidad Solo en EE. UU.

xAI Custom Voices está actualmente restringido a usuarios en Estados Unidos, con Illinois excluido debido a la Ley de Privacidad de Información Biométrica (BIPA) del estado. ElevenLabs opera a nivel global sin restricciones geográficas en el acceso a la clonación de voz.

Si estás fuera de EE. UU. o necesitas acceso a un catálogo de voces más amplio, ElevenLabs funciona a nivel mundial y tiene más de 3.000 voces disponibles hoy.

¿Qué Medidas de Seguridad Existen?

La verificación en dos etapas de xAI es más estricta que la de la mayoría de plataformas de clonación de voz. La coincidencia de frases en tiempo real confirma que el hablante está físicamente presente durante la sesión de clonación, no enviando un archivo pregrabado. La comparación de embeddings luego verifica que la frase de verificación y la grabación completa provienen de la misma persona.

Las voces personalizadas permanecen privadas para el equipo que las creó. xAI afirma que los datos de audio se procesan en tiempo real y nunca se almacenan ni se utilizan para entrenamiento. La plataforma cuenta con certificación SOC 2 Type II, elegibilidad HIPAA y cumplimiento del RGPD para datos europeos, aunque la función de clonación en sí sigue estando disponible solo en EE. UU.

Qué Significa Esto

Para Desarrolladores de Voz con IA

Agentes de voz a $3/hora cambian la economía para cualquiera que gestione voz a gran volumen. Bots de atención al cliente y sistemas IVR que cuestan $10-18/hora en ElevenLabs de repente tienen más sentido en la infraestructura de xAI. La compatibilidad con la API Realtime de OpenAI también significa que las aplicaciones de voz existentes construidas para OpenAI pueden migrar sin reescribir mucho código.

Para el Mercado de Clonación de Voz

La clonación de voz ahora tiene tres niveles. ElevenLabs tiene más funciones, la biblioteca más grande y alcance global — cubrimos el panorama completo en nuestro artículo sobre los mejores generadores de voz con IA. OpenAI se sitúa en el medio con TTS en ChatGPT. xAI es la opción más barata con diferencia, con una verificación más estricta que cualquiera de sus competidores.

La restricción a EE. UU. importa mucho. Cualquiera fuera de Estados Unidos sigue sin poder crear voces personalizadas, lo que mantiene a ElevenLabs como la opción predeterminada a nivel internacional. Para alternativas gratuitas, consulta nuestra guía de las mejores herramientas gratuitas de clonación de voz. Si xAI abre esto a más países, la presión de precios sobre el resto del mercado se vuelve real.

Preguntas Frecuentes

¿Cómo funciona xAI Custom Voices?

xAI Custom Voices permite a los usuarios clonar su voz grabando unos 60 segundos de habla natural a través de la consola de xAI. El sistema ejecuta un proceso de verificación en dos etapas: primero compara una frase de verificación hablada en tiempo real, luego compara embeddings del hablante para confirmar la identidad. El resultado es un voice ID de 8 caracteres que funciona en todas las APIs de voz de xAI, incluyendo Text-to-Speech y Voice Agent.

¿Cuánto cuesta la clonación de voz de xAI?

Crear una voz personalizada en xAI es gratis. El coste proviene del uso de la API: Text-to-Speech cuesta $4,20 por millón de caracteres, y la Voice Agent API cuesta $3,00 por hora ($0,05 por minuto) para interacciones speech-to-speech en tiempo real. No hay cargo adicional por usar una voz personalizada en lugar de una integrada.

¿Está disponible la clonación de voz de xAI fuera de Estados Unidos?

No. A mayo de 2026, xAI Custom Voices está restringido a usuarios en Estados Unidos, con Illinois excluido por la Ley de Privacidad de Información Biométrica del estado. xAI no ha anunciado un calendario para la expansión internacional. Los usuarios fuera de EE. UU. aún pueden acceder a las voces TTS integradas de xAI, pero no pueden crear clones de voz personalizados.

¿Cómo se compara xAI Custom Voices con ElevenLabs?

xAI ofrece precios muy inferiores a ElevenLabs: $3/hora para agentes de voz frente a $10-18/hora en ElevenLabs. ElevenLabs lidera en funciones con más de 3.000 voces, más de 32 idiomas, disponibilidad global y el Iconic Marketplace para voces con licencia. xAI tiene una verificación de seguridad más estricta con coincidencia de hablante en dos etapas, pero actualmente está limitado al mercado estadounidense.

¿Puede alguien clonar mi voz con xAI sin permiso?

No. El proceso de verificación en dos etapas de xAI requiere que el hablante esté físicamente presente durante la clonación. El usuario debe leer una frase de verificación en voz alta en tiempo real, y el sistema compara los embeddings de voz entre la frase y la grabación completa para confirmar que coinciden. No se pueden usar grabaciones preexistentes, y la clonación de la voz de otra persona está bloqueada por el pipeline de verificación.


Fuentes

  1. Custom Voices and Voice Library - xAI Official - 30 de abril de 2026
  2. xAI launches Grok 4.3 and voice cloning suite - VentureBeat - 1 de mayo de 2026
  3. xAI’s Custom Voices feature - The Decoder - 2 de mayo de 2026
  4. xAI Voice API Documentation - Mayo 2026

¿Te resultó útil este artículo?

0:00