Voz IA en auge: cómo los asistentes de audio dominarán 2026
La voz IA deja de ser robots torpes para convertirse en agentes inteligentes con 6.600 M$ en financiación VC.
Leer Artículo →
NVIDIA ha lanzado PersonaPlex-7B-v1, un modelo de voz a voz de 7 mil millones de parámetros que cambia la forma en que la IA de voz maneja conversaciones. A diferencia de los asistentes de voz que has usado antes, PersonaPlex no espera a que termines de hablar para responder. Escucha y habla al mismo tiempo.
Esto se llama interacción full-duplex y es la forma natural en que los humanos conversamos. Puedes interrumpirlo a mitad de frase y se adapta. Produce respuestas de apoyo como “ajá” y “oh, vale” mientras sigues hablando. Hace pausas cuando corresponde. Sin turnos rígidos. Sin silencios incómodos mientras la IA procesa tus palabras.
PersonaPlex-7B-v1 se distribuye bajo la NVIDIA Open Model License (pesos) y la licencia MIT (código). Ambas permiten uso comercial. Descarga desde Hugging Face o GitHub.
Los asistentes de voz tradicionales usan un pipeline de tres etapas que crea un flujo conversacional poco natural:
El pipeline en cascada detrás de Siri, Alexa y Google Assistant
| Etapa | Proceso | Problema |
|---|---|---|
| 1. ASR | El reconocimiento automático de voz convierte el habla en texto | Añade latencia |
| 2. LLM | El modelo de lenguaje genera una respuesta en texto | No puede escucharte mientras piensa |
| 3. TTS | El texto a voz convierte la respuesta en audio | Más latencia, sin solapamiento |
Cada etapa añade retraso y el sistema no puede escucharte mientras genera la respuesta. Por eso las conversaciones con Siri, Alexa o Google Assistant parecen robóticas. Hablas, esperas, recibes respuesta, vuelves a hablar.
PersonaPlex sustituye todo este pipeline por un único modelo Transformer que procesa el audio entrante y genera habla simultáneamente.
Escucha y habla simultáneamente con interrupciones naturales, respuestas de apoyo y turnos rápidos — sin esperas
Define cualquier rol mediante prompts de texto (personalidad, reglas de negocio) más condicionamiento de voz por audio (acento, tono, prosodia)
Tiempo de respuesta medio de 0,205-0,265 segundos — 5,7 veces más rápido que Moshi, el modelo en el que se basa
Maneja escenarios fuera de sus datos de entrenamiento, como gestión de crisis técnicas, gracias al backbone de lenguaje Helium
Produce pausas, tonos emocionales, énfasis, urgencia y respuestas contextuales que reflejan patrones humanos de conversación
NVIDIA Open Model License (pesos) y MIT (código) permiten despliegue comercial completo y modificación
PersonaPlex se basa en la arquitectura Moshi de Kyutai, con Helium como backbone del modelo de lenguaje. La arquitectura usa dos flujos paralelos:
Ambos flujos comparten el mismo estado del modelo. Esto permite que PersonaPlex ajuste su respuesta en tiempo real mientras el usuario habla, habilitando barge-in, habla solapada, turnos rápidos y respuestas de apoyo contextuales.
El codec de audio neural Mimi maneja la codificación y decodificación de audio a 24 kHz, convirtiendo las formas de onda en tokens discretos que el Transformer puede procesar.
PersonaPlex usa dos entradas para definir la identidad conversacional:
Este enfoque híbrido permite crear un agente de atención al cliente para una empresa concreta con una voz específica, un profesor sabio que suene cálido y paciente, o un personaje de fantasía con inflexión dramática. El personaje se mantiene consistente durante toda la conversación.
PersonaPlex mantiene consistencia del personaje en conversaciones largas
El escenario del astronauta es especialmente notable. La gestión de crisis de emergencia, el vocabulario de física de reactores y la urgencia emocional nunca estuvieron en los datos de entrenamiento. PersonaPlex generalizó desde su backbone Helium para manejar dominios completamente nuevos.
NVIDIA evaluó PersonaPlex en FullDuplexBench y una nueva extensión llamada ServiceDuplexBench para escenarios de atención al cliente. Los resultados muestran ventajas claras frente a alternativas de código abierto y comerciales.
Tasa de éxito (mayor es mejor)
| Métrica | PersonaPlex | Moshi | Gemini Live | Qwen 2.5 Omni |
|---|---|---|---|---|
| Turnos fluidos | 90,8% | 1,8% | 43,9% | N/A |
| Interrupción del usuario | 95,0% | 65,3% | 54,7% | N/A |
| Manejo de pausas | 60,6% | 33,6% | 65,5% | N/A |
Tiempo de respuesta en segundos (menor es mejor)
| Métrica | PersonaPlex | Moshi | Gemini Live |
|---|---|---|---|
| Turnos fluidos | 0,170s | 0,953s | N/A |
| Interrupción del usuario | 0,240s | 1,409s | N/A |
| Media | 0,205s | 1,181s | N/A |
Puntuación GPT-4o judge sobre 5 (mayor es mejor)
| Benchmark | PersonaPlex | Moshi | Gemini Live | Qwen 2.5 Omni |
|---|---|---|---|---|
| FullDuplexBench | 4,29 | 0,77 | 3,38 | 4,59 |
| ServiceDuplexBench | 4,40 | 1,75 | 4,73 | 2,76 |
| Media | 4,34 | 1,26 | 4,05 | 3,68 |
PersonaPlex es el único modelo que supera 4,0 en ambos benchmarks, combinando sólido conocimiento general con seguimiento fiable de tareas en escenarios empresariales estructurados.
PersonaPlex se entrenó en una sola etapa usando una mezcla cuidadosa de conversaciones reales y sintéticas.
7.303 llamadas (1.217 horas) del corpus Fisher English proporcionaron patrones conversacionales naturales: respuestas de apoyo, disfluencias, respuestas emocionales y comportamiento auténtico de turnos. Estas grabaciones se anotaron con prompts de personaje usando GPT-OSS-120B con distintos niveles de detalle.
El diseño de entrenamiento separa dos cualidades: naturalidad de conversaciones reales y adherencia a tareas de escenarios sintéticos. El formato de prompt híbrido conecta ambas fuentes de datos, permitiendo al modelo combinar patrones de habla naturales con seguimiento preciso de instrucciones.
PersonaPlex representa un cambio importante en lo que la IA de voz de código abierto puede hacer. Hasta ahora, la elección era entre sistemas en cascada personalizables pero robóticos y modelos full-duplex naturales pero inflexibles. PersonaPlex elimina ese trade-off.
El modelo está listo para uso comercial. Los desarrolladores que construyen agentes de voz, bots de atención al cliente o personajes interactivos tienen ahora una base de código abierto que rivaliza con sistemas propietarios. El código bajo licencia MIT permite libertad total para modificar y desplegar.
La interacción full-duplex ha sido el santo grial de la IA conversacional. Google, OpenAI y otros han invertido mucho en hacer que los asistentes de voz se sientan más naturales. NVIDIA ha liberado ahora el código de un modelo que lo consigue a escala de 7B parámetros, reduciendo la barrera para que cualquiera construya interfaces de voz verdaderamente conversacionales.
Las interfaces centradas en voz se están acelerando en atención al cliente, herramientas de accesibilidad, juegos y creación de contenido. El control de personaje de PersonaPlex lo hace práctico para casos de uso empresariales concretos donde la IA debe sonar acorde a la marca y seguir guiones estructurados mientras sigue pareciendo humana.
Compara los mejores generadores de voz IA para texto a voz, clonación de voz e IA conversacional.
Prueba ElevenLabs Gratis →PersonaPlex-7B-v1 es un primer lanzamiento impresionante, pero hay limitaciones que conviene conocer antes de desplegar.
Todo lo necesario para ejecutar PersonaPlex
Requiere una máquina Linux con una GPU NVIDIA (Ampere o Hopper) y Python instalado.
1. Instala el códec de audio y clona el repositorio:
# Ubuntu/Debian
sudo apt install libopus-dev
# Clonar e instalar
git clone https://github.com/NVIDIA/personaplex.git
cd personaplex
pip install moshi/.
2. Acepta la licencia del modelo en Hugging Face, luego configura tu token:
export HF_TOKEN=your_token_here
3. Inicia el servidor (genera certificados SSL temporales automáticamente):
SSL_DIR=$(mktemp -d); python -m moshi.server --ssl "$SSL_DIR"
4. Abre https://localhost:8998 en tu navegador. Empieza a hablar — PersonaPlex responde en tiempo real.
Añade --cpu-offload al comando del servidor para descargar capas a la CPU. Requiere pip install accelerate primero.
PersonaPlex-7B-v1 es un modelo de IA de voz a voz de 7 mil millones de parámetros de NVIDIA que permite conversaciones de voz en tiempo real y full-duplex. Puede escuchar y hablar simultáneamente, manejar interrupciones de forma natural y mantener personajes personalizables mediante prompting híbrido.
Los asistentes de voz tradicionales usan un pipeline de tres etapas (reconocimiento de voz, modelo de lenguaje, texto a voz) que crea retrasos y no puede manejar habla solapada. PersonaPlex usa un único modelo que procesa el audio en tiempo real, permitiendo conversación natural con latencia inferior a un segundo de 0,205-0,265 segundos.
Sí. Los pesos del modelo se distribuyen bajo la NVIDIA Open Model License y el código está bajo licencia MIT. Ambas permiten uso comercial. Puedes descargar todo desde Hugging Face y GitHub sin coste.
PersonaPlex requiere GPUs NVIDIA, concretamente tarjetas de arquitectura Ampere u Hopper como la A100 o H100. No está optimizado actualmente para GPUs de consumo ni hardware no-NVIDIA.
Aún no. El lanzamiento actual es solo en inglés. Los datos de entrenamiento son completamente en inglés, usando el corpus Fisher English más conversaciones sintéticas en inglés.
PersonaPlex usa prompting híbrido. Un prompt de texto define el rol, contexto y escenario (por ejemplo 'Trabajas para First Neuron Bank y te llamas Sanni Virtanen'). Un prompt de voz proporciona un embedding de audio que controla características vocales como acento, tono y estilo de habla. Juntos crean un personaje consistente.