NVIDIA PersonaPlex-7B: IA de voz full-duplex de código abierto

Por GenMediaLab 6 min de lectura
Dos ondas sonoras cruzándose en tiempo real representando la IA de voz full-duplex NVIDIA PersonaPlex

Puntos Clave

  • NVIDIA lanza PersonaPlex-7B-v1, un modelo de voz a voz de 7 mil millones de parámetros que escucha y habla al mismo tiempo
  • El diseño full-duplex elimina el ciclo de pausa-habla-pausa de los asistentes tradicionales con latencia de menos de un segundo (0,205-0,265 s)
  • El prompting híbrido permite definir cualquier personaje mediante descripciones de texto más condicionamiento de voz por audio
  • Supera a Gemini Live, Qwen 2.5 Omni y Moshi en dinámicas conversacionales y adherencia a tareas en benchmarks
  • 100% código abierto: pesos del modelo bajo licencia NVIDIA Open Model License, código bajo MIT

Qué sucedió

NVIDIA ha lanzado PersonaPlex-7B-v1, un modelo de voz a voz de 7 mil millones de parámetros que cambia la forma en que la IA de voz maneja conversaciones. A diferencia de los asistentes de voz que has usado antes, PersonaPlex no espera a que termines de hablar para responder. Escucha y habla al mismo tiempo.

Esto se llama interacción full-duplex y es la forma natural en que los humanos conversamos. Puedes interrumpirlo a mitad de frase y se adapta. Produce respuestas de apoyo como “ajá” y “oh, vale” mientras sigues hablando. Hace pausas cuando corresponde. Sin turnos rígidos. Sin silencios incómodos mientras la IA procesa tus palabras.

🧠 7B Parámetros
0,2s Latencia media
📖 MIT Licencia código
📊 <5K hrs Datos de entrenamiento
Totalmente de código abierto

PersonaPlex-7B-v1 se distribuye bajo la NVIDIA Open Model License (pesos) y la licencia MIT (código). Ambas permiten uso comercial. Descarga desde Hugging Face o GitHub.

Por qué la IA de voz tradicional se queda corta

Los asistentes de voz tradicionales usan un pipeline de tres etapas que crea un flujo conversacional poco natural:

El pipeline en cascada detrás de Siri, Alexa y Google Assistant

Etapa Proceso Problema
1. ASR El reconocimiento automático de voz convierte el habla en texto Añade latencia
2. LLM El modelo de lenguaje genera una respuesta en texto No puede escucharte mientras piensa
3. TTS El texto a voz convierte la respuesta en audio Más latencia, sin solapamiento

Cada etapa añade retraso y el sistema no puede escucharte mientras genera la respuesta. Por eso las conversaciones con Siri, Alexa o Google Assistant parecen robóticas. Hablas, esperas, recibes respuesta, vuelves a hablar.

PersonaPlex sustituye todo este pipeline por un único modelo Transformer que procesa el audio entrante y genera habla simultáneamente.

Capacidades principales

🔄

Conversación full-duplex

Escucha y habla simultáneamente con interrupciones naturales, respuestas de apoyo y turnos rápidos — sin esperas

🎭

Control híbrido de personaje

Define cualquier rol mediante prompts de texto (personalidad, reglas de negocio) más condicionamiento de voz por audio (acento, tono, prosodia)

Latencia inferior a un segundo

Tiempo de respuesta medio de 0,205-0,265 segundos — 5,7 veces más rápido que Moshi, el modelo en el que se basa

🧠

Generalización emergente

Maneja escenarios fuera de sus datos de entrenamiento, como gestión de crisis técnicas, gracias al backbone de lenguaje Helium

🎙️

Señales no verbales

Produce pausas, tonos emocionales, énfasis, urgencia y respuestas contextuales que reflejan patrones humanos de conversación

🔓

Código abierto listo para producción

NVIDIA Open Model License (pesos) y MIT (código) permiten despliegue comercial completo y modificación

Cómo funciona PersonaPlex

Arquitectura de doble flujo

PersonaPlex se basa en la arquitectura Moshi de Kyutai, con Helium como backbone del modelo de lenguaje. La arquitectura usa dos flujos paralelos:

  • Flujo de usuario — codifica continuamente el audio entrante del micrófono del usuario
  • Flujo de agente — genera simultáneamente el habla y la respuesta en texto de la IA

Ambos flujos comparten el mismo estado del modelo. Esto permite que PersonaPlex ajuste su respuesta en tiempo real mientras el usuario habla, habilitando barge-in, habla solapada, turnos rápidos y respuestas de apoyo contextuales.

El codec de audio neural Mimi maneja la codificación y decodificación de audio a 24 kHz, convirtiendo las formas de onda en tokens discretos que el Transformer puede procesar.

Control híbrido de personaje

PersonaPlex usa dos entradas para definir la identidad conversacional:

  • Prompt de texto — describe el rol, contexto, organización y contexto de la conversación (hasta 200 tokens)
  • Prompt de voz — un embedding de audio que captura características vocales, estilo de habla, acento y prosodia

Este enfoque híbrido permite crear un agente de atención al cliente para una empresa concreta con una voz específica, un profesor sabio que suene cálido y paciente, o un personaje de fantasía con inflexión dramática. El personaje se mantiene consistente durante toda la conversación.

Personajes demostrados

PersonaPlex mantiene consistencia del personaje en conversaciones largas

Personaje
Escenario
Comportamiento clave
Profesor sabio
Asistente de preguntas generales
Turnos naturales, amplio conocimiento
Agente bancario (Sanni Virtanen)
Investigación de transacción marcada
Empatía, verificación de identidad, control de acento
Recepcionista médica
Registro de paciente nuevo
Registra detalles del habla, mantiene confidencialidad
Astronauta (Alex)
Emergencia en núcleo del reactor en misión a Marte
Estrés, urgencia, razonamiento técnico fuera de entrenamiento
Más allá de los datos de entrenamiento

El escenario del astronauta es especialmente notable. La gestión de crisis de emergencia, el vocabulario de física de reactores y la urgencia emocional nunca estuvieron en los datos de entrenamiento. PersonaPlex generalizó desde su backbone Helium para manejar dominios completamente nuevos.

Resultados de benchmarks

NVIDIA evaluó PersonaPlex en FullDuplexBench y una nueva extensión llamada ServiceDuplexBench para escenarios de atención al cliente. Los resultados muestran ventajas claras frente a alternativas de código abierto y comerciales.

Dinámicas conversacionales

Tasa de éxito (mayor es mejor)

Métrica PersonaPlex Moshi Gemini Live Qwen 2.5 Omni
Turnos fluidos 90,8% 1,8% 43,9% N/A
Interrupción del usuario 95,0% 65,3% 54,7% N/A
Manejo de pausas 60,6% 33,6% 65,5% N/A

Latencia

Tiempo de respuesta en segundos (menor es mejor)

Métrica PersonaPlex Moshi Gemini Live
Turnos fluidos 0,170s 0,953s N/A
Interrupción del usuario 0,240s 1,409s N/A
Media 0,205s 1,181s N/A

Adherencia a tareas

Puntuación GPT-4o judge sobre 5 (mayor es mejor)

Benchmark PersonaPlex Moshi Gemini Live Qwen 2.5 Omni
FullDuplexBench 4,29 0,77 3,38 4,59
ServiceDuplexBench 4,40 1,75 4,73 2,76
Media 4,34 1,26 4,05 3,68

PersonaPlex es el único modelo que supera 4,0 en ambos benchmarks, combinando sólido conocimiento general con seguimiento fiable de tareas en escenarios empresariales estructurados.

Entrenamiento: menos de 5.000 horas

PersonaPlex se entrenó en una sola etapa usando una mezcla cuidadosa de conversaciones reales y sintéticas.

Conversaciones reales

7.303 llamadas (1.217 horas) del corpus Fisher English proporcionaron patrones conversacionales naturales: respuestas de apoyo, disfluencias, respuestas emocionales y comportamiento auténtico de turnos. Estas grabaciones se anotaron con prompts de personaje usando GPT-OSS-120B con distintos niveles de detalle.

Conversaciones sintéticas

  • 39.322 diálogos de asistente (410 horas) — generados con Qwen3-32B y GPT-OSS-120B, sintetizados a audio con Chatterbox TTS de Resemble AI
  • 105.410 diálogos de atención al cliente (1.840 horas) — cubriendo diversos escenarios empresariales con prompts estructurados incluyendo nombres de empresa, precios y reglas operativas

El diseño de entrenamiento separa dos cualidades: naturalidad de conversaciones reales y adherencia a tareas de escenarios sintéticos. El formato de prompt híbrido conecta ambas fuentes de datos, permitiendo al modelo combinar patrones de habla naturales con seguimiento preciso de instrucciones.

Qué significa esto para la IA de voz

PersonaPlex representa un cambio importante en lo que la IA de voz de código abierto puede hacer. Hasta ahora, la elección era entre sistemas en cascada personalizables pero robóticos y modelos full-duplex naturales pero inflexibles. PersonaPlex elimina ese trade-off.

Para desarrolladores

El modelo está listo para uso comercial. Los desarrolladores que construyen agentes de voz, bots de atención al cliente o personajes interactivos tienen ahora una base de código abierto que rivaliza con sistemas propietarios. El código bajo licencia MIT permite libertad total para modificar y desplegar.

Para la industria de IA de voz

La interacción full-duplex ha sido el santo grial de la IA conversacional. Google, OpenAI y otros han invertido mucho en hacer que los asistentes de voz se sientan más naturales. NVIDIA ha liberado ahora el código de un modelo que lo consigue a escala de 7B parámetros, reduciendo la barrera para que cualquiera construya interfaces de voz verdaderamente conversacionales.

Para creadores y empresas

Las interfaces centradas en voz se están acelerando en atención al cliente, herramientas de accesibilidad, juegos y creación de contenido. El control de personaje de PersonaPlex lo hace práctico para casos de uso empresariales concretos donde la IA debe sonar acorde a la marca y seguir guiones estructurados mientras sigue pareciendo humana.

Explora la tecnología de voz IA

Compara los mejores generadores de voz IA para texto a voz, clonación de voz e IA conversacional.

Prueba ElevenLabs Gratis →

Limitaciones actuales

Restricciones de lanzamiento inicial

PersonaPlex-7B-v1 es un primer lanzamiento impresionante, pero hay limitaciones que conviene conocer antes de desplegar.

  • Solo inglés — sin soporte multilingüe por ahora
  • Requiere GPUs NVIDIA — optimizado para arquitecturas Ampere y Hopper (A100, H100)
  • Datos de entrenamiento limitados — menos de 5.000 horas, lo que puede restringir el rendimiento en dialectos o dominios especializados
  • Sin pruebas de seguridad en producción — NVIDIA señala que sesgos, explicabilidad y privacidad requieren pruebas adicionales antes del despliegue en producción

Cómo empezar

Todo lo necesario para ejecutar PersonaPlex

Recurso
Enlace
Licencia
Pesos del modelo
NVIDIA Open Model License — uso comercial permitido
Código fuente
Licencia MIT — sin restricciones
Artículo de investigación
Acceso abierto
Modelo base (Moshi)
CC-BY-4.0 — compartir con atribución

Inicio rápido (5 minutos)

Requiere una máquina Linux con una GPU NVIDIA (Ampere o Hopper) y Python instalado.

1. Instala el códec de audio y clona el repositorio:

# Ubuntu/Debian
sudo apt install libopus-dev

# Clonar e instalar
git clone https://github.com/NVIDIA/personaplex.git
cd personaplex
pip install moshi/.

2. Acepta la licencia del modelo en Hugging Face, luego configura tu token:

export HF_TOKEN=your_token_here

3. Inicia el servidor (genera certificados SSL temporales automáticamente):

SSL_DIR=$(mktemp -d); python -m moshi.server --ssl "$SSL_DIR"

4. Abre https://localhost:8998 en tu navegador. Empieza a hablar — PersonaPlex responde en tiempo real.

¿Poca memoria GPU?

Añade --cpu-offload al comando del servidor para descargar capas a la CPU. Requiere pip install accelerate primero.

Preguntas Frecuentes

¿Qué es NVIDIA PersonaPlex-7B?

PersonaPlex-7B-v1 es un modelo de IA de voz a voz de 7 mil millones de parámetros de NVIDIA que permite conversaciones de voz en tiempo real y full-duplex. Puede escuchar y hablar simultáneamente, manejar interrupciones de forma natural y mantener personajes personalizables mediante prompting híbrido.

¿En qué se diferencia PersonaPlex de los asistentes de voz habituales?

Los asistentes de voz tradicionales usan un pipeline de tres etapas (reconocimiento de voz, modelo de lenguaje, texto a voz) que crea retrasos y no puede manejar habla solapada. PersonaPlex usa un único modelo que procesa el audio en tiempo real, permitiendo conversación natural con latencia inferior a un segundo de 0,205-0,265 segundos.

¿Es PersonaPlex gratuito?

Sí. Los pesos del modelo se distribuyen bajo la NVIDIA Open Model License y el código está bajo licencia MIT. Ambas permiten uso comercial. Puedes descargar todo desde Hugging Face y GitHub sin coste.

¿Qué hardware necesito para ejecutar PersonaPlex?

PersonaPlex requiere GPUs NVIDIA, concretamente tarjetas de arquitectura Ampere u Hopper como la A100 o H100. No está optimizado actualmente para GPUs de consumo ni hardware no-NVIDIA.

¿PersonaPlex soporta idiomas además del inglés?

Aún no. El lanzamiento actual es solo en inglés. Los datos de entrenamiento son completamente en inglés, usando el corpus Fisher English más conversaciones sintéticas en inglés.

¿Cómo funciona el control de personaje en PersonaPlex?

PersonaPlex usa prompting híbrido. Un prompt de texto define el rol, contexto y escenario (por ejemplo 'Trabajas para First Neuron Bank y te llamas Sanni Virtanen'). Un prompt de voz proporciona un embedding de audio que controla características vocales como acento, tono y estilo de habla. Juntos crean un personaje consistente.


Fuentes

  1. NVIDIA ADLR - PersonaPlex: Natural Conversational AI With Any Role and Voice
  2. MarkTechPost - NVIDIA Releases PersonaPlex-7B-v1
  3. NVIDIA PersonaPlex-7B-v1 en Hugging Face
  4. Repositorio PersonaPlex en GitHub

¿Te resultó útil este artículo?