음성 AI 부상: 오디오 어시스턴트가 2026년을 지배하는 방식
음성 AI가 투박한 로봇에서 66억 달러 VC 투자를 받은 스마트 에이전트로 진화하고 있다.
기사 읽기 →
NVIDIA가 음성 AI가 대화를 처리하는 방식을 근본적으로 바꾸는 70억 파라미터 음성-대-음성 모델 PersonaPlex-7B-v1을 공개했다. 지금까지 사용해 온 음성 비서와 달리, PersonaPlex는 사용자가 말을 끝낼 때까지 기다리지 않는다. 대신 듣고 말하는 것을 동시에 한다.
이를 전이중(full-duplex) 상호작용이라고 하며, 사람이 자연스럽게 대화하는 방식과 같다. 말하는 중간에 끼어들 수 있고, 모델도 그에 맞춰 반응한다. 사용자가 아직 말하는 동안에도 “응”, “아, 그렇구나” 같은 공감 반응을 보낸다. 필요한 순간에 멈춘다. 딱딱한 차례 지키는 대화가 아니다. AI가 말을 처리하는 동안 어색한 침묵도 없다.
PersonaPlex-7B-v1은 NVIDIA Open Model License(가중치)와 MIT License(코드)로 공개된다. 둘 다 상업적 사용을 허용한다. Hugging Face 또는 GitHub에서 다운로드할 수 있다.
기존 음성 비서는 부자연스러운 대화 흐름을 만드는 3단계 파이프라인을 사용한다:
Siri, Alexa, Google Assistant의 계단식 파이프라인
| 단계 | 처리 과정 | 문제점 |
|---|---|---|
| 1. ASR | 자동 음성 인식이 음성을 텍스트로 변환 | 지연 추가 |
| 2. LLM | 언어 모델이 텍스트 응답 생성 | 생각하는 동안 사용자 입력을 들을 수 없음 |
| 3. TTS | 텍스트-음성 변환이 응답을 오디오로 변환 | 추가 지연, 오버랩 없음 |
각 단계마다 지연이 생기고, 응답을 생성하는 동안에는 사용자 입력을 들을 수 없다. 그래서 Siri, Alexa, Google Assistant와의 대화가 로봇 같게 느껴진다. 말하고, 기다리고, 응답받고, 다시 말하는 식이다.
PersonaPlex는 이 파이프라인 전체를 들어오는 오디오를 처리하면서 동시에 음성을 생성하는 단일 Transformer 모델로 대체한다.
자연스러운 끼어들기, 공감 반응, 빠른 차례 교대가 가능한 동시 대화—기다릴 필요 없음
텍스트 프롬프트(성격, 비즈니스 규칙)와 오디오 음성 조건 설정(억양, 톤, 운율)으로 어떤 역할이든 정의
평균 응답 시간 0.205~0.265초—기반 모델인 Moshi보다 5.7배 빠름
Helium 언어 모델 백본 덕분에 기술 위기 대응처럼 학습 데이터 밖의 상황도 처리
인간 대화 패턴을 반영하는 멈춤, 감정적 톤, 강조, 긴박감, 맥락적 응답 생성
NVIDIA Open Model License(가중치)와 MIT(코드)로 완전한 상업 배포와 수정 가능
PersonaPlex는 Kyutai의 Moshi 아키텍처를 기반으로 하며, Helium을 기반 언어 모델로 사용한다. 아키텍처는 두 개의 병렬 스트림을 사용한다:
두 스트림은 동일한 모델 상태를 공유한다. 따라서 PersonaPlex는 사용자가 말하는 동안 실시간으로 응답을 조정할 수 있어, 끼어들기, 겹치는 발화, 빠른 차례 교대, 맥락적 공감 반응이 가능하다.
Mimi 신경 오디오 코덱이 24kHz로 오디오 인코딩과 디코딩을 처리하며, 파형을 Transformer가 처리할 수 있는 이산 토큰으로 변환한다.
PersonaPlex는 대화 정체성을 정의하기 위해 두 가지 입력을 사용한다:
이 하이브리드 방식으로 특정 회사의 특정 음성을 가진 고객 서비스 에이전트, 따뜻하고 인내심 있는 현명한 교사, 극적인 억양의 판타지 캐릭터 등 다양한 페르소나를 만들 수 있다. 페르소나는 전체 대화 동안 일관되게 유지된다.
PersonaPlex는 긴 대화에서도 페르소나 일관성을 유지한다
우주비행사 시나리오가 특히 주목할 만하다. 비상 위기 대응, 원자로 물리 용어, 감정적 긴박감은 학습 데이터에 없었다. PersonaPlex는 Helium 언어 모델 백본 덕분에 완전히 새로운 영역에서도 일반화가 가능했다.
NVIDIA는 FullDuplexBench와 고객 서비스 시나리오용 확장 ServiceDuplexBench로 PersonaPlex를 평가했다. 결과는 오픈소스와 상용 대안 모두에 비해 명확한 우위를 보였다.
성공률(높을수록 좋음)
| 지표 | PersonaPlex | Moshi | Gemini Live | Qwen 2.5 Omni |
|---|---|---|---|---|
| 부드러운 차례 교대 | 90.8% | 1.8% | 43.9% | N/A |
| 사용자 끼어들기 | 95.0% | 65.3% | 54.7% | N/A |
| 멈춤 처리 | 60.6% | 33.6% | 65.5% | N/A |
응답 시간(초, 낮을수록 좋음)
| 지표 | PersonaPlex | Moshi | Gemini Live |
|---|---|---|---|
| 부드러운 차례 교대 | 0.170초 | 0.953초 | N/A |
| 사용자 끼어들기 | 0.240초 | 1.409초 | N/A |
| 평균 | 0.205초 | 1.181초 | N/A |
GPT-4o 판정 점수 5점 만점(높을수록 좋음)
| 벤치마크 | PersonaPlex | Moshi | Gemini Live | Qwen 2.5 Omni |
|---|---|---|---|---|
| FullDuplexBench | 4.29 | 0.77 | 3.38 | 4.59 |
| ServiceDuplexBench | 4.40 | 1.75 | 4.73 | 2.76 |
| 평균 | 4.34 | 1.26 | 4.05 | 3.68 |
PersonaPlex는 이 두 벤치마크에서 모두 4.0 이상을 기록한 유일한 모델로, 강한 일반 지식과 구조화된 비즈니스 시나리오에서의 신뢰할 수 있는 작업 준수를 결합했다.
PersonaPlex는 실제 대화와 합성 대화를 신중하게 조합한 단일 단계로 학습되었다.
Fisher English 코퍼스의 7,303개 통화(1,217시간)가 자연스러운 대화 패턴—공감 반응, 더듬거림, 감정적 반응, 실제 대화 차례 교대—를 제공했다. 이 녹음들은 GPT-OSS-120B로 다양한 상세 수준의 페르소나 프롬프트로 사후 주석 처리되었다.
학습 설계는 두 가지 특성을 분리한다: 실제 대화에서의 자연스러움과 합성 시나리오에서의 작업 준수. 하이브리드 프롬프트 형식은 두 데이터 소스를 연결해, 모델이 자연스러운 음성 패턴과 정확한 지시 따르기를 결합할 수 있게 한다.
PersonaPlex는 오픈소스 음성 AI가 할 수 있는 일의 큰 전환을 보여준다. 지금까지는 커스터마이징 가능하지만 로봇 같은 계단식 시스템과 자연스럽지만 유연하지 않은 전이중 모델 사이에서 선택해야 했다. PersonaPlex는 그런 선택을 없앴다.
모델은 상업적 사용 준비가 되어 있다. 음성 에이전트, 고객 서비스 봇, 인터랙티브 캐릭터를 만드는 개발자는 이제 독점 시스템에 견줄 수 있는 오픈소스 기반을 갖는다. MIT 라이선스 코드는 수정과 배포의 완전한 자유를 의미한다.
전이중 상호작용은 대화형 AI의 성배였다. Google, OpenAI 등은 음성 비서를 더 자연스럽게 만드는 데 많은 투자를 해왔다. NVIDIA는 이제 7B 파라미터 규모에서 이를 달성하는 모델을 오픈소스로 공개해, 진정한 대화형 음성 인터페이스를 만드는 사람들의 진입 장벽을 낮췄다.
고객 서비스, 접근성 도구, 게임, 콘텐츠 제작에서 음성 우선 인터페이스가 빠르게 확산되고 있다. PersonaPlex의 페르소나 제어는 AI가 브랜드에 맞게 들리고 구조화된 스크립트를 따르면서도 인간적으로 느껴져야 하는 특정 비즈니스 용도에 실용적이다.
PersonaPlex-7B-v1은 인상적인 첫 릴리스였지만, 배포 전에 알아두어야 할 제약이 있다.
PersonaPlex 실행에 필요한 모든 것
NVIDIA GPU(Ampere 또는 Hopper)가 있는 Linux 머신과 Python이 설치되어 있어야 한다.
1. 오디오 코덱 설치 및 저장소 클론:
# Ubuntu/Debian
sudo apt install libopus-dev
# Clone and install
git clone https://github.com/NVIDIA/personaplex.git
cd personaplex
pip install moshi/.
2. Hugging Face에서 모델 라이선스 동의 후 토큰 설정:
export HF_TOKEN=your_token_here
3. 서버 실행 (임시 SSL 인증서 자동 생성):
SSL_DIR=$(mktemp -d); python -m moshi.server --ssl "$SSL_DIR"
4. 브라우저에서 https://localhost:8998 열기. 말을 시작하면 PersonaPlex가 실시간으로 응답한다.
서버 명령에 --cpu-offload를 추가하면 레이어를 CPU로 오프로드한다. 먼저 pip install accelerate가 필요하다.
PersonaPlex-7B-v1은 NVIDIA의 70억 파라미터 음성-대-음성 AI 모델로, 실시간 전이중 음성 대화를 지원한다. 동시에 듣고 말할 수 있으며, 끼어들기를 자연스럽게 처리하고, 하이브리드 프롬프팅으로 커스터마이징 가능한 페르소나를 유지한다.
기존 음성 비서는 지연을 만들고 겹치는 발화를 처리할 수 없는 3단계 파이프라인(음성 인식, 언어 모델, 텍스트-음성)을 사용한다. PersonaPlex는 오디오를 실시간으로 처리하는 단일 모델을 사용해, 0.205~0.265초의 초저지연으로 자연스러운 대화를 가능하게 한다.
예. 모델 가중치는 NVIDIA Open Model License, 코드는 MIT 라이선스로 공개된다. 둘 다 상업적 사용을 허용한다. Hugging Face와 GitHub에서 모두 무료로 다운로드할 수 있다.
PersonaPlex는 NVIDIA GPU가 필요하며, 특히 A100이나 H100 같은 Ampere 또는 Hopper 아키텍처 카드에 최적화되어 있다. 현재 소비자용 GPU나 비-NVIDIA 하드웨어에는 최적화되지 않았다.
아직 아니다. 현재 릴리스는 영어만 지원한다. Fisher English 코퍼스와 영어 합성 대화로만 구성된 학습 데이터를 사용한다.
PersonaPlex는 하이브리드 프롬프팅을 사용한다. 텍스트 프롬프트가 역할, 배경, 시나리오를 정의한다(예: '당신은 First Neuron Bank의 직원이며 이름은 Sanni Virtanen입니다'). 음성 프롬프트는 억양, 톤, 말투 같은 발성 특성을 제어하는 오디오 임베딩을 제공한다. 둘을 함께 사용해 일관된 페르소나를 만든다.