NVIDIA PersonaPlex-7B: 오픈소스 전이중 음성 AI

작성자: GenMediaLab 6 분 읽기
NVIDIA PersonaPlex 전이중 음성 AI를 나타내는 실시간 교차하는 이중 음파

핵심 요약

  • NVIDIA가 PersonaPlex-7B-v1을 공개했다. 동시에 듣고 말하는 70억 파라미터 음성-대-음성 모델이다
  • 전이중 설계로 기존 음성 비서의 멈춤-말하기-멈춤 패턴을 없애고 0.205~0.265초의 초저지연을 달성했다
  • 하이브리드 프롬프팅으로 텍스트 설명과 오디오 기반 음성 조건 설정으로 어떤 페르소나든 정의할 수 있다
  • 대화 역학과 작업 준수 벤치마크에서 Gemini Live, Qwen 2.5 Omni, Moshi를 앞선다
  • 100% 오픈소스: 모델 가중치는 NVIDIA Open Model License, 코드는 MIT 라이선스

무슨 일이 있었나

NVIDIA가 음성 AI가 대화를 처리하는 방식을 근본적으로 바꾸는 70억 파라미터 음성-대-음성 모델 PersonaPlex-7B-v1을 공개했다. 지금까지 사용해 온 음성 비서와 달리, PersonaPlex는 사용자가 말을 끝낼 때까지 기다리지 않는다. 대신 듣고 말하는 것을 동시에 한다.

이를 전이중(full-duplex) 상호작용이라고 하며, 사람이 자연스럽게 대화하는 방식과 같다. 말하는 중간에 끼어들 수 있고, 모델도 그에 맞춰 반응한다. 사용자가 아직 말하는 동안에도 “응”, “아, 그렇구나” 같은 공감 반응을 보낸다. 필요한 순간에 멈춘다. 딱딱한 차례 지키는 대화가 아니다. AI가 말을 처리하는 동안 어색한 침묵도 없다.

🧠 7B 파라미터
0.2초 평균 지연
📖 MIT 코드 라이선스
📊 <5천 시간 학습 데이터
완전 오픈소스

PersonaPlex-7B-v1은 NVIDIA Open Model License(가중치)와 MIT License(코드)로 공개된다. 둘 다 상업적 사용을 허용한다. Hugging Face 또는 GitHub에서 다운로드할 수 있다.

기존 음성 AI가 부족한 이유

기존 음성 비서는 부자연스러운 대화 흐름을 만드는 3단계 파이프라인을 사용한다:

Siri, Alexa, Google Assistant의 계단식 파이프라인

단계 처리 과정 문제점
1. ASR 자동 음성 인식이 음성을 텍스트로 변환 지연 추가
2. LLM 언어 모델이 텍스트 응답 생성 생각하는 동안 사용자 입력을 들을 수 없음
3. TTS 텍스트-음성 변환이 응답을 오디오로 변환 추가 지연, 오버랩 없음

각 단계마다 지연이 생기고, 응답을 생성하는 동안에는 사용자 입력을 들을 수 없다. 그래서 Siri, Alexa, Google Assistant와의 대화가 로봇 같게 느껴진다. 말하고, 기다리고, 응답받고, 다시 말하는 식이다.

PersonaPlex는 이 파이프라인 전체를 들어오는 오디오를 처리하면서 동시에 음성을 생성하는 단일 Transformer 모델로 대체한다.

핵심 기능

🔄

전이중 대화

자연스러운 끼어들기, 공감 반응, 빠른 차례 교대가 가능한 동시 대화—기다릴 필요 없음

🎭

하이브리드 페르소나 제어

텍스트 프롬프트(성격, 비즈니스 규칙)와 오디오 음성 조건 설정(억양, 톤, 운율)으로 어떤 역할이든 정의

1초 미만 지연

평균 응답 시간 0.205~0.265초—기반 모델인 Moshi보다 5.7배 빠름

🧠

발생적 일반화

Helium 언어 모델 백본 덕분에 기술 위기 대응처럼 학습 데이터 밖의 상황도 처리

🎙️

비언어적 신호

인간 대화 패턴을 반영하는 멈춤, 감정적 톤, 강조, 긴박감, 맥락적 응답 생성

🔓

상업용 오픈소스

NVIDIA Open Model License(가중치)와 MIT(코드)로 완전한 상업 배포와 수정 가능

PersonaPlex 작동 방식

듀얼 스트림 아키텍처

PersonaPlex는 Kyutai의 Moshi 아키텍처를 기반으로 하며, Helium을 기반 언어 모델로 사용한다. 아키텍처는 두 개의 병렬 스트림을 사용한다:

  • 사용자 스트림 — 사용자 마이크의 들어오는 오디오를 지속적으로 인코딩
  • 에이전트 스트림 — AI의 음성과 텍스트 응답을 동시에 생성

두 스트림은 동일한 모델 상태를 공유한다. 따라서 PersonaPlex는 사용자가 말하는 동안 실시간으로 응답을 조정할 수 있어, 끼어들기, 겹치는 발화, 빠른 차례 교대, 맥락적 공감 반응이 가능하다.

Mimi 신경 오디오 코덱이 24kHz로 오디오 인코딩과 디코딩을 처리하며, 파형을 Transformer가 처리할 수 있는 이산 토큰으로 변환한다.

하이브리드 페르소나 제어

PersonaPlex는 대화 정체성을 정의하기 위해 두 가지 입력을 사용한다:

  • 텍스트 프롬프트 — 역할, 배경, 조직, 대화 맥락을 설명(최대 200 토큰)
  • 음성 프롬프트 — 발성 특성, 말투, 억양, 운율을 담는 오디오 임베딩

이 하이브리드 방식으로 특정 회사의 특정 음성을 가진 고객 서비스 에이전트, 따뜻하고 인내심 있는 현명한 교사, 극적인 억양의 판타지 캐릭터 등 다양한 페르소나를 만들 수 있다. 페르소나는 전체 대화 동안 일관되게 유지된다.

시연된 페르소나

PersonaPlex는 긴 대화에서도 페르소나 일관성을 유지한다

페르소나
시나리오
핵심 행동
현명한 교사
일반 Q&A 어시스턴트
자연스러운 차례 교대, 넓은 지식
은행 상담원 (Sanni Virtanen)
의심 거래 조사
공감, 신원 확인, 억양 제어
의료 접수원
신규 환자 등록
음성에서 세부사항 기록, 기밀 유지
우주비행사 (Alex)
화성 임무 중 원자로 코어 비상
스트레스, 긴박감, 학습 데이터 밖의 기술적 추론
학습 데이터를 넘어서

우주비행사 시나리오가 특히 주목할 만하다. 비상 위기 대응, 원자로 물리 용어, 감정적 긴박감은 학습 데이터에 없었다. PersonaPlex는 Helium 언어 모델 백본 덕분에 완전히 새로운 영역에서도 일반화가 가능했다.

벤치마크 결과

NVIDIA는 FullDuplexBench와 고객 서비스 시나리오용 확장 ServiceDuplexBench로 PersonaPlex를 평가했다. 결과는 오픈소스와 상용 대안 모두에 비해 명확한 우위를 보였다.

대화 역학

성공률(높을수록 좋음)

지표 PersonaPlex Moshi Gemini Live Qwen 2.5 Omni
부드러운 차례 교대 90.8% 1.8% 43.9% N/A
사용자 끼어들기 95.0% 65.3% 54.7% N/A
멈춤 처리 60.6% 33.6% 65.5% N/A

지연시간

응답 시간(초, 낮을수록 좋음)

지표 PersonaPlex Moshi Gemini Live
부드러운 차례 교대 0.170초 0.953초 N/A
사용자 끼어들기 0.240초 1.409초 N/A
평균 0.205초 1.181초 N/A

작업 준수

GPT-4o 판정 점수 5점 만점(높을수록 좋음)

벤치마크 PersonaPlex Moshi Gemini Live Qwen 2.5 Omni
FullDuplexBench 4.29 0.77 3.38 4.59
ServiceDuplexBench 4.40 1.75 4.73 2.76
평균 4.34 1.26 4.05 3.68

PersonaPlex는 이 두 벤치마크에서 모두 4.0 이상을 기록한 유일한 모델로, 강한 일반 지식과 구조화된 비즈니스 시나리오에서의 신뢰할 수 있는 작업 준수를 결합했다.

학습: 5,000시간 미만

PersonaPlex는 실제 대화와 합성 대화를 신중하게 조합한 단일 단계로 학습되었다.

실제 대화

Fisher English 코퍼스의 7,303개 통화(1,217시간)가 자연스러운 대화 패턴—공감 반응, 더듬거림, 감정적 반응, 실제 대화 차례 교대—를 제공했다. 이 녹음들은 GPT-OSS-120B로 다양한 상세 수준의 페르소나 프롬프트로 사후 주석 처리되었다.

합성 대화

  • 39,322개 어시스턴트 대화(410시간) — Qwen3-32B와 GPT-OSS-120B로 생성, Resemble AI의 Chatterbox TTS로 오디오 합성
  • 105,410개 고객 서비스 대화(1,840시간) — 회사명, 가격, 운영 규칙을 포함한 구조화된 프롬프트로 다양한 비즈니스 시나리오 커버

학습 설계는 두 가지 특성을 분리한다: 실제 대화에서의 자연스러움과 합성 시나리오에서의 작업 준수. 하이브리드 프롬프트 형식은 두 데이터 소스를 연결해, 모델이 자연스러운 음성 패턴과 정확한 지시 따르기를 결합할 수 있게 한다.

음성 AI에 대한 의미

PersonaPlex는 오픈소스 음성 AI가 할 수 있는 일의 큰 전환을 보여준다. 지금까지는 커스터마이징 가능하지만 로봇 같은 계단식 시스템과 자연스럽지만 유연하지 않은 전이중 모델 사이에서 선택해야 했다. PersonaPlex는 그런 선택을 없앴다.

개발자에게

모델은 상업적 사용 준비가 되어 있다. 음성 에이전트, 고객 서비스 봇, 인터랙티브 캐릭터를 만드는 개발자는 이제 독점 시스템에 견줄 수 있는 오픈소스 기반을 갖는다. MIT 라이선스 코드는 수정과 배포의 완전한 자유를 의미한다.

음성 AI 업계에

전이중 상호작용은 대화형 AI의 성배였다. Google, OpenAI 등은 음성 비서를 더 자연스럽게 만드는 데 많은 투자를 해왔다. NVIDIA는 이제 7B 파라미터 규모에서 이를 달성하는 모델을 오픈소스로 공개해, 진정한 대화형 음성 인터페이스를 만드는 사람들의 진입 장벽을 낮췄다.

크리에이터와 비즈니스에

고객 서비스, 접근성 도구, 게임, 콘텐츠 제작에서 음성 우선 인터페이스가 빠르게 확산되고 있다. PersonaPlex의 페르소나 제어는 AI가 브랜드에 맞게 들리고 구조화된 스크립트를 따르면서도 인간적으로 느껴져야 하는 특정 비즈니스 용도에 실용적이다.

AI 음성 기술 살펴보기

텍스트-음성, 음성 복제, 대화형 AI를 위한 최고의 AI 음성 생성기를 비교해보세요.

ElevenLabs 무료 체험 →

현재 한계

초기 릴리스 제약

PersonaPlex-7B-v1은 인상적인 첫 릴리스였지만, 배포 전에 알아두어야 할 제약이 있다.

  • 영어만 지원 — 아직 다국어 미지원
  • NVIDIA GPU 필요 — Ampere, Hopper 아키텍처(A100, H100)에 최적화
  • 제한된 학습 데이터 — 5,000시간 미만으로, 특정 사투리나 전문 도메인에서 성능이 제한될 수 있음
  • 프로덕션 안전 검증 없음 — NVIDIA는 편향, 설명 가능성, 개인정보 문제에 대한 프로덕션 배포 전 추가 검증이 필요하다고 밝혔다

시작하기

PersonaPlex 실행에 필요한 모든 것

리소스
링크
라이선스
모델 가중치
NVIDIA Open Model License — 상업적 사용 허용
소스 코드
MIT License — 제한 없음
연구 논문
오픈 액세스
기반 모델 (Moshi)
CC-BY-4.0 — 출처 표시 후 공유

빠른 시작 (5분)

NVIDIA GPU(Ampere 또는 Hopper)가 있는 Linux 머신과 Python이 설치되어 있어야 한다.

1. 오디오 코덱 설치 및 저장소 클론:

# Ubuntu/Debian
sudo apt install libopus-dev

# Clone and install
git clone https://github.com/NVIDIA/personaplex.git
cd personaplex
pip install moshi/.

2. Hugging Face에서 모델 라이선스 동의 후 토큰 설정:

export HF_TOKEN=your_token_here

3. 서버 실행 (임시 SSL 인증서 자동 생성):

SSL_DIR=$(mktemp -d); python -m moshi.server --ssl "$SSL_DIR"

4. 브라우저에서 https://localhost:8998 열기. 말을 시작하면 PersonaPlex가 실시간으로 응답한다.

GPU 메모리가 부족한가요?

서버 명령에 --cpu-offload를 추가하면 레이어를 CPU로 오프로드한다. 먼저 pip install accelerate가 필요하다.

자주 묻는 질문

NVIDIA PersonaPlex-7B란?

PersonaPlex-7B-v1은 NVIDIA의 70억 파라미터 음성-대-음성 AI 모델로, 실시간 전이중 음성 대화를 지원한다. 동시에 듣고 말할 수 있으며, 끼어들기를 자연스럽게 처리하고, 하이브리드 프롬프팅으로 커스터마이징 가능한 페르소나를 유지한다.

PersonaPlex는 일반 음성 비서와 어떻게 다른가?

기존 음성 비서는 지연을 만들고 겹치는 발화를 처리할 수 없는 3단계 파이프라인(음성 인식, 언어 모델, 텍스트-음성)을 사용한다. PersonaPlex는 오디오를 실시간으로 처리하는 단일 모델을 사용해, 0.205~0.265초의 초저지연으로 자연스러운 대화를 가능하게 한다.

PersonaPlex는 무료로 사용할 수 있나?

예. 모델 가중치는 NVIDIA Open Model License, 코드는 MIT 라이선스로 공개된다. 둘 다 상업적 사용을 허용한다. Hugging Face와 GitHub에서 모두 무료로 다운로드할 수 있다.

PersonaPlex 실행에 필요한 하드웨어는?

PersonaPlex는 NVIDIA GPU가 필요하며, 특히 A100이나 H100 같은 Ampere 또는 Hopper 아키텍처 카드에 최적화되어 있다. 현재 소비자용 GPU나 비-NVIDIA 하드웨어에는 최적화되지 않았다.

PersonaPlex는 영어 외 다른 언어를 지원하나?

아직 아니다. 현재 릴리스는 영어만 지원한다. Fisher English 코퍼스와 영어 합성 대화로만 구성된 학습 데이터를 사용한다.

PersonaPlex는 페르소나 제어를 어떻게 하나?

PersonaPlex는 하이브리드 프롬프팅을 사용한다. 텍스트 프롬프트가 역할, 배경, 시나리오를 정의한다(예: '당신은 First Neuron Bank의 직원이며 이름은 Sanni Virtanen입니다'). 음성 프롬프트는 억양, 톤, 말투 같은 발성 특성을 제어하는 오디오 임베딩을 제공한다. 둘을 함께 사용해 일관된 페르소나를 만든다.


출처

  1. NVIDIA ADLR - PersonaPlex: Natural Conversational AI With Any Role and Voice
  2. MarkTechPost - NVIDIA Releases PersonaPlex-7B-v1
  3. NVIDIA PersonaPlex-7B-v1 on Hugging Face
  4. PersonaPlex GitHub Repository

이 글이 도움이 되셨나요?