xAI 커스텀 보이스: 2분 만에 음성 복제

Darius Z. 작성자: Darius Z. 6 분 읽기
스튜디오 마이크와 청록색 동심원 음파로 표현한 xAI 음성 복제와 Grok 커스텀 보이스

핵심 요약

  • xAI가 4월 30일 커스텀 보이스를 출시하여 약 60초의 녹음된 음성으로 자신의 목소리를 복제하고 모든 Grok 음성 API에서 사용할 수 있게 됐습니다
  • 새로운 Voice Library에는 28개 언어 80개 이상의 내장 음성이 포함되어 있으며, xAI 콘솔을 통해 추가 비용 없이 사용할 수 있습니다
  • Voice Agent API 가격은 시간당 $3(분당 $0.05)이며, 독립형 TTS는 100만 자당 $4.20입니다
  • 2단계 화자 인증 프로세스가 기존 녹음이나 타인의 음성을 이용한 복제를 차단합니다
  • 커스텀 보이스는 현재 미국 내 사용자로 제한되며, 생체 정보 보호법으로 인해 일리노이주는 제외됩니다
80+ 내장 음성
28 지원 언어
$3/hr Voice Agent API
<2 min 복제 시간

xAI(엑스에이아이)가 2026년 4월 30일 커스텀 보이스를 출시하여 Grok(그록) API 플랫폼에 음성 복제 기능을 추가했습니다. 사용자는 xAI 콘솔에서 약 60초간 자연스러운 음성을 녹음하면, 시스템이 2분 이내에 프로덕션 수준의 음성 모델을 생성합니다. 복제된 음성은 Grok의 Text-to-Speech 및 Voice Agent API에서 표준 API 요금으로 사용할 수 있습니다. xAI는 내장 음성 카탈로그도 28개 언어 80개 이상으로 확장했습니다.

시간당 $3의 음성 에이전트 가격으로, xAI는 ElevenLabs(일레븐랩스)와 OpenAI보다 훨씬 낮은 가격을 제시하고 있습니다. 기능 면에서는 부족하지만, 음성을 제품에 통합하려는 개발자에게 비용 구조가 완전히 달라집니다.

xAI 음성 복제는 어떻게 작동하나요?

복제 프로세스는 전적으로 xAI 콘솔에서 진행됩니다. 사용자가 관련 없는 여러 문장을 소리 내어 읽으면 시스템이 녹음합니다. 이후 2단계 인증 파이프라인이 처리합니다. 먼저, 화자가 인증 문구를 읽으면 Grok의 음성 텍스트 변환 엔진이 실시간으로 전사하고 대조하여 의도와 존재를 확인합니다. 그다음 시스템이 인증 클립과 전체 녹음에서 화자 임베딩을 계산하여 동일 인물인지 확인합니다.

이 설계 덕분에 기존 오디오 파일로는 음성을 복제할 수 없으며, 다른 사람의 음성도 복제할 수 없습니다. 인증이 완료되면 시스템이 녹음을 처리하고 xAI의 내장 음성과 동일하게 사용 가능한 8자리 영숫자 voice_id를 제공합니다. 각 팀은 동시에 최대 30개의 커스텀 보이스를 생성할 수 있으며, 클릭 한 번으로 삭제할 수 있습니다.

60초 음성 복제

약 1분간 자연스럽게 말하면 됩니다. 시스템이 2분 이내에 프로덕션 수준의 음성 모델을 생성합니다.

2단계 인증

실시간 문구 매칭과 임베딩 비교를 통한 화자 인증으로 무단 복제를 차단합니다.

28개 언어 지원

커스텀 보이스는 음성 태그, 웃음, 속삭임, 일시 정지 등 다국어 TTS 기능을 지원합니다.

팀 전용 프라이버시

모든 커스텀 보이스는 팀 내에서만 사용됩니다. 다른 사용자와 공유되거나 모델 학습에 사용되지 않습니다.

Voice Library란 무엇인가요?

Voice Library는 xAI 콘솔에서 사용 가능한 모든 음성을 한곳에 모아놓은 새로운 섹션입니다. 커스텀 보이스가 기존 5가지 내장 음성(Eve, Ara, Rex, Sal, Leo) 옆에 표시됩니다. 이번 출시와 함께 xAI는 사전 구축된 카탈로그를 28개 언어 80개 이상의 음성으로 확장했습니다. 선택하기 전에 다양한 시나리오에서 모든 음성을 미리 들어볼 수 있습니다.

각 내장 음성은 고유한 성격을 갖고 있습니다. Eve는 활기차고, Ara는 따뜻하고 대화체이며, Rex는 전문적이고, Sal은 부드럽고, Leo는 권위 있는 톤입니다. 커스텀 보이스는 속삭임, 웃음, 한숨, 강조를 위한 인라인 음성 태그를 포함하여 내장 음성과 동일한 TTS 기능을 사용합니다. 출력은 REST와 WebSocket 스트리밍 모두에서 작동합니다.

xAI 음성 복제 비용은 얼마인가요?

커스텀 보이스 사용에 대한 추가 요금은 없습니다. 가격은 표준 xAI API 요금을 따릅니다:

2026년 5월 기준 xAI Voice API 가격

서비스 가격 비고
텍스트 음성 변환 $4.20 / 100만 자 내장 5개 + 커스텀 음성, 28개 언어
Voice Agent (실시간) $3.00 / 시간 ($0.05/분) WebSocket 기반 음성 대 음성
음성 텍스트 변환 (스트리밍) $0.20 / 시간 실시간 전사
음성 텍스트 변환 (배치) $0.10 / 시간 오프라인 처리
커스텀 보이스 생성 무료 API 접근 시 포함

Voice Agent API는 추론과 실시간 음성을 결합한 grok-voice-think-fast-1.0에서 실행됩니다. 웹 검색, X 검색, 파일 검색, 외부 MCP 서버 연결 등 도구 사용을 지원하므로 에이전트가 대화 중에 단순히 말하는 것이 아니라 실제로 작업을 수행할 수 있습니다. 클라이언트 측 애플리케이션의 경우, Ephemeral Token을 사용하면 기본 API 키를 노출하지 않고 WebSocket 연결을 열 수 있습니다.

커스텀 보이스 생성 엔드포인트(POST /v1/custom-voices)에 대한 프로그래밍 방식 접근은 현재 Enterprise 플랜 팀으로 제한됩니다. 콘솔 기반 음성 생성 도구는 API 접근 권한이 있는 모든 사용자에게 개방되어 있습니다.

xAI 커스텀 보이스 체험하기

커스텀 보이스는 xAI 콘솔에서 이용할 수 있습니다. 전체 API 문서와 음성 생성 도구는 docs.x.ai/docs/guides/voice에서 확인하세요.

xAI 음성 가격은 ElevenLabs와 어떻게 다른가요?

xAI와 ElevenLabs 사이의 가격 차이는 크지만, 정확히 같은 제품을 판매하는 것은 아닙니다:

2026년 5월 기준 공개 가격 비교

기능 xAI 커스텀 보이스 ElevenLabs
음성 에이전트 (시간당) $3.00 $10.80 - $18.00
TTS (100만 자당) $4.20 ~$3.00 - $18.00 (플랜별 상이)
내장 음성 라이브러리 80개 이상, 28개 언어 3,000개 이상, 32개 이상 언어
음성 복제 시간 약 60초 녹음 약 30초 녹음
복제 API 접근 Enterprise 플랜 전용 Starter 플랜 이상
서비스 지역 미국만 (일리노이 제외) 전 세계
안전 인증 2단계 화자 인증 음성 동의 시스템
마켓플레이스 없음 Iconic Marketplace (라이선스 음성)

ElevenLabs는 여전히 더 큰 음성 라이브러리를 보유하고, 전 세계에서 작동하며, 라이선스된 유명인 음성을 위한 Iconic Marketplace를 운영합니다. xAI는 음성 에이전트 가격에서 우위를 점하며, 커스텀 보이스 생성에 추가 비용을 부과하지 않습니다. ElevenLabs는 음성을 복제하려면 최소 Starter 구독($5/월)이 필요합니다.

미국 내 전용 서비스

xAI 커스텀 보이스는 현재 미국 내 사용자만 이용할 수 있으며, 일리노이주는 생체 정보 보호법(BIPA)으로 인해 제외됩니다. ElevenLabs는 음성 복제 접근에 지역 제한 없이 전 세계에서 운영됩니다.

미국 외 지역에 있거나 더 큰 음성 카탈로그가 필요한 경우, ElevenLabs는 전 세계에서 작동하며 현재 3,000개 이상의 음성을 제공합니다.

어떤 안전 조치가 마련되어 있나요?

xAI의 2단계 인증은 대부분의 음성 복제 플랫폼보다 엄격합니다. 실시간 문구 매칭으로 화자가 복제 세션 중 물리적으로 존재하는지 확인하며, 사전 녹음된 파일 제출이 아님을 검증합니다. 이후 임베딩 비교를 통해 인증 문구와 전체 녹음이 실제로 같은 사람의 것인지 확인합니다.

커스텀 보이스는 생성한 팀 내에서만 비공개로 유지됩니다. xAI에 따르면 오디오 데이터는 실시간으로 처리되며 저장되거나 학습에 사용되지 않습니다. 플랫폼은 SOC 2 Type II 인증, HIPAA 적격성, 유럽 데이터에 대한 GDPR 준수를 갖추고 있지만, 복제 기능 자체는 여전히 미국 전용입니다.

의미와 전망

음성 AI 개발자에게

시간당 $3의 음성 에이전트는 대규모로 음성을 운영하는 모든 개발자의 비용 구조를 바꿉니다. ElevenLabs에서 시간당 $10-18이 드는 고객 지원 봇과 IVR 시스템이 xAI 스택에서는 갑자기 합리적인 선택이 됩니다. OpenAI Realtime API 호환성 덕분에 OpenAI용으로 구축된 기존 음성 앱도 코드를 크게 수정하지 않고 전환할 수 있습니다.

음성 복제 시장에 미치는 영향

음성 복제 시장은 이제 세 단계로 나뉩니다. ElevenLabs는 가장 많은 기능, 가장 큰 라이브러리, 글로벌 지원을 제공합니다. 전체 비교는 최고의 AI 음성 생성기 리뷰에서 확인하세요. OpenAI는 ChatGPT 내 TTS로 중간에 위치합니다. xAI는 두 경쟁사보다 엄격한 인증을 갖춘 가장 저렴한 옵션입니다.

미국 전용 제한은 큰 의미를 갖습니다. 미국 외 사용자는 여전히 커스텀 보이스를 생성할 수 없어 ElevenLabs가 국제 시장의 기본 선택으로 남아 있습니다. 무료 대안은 최고의 무료 음성 복제 도구 가이드를 참고하세요. xAI가 더 많은 국가에 서비스를 개방하면, 모든 경쟁사에 대한 가격 압박이 본격화될 것입니다.

자주 묻는 질문

xAI 커스텀 보이스는 어떻게 작동하나요?

xAI 커스텀 보이스는 사용자가 xAI 콘솔에서 약 60초간 자연스럽게 말하여 자신의 음성을 복제하는 기능입니다. 시스템은 2단계 인증 프로세스를 실행합니다. 먼저 실시간으로 음성 인증 문구를 매칭하고, 그다음 화자 임베딩을 비교하여 신원을 확인합니다. 결과물은 Text-to-Speech와 Voice Agent를 포함한 모든 xAI 음성 API에서 사용 가능한 8자리 voice ID입니다.

xAI 음성 복제 비용은 얼마인가요?

xAI에서 커스텀 보이스 생성은 무료입니다. 비용은 API 사용량에서 발생합니다. Text-to-Speech는 100만 자당 $4.20이며, Voice Agent API는 실시간 음성 대 음성 상호작용에 시간당 $3.00(분당 $0.05)입니다. 내장 음성 대신 커스텀 보이스를 사용해도 추가 비용이 없습니다.

xAI 음성 복제는 미국 외 지역에서 사용할 수 있나요?

사용할 수 없습니다. 2026년 5월 기준으로 xAI 커스텀 보이스는 미국 내 사용자로 제한되며, 일리노이주는 생체 정보 보호법으로 인해 제외됩니다. xAI는 국제 확장 일정을 발표하지 않았습니다. 미국 외 사용자는 xAI의 내장 TTS 음성에는 접근할 수 있지만 커스텀 보이스 복제는 생성할 수 없습니다.

xAI 커스텀 보이스와 ElevenLabs는 어떻게 다른가요?

xAI는 가격에서 ElevenLabs를 앞섭니다. 음성 에이전트 시간당 $3 대 ElevenLabs의 $10-18입니다. ElevenLabs는 3,000개 이상의 음성, 32개 이상 언어, 글로벌 지원, 라이선스 음성을 위한 Iconic Marketplace로 기능 면에서 앞서 있습니다. xAI는 2단계 화자 매칭으로 더 엄격한 안전 인증을 갖추고 있지만, 현재 미국 시장으로 제한됩니다.

누군가가 xAI로 허락 없이 제 음성을 복제할 수 있나요?

복제할 수 없습니다. xAI의 2단계 인증 프로세스는 복제 중 화자가 물리적으로 존재해야 합니다. 사용자는 실시간으로 인증 문구를 소리 내어 읽어야 하며, 시스템은 인증 문구와 전체 녹음 사이의 음성 임베딩을 비교하여 일치 여부를 확인합니다. 기존 녹음은 사용할 수 없으며, 타인의 음성 복제는 인증 파이프라인에 의해 차단됩니다.


출처

  1. Custom Voices and Voice Library - xAI Official - April 30, 2026
  2. xAI launches Grok 4.3 and voice cloning suite - VentureBeat - May 1, 2026
  3. xAI’s Custom Voices feature - The Decoder - May 2, 2026
  4. xAI Voice API Documentation - May 2026

이 글이 도움이 되셨나요?

0:00