알리바바의 Qwen, 3초 오디오로 모든 음성 복제 가능
핵심 요약
- ✓ 알리바바의 새로운 Qwen 모델은 단 3초의 오디오로 모든 음성을 복제할 수 있습니다
- ✓ 경쟁사와 비교하여 음성 복제의 장벽을 극적으로 낮춥니다
- ✓ 또한 출시: Photoshop처럼 이미지를 편집 가능한 레이어로 분할하는 AI 모델
- ✓ 두 모델 모두 알리바바의 Qwen 플랫폼을 통해 사용 가능
- ✓ 알리바바를 ElevenLabs와 함께 음성 AI의 심각한 경쟁자로 위치시킵니다
무슨 일이 있었나
알리바바는 Qwen 패밀리 하에서 음성 복제 기술의 경계를 넓히는 새로운 AI 모델을 출시했습니다. 눈에 띄는 기능: 단 3초의 오디오로 모든 음성을 복제할 수 있습니다.
이것은 음성 복제 접근성에서 중요한 도약을 나타냅니다. 대부분의 경쟁 서비스는 사용 가능한 음성 복제를 만들기 위해 30초에서 몇 분의 명확한 오디오가 필요합니다.
3초 음성 복제
비교
| 서비스 | 필요한 오디오 | 품질 |
|---|---|---|
| 알리바바 Qwen (신규) | 3초 | 높음 |
| ElevenLabs Instant Clone | 30초 이상 | 높음 |
| LOVO AI | 1분 | 높음 |
| Resemble AI | 25초 이상 | 높음 |
3초 요구 사항은 이론적으로 다음에서 음성을 복제할 수 있음을 의미합니다:
- 비디오의 단일 문장
- 짧은 음성 메시지
- 모든 소스의 짧은 오디오 클립
크리에이터에게 의미하는 것
이것은 가능한 것을 극적으로 확장합니다:
- 역사적 콘텐츠: 제한된 오디오로 아카이브 영상에서 음성 복제
- 접근성: 최소한의 소스 자료로 음성 콘텐츠 생성
- 현지화: 다국어 콘텐츠를 위한 빠른 음성 복제 생성
- 개인화: 앱, 게임 및 대화형 경험을 위한 사용자 정의 음성
이미지 레이어 분리 모델
음성 모델과 함께 알리바바는 이미지를 편집 가능한 레이어로 분할하는 AI 모델을 출시했습니다—Photoshop이 요소를 분리하는 방식과 유사합니다.
이 기능은 다음을 허용합니다:
- AI 생성 이미지의 비파괴 편집
- 전경, 배경 및 개별 요소 분리
- 수동 마스킹 없이 레이어 기반 조작
- 복잡한 시각적 구도의 빠른 반복
중요한 이유
음성 복제 경쟁 가열
알리바바의 진입은 서구 음성 AI 회사의 지배력에 도전합니다:
- ElevenLabs: 현재 $6.6B 가치 평가로 시장 리더
- OpenAI: 최근 ChatGPT에 음성 기능 추가
- Google: Gemini를 위한 음성 기능 개발
- Microsoft: Azure 음성 서비스
Qwen의 3초 복제는 경쟁사가 오디오 요구 사항을 줄이도록 압력을 가할 수 있습니다.
윤리적 고려 사항
초고속 음성 복제는 중요한 질문을 제기합니다:
- 동의: 오디오 소스가 음성에 대한 권리를 가지고 있는지 확인하는 방법은?
- 딥페이크: 무단 음성 사칭의 쉬운 생성
- 검증: 음성 인증 기술의 필요성
- 규제: 음성 AI 법률에 대한 요구를 가속화할 수 있음
알리바바는 아직 이 기술과 함께 제공되는 안전 장치를 자세히 설명하지 않았습니다.
기술 세부 사항
Qwen 음성 모델은 보고에 따르면 다음을 사용합니다:
- 최소 오디오에서 고급 화자 임베딩 추출
- 짧은 참조 샘플에 최적화된 뉴럴 음성 합성
- 교차 언어 음성 전송 기능
전체 기술 문서는 초기 발표 후에 이어질 예정입니다.
시장 맥락
이 출시는 음성 AI 투자가 가속화되는 시점에 나옵니다:
- ElevenLabs가 2025년 10월에 $6.6B 가치 평가로 자금 조달
- 음성 복제 시장이 2028년까지 $8B에 도달할 것으로 예상
- 고객 서비스, 콘텐츠 및 접근성을 위한 엔터프라이즈 채택 증가
알리바바의 클라우드 서비스에서 공격적인 가격 책정은 Qwen 음성 기능이 서구 대안에 대해 경쟁력 있는 가격으로 제공될 수 있음을 시사합니다.
주목할 사항
- 품질 비교: 3초 Qwen 복제가 더 긴 ElevenLabs 샘플과 어떻게 비교되는가?
- API 가용성: 개발자가 중국 외부에서 언제 액세스를 얻을 수 있는가?
- 안전 조치: 알리바바가 어떤 가드레일을 구현할 것인가?
- 엔터프라이즈 채택: 기업이 음성 애플리케이션에 중국 AI를 신뢰할 것인가?
우리가 주목하는 것: ElevenLabs 및 기타 음성 AI 리더가 이 기능 격차에 어떻게 대응하는지, 그리고 3초 음성 복제가 새로운 업계 표준이 될지 여부.
출처
- Distill Intelligence: AI 리더 주간 브리핑 - 2025년 12월 26일
- The Decoder: 알리바바의 새로운 Qwen 모델은 3초 오디오로 음성을 복제할 수 있습니다 - 2025년 12월