알리바바의 Qwen, 3초 오디오로 모든 음성 복제 가능

작성자: GenMediaLab 4 분 읽기
알리바바 Qwen 음성 복제 AI 모델

핵심 요약

  • 알리바바의 새로운 Qwen 모델은 단 3초의 오디오로 모든 음성을 복제할 수 있습니다
  • 경쟁사와 비교하여 음성 복제의 장벽을 극적으로 낮춥니다
  • 또한 출시: Photoshop처럼 이미지를 편집 가능한 레이어로 분할하는 AI 모델
  • 두 모델 모두 알리바바의 Qwen 플랫폼을 통해 사용 가능
  • 알리바바를 ElevenLabs와 함께 음성 AI의 심각한 경쟁자로 위치시킵니다

무슨 일이 있었나

알리바바는 Qwen 패밀리 하에서 음성 복제 기술의 경계를 넓히는 새로운 AI 모델을 출시했습니다. 눈에 띄는 기능: 단 3초의 오디오로 모든 음성을 복제할 수 있습니다.

이것은 음성 복제 접근성에서 중요한 도약을 나타냅니다. 대부분의 경쟁 서비스는 사용 가능한 음성 복제를 만들기 위해 30초에서 몇 분의 명확한 오디오가 필요합니다.

3초 음성 복제

비교

서비스필요한 오디오품질
알리바바 Qwen (신규)3초높음
ElevenLabs Instant Clone30초 이상높음
LOVO AI1분높음
Resemble AI25초 이상높음

3초 요구 사항은 이론적으로 다음에서 음성을 복제할 수 있음을 의미합니다:

  • 비디오의 단일 문장
  • 짧은 음성 메시지
  • 모든 소스의 짧은 오디오 클립

크리에이터에게 의미하는 것

이것은 가능한 것을 극적으로 확장합니다:

  • 역사적 콘텐츠: 제한된 오디오로 아카이브 영상에서 음성 복제
  • 접근성: 최소한의 소스 자료로 음성 콘텐츠 생성
  • 현지화: 다국어 콘텐츠를 위한 빠른 음성 복제 생성
  • 개인화: 앱, 게임 및 대화형 경험을 위한 사용자 정의 음성

이미지 레이어 분리 모델

음성 모델과 함께 알리바바는 이미지를 편집 가능한 레이어로 분할하는 AI 모델을 출시했습니다—Photoshop이 요소를 분리하는 방식과 유사합니다.

이 기능은 다음을 허용합니다:

  • AI 생성 이미지의 비파괴 편집
  • 전경, 배경 및 개별 요소 분리
  • 수동 마스킹 없이 레이어 기반 조작
  • 복잡한 시각적 구도의 빠른 반복

중요한 이유

음성 복제 경쟁 가열

알리바바의 진입은 서구 음성 AI 회사의 지배력에 도전합니다:

  • ElevenLabs: 현재 $6.6B 가치 평가로 시장 리더
  • OpenAI: 최근 ChatGPT에 음성 기능 추가
  • Google: Gemini를 위한 음성 기능 개발
  • Microsoft: Azure 음성 서비스

Qwen의 3초 복제는 경쟁사가 오디오 요구 사항을 줄이도록 압력을 가할 수 있습니다.

윤리적 고려 사항

초고속 음성 복제는 중요한 질문을 제기합니다:

  1. 동의: 오디오 소스가 음성에 대한 권리를 가지고 있는지 확인하는 방법은?
  2. 딥페이크: 무단 음성 사칭의 쉬운 생성
  3. 검증: 음성 인증 기술의 필요성
  4. 규제: 음성 AI 법률에 대한 요구를 가속화할 수 있음

알리바바는 아직 이 기술과 함께 제공되는 안전 장치를 자세히 설명하지 않았습니다.

음성 복제 옵션 탐색

오늘 사용 가능한 최고의 음성 복제 도구 비교

음성 복제 비교 →

기술 세부 사항

Qwen 음성 모델은 보고에 따르면 다음을 사용합니다:

  • 최소 오디오에서 고급 화자 임베딩 추출
  • 짧은 참조 샘플에 최적화된 뉴럴 음성 합성
  • 교차 언어 음성 전송 기능

전체 기술 문서는 초기 발표 후에 이어질 예정입니다.

시장 맥락

이 출시는 음성 AI 투자가 가속화되는 시점에 나옵니다:

  • ElevenLabs가 2025년 10월에 $6.6B 가치 평가로 자금 조달
  • 음성 복제 시장이 2028년까지 $8B에 도달할 것으로 예상
  • 고객 서비스, 콘텐츠 및 접근성을 위한 엔터프라이즈 채택 증가

알리바바의 클라우드 서비스에서 공격적인 가격 책정은 Qwen 음성 기능이 서구 대안에 대해 경쟁력 있는 가격으로 제공될 수 있음을 시사합니다.

주목할 사항

  • 품질 비교: 3초 Qwen 복제가 더 긴 ElevenLabs 샘플과 어떻게 비교되는가?
  • API 가용성: 개발자가 중국 외부에서 언제 액세스를 얻을 수 있는가?
  • 안전 조치: 알리바바가 어떤 가드레일을 구현할 것인가?
  • 엔터프라이즈 채택: 기업이 음성 애플리케이션에 중국 AI를 신뢰할 것인가?

우리가 주목하는 것: ElevenLabs 및 기타 음성 AI 리더가 이 기능 격차에 어떻게 대응하는지, 그리고 3초 음성 복제가 새로운 업계 표준이 될지 여부.


출처


GenMediaLab 관련 기사

이 글이 도움이 되셨나요?