Kling AI 3.0: 네이티브 오디오, 스토리보드, AI 디렉터 모드 출시

작성자: GenMediaLab 7 분 읽기
Kling AI 3.0 AI 디렉터 모드를 보여주는 홀로그래픽 비디오 화면에 둘러싸인 미래형 영화 감독 의자

핵심 요약

  • 쿠아이쇼우가 2026년 2월 5일 Kling AI 3.0을 출시했으며, Video 3.0, Video 3.0 Omni, Image 3.0, Image 3.0 Omni 네 가지 모델을 선보였다
  • 네이티브 다국어 오디오는 영어, 중국어, 일본어, 한국어, 스페인어를 지원하며 억양 조절과 다캐릭터 대화가 가능하다
  • 멀티샷 스토리보딩으로 최대 6개의 연결된 샷을 정의할 수 있으며, 샷별 카메라, 길이, 구도 조절이 가능하다
  • AI 디렉터 모드는 영화적 스토리텔링을 위한 샷 구성, 카메라 앵글, 크로스컷팅을 자동화한다
  • 가격은 월 $7.90부터 시작하며 무료 일일 크레딧 제공, Sora 2와 Runway Gen-4.5보다 저렴하다
15초 최대 클립 길이
4K 해상도
5개 오디오 언어
$7.90/월 시작 가격

쿠아이쇼우 테크놀로지가 2026년 2월 5일 Kling AI 3.0을 공식 출시하며, 프로급 영화 제작에 한 걸음 더 다가선 AI 동영상 생성을 위한 네 가지 신규 모델을 선보였다. 이번 출시는 Kling 2.6 시리즈에서 크게 도약한 것으로, 네이티브 다국어 오디오, 멀티샷 스토리보딩, 영화적 샷 구성을 자동화하는 AI 디렉터 시스템을 추가했다.

이번 업데이트는 AI 동영상 시장의 경쟁이 치열해지는 시점에 맞춰 진행됐다. 바이트댄스의 Seedance 2.0 출시가 며칠 후 할리우드 저작권 논란으로 헤드라인을 장식했고, OpenAI의 Sora 2와 Runway Gen-4.5는 계속 업데이트를 이어가고 있다. Kling 3.0은 감독급 창작 제어와 AI 동영상 시장의 대부분 경쟁사보다 더 저렴한 가격을 결합해 차별화를 꾀한다.

Kling AI 3.0 체험하기

네이티브 오디오, 멀티샷 스토리보드, AI 디렉터 모드로 영화급 AI 동영상을 만들어보세요.

Kling AI 시작하기 →

3.0 모델 라인업

Kling 3.0은 단일 모델이 아니라, 서로 다른 워크플로우에 맞춘 네 가지 모델 패밀리다.

🎬

Video 3.0

핵심 모델: 네이티브 오디오와 멀티샷 스토리텔링을 지원하는 15초 영화급 동영상

🎥

Video 3.0 Omni

커스텀 스토리보드, 음성 추출, 캐릭터 일관성을 지원하는 레퍼런스 기반 생성

🖼️

Image 3.0

4K 해상도까지 지원하는 초고해상도 이미지 생성

Image 3.0 Omni

출력물 전반에 걸쳐 피사체 일관성을 유지하는 레퍼런스 기반 이미지 생성

Video 3.0은 기반 모델로, 5개 언어의 네이티브 오디오와 지능형 멀티샷 스토리텔링을 갖춘 사진처럼 사실적인 캐릭터의 15초 클립을 제공한다. 동적 카메라 제어, 동영상 프레임 내 텍스트 보존, 물리 기반 모션을 처리한다.

Video 3.0 Omni는 레퍼런스 기반 생성으로 이 기반을 확장한다. 레퍼런스 동영상을 업로드하면 모델이 시각적 특징과 음성 특성을 모두 추출해, 새로운 장면에서 충실히 재현한다. 커스텀 스토리보드 기능으로 멀티샷 시퀀스의 각 샷에 대해 길이, 샷 사이즈, 구도, 서사 내용, 카메라 움직임을 지정할 수 있다.

네이티브 다국어 오디오

Kling 3.0에서 가장 중요한 추가 기능은 네이티브 오디오 생성이다. 후처리로 붙이는 대신, 동영상과 동일한 아키텍처에서 음성을 합성한다.

지원 언어는 다음과 같다:

  • 영어 (미국, 영국, 인도 억양)
  • 중국어
  • 일본어
  • 한국어
  • 스페인어

다캐릭터 장면에서 각 캐릭터가 다른 언어로 말할 수 있으며, 정확한 립싱크가 적용된다. 쿠아이쇼우 공식 발표에 따르면, 모델은 “다캐릭터 코레퍼런스”를 처리한다. 즉, 동시에 3명 이상의 화자가 나오는 다양한 카메라 앵글과 장면 전환에서 시각적 정체성과 대화 귀속을 유지한다.

이 통합 방식은 완성된 동영상 클립에 오디오를 덧붙이는 도구보다 더 정밀한 오디오-비주얼 동기화를 제공한다. 여러 시장을 대상으로 하는 크리에이터에게는 별도의 현지화 단계를 없애준다.

Kling 2.6과 비교

Kling 2.6은 동시 오디오-비주얼 생성을 최초로 도입했다. 3.0 버전에서는 다캐릭터 대화, 다국어, 억양 조절, 레퍼런스 동영상에서의 음성 추출로 확장된다.

AI 디렉터와 멀티샷 스토리보딩

쿠아이쇼우는 Kling 3.0을 “모두를 감독으로 만드는” 도구로 포지셔닝하며, AI 디렉터 시스템이 그 핵심이다.

단일 연속 샷을 생성하는 대신, Video 3.0은 단일 15초 클립 내에서 최대 6개의 연결된 샷을 생성할 수 있다. AI 디렉터가 자동으로 다음을 구성한다:

  • 샷-리버스-샷 대화 시퀀스
  • 병렬 장면 간 크로스컷팅
  • 클로즈업으로 전환되는 에스타블리싱 샷
  • 영화적 동기에 따른 카메라 팬, 틸트, 줌

Video 3.0 Omni는 커스텀 스토리보드 기능으로 더 나아간다. 각 샷의 길이, 프레이밍, 구도, 서사 내용, 카메라 움직임을 세밀하게 제어할 수 있다. 완전 자동 생성과 프레임별 편집 사이의 중간 지점으로, 전통적인 후반작업의 부담 없이 제어를 원하는 크리에이터에게 유리하다.

텍스트 보존과 이커머스 활용

덜 눈에 띄지만 상업적으로 중요한 기능: Kling 3.0은 동영상에 렌더링된 텍스트를 높은 충실도로 보존한다. 의류의 로고, 장면의 간판, 브랜드 요소가 클립 전체에서 선명하고 읽기 쉽게 유지된다.

이로 인해 모델은 이커머스 광고에 특히 유용하다. 캐릭터가 브랜드 로고가 있는 셔츠를 입거나, 포장이 보이는 제품을 들거나, 상점 앞을 지나가면서도 텍스트가 계속 읽을 수 있다. 이전 AI 동영상 모델들은 텍스트를 추상적인 형태로 흐리게 만드는 경우가 많았다.

가격 및 경쟁 포지셔닝

Kling 3.0은 그동안의 인기 요인인 공격적 가격 정책을 유지한다.

Kling AI 3.0 Sora 2 Runway Gen-4.5
최대 길이 15초 60초 10초
해상도 4K / HDR 1080p 1080p
네이티브 오디오 5개 언어 없음 없음
멀티샷 최대 6샷 없음 없음
시작 가격 $7.90/월 $20/월 $12/월
무료 티어 66 크레딧/일 없음 제한적

Kling은 Sora 2와 Runway보다 가격이 저렴하면서 네이티브 오디오와 멀티샷 스토리보딩 등 현재 양쪽 모두 지원하지 않는 기능을 제공한다. Sora 2는 여전히 최대 클립 길이(60초)와 단일 샷 시나리오의 원시 화질에서 앞선다. Runway Gen-4.5는 모션 브러시와 확립된 프로 워크플로우로 창작 제어에서 가장 강점을 보인다.

일일 66 크레딧의 무료 티어는 구독 전 실험에 충분한 양을 제공하며, 이 전략은 초기 버전부터 Kling의 사용자 성장을 이끌어왔다.

시사점

동영상 크리에이터에게

Kling 3.0은 AI 동영상 생성과 프로 사전 제작 간의 격차를 줄인다. 멀티샷 스토리보딩과 AI 디렉터 기능이 이전에는 편집 소프트웨어가 필요했던 작업—앵글 간 전환, 샷 간 캐릭터 일관성 유지, 대화 동기화—을 처리한다. 숏폼 콘텐츠(광고, 소셜 클립, 제품 데모)를 작업하는 크리에이터는 이제 한 번에 멀티씬 시퀀스를 생성할 수 있다.

AI 동영상 시장에

3.0 출시는 중국과 서양 AI 동영상 플랫폼 간 경쟁을 더욱 가열시킨다. 쿠아이쇼우, 바이트댄스(Seedance), 알리바바, 미니맥스가 빠르게 반복 개선하는 동안, OpenAI, 구글(Veo), Runway는 품질과 안전성으로 경쟁한다. Kling이 2.6 버전에서 선도한 네이티브 오디오 통합은 차별화 요소라기보다 표준 기대치가 될 가능성이 크다.

경쟁 플랫폼에

멀티샷 스토리보딩은 내러티브 콘텐츠에서 Kling에게 구조적 이점을 준다. Sora 2와 Runway는 현재 단일 연속 샷만 생성하며, 사용자가 클립을 수동으로 편집해 이어붙여야 한다. Kling의 스토리보딩이 대규모에서 안정적으로 입증되면, 경쟁사들은 유사 기능 추가 압박에 직면할 것이다.

지금 Kling AI 3.0 체험하기

네이티브 오디오, 멀티샷 스토리보드, 4K 해상도로 영화급 AI 동영상을 제작해보세요.

Kling AI 무료로 시작하기 →

자주 묻는 질문

Kling AI 3.0이란?

Kling AI 3.0은 2026년 2월 5일 출시된 쿠아이쇼우의 최신 AI 동영상·이미지 생성 플랫폼이다. 네 가지 모델(Video 3.0, Video 3.0 Omni, Image 3.0, Image 3.0 Omni)을 포함하며, 네이티브 다국어 오디오, 멀티샷 스토리보딩, AI 디렉터 모드, 4K 출력을 지원한다.

Kling 3.0 오디오는 어떤 언어를 지원하나요?

Kling 3.0은 5개 언어로 네이티브 오디오를 생성한다: 영어(미국, 영국, 인도 억양), 중국어, 일본어, 한국어, 스페인어. 장면의 각 캐릭터가 다른 언어로 말할 수 있으며 립싱크가 동기화된다.

Kling AI 3.0 가격은 얼마인가요?

Kling AI 3.0은 일일 66 크레딧의 무료 티어를 제공한다. 유료 플랜은 월 $7.90(베이직, 연간 결제)부터 시작하며 100 크레딧/월과 720p 동영상을 포함한다. Pro($39.90/월)와 Ultra($79.90/월) 플랜은 1080p 출력과 더 많은 크레딧을 제공한다. 모든 유료 플랜에 상업적 사용 권리가 포함된다.

Kling 3.0과 Sora 2를 어떻게 비교하나요?

Kling 3.0은 네이티브 오디오, 멀티샷 스토리보딩, AI 디렉터 모드를 더 저렴한 가격($7.90/월 vs $20/월)에 제공한다. Sora 2는 더 긴 클립(최대 60초 vs 15초)을 지원하며 일반적으로 단일 샷 화질이 더 우수하다. Kling은 내러티브·멀티씬 콘텐츠에 강하고, Sora는 장시간 단일 테이크 영화 샷에 유리하다.

Kling 3.0의 AI 디렉터 모드란?

AI 디렉터 모드는 멀티샷 시퀀스 전반에 걸쳐 카메라 앵글, 샷 구성, 전환을 자동으로 조율한다. 샷-리버스-샷 대화, 장면 간 크로스컷팅, 에스타블리싱-투-클로즈업 전환 같은 기법을 수동 편집 없이 처리한다.

Kling 3.0이 샷 간 캐릭터 일관성을 유지할 수 있나요?

예. Video 3.0과 Video 3.0 Omni 모두 시각적 일관성을 유지하기 위해 캐릭터 이미지나 동영상을 업로드하는 레퍼런스 기반 생성을 지원한다. Omni는 추가로 레퍼런스 동영상에서 음성 특성을 추출해 장면 전반의 오디오 일관성을 유지한다.


출처

이 글이 도움이 되셨나요?