Kling O1: 세계 최초의 통합 멀티모달 비디오 모델 출시

작성자: GenMediaLab • 2026년 1월 7일 • 6 분 읽기

핵심 요약

✓ 모든 비디오 작업을 하나의 엔진에 결합한 최초의 통합 멀티모달 비디오 모델
✓ 자연어 편집: '지나가는 사람 제거' 또는 '일몰로 변경'과 같은 변경 사항 설명
✓ 동적 샷 전반에 걸쳐 캐릭터와 장면 일관성 유지
✓ 여러 창작 작업을 동시에 실행하는 '스킬 콤보' 지원
✓ 3-10초 지속 시간으로 30fps에서 최대 2K 해상도(1080p) 출력

무슨 일이 일어났나

2025년 12월 30일, Kuaishou Technology는 Kling O1을 출시했으며, 이를 세계 최초의 통합 멀티모달 비디오 모델로 포지셔닝했습니다. 다른 작업에 대해 다른 모델 간 전환을 요구하는 전통적인 AI 비디오 도구와 달리, Kling O1은 텍스트, 비디오, 이미지, 주제 입력을 단일 통합 엔진에 통합합니다.

이것은 AI 비디오 생성에서 중요한 아키텍처 변화를 나타냅니다—특수 도구에서 하나의 시스템 내에서 생성, 편집, 변환을 처리하는 통합 플랫폼으로.

통합 멀티모달이 중요한 이유

옛날 방식: 도구 전환

전통적인 AI 비디오 워크플로우는 크리에이터가 여러 도구를 저글링해야 합니다:

초기 생성을 위한 텍스트-투-비디오 도구
정지 이미지를 애니메이션화하기 위한 이미지-투-비디오 도구
수정을 위한 별도 편집 소프트웨어
시각적 변경을 위한 스타일 전이 도구
객체 제거를 위한 수동 마스킹

각 단계는 캐릭터, 조명, 스타일에서 잠재적 불일치를 도입합니다.

Kling O1 접근 방식: 하나의 엔진

Kling O1은 이러한 모든 기능을 통합합니다:

작업	전통적 접근 방식	Kling O1
텍스트-투-비디오	전용 모델	✅ 통합 엔진
참조 기반 비디오	별도 도구	✅ 통합 엔진
비디오 인페인팅	수동 마스킹	✅ 자연어
스타일 변환	특수 모델	✅ 통합 엔진
샷 확장	내보내기/가져오기	✅ 내장

주요 기능

멀티모달 비주얼 언어 (MVL)

Kling O1은 MVL을 사용하여 다양한 입력—텍스트, 이미지, 비디오, 주제 참조—을 처리하고 해석하여 입력 유형에 관계없이 맥락적으로 정확한 출력을 가능하게 합니다.

자연어 편집

복잡한 편집 인터페이스를 배우는 대신, 사용자는 일반 언어로 변경 사항을 설명할 수 있습니다:

“배경에서 지나가는 사람 제거” — 수동 마스킹 불필요
“낮을 일몰로 변경” — 자동 조명 및 색상 변환
“캐릭터가 웃도록 만들기” — 즉석 표현 수정

이것은 프레임별 편집이나 키프레임 조작의 필요성을 제거합니다.

캐릭터 및 장면 일관성

AI 비디오에서 가장 큰 도전 과제 중 하나는 샷 전반에 걸쳐 일관성을 유지하는 것이었습니다. Kling O1은 다음을 통해 이 “일관성 도전”을 구체적으로 해결합니다:

동적 장면 전반에 걸쳐 캐릭터 외모 보존
시퀀스 전체에 걸쳐 소품 및 객체 유지
환경 설정을 일관되게 유지

스킬 콤보

눈에 띄는 기능: Kling O1은 여러 창작 작업을 동시에 실행할 수 있습니다. 예를 들어:

배경을 수정하는 동시에 새로운 주제 추가
샷을 확장하는 동시에 스타일 변환
모션을 추가하는 동시에 조명 변경

이 병렬 처리로 복잡한 창작 워크플로우가 극적으로 가속화됩니다.

기술 사양

사양	기능
해상도	최대 2K (1080p 표준)
프레임 속도	30 FPS
지속 시간	3-10초 (사용자 정의 속도)
추론	현실적인 물리학을 위한 사고 체인

사용 사례

영화 및 텔레비전

일관된 캐릭터와 장면으로 샷의 사전 시각화 및 빠른 프로토타이핑.

소셜 미디어

여러 앱 간 전환하거나 복잡한 편집 소프트웨어를 배우지 않고도 세련된 콘텐츠 생성.

전자상거래

전체 카탈로그에 걸쳐 일관된 조명과 프레젠테이션을 가진 제품 비디오.

Kling AI 체험하기

AI 비디오 생성에 대한 통합 멀티모달 접근 방식을 경험하세요

Kling AI 방문 →

Kling O1 비교

기능	Kling O1	Runway Gen-4	Sora 2	Veo 3
통합 엔진	✅	❌	❌	❌
자연어 편집	✅	제한적	제한적	제한적
다중 작업 콤보	✅	❌	❌	❌
일관성 포커스	✅ 내장	다양함	다양함	다양함
오디오 생성	Kling 2.6을 통해	❌	❌	✅

경쟁사들이 특정 영역(Sora의 비주얼 충실도, Veo의 오디오 통합)에서 뛰어나지만, Kling O1의 통합 접근 방식은 워크플로우 효율성에 대해 독특하게 포지셔닝합니다.

크리에이터에게 이것이 의미하는 것

개별 크리에이터를 위해

세련된 비디오 편집에 대한 진입 장벽이 크게 낮아집니다. 자연어 명령이 기술적 기술을 대체합니다.

제작 팀을 위해

더 빠른 반복 주기. 다른 도구로 내보내야 했던 변경 사항이 이제 하나의 플랫폼 내에서 발생합니다.

업계를 위해

이것은 통합 멀티모달 시스템으로의 전환을 시사합니다. 경쟁사들이 자신의 통합 접근 방식으로 따라올 것으로 예상됩니다.

가용성

Kling O1은 Kling AI 플랫폼을 통해 지금 사용할 수 있습니다. 동시 오디오-비주얼 생성을 제공하는 기존 Kling Video 2.6 모델을 보완합니다.

자주 묻는 질문

Kling O1이란 무엇인가요?

Kling O1은 Kuaishou의 통합 멀티모달 비디오 모델로, 텍스트-투-비디오, 이미지-투-비디오, 비디오 편집, 스타일 전이, 샷 확장을 단일 엔진에 결합합니다.

Kling O1이 다른 AI 비디오 도구와 어떻게 다른가요?

한 작업에 특화된 도구와 달리, Kling O1은 하나의 통합 엔진에서 모든 비디오 생성 및 편집 작업을 처리하여 일관성을 유지하고 자연어 편집을 가능하게 합니다.

Kling O1에서 텍스트 명령으로 비디오를 편집할 수 있나요?

네. Kling O1은 자연어 편집을 지원합니다—수동 마스킹 없이 '배경의 사람 제거' 또는 '조명을 일몰로 변경'과 같은 변경 사항을 설명할 수 있습니다.

Kling O1이 지원하는 해상도는 무엇인가요?

Kling O1은 초당 30프레임으로 3-10초 지속 시간으로 최대 2K 해상도(1080p 표준)를 생성합니다.

Kling O1에 오디오 생성이 포함되나요?

Kling O1은 통합 비디오 기능에 중점을 둡니다. 동시 오디오-비주얼 생성을 위해 Kuaishou는 음성, 음향 효과, 앰비언트 오디오가 포함된 비디오를 생성하는 Kling Video 2.6을 제공합니다.

우리가 주시하는 것: OpenAI, Runway, Google과 같은 경쟁사가 통합 멀티모달 아키텍처로 이동할지, 그리고 Kling이 O1의 기능을 버전 2.6의 기존 오디오-비주얼 기능과 어떻게 통합할지 여부입니다.

출처

Kuaishou Technology Press Release (PRNewswire) - 2025년 12월 30일

GenMediaLab 관련 기사

이 글이 도움이 되셨나요?

제휴 공개: 이 리뷰에는 제휴 링크가 포함되어 있습니다. 당사 링크를 통해 구매하시면 추가 비용 없이 커미션을 받을 수 있습니다. 당사는 직접 테스트하고 독자들에게 진정한 가치를 제공한다고 믿는 도구만 추천합니다.