CraftStory, 5분 인간 비디오를 위한 이미지-비디오 AI 출시
핵심 요약
- ✓ 단일 이미지에서 최대 5분 스튜디오 품질 인간 비디오 생성
- ✓ 텍스트 스크립트에서 자연스러운 표정, 바디 랭귀지 및 제스처 생성
- ✓ 최대 80초의 움직이는 카메라와 워크 앤 토크 비디오 (베타)
- ✓ 병렬화된 확산 파이프라인이 장편 콘텐츠 전반에 걸쳐 일관성 유지
- ✓ AI 아바타 비디오 제작을 위한 HeyGen 및 Synthesia의 직접 경쟁자
무슨 일이 있었나
2026년 1월 8일, CraftStory는 Model 2.0 플랫폼의 향상인 이미지-비디오 모델 출시를 발표했습니다. 이 도구는 단일 사진과 작성된 스크립트만으로 최대 5분, 스튜디오 품질 인간 비디오를 생성합니다.
이것은 CraftStory를 HeyGen 및 Synthesia와 같은 확립된 AI 아바타 플랫폼의 직접 경쟁자로 위치시키며, 주요 차별화 요소: 전통적인 촬영 없이 상당히 더 긴 비디오 출력입니다.
작동 방식
단일 이미지 + 스크립트 = 전체 비디오
워크플로우는 간단합니다:
- 사람의 단일 이미지 업로드
- 스크립트 또는 오디오 트랙 추가
- 전체 비디오 연기 생성
CraftStory의 Model 2.0은 사람과 환경을 모두 애니메이션하여 전체 비디오를 합성합니다. 시스템은 다음을 생성합니다:
- 음성 콘텐츠와 일치하는 자연스러운 표정
- 시간에 따라 진화하는 바디 랭귀지 및 제스처
- 일관된 장면을 위한 환경 애니메이션
기술 기반: 병렬화된 확산
핵심은 장편 인간 비디오 생성을 위해 특별히 설계된 병렬화된 확산 파이프라인입니다. 시스템은 전역 일관성을 강제하면서 다른 시간 세그먼트를 동시에 처리합니다—짧은 클립을 넘어 AI 비디오를 괴롭혀온 일관성 문제를 해결합니다.
| 사양 | CraftStory Model 2.0 |
|---|---|
| 최대 지속 시간 | 최대 5분 |
| 입력 | 단일 이미지 + 스크립트/오디오 |
| 출력 품질 | 스튜디오 품질 |
| 워크 앤 토크 | 최대 80초 (베타) |
주요 기능
장편 생성
대부분의 AI 비디오 도구는 10-30초에서 최대입니다. CraftStory의 5분 기능은 다음을 위한 가능성을 엽니다:
- 컷이 필요 없는 교육 비디오
- 완전한 프레젠테이션을 가진 제품 설명
- 지속적인 지시를 가진 교육 콘텐츠
움직이는 카메라와 워크 앤 토크
현재 베타인 눈에 띄는 기능: 사람이 말하는 동안 장면을 자연스럽게 이동하고 카메라가 움직임을 추적하는 워크 앤 토크 비디오입니다.
이것은 이전에 실제 촬영이나 복잡한 수동 애니메이션이 필요했던 더 영화적이고 역동적인 샷을 만듭니다.
스크립트-연기
간단한 립싱크 도구와 달리, CraftStory는 스크립트를 해석하여 상황에 맞는 다음을 생성합니다:
- 눈썹 움직임 및 얼굴 미세 표현
- 강조점과 일치하는 손 제스처
- 다른 콘텐츠 섹션 동안 자세 변화
CraftStory 비교
| 기능 | CraftStory | HeyGen | Synthesia |
|---|---|---|---|
| 최대 지속 시간 | 5분 | ~60초 | ~60초 |
| 입력 유형 | 사진 + 스크립트 | 아바타 선택 | 아바타 선택 |
| 워크 앤 토크 | ✅ 베타 | ❌ | ❌ |
| 사용자 정의 아바타 | 사진 업로드 | 비디오 훈련 | 비디오 훈련 |
| 움직이는 카메라 | ✅ | 제한적 | 제한적 |
CraftStory가 뛰어난 곳
- 지속 시간: 경쟁사보다 5배 긴 비디오
- 단순성: 사용자 정의 아바타를 위한 비디오 훈련 대신 단일 사진 입력
- 카메라 움직임: 역동적인 샷을 위한 내장 지원
확립된 플랫폼이 선도하는 곳
- 아바타 라이브러리: HeyGen (700+) 및 Synthesia (240+)가 즉시 사용 가능한 아바타 제공
- 음성 복제: 음성 복제 서비스와의 더 깊은 통합
- 언어 지원: 더 넓은 다국어 기능 (175개 이상의 언어)
- 엔터프라이즈 기능: 규정 준수, 팀 관리, API 성숙도
사용 사례
기업 교육
프레젠터를 촬영하지 않고 확장된 교육 모듈 생성. 회사 대변인의 단일 사진으로 시간의 교육 콘텐츠를 생성할 수 있습니다.
전자상거래 제품 비디오
기능, 혜택 및 비교를 안내하는 가상 프레젠터와 장편 제품 데모.
교육 콘텐츠
시간 제약 없이 복잡한 주제를 설명해야 하는 강사가 있는 전체 강의 세그먼트 또는 튜토리얼 비디오.
고객 커뮤니케이션
규모에 맞춘 개인화된 비디오 메시지—고객 온보딩, 지원 설명 또는 계정 업데이트.
산업에 대한 의미
지속 시간 장벽 깨짐
5분 기능은 중요한 도약을 나타냅니다. CraftStory가 규모에 맞춰 품질을 제공한다면, HeyGen, Synthesia 및 기타가 자신들의 지속 시간 제한을 확장하도록 압력을 가합니다.
사진-비디오 단순화
단일 사진만 필요로 하는 것은 사용자 정의 아바타를 훈련하기 위해 비디오 영상이 필요한 플랫폼에 비해 장벽을 낮춥니다. 이것은 아바타 생성 프로세스 없이 빠른 사용자 정의 프레젠터 비디오를 원하는 사용자에게 어필할 수 있습니다.
베타 기능이 방향을 알림
움직이는 카메라와 워크 앤 토크는 CraftStory가 더 정교한 프로덕션 기능을 목표로 하고 있음을 시사합니다—정적 아바타 토킹 헤드뿐만 아니라 전통적인 비디오 제작과 잠재적으로 경쟁합니다.
사용 가능 여부
CraftStory 이미지-비디오와 Model 2.0은 현재 플랫폼을 통해 사용할 수 있습니다. 워크 앤 토크 기능은 베타이며 기존 계정에 점진적으로 출시되고 있습니다.
가격 세부 사항은 발표에서 공개되지 않았습니다.
자주 묻는 질문
CraftStory 이미지-비디오란 무엇인가요?
CraftStory 이미지-비디오는 단일 사진과 작성된 스크립트에서 최대 5분 인간 비디오를 생성하는 AI 모델로, 자연스러운 표정, 바디 랭귀지 및 제스처를 만듭니다.
CraftStory는 HeyGen 또는 Synthesia와 어떻게 다른가요?
CraftStory는 상당히 더 긴 비디오 (5분 vs ~60초)를 생성하고, 단일 사진만 필요로 하며 (사용자 정의 아바타를 위한 비디오 훈련 대신), 움직이는 카메라 기능과 워크 앤 토크를 제공합니다.
CraftStory로 무엇을 만들 수 있나요?
교육 비디오, 제품 설명, 교육 콘텐츠, 고객 커뮤니케이션 및 마케팅 비디오—전통적인 촬영 없이 인간 프레젠터가 필요한 모든 사용 사례.
CraftStory는 여러 언어를 지원하나요?
CraftStory는 제공하는 스크립트 또는 오디오 트랙과 함께 작동합니다. 언어 지원은 오디오를 만들기 위해 사용하는 텍스트-음성 또는 음성 복제 서비스에 따라 다릅니다.
워크 앤 토크 모드란 무엇인가요?
워크 앤 토크는 사람이 말하는 동안 장면을 자연스럽게 이동하고 카메라가 움직임을 추적하는 비디오를 생성하는 베타 기능입니다—현재 최대 80초입니다.
우리가 주목하는 것: CraftStory의 출력 품질이 5분 표시에서 어떻게 비교되는지, 경쟁사가 자신들의 지속 시간 확장으로 응답하는지, 그리고 사진 기반 아바타 생성 vs 비디오 훈련으로의 더 넓은 전환.
출처
- CraftStory 보도 자료 (PRNewswire) - 2026년 1월 8일