AI 영상 생성 용어집: 필수 용어 설명

작성자: GenMediaLab • 2025년 11월 6일 • 10 분 읽기

적합한 대상: 제품 마케터, 운영 팀, 에이전시 작가, AI 기반 콘텐츠를 스크립팅하는 동안 빠른 참고가 필요한 인플루언서.

A

AI Avatar (AI 아바타)

인공지능으로 생성된 디지털 캐릭터로, 현실적으로 말하고 움직일 수 있습니다. 인간 배우를 대체하기 위해 영상에서 사용됩니다.

Audio Inpainting (오디오 인페인팅)

AI를 사용하여 오디오 녹음의 간격을 채우거나, 원하지 않는 소리를 제거하거나, 손상된 부분을 수리하면서 자연스러운 흐름을 유지하는 것입니다.

Audio Synthesis (오디오 합성)

실제 사람의 음성을 녹음하는 대신 AI를 사용하여 인간과 같은 음성을 생성하는 과정입니다.

Aspect Ratio (종횡비)

영상의 너비 대 높이 비율(예: 와이드스크린의 경우 16:9, 세로/모바일의 경우 9:16).

B

Background Removal (배경 제거)

영상 영상에서 배경을 자동으로 제거하여 사용자 정의 장면으로 교체할 수 있게 하는 AI 기술입니다.

Batch Generation (배치 생성)

다른 스크립트나 템플릿에서 여러 영상을 동시에 만드는 것입니다.

Brand Kit (브랜드 키트)

영상 전반에 걸쳐 일관된 브랜딩을 유지하는 데 사용되는 로고, 색상, 글꼴 및 자산 모음입니다.

C

CFG Scale (Classifier-Free Guidance, 분류기 없는 가이던스)

AI가 프롬프트를 얼마나 밀접하게 따르는지 제어하는 매개변수입니다. 값이 높을수록 설명에 더 충실한 출력을 만들고, 값이 낮을수록 더 많은 창의적 자유를 허용합니다.

Checkpoint (체크포인트)

AI 모델의 훈련된 가중치의 저장된 상태입니다. 다른 체크포인트는 다른 시각적 스타일이나 기능을 생성할 수 있습니다.

Clone Voice (음성 복제)

원본 음성의 특성을 유지하면서 어떤 텍스트든 말할 수 있는 사람의 음성의 합성 복사본을 만드는 것입니다.

ControlNet (컨트롤넷)

포즈, 가장자리, 깊이 맵 또는 기타 시각적 가이드를 위해 참조 이미지를 사용하여 AI 이미지 및 영상 생성에 대한 정밀한 제어를 제공하는 기술입니다.

Custom Avatar (커스텀 아바타)

특정 사람의 영상에서 만든 개인화된 AI 아바타로, 그들의 디지털 모습을 나타내는 데 사용됩니다.

D

Deepfake (딥페이크)

얼굴을 교체하거나 콘텐츠를 변경하는 영상 조작 기술입니다. 동의 없이 사용될 때 논란의 여지가 있습니다(윤리적인 AI 아바타와는 다릅니다).

Diffusion Model (확산 모델)

Sora, Runway, Kling과 같은 현대적인 영상 생성기를 구동하는 AI 아키텍처입니다. 일관된 이미지나 영상이 나타날 때까지 무작위 정적에서 노이즈를 제거하는 방법을 학습하여 작동합니다.

Digital Human (디지털 휴먼)

AI 아바타의 또 다른 용어로, 인간처럼 보이고 행동하는 컴퓨터 생성 인물입니다.

Dubbing (더빙)

입 모양을 동기화하면서 영상의 원본 오디오를 다른 언어로 교체하는 것입니다.

E

Edge Cases (엣지 케이스)

AI가 최적으로 수행하지 못할 수 있는 비정상적이거나 드문 시나리오(예: 드문 발음).

Export Format (내보내기 형식)

영상이 저장되는 파일 유형(예: MP4, MOV, WebM).

F

Face Swap (얼굴 교체)

영상에서 한 사람의 얼굴을 다른 사람의 얼굴로 교체하는 기술입니다.

Fine-tuning (파인튜닝)

사전 훈련된 AI 모델을 가져와 특정 데이터에 대해 추가로 훈련하여 특정 작업, 스타일 또는 주제에 맞게 특화시키는 과정입니다.

Frame Rate (프레임 레이트)

영상에서 초당 표시되는 이미지(프레임) 수입니다. 표준은 24-30fps입니다.

Frontend/Backend (프론트엔드/백엔드)

프론트엔드는 사용자가 보는 것을 의미하고, 백엔드는 배후에서 발생하는 AI 처리를 의미합니다.

G

Generative AI (생성형 AI)

기존 콘텐츠를 분석하는 것뿐만 아니라 새로운 콘텐츠(이미지, 영상, 오디오)를 만드는 AI입니다.

Gesture Control (제스처 제어)

아바타의 손 움직임과 바디 랭귀지를 프로그래밍하는 기능입니다.

Green Screen (그린 스크린)

단색 배경(보통 녹색)을 다른 이미지로 교체하는 기법입니다. AI가 이제 이를 자동으로 수행할 수 있습니다.

H

Hallucination (할루시네이션)

AI가 거짓, 무의미하거나 사실적으로 잘못된 콘텐츠를 생성하는 것입니다. 영상에서는 왜곡된 손, 불가능한 물리학, 또는 부자연스럽게 변형되는 얼굴로 나타날 수 있습니다.

Hyper-Realistic (하이퍼 리얼리스틱)

실제 영상과 구별하기가 극히 어려운 AI 생성 콘텐츠입니다.

HeyGen (헤이젠)

음성 복제와 사용 편의성으로 유명한 인기 AI 아바타 영상 플랫폼입니다.

I

Image-to-Video (img2vid, 이미지 투 영상)

단일 정지 이미지에서 영상 콘텐츠를 생성하는 것입니다. AI가 정적 이미지를 애니메이션화하여 움직임, 카메라 움직임 또는 캐릭터 애니메이션을 추가합니다.

Inference (인퍼런스)

훈련된 AI 모델을 실행하여 출력을 생성하는 과정입니다. AI 도구로 영상을 만들 때 생성 과정을 인퍼런스라고 합니다.

Inpainting (인페인팅)

AI를 사용하여 영상 프레임의 일부를 채우거나 수정하는 것입니다.

Instant Avatar (인스턴트 아바타)

커스텀 훈련 없이 즉시 사용 가능한 사전 제작된 AI 아바타입니다.

J

J-Cut (J-컷)

다음 장면의 오디오가 현재 시각이 끝나기 전에 재생되기 시작하는 편집 기법입니다. AI 생성 장면을 더 자연스럽게 만드는 데 도움이 됩니다.

Jitter Reduction (지터 감소)

AI 렌더링된 영상에서 작은 카메라 흔들림이나 프레임 간 노이즈를 제거하는 안정화 필터입니다.

K

Keyframe (키프레임)

애니메이션, 카메라 위치 또는 효과의 변화를 표시하는 프레임입니다. 많은 AI 영상 편집기가 키프레임으로 아바타 포즈나 카메라 움직임을 설정할 수 있습니다.

Knowledge Cutoff (지식 컷오프)

생성형 AI 모델이 훈련된 가장 최근 날짜입니다. AI 도구가 스크립트 내에서 사실을 인용할 때 중요합니다.

L

Latency (지연 시간)

영상 생성을 시작하고 완성된 제품을 받는 사이의 지연 시간입니다.

Lip-Sync (립싱크)

아바타의 입 움직임을 말한 단어와 일치시키는 것입니다. 현실적인 영상에 중요합니다.

LLM (Large Language Model, 대규모 언어 모델)

스크립트 작성과 영상 콘텐츠 생성에 도움이 될 수 있는 GPT와 같은 AI 모델입니다.

LoRA (Low-Rank Adaptation, 저순위 적응)

전체 AI 모델 대신 작은 어댑터 모듈을 훈련하는 경량 파인튜닝 기법입니다. 영상 생성기에 커스텀 스타일, 캐릭터 또는 개념을 추가하는 데 인기가 있습니다.

M

Motion Capture (모션 캡처)

아바타가 더 자연스럽게 움직이도록 실제 인간의 움직임을 기록하는 것입니다.

Multi-Language Support (다국어 지원)

원어 발음으로 많은 다른 언어로 영상을 만들 수 있는 기능입니다.

MP4

모든 플랫폼과 널리 호환되는 가장 일반적인 영상 파일 형식입니다.

Multimodal (멀티모달)

단일 시스템 내에서 텍스트, 이미지, 오디오, 영상 등 여러 유형의 콘텐츠를 이해하고 생성할 수 있는 AI 모델입니다. 예로는 GPT-4V와 Gemini가 있습니다.

N

Natural Language Processing (NLP, 자연어 처리)

AI가 인간 언어를 이해하고 생성하는 능력으로, 스크립트 분석 및 내레이션에 사용됩니다.

Negative Prompt (네거티브 프롬프트)

AI에게 생성된 콘텐츠에 포함하지 말아야 할 것을 알려주는 지시사항입니다. 흐릿한 이미지, 추가 사지 또는 특정 스타일과 같은 원하지 않는 요소를 피하는 데 사용됩니다.

Neural Network (신경망)

아바타 생성과 음성 합성을 구동하는 AI 아키텍처입니다.

O

Overdub (오버덥)

타이밍을 유지하면서 기존 대화를 새로운 AI 생성 음성으로 교체하는 것입니다.

Outpainting (아웃페인팅)

추가 픽셀을 상상하기 위해 AI를 사용하여 원본 경계를 넘어 영상 장면을 확장하는 것입니다.

P

Photorealistic (포토 리얼리스틱)

실제 사진이나 영상 영상과 매우 유사한 시각적 품질입니다.

Pitch (피치)

음성의 높낮이입니다. AI 음성 생성에서 조정할 수 있습니다.

Preset (프리셋)

영상 제작 속도를 높이는 사전 구성된 설정 또는 템플릿입니다.

Q

Quality Threshold (품질 임계값)

렌더링이 완료되기 전에 충족되어야 하는 최소 표준(해상도, 비트레이트 또는 AI 신뢰도 점수)입니다.

Quantization (양자화)

소비자 GPU에서 더 빠르게 실행되도록 AI 모델을 압축하는 것으로, 때로는 세부 사항을 희생합니다.

R

Rendering (렌더링)

스크립트와 설정에서 최종 영상 파일을 생성하는 과정입니다.

Resolution (해상도)

픽셀로 측정된 영상 품질(예: 1080p, 4K). 높을수록 품질이 좋지만 파일이 더 큽니다.

S

Script (스크립트)

AI 아바타가 영상에서 말할 텍스트입니다.

Stem Separation (스템 분리)

혼합된 오디오 트랙을 보컬, 드럼, 베이스 및 기타 악기와 같은 개별 구성 요소(스템)로 분리하는 AI 기술입니다. 리믹스, 카라오케 및 콘텐츠 제작에 사용됩니다.

Synthetic Media (합성 미디어)

AI로 생성되거나 수정된 콘텐츠(영상, 오디오, 이미지)입니다.

Synthesia (신세시아)

기업 중심의 주요 AI 아바타 영상 플랫폼입니다.

T

Temporal Consistency (시간적 일관성)

AI 생성 영상이 프레임 전반에 걸쳐 시각적 요소를 얼마나 부드럽고 일관되게 유지하는지입니다. 시간적 일관성이 낮으면 깜빡임, 변형되는 객체 또는 영상 중간에 모양이 변하는 캐릭터가 발생합니다.

Text-to-Music (텍스트 투 뮤직)

텍스트 설명에서 완전한 음악 작곡을 생성하는 AI 시스템입니다. Suno와 Udio와 같은 플랫폼은 간단한 프롬프트로 보컬, 악기 및 프로덕션이 포함된 노래를 만들 수 있습니다.

Text-to-Speech (TTS, 텍스트 투 스피치)

AI 음성을 사용하여 작성된 텍스트를 음성 오디오로 변환하는 것입니다.

Text-to-Video (텍스트 투 영상)

텍스트 설명이나 스크립트에서 영상 콘텐츠를 생성하는 것입니다.

Template (템플릿)

제작 과정 속도를 높이는 사전 설계된 영상 레이아웃입니다.

Thumbnail (썸네일)

영상이 재생되기 전에 표시되는 미리보기 이미지입니다.

U

Upscaling (업스케일링)

AI를 사용하여 영상 해상도와 품질을 높이는 것입니다.

V

Video-to-Video (vid2vid, 영상 투 영상)

AI를 사용하여 기존 영상 영상을 변환하여 스타일, 외관 또는 콘텐츠를 변경하면서 원본 움직임과 구조를 보존하는 것입니다.

Voice Cloning (음성 복제)

어떤 텍스트든 말할 수 있는 누군가의 음성의 합성 버전을 만드는 것입니다.

Voice Modulation (음성 변조)

피치, 속도 및 감정과 같은 음성 특성을 조정하는 것입니다.

VTT/SRT

영상에 자막을 추가하기 위한 자막 파일 형식입니다.

W

Watermark (워터마크)

영상 위의 로고 또는 텍스트 오버레이로, 무료 체험 또는 콘텐츠 보호에 자주 사용됩니다.

Workflow (워크플로우)

스크립트에서 완성된 영상까지의 일련의 단계입니다.

X

XR (Extended Reality, 확장 현실)

AR, VR 및 혼합 현실을 포괄하는 용어입니다. AI 아바타는 종종 XR 경험으로 포팅됩니다.

XML Subtitle (XML 자막)

방송 워크플로우를 위해 AI 자막 도구에서 내보낸 시간 지정 텍스트 파일(예: TTML)입니다.

Y

YUV Color Space (YUV 색 공간)

대부분의 스트리밍 플랫폼이 사용하는 색상 모델입니다. AI 영상을 방송 표준에 맞추기 위해 내보낼 때 유용합니다.

YouTube Shorts (유튜브 쇼츠)

세로 방향, 60초 미만의 영상입니다. 많은 AI 영상 생성기가 쇼츠 프리셋과 함께 제공됩니다.

Z

Zero-Shot Generation (제로샷 생성)

대상 주제의 예시 영상이나 오디오를 제공하지 않고도 설득력 있는 영상이나 음성을 생성하는 것입니다.

Zoom Recording Import (줌 녹화 가져오기)

줌 회의를 AI 편집기에 업로드하여 자르기, 번역 또는 스크립트된 클립으로 변환할 수 있게 하는 것입니다.

결론

이 용어집은 AI 영상 생성 도구로 작업할 때 접하게 될 필수 용어를 다룹니다. 기술이 발전함에 따라 새로운 용어가 등장할 것입니다. 이 가이드를 계속 업데이트하겠습니다!

이 페이지를 북마크하여 AI 영상을 만들 때 빠른 참고로 사용하세요.

용어가 누락되었나요? 추가를 제안하려면 문의하기를 클릭하세요!

이 글이 도움이 되셨나요?