AI動画生成用語集：必須用語の解説

著者: GenMediaLab • 2025年11月6日 • 10 分で読めます

最適な方： AI駆動コンテンツをスクリプティングする際に簡単なリファレンスが必要な製品マーケター、オペレーションチーム、代理店ライター、インフルエンサー。

A

AIアバター（AI Avatar）

人工知能によって生成され、リアルに話したり動いたりできるデジタルキャラクター。動画で人間の俳優の代わりに使用されます。

オーディオインペインティング（Audio Inpainting）

AIを使用して、ギャップを埋めたり、不要な音を除去したり、音声録音の損傷したセクションを自然な流れを維持しながら修復すること。

オーディオ合成（Audio Synthesis）

本物の人の声を録音する代わりに、AIを使用して人間のようなスピーチを生成するプロセス。

アスペクト比（Aspect Ratio）

動画の幅と高さの比率（例：ワイドスクリーン用16:9、縦型/モバイル用9:16）。

B

背景除去（Background Removal）

動画映像から自動的に背景を除去し、カスタムシーンに置き換えることを可能にするAI技術。

バッチ生成（Batch Generation）

異なるスクリプトやテンプレートから複数の動画を同時に作成すること。

ブランドキット（Brand Kit）

動画全体で一貫したブランディングを維持するために使用されるロゴ、色、フォント、アセットのコレクション。

C

CFGスケール（Classifier-Free Guidance）

AIがプロンプトにどれだけ忠実に従うかを制御するパラメータ。高い値は説明に忠実な出力を生成し、低い値はより創造的な自由を許容します。

チェックポイント（Checkpoint）

AIモデルの学習済み重みの保存状態。異なるチェックポイントは異なる視覚スタイルや機能を生成できます。

クローンボイス（Clone Voice）

オリジナルの声の特徴を維持しながら、任意のテキストを話すことができる人の声の合成コピーを作成すること。

ControlNet

ポーズ、エッジ、深度マップ、その他の視覚ガイドのための参照画像を使用して、AI画像・動画生成を正確に制御する技術。

カスタムアバター（Custom Avatar）

特定の人物の映像から作成され、そのデジタル肖像を表すパーソナライズされたAIアバター。

D

ディープフェイク（Deepfake）

顔を入れ替えたりコンテンツを変更したりする動画操作技術。同意なしに使用された場合は問題あり（倫理的なAIアバターとは異なる）。

拡散モデル（Diffusion Model）

Sora、Runway、Klingなどの最新の動画ジェネレーターを動かすAIアーキテクチャ。ランダムなノイズからノイズを除去することを学習し、一貫した画像や動画が出現するまで処理します。

デジタルヒューマン（Digital Human）

AIアバターの別名 - 人間のように見え、行動するコンピュータ生成の人物。

吹き替え（Dubbing）

動画のオリジナルオーディオを別の言語に置き換え、リップの動きを同期させること。

E

エッジケース（Edge Cases）

AIが最適に機能しない可能性がある異常または稀なシナリオ（例：珍しい発音）。

エクスポートフォーマット（Export Format）

動画が保存されるファイルタイプ（例：MP4、MOV、WebM）。

F

フェイススワップ（Face Swap）

動画内である人の顔を別の人の顔に置き換える技術。

ファインチューニング（Fine-tuning）

事前学習済みのAIモデルを取り、特定のデータでさらに学習させて、特定のタスク、スタイル、または主題に特化させるプロセス。

フレームレート（Frame Rate）

動画で1秒あたりに表示される画像（フレーム）の数。標準は24〜30fps。

フロントエンド/バックエンド（Frontend/Backend）

フロントエンドはユーザーが見るもの、バックエンドは裏で行われるAI処理を指す。

G

生成AI（Generative AI）

既存のコンテンツを分析するだけでなく、新しいコンテンツ（画像、動画、オーディオ）を作成するAI。

ジェスチャーコントロール（Gesture Control）

アバターの手の動きやボディランゲージをプログラムする機能。

グリーンスクリーン（Green Screen）

単色の背景（通常は緑）を他の映像に置き換える技術。AIは今これを自動的に行えます。

H

ハルシネーション（Hallucination）

AIが虚偽、ナンセンス、または事実に反するコンテンツを生成すること。動画では、歪んだ手、不可能な物理法則、または不自然に変形する顔として現れることがあります。

ハイパーリアリスティック（Hyper-Realistic）

本物の映像と区別することが非常に難しいAI生成コンテンツ。

HeyGen

ボイスクローニングと使いやすさで知られる人気のAIアバター動画プラットフォーム。

I

画像から動画へ（Image-to-Video / img2vid）

単一の静止画像から動画コンテンツを生成すること。AIが静止画像をアニメーション化し、動き、カメラの動き、またはキャラクターアニメーションを追加します。

推論（Inference）

学習済みAIモデルを実行して出力を生成するプロセス。AIツールで動画を作成するとき、その生成プロセスを推論と呼びます。

インペインティング（Inpainting）

AIを使用して動画フレームの一部を埋めたり修正したりすること。

インスタントアバター（Instant Avatar）

カスタムトレーニングなしですぐに使える事前作成のAIアバター。

J

Jカット（J-Cut）

次のシーンのオーディオが現在のビジュアルが終わる前に再生を開始する編集技術。AI生成シーンをより自然に感じさせるのに役立ちます。

ジッターリダクション（Jitter Reduction）

AI生成映像のわずかなカメラの揺れやフレーム間のノイズを除去する安定化フィルター。

K

キーフレーム（Keyframe）

アニメーション、カメラ位置、またはエフェクトの変化を示すフレーム。多くのAI動画エディターでアバターのポーズやカメラの動きをキーフレーム化できます。

知識カットオフ（Knowledge Cutoff）

生成AIモデルがトレーニングされた最新の日付。AIツールがスクリプト内で事実を引用する際に重要。

L

レイテンシー（Latency）

動画生成を開始してから完成品を受け取るまでの遅延。

リップシンク（Lip-Sync）

アバターの口の動きを話される言葉に一致させること。リアルな動画に重要。

LLM（大規模言語モデル）

スクリプトの作成や動画コンテンツの生成に役立つGPTなどのAIモデル。

LoRA（Low-Rank Adaptation）

AIモデル全体ではなく小さなアダプターモジュールを学習する軽量なファインチューニング技術。動画ジェネレーターにカスタムスタイル、キャラクター、またはコンセプトを追加するのに人気です。

M

モーションキャプチャー（Motion Capture）

アバターをより自然に動かすために本物の人間の動きを記録すること。

多言語サポート（Multi-Language Support）

ネイティブな発音で多くの異なる言語で動画を作成する能力。

MP4

最も一般的な動画ファイル形式で、すべてのプラットフォームと広く互換性があります。

マルチモーダル（Multimodal）

テキスト、画像、オーディオ、動画など複数のタイプのコンテンツを単一システム内で理解・生成できるAIモデル。例：GPT-4VとGemini。

N

自然言語処理（NLP）

AIが人間の言語を理解し生成する能力 - スクリプト分析やナレーションに使用。

ネガティブプロンプト（Negative Prompt）

生成されたコンテンツに何を含めないかをAIに指示する指示。ぼやけた画像、余分な手足、または特定のスタイルなど不要な要素を避けるために使用されます。

ニューラルネットワーク（Neural Network）

アバター生成と音声合成を動かすAIアーキテクチャ。

O

オーバーダブ（Overdub）

タイミングをそのままに、既存のセリフを新しいAI生成スピーチに置き換えること。

アウトペインティング（Outpainting）

AIを使用して追加のピクセルを想像し、動画シーンを元の境界を超えて拡張すること。

P

フォトリアリスティック（Photorealistic）

本物の写真や動画映像に酷似した視覚品質。

ピッチ（Pitch）

声の高低。AI音声生成で調整可能。

プリセット（Preset）

動画作成を高速化する事前設定された設定やテンプレート。

Q

品質閾値（Quality Threshold）

レンダリングが完了する前に満たす必要のある最低基準（解像度、ビットレート、またはAI信頼スコア）。

量子化（Quantization）

AIモデルを圧縮して消費者向けGPUでより速く実行できるようにすること、時には細部を犠牲にします。

R

レンダリング（Rendering）

スクリプトと設定から最終動画ファイルを生成するプロセス。

解像度（Resolution）

ピクセルで測定される動画品質（例：1080p、4K）。高い = より良い品質だが、より大きなファイル。

S

スクリプト（Script）

AIアバターが動画で話すテキスト。

ステム分離（Stem Separation）

ミックスされたオーディオトラックをボーカル、ドラム、ベース、その他の楽器などの個々のコンポーネント（ステム）に分割するAI技術。リミックス、カラオケ、コンテンツ制作に使用されます。

合成メディア（Synthetic Media）

AIによって作成または修正されたコンテンツ（動画、オーディオ、画像）。

Synthesia

エンタープライズ向けの主要なAIアバター動画プラットフォーム。

T

時間的一貫性（Temporal Consistency）

AI生成動画がフレーム間で視覚要素をどれだけスムーズかつ一貫して維持するか。時間的一貫性が低いと、フリッカー、変形するオブジェクト、または動画の途中で外観が変わるキャラクターが発生します。

テキストから音楽へ（Text-to-Music）

テキスト説明から完全な音楽作品を生成するAIシステム。SunoやUdioなどのプラットフォームは、シンプルなプロンプトからボーカル、楽器、プロダクション付きの曲を作成できます。

テキスト読み上げ（TTS）

AIボイスを使用して書かれたテキストを音声に変換すること。

テキストから動画（Text-to-Video）

テキストの説明やスクリプトから動画コンテンツを生成すること。

テンプレート（Template）

作成プロセスを高速化する事前デザインされた動画レイアウト。

サムネイル（Thumbnail）

動画が再生される前に表示されるプレビュー画像。

U

アップスケーリング（Upscaling）

AIを使用して動画の解像度と品質を向上させること。

V

動画から動画へ（Video-to-Video / vid2vid）

AIを使用して既存の動画映像を変換し、元の動きと構造を維持しながらスタイル、外観、またはコンテンツを変更すること。

ボイスクローニング（Voice Cloning）

任意のテキストを話すことができる誰かの声の合成バージョンを作成すること。

ボイスモジュレーション（Voice Modulation）

ピッチ、速度、感情などの声の特性を調整すること。

VTT/SRT

動画にキャプションを追加するための字幕ファイル形式。

W

ウォーターマーク（Watermark）

動画上のロゴまたはテキストオーバーレイ、無料トライアルやコンテンツ保護によく使用される。

ワークフロー（Workflow）

スクリプトから完成動画までの一連のステップ。

X

XR（エクステンデッドリアリティ）

AR、VR、ミックスドリアリティの総称。AIアバターはしばしばXR体験に移植されます。

XML字幕

放送ワークフロー用にAIキャプションツールからエクスポートされるタイムドテキストファイル（TTMLなど）。

Y

YUVカラースペース

ほとんどのストリーミングプラットフォームが使用するカラーモデル。AI映像を放送基準に合わせてエクスポートする際に役立ちます。

YouTube Shorts

縦型で60秒以下の動画。多くのAI動画ジェネレーターにはShortsプリセットが付属しています。

Z

ゼロショット生成（Zero-Shot Generation）

対象のサンプル映像やオーディオを提供せずに説得力のある動画や音声を生成すること。

Zoom録画インポート

ZoomミーティングをアIエディターにアップロードして、トリミング、翻訳、またはスクリプト化されたクリップに変換すること。

まとめ

この用語集は、AI動画生成ツールを使用する際に遭遇する必須用語をカバーしています。技術が進化するにつれて、新しい用語が登場します - このガイドを更新し続けます！

このページをブックマークして、AI動画を作成する際のクイックリファレンスとしてお使いください。

用語が見つからない？追加を提案するにはお問い合わせください！

この記事は役に立ちましたか？