Kling O1：世界初の統合マルチモーダル動画モデルが登場

著者: GenMediaLab • 2026年1月7日 • 6 分で読めます

重要ポイント

✓ すべての動画タスクを一つのエンジンに統合した世界初の統合マルチモーダル動画モデル
✓ 自然言語編集：「通行人を削除」や「夕日に変更」などの変更を言葉で指示
✓ ダイナミックなショット間でキャラクターとシーンの一貫性を維持
✓ 複数のクリエイティブタスクを同時実行する「スキルコンボ」をサポート
✓ 最大2K解像度（1080p）、30fps、3-10秒の動画を出力

何が起きたか

2025年12月30日、Kuaishou TechnologyはKling O1をリリースし、世界初の統合マルチモーダル動画モデルとして位置づけました。異なるタスクに異なるモデルを切り替える必要がある従来のAI動画ツールとは異なり、Kling O1はテキスト、動画、画像、被写体の入力を一つの統合エンジンに統合しています。

これはAI動画生成における重要なアーキテクチャの転換を示しています—専門化されたツールから、一つのシステム内で作成、編集、変換を処理する統合プラットフォームへ。

なぜ統合マルチモーダルが重要か

従来の方法：ツール間の行き来

従来のAI動画ワークフローでは、クリエイターは複数のツールを使い分ける必要がありました：

初期生成用のテキストから動画ツール
静止画をアニメーション化する画像から動画ツール
修正用の別の編集ソフト
ビジュアル変更用のスタイル変換ツール
オブジェクト削除用の手動マスキング

各ステップはキャラクター、ライティング、スタイルの不整合を招く可能性があります。

Kling O1のアプローチ：一つのエンジン

Kling O1はこれらすべての機能を統合：

タスク	従来のアプローチ	Kling O1
テキストから動画	専用モデル	✅ 統合エンジン
リファレンスベース動画	別ツール	✅ 統合エンジン
動画インペインティング	手動マスキング	✅ 自然言語
スタイル変換	専門モデル	✅ 統合エンジン
ショット延長	エクスポート/インポート	✅ 内蔵

主な機能

マルチモーダル視覚言語（MVL）

Kling O1はMVLを使用して、テキスト、画像、動画、被写体リファレンスなど多様な入力を処理・解釈し、入力タイプに関係なく文脈に適した出力を可能にします。

自然言語編集

複雑な編集インターフェースを学ぶ代わりに、ユーザーはシンプルな言葉で変更を指示できます：

「背景から通行人を削除」 — 手動マスキング不要
「昼を夕日に変更」 — ライティングと色の自動変換
「キャラクターを笑わせる」 — 即座の表情変更

これにより、フレームごとの編集やキーフレーム操作が不要になります。

キャラクターとシーンの一貫性

AI動画における最大の課題の一つは、ショット間の一貫性維持でした。Kling O1はこの「一貫性の課題」に以下の方法で対応：

ダイナミックなシーン間でキャラクターの外観を保持
シーケンス全体でプロップとオブジェクトを維持
環境設定の一貫性を保持

スキルコンボ

注目の機能：Kling O1は複数のクリエイティブタスクを同時実行可能。例えば：

背景を変更しながら新しい被写体を追加
ショットを延長しながらスタイルを変換
動きを追加しながらライティングを変更

この並列処理により、複雑なクリエイティブワークフローが劇的に加速されます。

技術仕様

仕様	能力
解像度	最大2K（1080p標準）
フレームレート	30 FPS
時間	3-10秒（ユーザー定義のペース）
推論	リアルな物理のための思考連鎖

ユースケース

映画・テレビ

一貫したキャラクターとシーンでのショットのプリビジュアライゼーションと迅速なプロトタイピング。

ソーシャルメディア

複数のアプリを切り替えたり、複雑な編集ソフトを学んだりすることなく、洗練されたコンテンツを作成。

Eコマース

カタログ全体で一貫したライティングとプレゼンテーションの商品動画。

Kling AIを試す

AI動画生成への統合マルチモーダルアプローチを体験

Kling AIを見る →

Kling O1の比較

機能	Kling O1	Runway Gen-4	Sora 2	Veo 3
統合エンジン	✅	❌	❌	❌
自然言語編集	✅	限定的	限定的	限定的
マルチタスクコンボ	✅	❌	❌	❌
一貫性フォーカス	✅ 内蔵	変動	変動	変動
オーディオ生成	Kling 2.6経由	❌	❌	✅

競合他社がそれぞれの分野で優れている（Soraのビジュアル忠実度、Veoのオーディオ統合）一方、Kling O1の統合アプローチはワークフロー効率において独自のポジションを確立しています。

クリエイターにとっての意味

個人クリエイター向け

洗練された動画編集への参入障壁が大幅に低下。自然言語コマンドが技術スキルに取って代わります。

制作チーム向け

イテレーションサイクルの高速化。異なるツールへのエクスポートが必要だった変更が、一つのプラットフォーム内で完結。

業界向け

これは統合マルチモーダルシステムへのシフトを示しています。競合他社も独自の統合アプローチで追随すると予想されます。

利用可能性

Kling O1はKling AIプラットフォームで現在利用可能です。同時オーディオ・ビジュアル生成を提供する既存のKling Video 2.6モデルを補完します。

よくある質問

Kling O1とは何ですか？

Kling O1はKuaishouの統合マルチモーダル動画モデルで、テキストから動画、画像から動画、動画編集、スタイル変換、ショット延長を一つのエンジンに統合しています。

Kling O1は他のAI動画ツールとどう違いますか？

一つのタスクに特化したツールとは異なり、Kling O1はすべての動画生成・編集タスクを統合エンジンで処理し、一貫性を維持しながら自然言語編集を可能にします。

Kling O1でテキストコマンドで動画を編集できますか？

はい。Kling O1は自然言語編集をサポートしており、「背景の人物を削除」や「ライティングを夕日に変更」などの変更を手動マスキングなしで指示できます。

Kling O1はどの解像度をサポートしていますか？

Kling O1は最大2K解像度（1080p標準）、30フレーム/秒で、3〜10秒の動画を生成します。

Kling O1にはオーディオ生成が含まれていますか？

Kling O1は統合動画機能に焦点を当てています。同時オーディオ・ビジュアル生成には、音声、効果音、環境音付きの動画を生成するKling Video 2.6をKuaishouが提供しています。

注目ポイント： OpenAI、Runway、Googleなどの競合他社が統合マルチモーダルアーキテクチャに移行するかどうか、そしてKlingがO1の機能をバージョン2.6の既存のオーディオ・ビジュアル機能とどのように統合するか。

ソース

Kuaishou Technology プレスリリース（PRNewswire） - 2025年12月30日

GenMediaLabの関連記事

この記事は役に立ちましたか？

アフィリエイト開示：このレビューにはアフィリエイトリンクが含まれています。当社のリンクを通じて購入された場合、追加費用なしで当社がコミッションを受け取る場合があります。当社は個人的にテストし、読者に真の価値を提供すると信じるツールのみを推奨しています。