CraftStoryが5分間の人物動画を生成する画像から動画AIを発表
重要ポイント
- ✓ 1枚の画像から最大5分間のスタジオ品質人物動画を生成
- ✓ テキストスクリプトから自然な表情、ボディランゲージ、ジェスチャーを作成
- ✓ 移動カメラ付きウォーク&トーク動画最大80秒(ベータ)
- ✓ 並列化拡散パイプラインで長尺コンテンツの一貫性を維持
- ✓ AIアバター動画作成でHeyGenとSynthesiaの直接競合
何が起きたか
2026年1月8日、CraftStoryは画像から動画モデルのリリースを発表しました。これはModel 2.0プラットフォームの機能強化です。このツールは、1枚の写真と文字スクリプトだけで最大5分間のスタジオ品質人物動画を生成します。
これにより、CraftStoryはHeyGenやSynthesiaなどの確立されたAIアバタープラットフォームの直接競合として位置づけられ、重要な差別化要因として従来の撮影なしで大幅に長い動画出力が可能になります。
仕組み
1枚の画像 + スクリプト = 完全な動画
ワークフローはシンプルです:
- 人物の単一画像をアップロード
- スクリプトまたはオーディオトラックを追加
- 完全な動画パフォーマンスを生成
CraftStoryのModel 2.0は、人物と環境の両方をアニメーション化して完全な動画を合成します。システムが生成するもの:
- 発話内容に合った自然な表情
- 時間とともに進化するボディランゲージとジェスチャー
- まとまりのあるシーンのための環境アニメーション
技術的基盤:並列化拡散
コアには、長尺人物動画生成用に特別に設計された並列化拡散パイプラインがあります。システムは異なる時間セグメントを同時に処理しながらグローバルな一貫性を強制し、短いクリップを超えるAI動画を悩ませてきた一貫性の問題を解決します。
| 仕様 | CraftStory Model 2.0 |
|---|---|
| 最大時間 | 最大5分 |
| 入力 | 単一画像 + スクリプト/オーディオ |
| 品質 | スタジオ品質 |
| ウォーク&トーク | 最大80秒(ベータ) |
主な機能
長尺生成
ほとんどのAI動画ツールは10〜30秒が上限です。CraftStoryの5分間機能は以下の可能性を開きます:
- カットが不要なトレーニング動画
- 完全なプレゼンテーション付きの製品説明動画
- 持続的な指導付きの教育コンテンツ
移動カメラ付きウォーク&トーク
現在ベータ版の注目機能:話しながらシーンを自然に移動するウォーク&トーク動画で、カメラが動きを追従します。
これにより、より映画的でダイナミックなショットが作成できます—以前は実際の撮影や複雑な手動アニメーションが必要でした。
スクリプトからパフォーマンス
単純なリップシンクツールとは異なり、CraftStoryはスクリプトを解釈して文脈に適したものを生成します:
- 眉の動きと表情のマイクロエクスプレッション
- 強調ポイントに合った手のジェスチャー
- 異なるコンテンツセクション中の姿勢の変化
CraftStoryの比較
| 機能 | CraftStory | HeyGen | Synthesia |
|---|---|---|---|
| 最大時間 | 5分 | 〜60秒 | 〜60秒 |
| 入力タイプ | 写真 + スクリプト | アバター選択 | アバター選択 |
| ウォーク&トーク | ✅ ベータ | ❌ | ❌ |
| カスタムアバター | 写真アップロード | 動画トレーニング | 動画トレーニング |
| 移動カメラ | ✅ | 限定的 | 限定的 |
CraftStoryが優れている点
- 時間:競合の5倍長い動画
- シンプルさ:カスタムアバター用の動画トレーニング不要で単一写真入力
- カメラ移動:ダイナミックショットの組み込みサポート
確立されたプラットフォームがリードする点
- アバターライブラリ:HeyGen(700+)とSynthesia(240+)がすぐに使えるアバターを提供
- ボイスクローニング:ボイスクローニングサービスとのより深い統合
- 言語サポート:より広い多言語機能(175+言語)
- 企業機能:コンプライアンス、チーム管理、API成熟度
ユースケース
企業研修
プレゼンターを撮影せずに長時間のトレーニングモジュールを作成。企業スポークスパーソンの1枚の写真から何時間もの指導コンテンツを生成できます。
ECサイト製品動画
機能、メリット、比較を説明するバーチャルプレゼンター付きの長尺製品デモ。
教育コンテンツ
インストラクターが時間制限なしで複雑なトピックを説明する必要がある完全な講義セグメントやチュートリアル動画。
顧客コミュニケーション
大規模なパーソナライズ動画メッセージ—顧客オンボーディング、サポート説明、アカウント更新。
業界への意味
時間制限の突破
5分間の機能は大きな飛躍を表しています。CraftStoryが大規模に品質を提供すれば、HeyGen、Synthesia、その他に自身の時間制限を延長するプレッシャーがかかります。
写真から動画の簡素化
単一の写真だけで済むことで、カスタムアバターのトレーニングに動画素材が必要なプラットフォームと比較してハードルが下がります。これは、アバター作成プロセスなしで迅速なカスタムプレゼンター動画を求めるユーザーにアピールする可能性があります。
ベータ機能が方向性を示す
移動カメラ付きウォーク&トークは、CraftStoryがより洗練された制作機能を目指していることを示唆しています—静的なアバタートーキングヘッドだけでなく、従来の動画制作と潜在的に競合します。
利用可能性
CraftStory画像から動画(Model 2.0)は現在プラットフォームで利用可能です。ウォーク&トーク機能はベータ版で、既存アカウントに段階的に展開中です。
価格の詳細は発表では公開されていません。
よくある質問
CraftStory画像から動画とは?
CraftStory画像から動画は、1枚の写真と文字スクリプトから最大5分間の人物動画を生成するAIモデルで、自然な表情、ボディランゲージ、ジェスチャーを作成します。
CraftStoryはHeyGenやSynthesiaとどう違う?
CraftStoryは大幅に長い動画を生成し(5分 vs 〜60秒)、単一の写真だけで済み(カスタムアバター用の動画トレーニング不要)、移動カメラ付きウォーク&トーク機能を提供します。
CraftStoryで何が作れる?
トレーニング動画、製品説明、教育コンテンツ、顧客コミュニケーション、マーケティング動画—従来の撮影なしで人物プレゼンターが必要なあらゆるユースケース。
CraftStoryは複数言語をサポート?
CraftStoryは提供するスクリプトやオーディオトラックで動作します。言語サポートは、オーディオを作成するために使用するテキスト読み上げまたはボイスクローニングサービスに依存します。
ウォーク&トークモードとは?
ウォーク&トークは、話しながら人物がシーンを自然に移動し、カメラがその動きを追従する動画を生成するベータ機能です—現在最大80秒。
注目ポイント: 5分間地点でCraftStoryの出力品質がどう比較されるか、競合が自身の時間延長で対応するか、写真ベースのアバター作成 vs 動画トレーニングへのより広いシフト。
ソース
- CraftStoryプレスリリース(PRNewswire) - 2026年1月8日