Google Veo 2 & Imagen 3:クリエイターが知っておくべき新AIモデルの全容

著者: GenMediaLab 6 分で読めます
Google Veo 2 AI動画生成インターフェース

重要ポイント

  • Veo 2は改善された物理演算とリアリズムで最大数分の4K動画を生成
  • Imagen 3は多様なアートスタイルでフォトリアリスティックな画像を生成
  • 新しい「Whisk」ツールで被写体、シーン、スタイルを使って画像をリミックス可能
  • Google LabsのVideoFXとImageFXで現在利用可能(ウェイトリスト)

何が起こったのか

2024年12月16日、Google DeepMindはVeo 2とアップグレードされたImagen 3を発表しました。これらは人間による評価で最先端の結果を達成した最新の動画・画像生成モデルです。

新モデルはGoogle LabsのツールVideoFX(動画用)とImageFX(画像用)を通じて利用可能で、さらに異なる被写体、シーン、スタイルを組み合わせて画像をリミックスできる新しい実験的ツールWhiskも登場しました。

「Veo 2は幅広いテーマとスタイルで非常に高品質な動画を作成します。人間の評価者による直接比較で、Veo 2は主要モデルに対して最先端の結果を達成しました。」 — Googleブログ

Veo 2の主な機能

シネマトグラフィーの理解: Veo 2は映画の言語を理解します。「ローアングルトラッキングショット」を依頼したり、「18mmレンズ」を指定すれば、適切な広角の美学を表現します。「被写界深度を浅く」とリクエストすれば、背景を適切にぼかします。

改善された物理演算とリアリズム: バスケットボールがゴールに「テレポート」してしまうような以前のAI動画モデルとは異なり、Veo 2はリアルな物理演算をレンダリングします。シュートが外れた場合、実際のリバウンドが表示されます。

解像度と長さ: 動画は最大4K解像度で生成でき、数分の長さまで拡張可能です。これは競合他社と比較して大幅な改善です。

ハルシネーションの減少: Googleは、Veo 2が他のモデルと比較して、余分な指や予期しないオブジェクトなどの望ましくないアーティファクトを少なく生成すると主張しています。

クリエイターにとっての意義

YouTube・ソーシャルメディアクリエイター向け

Veo 2のシネマトグラフィーへの理解は、プロフェッショナルに撮影されたように見えるBロール、トランジション、エスタブリッシングショットを生成できることを意味します。プロンプトで正確なカメラの動きとレンズスタイルを指定して、放送品質の映像を取得できます。

マーケター・ビジネス向け

Veo 2の動画機能とImagen 3の画像生成の組み合わせは、マーケティングコンテンツを制作するための強力なスイートを作ります。高額な制作なしで、製品のビジュアライゼーション、説明動画クリップ、ソーシャルメディアアセットを生成できます。

デザイナー・アーティスト向け

新しいWhiskツールは、迅速なコンセプト探索のためのクリエイティブな可能性を開きます。被写体(あなたの製品)、シーン(希望の環境)、スタイルリファレンスをアップロードすれば、Whiskがそれらを新しいバリエーションに組み合わせます。ムードボード、コンセプトアート、クリエイティブなアイデア出しに最適です。

競争が激化

Googleの発表は、OpenAIのSora、Runway、Pika Labsなどの競合他社にプレッシャーをかけます。クリエイターにとって、この競争はより良いツール、より速い改善、より多くの選択肢を意味します。

GoogleのVideoFXを試す

ウェイトリストに参加してVeo 2にアクセスし、最先端のAI動画を作成

ウェイトリストに参加 →

始め方

VideoFX(Veo 2動画生成用)

  1. labs.google/fx/tools/video-fxにアクセス
  2. ウェイトリストに登録
  3. 承認されたら、シンプルなプロンプトから始めて反復
  4. より良い結果のためにシネマトグラフィー用語を使用(レンズタイプ、ショットタイプ、ライティング)

ImageFX(Imagen 3画像用)

  1. labs.google/fx/tools/image-fxにアクセス
  2. 100以上の国で現在利用可能
  3. 最良の結果を得るために特定のアートスタイルと詳細なプロンプトを試す

Whisk(画像リミックス用)

  1. labs.google/fx/tools/whiskにアクセス
  2. 現在米国で利用可能
  3. 被写体、シーン、スタイル用の画像をアップロードまたは生成
  4. AIにそれらを新しい創作物に組み合わせさせる

安全性とウォーターマーク

すべてのVeo 2出力には、AI生成コンテンツを識別するための不可視のSynthIDウォーターマークが含まれています。これは誤情報との戦いに役立ち、コンテンツの出所についての透明性を確保します。

Googleは同意なしの公人やフォトリアリスティックな肖像の生成を制限しており、安全性を管理するためにアクセスの展開を意図的に慎重に行っています。

まとめ

Veo 2とImagen 3は、AI生成メディアの品質における大きな飛躍を表しています。クリエイターにとって、これはアイデア出し、プロトタイピング、コンテンツ作成のためのより強力なツールを意味します。鍵は効果的にプロンプトすることを学ぶこと—動画にはシネマトグラフィーの言語を、画像には詳細なスタイル説明を使用することです。

これらのツールは重要なコンテンツのプロフェッショナルな制作を置き換えることはありませんが、迅速なプロトタイピング、ソーシャルメディアコンテンツ、クリエイティブな探索には非常に価値があります。


GenMediaLab関連記事

この記事は役に立ちましたか?