ElevenLabs、Google Cloud提携を拡大しNVIDIA Blackwell GPUを採用

著者: GenMediaLab • 2026年3月2日 • 5 分で読めます

ElevenLabsは、Google Cloudとの複数年にわたる提携延長契約を締結し、NVIDIA RTX PRO 6000 Blackwell GPUを搭載したG4仮想マシンへのアクセスを獲得しました。この契約では、GoogleのGeminiモデルをElevenLabsのAgents Platformに、VeoをCreative Platformに統合し、同期されたビデオとオーディオの制作を可能にしています。

重要ポイント

✓ 複数年のGoogle Cloud延長によりNVIDIA Blackwell GPUを導入、音声モデルの学習と推論が高速化
✓ GeminiモデルがElevenLabs音声エージェント内の推論とマルチステップ計画を担う
✓ Veo統合により、1つのワークフローで同期されたビデオとオーディオコンテンツを制作可能に
✓ ElevenLabsソリューションがGoogle Cloud Marketplaceで提供開始、GCPコミットクレジットに対応
✓ エンタープライズ顧客は70以上の言語で高速推論、低レイテンシ、リアルタイム音声エージェントを利用可能

ElevenLabs音声AIを試す

音声エージェントの構築、70以上の言語での音声生成、ElevenLabsプラットフォーム全体へのアクセスが可能です。

ElevenLabsを無料で試す →

提携の内容

拡大された協業は、インフラストラクチャ、モデル統合、エンタープライズ流通の3つのコア領域をカバーします。

70+ 対応言語

G4 VMs NVIDIA Blackwell GPU

4.7/5 GenMediaLab評価

複数年提携期間

インフラストラクチャ： ElevenLabsは、NVIDIA RTX PRO 6000 Blackwell GPUを搭載したGoogle Cloud G4仮想マシン上で音声モデルを稼働させます。これらのVMはGPUあたり最大96GBのメモリ、合計最大768GBのGDDR7メモリを提供し、前世代のG2インスタンスと比較して最大9倍のスループットを実現します。大規模なGPUクラスターにより、エンタープライズ向けデプロイメントで学習サイクルの短縮と低レイテンシ推論が可能になります。

モデル統合： GoogleのGeminiモデルは、音声アシスタント向けの高度な推論とマルチステップ計画のため、ElevenLabsのAgents Platformに統合されています。また、GoogleのVeo動画生成モデルがElevenLabsのCreative Platformに追加され、チームがビデオとオーディオコンテンツを一括で制作できるようになります。

エンタープライズ流通： ElevenLabsソリューションはGoogle Cloud Marketplaceに掲載され、企業がシンプルな請求とコンプライアンス体制のもとで音声AIツールを購入・導入できるようになりました。既存のGCPコミットクレジットをElevenLabsサービスに充当できます。

NVIDIA Blackwell：音声AIへの意味

G4 VMは、ElevenLabsのインフラストラクチャにとって重要なハードウェアアップグレードを表しています。NVIDIA Blackwell GPUには、AIワークロード向けに設計された第4世代Tensor CoreとRT Coreが搭載されています。

高速推論

G2インスタンス比で最大9倍のスループットにより、低レイテンシの音声生成を実現

大規模モデル学習

768GB GDDR7メモリにより、より大規模なマルチモーダルモデルの学習が可能

柔軟なスケーリング

1〜8GPUの構成とMIGパーティショニングによるワークロード分離に対応

グローバル展開

Google Cloudのインフラにより、リージョンをまたいだ一貫したパフォーマンスを提供

ElevenLabs共同創業者のマティ・スタニシェフスキ氏は、ハードウェアアップグレードが製品品質に直接影響すると述べています。「NVIDIA Blackwellを搭載したG4 VMにより、マルチモーダルモデルをさらに進化させています。高速推論、高い信頼性、言語を超えた即座の応答を実現。目標は変わらず、妥協のないエンタープライズ規模の音声エージェントを提供することです。」

NVIDIAのハイパースケール・HPC担当VP兼GM、イアン・バック氏は次のようにコメントしています。「これはBlackwellで想定していたまさにそのエコシステムイノベーションです。ElevenLabsのような先駆者が、あらゆる業界にスマートで応答性の高いAIエージェントとメディアツールを届けることを支援します。」

GeminiがElevenLabs音声エージェントを駆動

Agents Platformへの統合により、Geminiの推論能力がElevenLabsの音声アシスタントに組み込まれました。Geminiが「思考」レイヤーを担当し、コンテキストの理解、マルチステップ応答の計画、関数呼び出しを行い、ElevenLabsが低レイテンシのテキスト読み上げで音声レイヤーを担当します。

この組み合わせは、音声エージェントが複雑な会話を処理する必要があるエンタープライズユースケースをターゲットとしています。複数システムを連携するカスタマーサポート、製品データを参照する営業電話、学習者の反応に適応するトレーニングシミュレーションなどです。

仕組み

Geminiが音声エージェントのAI頭脳として超高速推論と関数呼び出しを提供し、ElevenLabsが人間らしい音声出力を提供します。両者が連携することで、意図を理解し、情報を取得し、リアルタイムで自然に応答する会話型AIを実現します。

Veo統合：ビデオと音声の融合

Creative Platformへの統合により、GoogleのVeo動画生成モデルがElevenLabsのオーディオツールと連携します。チームは1つの制作ワークフロー内でビデオコンテンツを生成し、ナレーション、効果音、吹き替えを追加できます。

ターゲットユースケースには、広告、企業研修、社内コミュニケーション、顧客教育が含まれます。組織がプロ品質のビデオと音声コンテンツを大規模に必要とするシナリオです。

Google Cloudのプレジデント兼最高収益責任者、マット・レナー氏は、提携をエンタープライズの観点から次のように述べています。「Google CloudのフルAIスタック、最先端のAIモデル、そしてNVIDIAの最先端アクセラレーテッドコンピューティングプラットフォームを活用することで、ElevenLabsは企業がユーザーとのインタラクション方法を変革することを可能にしています。」

Google Cloud Marketplaceでの提供

ElevenLabsのテキスト読み上げ、会話型AI、吹き替えソリューションは、Google Cloud Marketplaceから直接利用可能になりました。エンタープライズ調達において重要な点は以下の通りです。

シンプルな請求：既存のGoogle Cloudアカウントを通じて請求
GCPコミットクレジットをElevenLabsサービスに充当可能
コンプライアンス：Google Cloudのセキュリティ認証に準拠
迅速なデプロイ：別ベンダーのオンボーディングなしで導入可能

Google CloudのマーケットプレイスおよびISV GTMプログラム担当マネージングディレクター、ダイ・ヴー氏は次のように述べています。「ElevenLabsソリューションをGoogle Cloud Marketplaceに導入することで、お客様はテキスト読み上げ、吹き替え、会話型AIを、Google Cloudの信頼できるグローバルインフラ上で迅速にデプロイ、管理、拡張できるようになります。」

この提携の意味

この提携は、AIにおけるより広いトレンドを反映しています。音声技術はスタンドアロンAPIから、深く統合されたエンタープライズインフラへと移行しています。ElevenLabsはもはや単なるテキスト読み上げプロバイダーではありません。Scribe v2の音声認識やIconic Voice Marketplaceなどの動きに続き、ハイパースケーラーのコンピュートを背景としたフル音声AIプラットフォームとしての地位を確立しています。

音声AIツールを検討しているクリエイターや企業にとって、実践的な影響は以下の通りです。

低レイテンシ：ライブ吹き替えや音声エージェントなどのリアルタイムアプリケーション向け
モデル品質の向上：より強力なハードウェアでの学習による改善
調達の簡素化：すでにGoogle Cloudを利用している組織にとって容易に
マルチモーダルワークフロー：Veo動画とElevenLabsオーディオの組み合わせ

Gemini統合は特に重要です。複雑なリクエストを推論し、複数システムからデータを取得できる音声エージェントは、単純なQ&Aチャットボットを超えた会話型AIの次のフェーズを表しています。

ElevenLabsで音声エージェントを構築

テキスト読み上げ、音声クローニング、会話型AI、70以上の言語での吹き替えを単一プラットフォームで利用できます。

ElevenLabsを始める →

よくある質問

この提携でNVIDIA Blackwell GPUはどのように使われますか？

ElevenLabsは、Google Cloud G4仮想マシンを通じてNVIDIA RTX PRO 6000 Blackwell GPUを使用し、音声AIモデルの学習と提供を行っています。これらのGPUは前世代インスタンスと比較して最大9倍のスループットを提供し、高速推論、低レイテンシ、より大規模なマルチモーダルモデルの学習を可能にしています。

GeminiはElevenLabsとどのように統合されていますか？

GoogleのGeminiモデルは、音声アシスタント向けの推論とマルチステップ計画を担うため、ElevenLabsのAgents Platformに統合されています。Geminiはコンテキストを理解し関数を呼び出すAI頭脳として機能し、ElevenLabsが会話のための人間らしい音声出力を提供します。

GCPクレジットをElevenLabsサービスに使えますか？

はい。既存のGoogle Cloud Platformコミットクレジットを持つエンタープライズ顧客は、Google Cloud Marketplace経由で購入したElevenLabs音声AIサービスに充当できます。テキスト読み上げ、会話型AI、吹き替えソリューションが含まれます。

Veo統合の目的は何ですか？

GoogleのVeo動画生成モデルはElevenLabsのCreative Platformに統合され、チームが1つのワークフロー内でビデオとオーディオコンテンツの両方を制作できるようになります。広告、企業研修、顧客教育など、組織が同期されたビデオと音声コンテンツを必要とするユースケースをターゲットとしています。

ElevenLabsは何言語に対応していますか？

ElevenLabsは70以上の言語でのコンテンツ制作とローカライゼーションに対応しています。拡大されたGoogle Cloud提携により、対応言語すべてで一貫した低レイテンシのリアルタイム音声エージェントとテキスト読み上げを提供するインフラが整備されています。

出典

この記事は役に立ちましたか？

最終更新日: 2026年3月2日

アフィリエイト開示：このレビューにはアフィリエイトリンクが含まれています。当社のリンクを通じて購入された場合、追加費用なしで当社がコミッションを受け取る場合があります。当社は個人的にテストし、読者に真の価値を提供すると信じるツールのみを推奨しています。