【Gemini Veo3】映像＋音声で魅せるAI動画革命

公開日:2025年09月08日

田中健介

Webディレクター兼エンジニア

田中健介

このページの目次

Veo 3とは何か

「Veo 3（ヴィオ・スリー）」は、GoogleのDeepMindが開発した第3世代のAI動画生成モデルです。2025年5月にGoogle I/Oで初めて発表され、その後、Geminiアプリを通じて提供が開始されました。最大の特徴は「映像だけでなく音声も含めた短尺動画をテキストや画像プロンプトから一度に生成できる」点です。

映像面では最大8秒、解像度は4Kに対応し、自然な物理動作や複雑なカメラワーク、多彩な演出が可能です。音声面では環境音、効果音、BGM、さらにはセリフまで自動的に生成され、登場人物の口の動き（リップシンク）も高精度で同期します。

また、Google Geminiアプリ（Gemini Webもしくはスマホアプリ）に「動画生成」ボタンが表示されると、Veo 3を利用可能です。利用には、Google AI ProプランまたはUltraプラン（もしくは企業向けEnterpriseプラン）が必要になります。

Veo 2との違い（進化点）

1. 音声付き動画生成対応

Veo 2は映像のみでしたが、Veo 3は効果音やBGM、セリフを含む完全な動画を生成できます。

2. プロンプト再現度と複雑表現の理解

複雑なプロンプトや情景描写にも高精度に対応し、意図したシーンを忠実に表現します。

3. 映像品質と自然な動き

4K映像に対応し、風や光、水の反射といった自然な動きをよりリアルに再現できます。

4. 課金プランの差と利用条件

Google AI Proプラン（約2,900円／月）：1日3回まで利用可能
Google AI Ultraプラン（約36,400円／月）：ほぼ無制限に利用可能で最高品質モデルが使用できる

5. 利用対象の拡大

当初は米国限定でしたが、現在は日本を含む70以上の国と地域で利用できます。

Veo 3で実際の生成してみた

上記の動画は、実際にVeo 3を用いて動画を生成したものです。「映像と音の統合力」の高さを体感できます。

プロンプトは、「雨の夜、傘をさして歩く女性が、街灯の下でスマートフォンを見つめる」というシンプルなもののみ。

わずか数十秒で生成された動画には、女性の歩みと傘が雨粒を弾く音、濡れた石畳に反射する街灯の光、遠くから聞こえる車の走行音などが自然に重なり合って描かれました。さらに女性がスマートフォンを操作する指先の動きと、画面から放たれる柔らかな光が顔に映る様子まで再現されています。

このようにVeo 3は「映像＋音声」を同時に生成するため、従来の無音映像では補えなかった“体験としてのリアリティ”を提供できます。特に注目すべきは、映像と音が別々に作られているのではなく、AIがシーン全体を理解したうえで一体的に構成している点です。そのため映像と効果音のタイミングが自然に一致し、人間の撮影した動画と比べても違和感の少ない仕上がりになります。

Veo 3の実力は「映像を見せる」だけでなく「体験を伝える」段階に進化したと言えるでしょう。