Gemini 3.1 Proが出た。これはAI史上、最大の跳躍かもしれない

公開日:2026年02月20日

貝出康

代表取締役

貝出康

2026年2月20日。

Googleが「Gemini 3.1 Pro」を発表しました。

わたしはこのリリースノートを読んだとき、正直しばらく画面を見つめたままになりました。数字があまりにも凄すぎて、最初は「これ本当に？」と思ったんですよね。

今日はそのGemini 3.1 Proについて、できるだけわかりやすく、でも重要なポイントはしっかり伝える形で書いていこうと思います。AIに詳しくない方でも読めるように書きますが、エンジニアの方にも興味深い情報を盛り込んでいますので、ぜひ最後まで読んでみてください。

このページの目次

まず「ARC-AGI-2」という話をしないといけない

Gemini 3.1 Proの何がすごいかを語るには、まず「ARC-AGI-2」という評価指標の話をしないといけません。

「なんだそれ、また難しい用語が出てきた」と思った方、大丈夫です。ぼくもちゃんと説明します。

ARC（Abstraction and Reasoning Corpus）というのは、AIの「本当の知性」を測るためのベンチマークです。単純な暗記問題じゃなくて、人間でいうところの「考える力」「初見の問題を解く力」を測ろうとしているんですね。

これを作ったのはFrancois Cholletというエンジニアで、彼は「AIが本当に賢くなっているかどうかを測るには、学習データに含まれていない問題を解かせないといけない」と考えました。つまり、カンニングができない試験みたいなものです。

で、そのARC-AGIの第2世代、つまり「ARC-AGI-2」というのがさらに難しくなったバージョンです。

このARC-AGI-2、前のバージョンが満点だったo3というOpenAIのモデルでもわずか4%しか解けなかったという、異次元の難しさなんですよ。

人間の平均が60〜70%くらい解けるらしいのに、最先端のAIが4%しか解けない。それくらい難しいベンチマークです。

で、この問題に対してGemini 3.1 Proは何%を出したか。

77.1%です。

人間（60〜70%）を上回って、77.1%。

念のため繰り返しますが、他の最先端AIが4%しか出せなかったものです。それが77.1%。

これがどれだけ衝撃的かは、もはや言葉で説明するのが難しいくらいなんですよね。

スコアがいくつかを並べておく

「そういう数字が好きな人向けに、他のスコアも教えてほしい」という声が聞こえてきそうなので、まとめておきます。

まず、ARC-AGI-1（旧バージョン）では98.0%というほぼ満点に近いスコアを叩き出しています。

次に「GPQA Diamond」という科学知識系のベンチマークでは94.3%。これはphD（博士号）レベルの専門家でも50〜60%しか正解できないような問題を集めたものです。それを94.3%解いている。

「SWE-Bench Verified」はプログラミングの実践的なタスク（実際のGitHub Issueを解決する問題）で80.6%。これもコーディング能力として非常に高い数値です。

「Terminal-Bench 2.0」という、ターミナル（コマンドライン）を使ったエージェント的なコーディングタスクでは68.5%。

「Humanity’s Last Exam」という、ありとあらゆる学問分野の超難問を集めたテストでは44.4%。これも現時点でのトップレベルの結果です。

数字が苦手な方はとりあえず「すごい」とだけ覚えておいてもらえれば大丈夫です（笑）

Gemini 3.1 Proは「Gemini 3 Pro」の何が違うのか

「3.0から3.1って、マイナーアップデートっぽい名前だけど実際どうなの？」という疑問、当然だと思います。

普通のソフトウェアだと、3.0→3.1はバグ修正とか小さな改善くらいのイメージですよね。でも今回は違います。

たとえばARC-AGI-2のスコアで比べると、Gemini 3 Proが31.1%だったのに対して、Gemini 3.1 Proは77.1%。

倍以上どころじゃなく、2.5倍近く跳ね上がっています。

「3.1」という名前はちょっと地味に聞こえますが、実質的には大幅なブレークスルーです。「なぜ4.0って呼ばないのか」という議論もコミュニティで起きているくらいです。

わたしの解釈では、Googleとしては「Gemini 3のアーキテクチャの上に乗っている改良版」という位置づけだから3.1という名前にしているんだと思います。基盤となる構造はGemini 3 Proと同じ「Mixture of Experts（MoE）」アーキテクチャで、それを大幅に強化した形です。

ハルシネーションが激減している

AIの弱点として有名なのが「ハルシネーション」です。

ハルシネーションというのは、AIが自信満々に嘘をついてしまう現象のことです。「この本の著者は誰ですか？」と聞いたら、存在しない著者名を答えてしまうとか、「2022年の出来事を教えて」と聞いたら、実際には起きていないことを断言してしまうとか。

これはAIを業務で使うときの大きな障壁になっていました。「AIの回答を信用していいの？」という問題ですね。

今回のGemini 3.1 Proでは、「AA-Omniscience」というベンチマークで、ハルシネーション率が88%から50%に下がりました。

まだ50%というのは「高い」と感じるかもしれませんが、これはこのベンチマーク自体が「知識の限界を問う問題」で構成されているので、完全にゼロにはなりません。重要なのは、以前の88%から大幅に改善されたという方向性です。

実際の使用感としては、「知らないことを知らないと言えるようになった」という感じです。知ったかぶりが減ったんですよね。

コンテキストウィンドウが1,000,000トークン

もうひとつ重要なポイントとして、コンテキストウィンドウが100万トークン（1M tokens）というのがあります。

「コンテキストウィンドウって何？」という方へ：簡単に言うと「一度に処理できる情報量」です。

人間でいうと、短期記憶の容量みたいなものです。ぼくたちが会話するとき、「さっき言ったこと」を覚えていられる範囲がありますよね。AIも同様で、一度の会話の中で何文字分の情報を扱えるかという制限があります。

100万トークンというのは、日本語で大体200〜300万文字くらいに相当します。

「それってどれくらい？」という感覚を掴むために言うと、「ハリー・ポッター」シリーズ全7巻が合計で100万語くらいなので、それ全部を一度に渡して「この物語で矛盾している部分を探して」とか「登場人物の心理変化を分析して」とかできるくらいの量です。

もちろん一般的な使用では、そこまでの量を投げ込むことはほとんどありません。でも、企業の業務で使うときには大きな意味があります。巨大なコードベース全体を一度に渡してレビューさせたり、膨大な社内ドキュメントを読ませて質問に答えさせたりできるわけです。

さらに、出力トークンも64,000トークン（約12〜15万文字相当）と、非常に長い文章を一度に生成することができます。

SVGアニメーションが大幅に改善

「SVGアニメーション？なんそれ？」という方、ちょっと待ってください。これは実は面白い話です。

SVGというのは、ウェブ上で使われるベクター画像の形式です。拡大しても画質が落ちないタイプの画像で、アイコンとかグラフとかでよく使われます。

このSVGに「アニメーション」を付けると、ウェブページ上で動くグラフィックが作れます。例えば、棒グラフが下から伸びてくるアニメーションとか、ローディングスピナーとか。

Gemini 3.1 Proはこのコード生成能力が格段に上がっていて、「会社のロゴが右から飛んでくるアニメーションを作って」とか「データが視覚的に動くダッシュボードを作って」とかをかなり高精度で実現できるようになっています。

これはコーディングができない人でも、「こんなアニメーションを作りたい」と言葉で伝えるだけで作れるということです。デザイナーやマーケターの方にとって、実はかなり使いどころがある機能です。

「MEDIUM」という新しい思考モード

少し技術的な話になりますが、Gemini 3.1 Proには「thinking_level」という設定が追加されました。

これは「どれだけじっくり考えてから答えるか」を制御するパラメータです。

以前は「考える/考えない」の二択でした。今回から「LOW」「MEDIUM」「HIGH」の3段階になっています。

特に新しく追加された「MEDIUM」モードが面白くて、速さと精度のバランスが取れているということです。

「めちゃくちゃ考えて精度を上げる（でも時間がかかる）」か「とにかく速く答える（でも精度が落ちる）」かの中間で、「ほどほどに考えて精度も速さもそこそこ担保する」という選択肢が生まれました。

これは実際のサービスやアプリケーション開発で非常に重要です。チャットボットみたいな「即答が必要な」用途ではLOW、複雑な分析を必要とする場面ではHIGHという使い分けができるわけです。

どこで使えるのか

「使ってみたい！どこで使えるの？」という話をします。

一般ユーザー向け：

まず一番手軽なのは、Googleの「Gemini」アプリです。スマホのアプリでもWebでも使えます。ここで普通に使えるようになっています。

「NotebookLM」というGoogleのサービスでも使えるようになっています。NotebookLMは自分の資料（PDFとか、URLとか）を渡して、それについて質問できるサービスです。研究者や学生に人気があります。

開発者・エンタープライズ向け：

「Google AI Studio」では無料でAPIを試すことができます。まず試してみたいエンジニアの方はここから始めるのがおすすめです。

「Vertex AI」というGoogleのクラウドサービスでも使えます。これは本番環境での利用を考えている企業向けですね。

「Gemini Enterprise」というビジネス向けプランでも使えます。

「Gemini CLI」はコマンドラインから直接使えるツールです。エンジニアにとっては日常のターミナル作業の中でAIを活用できるようになります。

「Android Studio」（Androidアプリ開発ツール）にも統合されています。Androidアプリを作っている開発者の方は、コーディングアシスタントとして使えます。

GitHub Copilotでも使える：

GitHubのAIコーディングアシスタントである「GitHub Copilot」でも、Gemini 3.1 Proが選択できるようになりました。対象はPro、Pro+、Business、Enterpriseの各プランユーザーです。

これはGitHubがMicrosoftの傘下にあることを考えると、GoogleとMicrosoftが競争しながらも一部では協力している、AI業界の複雑な関係性を感じますね。

価格はどうなっているのか

「使いたいけど、お金どれくらいかかるの？」という話も重要ですよね。

APIの料金体系は以下の通りです。

入力トークン（AIに渡す情報）： – 200,000トークン以下：100万トークンあたり2ドル – 200,000トークン以上：100万トークンあたり4ドル

出力トークン（AIが生成する内容）： – 200,000トークン以下：100万トークンあたり12ドル – 200,000トークン以上：100万トークンあたり18ドル

「100万トークンって大量に感じるけど実際いくらなの？」という感覚のために言うと、一般的な日本語の会話（数百文字のやりとり）を1,000回行ったとして、入力側で大体50〜100万トークン使うかどうか、というくらいです。

つまり、個人の利用であれば月に数十〜数百円程度に収まることが多いです。ビジネスで大量に使う場合はもちろんそれ以上になりますが、処理能力に対してコストパフォーマンスは良い方だと思います。

なお、モデルIDはgemini-3.1-pro-previewです。特定のカスタムツール機能を使いたい場合はgemini-3.1-pro-preview-customtoolsというエンドポイントも用意されています。

実際にどう使えるのか、具体的に考えてみる

ここまでスペックの話ばかりしてきたので、「で、実際に何に使えるの？」という話をしたいと思います。

ビジネス文書の作成・レビュー：

100万トークンのコンテキストウィンドウを活かして、大量の文書を一度に渡すことができます。例えば、「過去5年分の決算報告書を全部読んで、業績のトレンドを分析して」とかができます。

コンサルタントや経営者の方が、長期的な事業分析をする際にかなり強力なツールになりますね。

コードの大規模リファクタリング：

エンジニアの方向けですが、大規模なコードベース（数万行のプログラム）を一度に渡して、「このコード全体を新しいフレームワークに移行して」とか「パフォーマンス上の問題を全部洗い出して」というような作業ができます。

SWE-Bench Verifiedで80.6%というスコアは、実際のプログラミング作業でかなりの精度を発揮するということを示しています。

研究・情報収集：

論文や資料を大量に渡して分析させるという使い方があります。GPQA Diamondで94.3%というスコアは、科学的な質問に対してphDレベルの答えができることを示しています。研究者の方には強力なアシスタントになるでしょう。

クリエイティブ制作：

SVGアニメーションの生成が改善されたことで、コードが書けないデザイナーやマーケターの方でも「こんな動くグラフを作りたい」「このデータを視覚的に見せたい」という要望を実現できます。

複雑なシステム設計：

「複雑なシステムの統合（complex system synthesis）」という点でも改善されたとされています。複数のシステムやサービスを組み合わせて、どう設計するかという問いに対して、より精度の高い答えが得られるようになっています。

エージェント機能の進化が見逃せない

今回のGemini 3.1 Proで地味に、でも非常に重要な改善がされているのが「エージェント機能」です。

エージェントというのは、AIが人間の指示を受けて、自分でいくつかのステップを踏みながら複雑なタスクをこなしていく機能のことです。

例えば「競合他社の最新情報を調べて、うちの製品との比較表を作って、それをメールで送って」みたいな複数ステップの作業を、人間が都度指示しなくても、AIが自律的にこなしていくイメージです。

Gemini 3.1 Proでは、この種のエージェント的なタスクへの対応能力が大幅に向上したとされています。Terminal-Bench 2.0（68.5%）というスコアはまさにこれを測ったものです。

ぼくが面白いと思ったのは「Gemini CLI」というコマンドラインインターフェースでの活用です。エンジニアがターミナルで作業している最中に、AIと会話しながらコードを書いたり、コマンドを実行させたりできるようになっています。

「このスクリプトを実行して、エラーが出たら修正して、もう一度動かして」という一連の作業を、AIが自分でやってくれるわけです。これはもはや「ペアプログラミングのパートナー」を超えた、「一緒にコードを書いてくれる同僚」みたいな存在になってきています。

また、Googleの「Antigravity」というプラットフォームでも利用できるようになっています。Antigravityはより高度な自律エージェントの実験的なプラットフォームで、複雑な業務プロセスの自動化を目指しています。

エンジニアが知っておくべき技術的な詳細

ここは少し技術寄りの話になるので、エンジニアでない方は飛ばしてもらっても大丈夫です。

アーキテクチャ：

Gemini 3.1 ProはGemini 3 Proと同様、「Mixture of Experts（MoE）」というアーキテクチャを採用しています。これは、大きなモデルの中にいくつかの「専門家（エキスパート）」モジュールがあって、入力に応じて適切なモジュールが活性化される設計です。

これにより、計算コストを抑えながら高い性能を実現できる特徴があります。

APIエンドポイント：

通常の使用：gemini-3.1-pro-preview カスタムツール機能を使用する場合：gemini-3.1-pro-preview-customtools

カスタムツールエンドポイントは、自社のAPIや内部ツールとGeminiを連携させたい場合に使います。例えば「会社のデータベースに問い合わせる関数」「社内の予約システムを操作する関数」などを定義して、AIに使わせることができます。

thinking_levelパラメータ：

新しく追加された設定で、LOW、MEDIUM、HIGHの3段階があります。

thinking_level: "LOW"    # 速度優先
thinking_level: "MEDIUM" # バランス型（新機能）
thinking_level: "HIGH"   # 精度優先

ユーザー向けのチャットボットではLOW、複雑な分析タスクではHIGHを選ぶなど、ユースケースに合わせて使い分けることができます。

トークン効率の改善：

Gemini 3.1 Proでは「トークン効率」も改善されています。同じ内容を処理するのに必要なトークン数が減った、つまりコスト面でも効率的になったということです。

他のAIモデルと何が違うのか

「ChatGPTとかClaudeとかと比べてどうなの？」という疑問も当然ありますよね。

まず正直に言うと、AIの比較は難しいです。ベンチマークの数値は一つの指標に過ぎないし、用途や好みによって「どれが最強か」は変わります。

ただ、今回のGemini 3.1 Proの特徴として明確に言えるのは、「推論力（reasoning）」において大きな前進があったことです。ARC-AGI-2での77.1%というスコアは、現時点で他のどのモデルも達成していない数値です。

OpenAIのo3やo4-miniは推論特化モデルとして知られていますが、今回のGemini 3.1 Proの登場で、Googleが推論分野でリードを取った可能性があります。

Anthropic（Claudeを作っている会社）は、長い文脈を処理する能力や安全性の面で評価されていますが、今回Gemini 3.1 Proが100万トークンのコンテキストウィンドウを持つことで、長文処理でも競争力を持ちました。

コーディング能力については、GitHubとの統合もあり、エンジニア向けの用途での競争が激しくなっています。

正直、「どれが一番か」という結論は出しにくいですが、Gemini 3.1 Proは「推論力」という点で明確な強みを持っていると言えます。

AGIはもう来ているのか？

「ARC-AGI-2で人間越えって、AGI（汎用人工知能）が来たってこと？」と感じた方もいるかもしれません。

ぼくの見解では、まだ「AGIが来た」とは言い切れないと思っています。

ただ、「もう来ている定義のAGIもある」という言い方はできます。

ARC-AGIというベンチマーク自体は「AGIを測るための指標」として設計されていて、そこで人間を超えたのは確かです。でも、これはあくまでひとつのベンチマークです。

現実の世界では、AIはまだたくさんのことが苦手です。常識的な判断が必要な場面、曖昧な指示を解釈する場面、物理世界でのインタラクションなど、人間が自然にできることでAIが苦手とすることはまだ多くあります。

とはいえ、今回の結果は「AIが解けない問題のカテゴリ」というものが急速に縮小していることを示しています。これは間違いなくAI史上の大きなマイルストーンです。

まとめ：今、何をすべきか

長くなりましたが、まとめます。

Gemini 3.1 Proは、特に「推論力」という点で前世代から大きく改善されています。ARC-AGI-2でのスコアは、現時点で業界に衝撃を与えるレベルのものです。

100万トークンのコンテキストウィンドウ、ハルシネーションの大幅な低減、コーディング能力の向上、SVGアニメーション生成の改善など、実用的な面でも多くの改善が行われています。

ぼくがみなさんにおすすめしたいのは、まず「使ってみること」です。

Google AI StudioのAPIは最初は無料で試せます。GeminiアプリやNotebookLMも手軽に試せます。

「どのAIが最強か」を議論するより、自分の仕事や用途に合わせてどのAIを使うかを考える方が実用的です。そして、その候補のひとつにGemini 3.1 Proが加わったということです。

AIの進化はこの1〜2年で本当に急加速しています。2年前の自分に「AIが人間の推論テストを超えるよ」と言っても信じてもらえなかったでしょうね。

次に何が来るのか、ぼく自身も非常に楽しみにしています。

本記事は2026年2月20日時点の情報に基づいています。AIの世界は変化が早いので、最新情報はGoogleの公式ブログやGoogle AI Studioで確認することをおすすめします。

わたしがGemini 3.1 Proを試してみて思ったこと

最後に、個人的な感想を一言だけ書かせてください。

AIのリリースが増えてくると、「また新しいモデルか、どうせ大して変わらないだろう」という感覚が出てきますよね。ぼくも正直、最初はそう思っていました。

でも今回のGemini 3.1 Proは、ベンチマークの数値を見た瞬間に「これは違う」と感じました。

ARC-AGI-2のスコアが77%というのは、数字として見ると「ああ高いね」で終わってしまいそうですが、その背景を理解すると、これがどれほどの跳躍かがわかります。半年前まで「AIには解けない問題」と思われていたレベルのものを、突然解けるようになったわけです。

これからの1〜2年で、AIが「できること」と「できないこと」の境界線がどんどん変わっていきます。今のうちにAIを使いこなす習慣を作っておくことが、仕事においても個人においても大切だとぼくは思っています。

Gemini 3.1 Proを試してみて、ぜひ自分なりの感想を持ってみてください。

参考：主要ベンチマークまとめ

ベンチマーク	Gemini 3 Pro	Gemini 3.1 Pro
ARC-AGI-2	31.1%	77.1%
ARC-AGI-1	—	98.0%
GPQA Diamond	—	94.3%
SWE-Bench Verified	—	80.6%
Terminal-Bench 2.0	—	68.5%
Humanity’s Last Exam	—	44.4%

当社サイトでは他にもビジネスに役立つ情報を発信しています。ぜひ、他記事もチェックしてくださいね。

最新記事一覧を見る

無料相談受付中
AI技術の導入や活用方法について相談したい方は、株式会社カンマンにお問い合わせください。
最新のAI技術を活用した経営戦略や業務効率化について、無料でご相談を承っております。

お問い合わせ

AIの無料セミナー優先参加特典や最新情報が受け取れます

【無料】AIメルマガを受け取る

この記事をシェアする

貝出康

代表取締役

貝出康

1963年徳島市生まれ。 1999年に楽天の三木谷社長の講演を聴き、インターネット時代の到来を悟る。翌年、ホームページ制作会社カンマン設立に参画し、これまでのキャリアで培った営業や人事のスキルを活かしての顧客開拓や社内・労務管理を実践。2019 年〜代表取締役。