つい先日メインで使っている生成AI、Google Gemini3.0の精度が落ちてきているんじゃないか?という風に感じ以下を投稿しました。
有料プランを契約していることもあり、これ以上悪化してほしくないなと思っていた矢先に、最新のGemini3.1 Proが登場ということで、実際のところ使い勝手はどうなのか?気になるところです。
AIの「知能」が数ヶ月で2.5倍になるという衝撃
AI技術の進化スピードは、もはや私たちの想像力を追い越そうとしています。
2026年2月20日にリリースされた「Gemini 3.1 Pro」は、ただの3.1というマイナーアップデートではなさそうです。
発表された性能表によると、わずか数ヶ月の間に、AIの「推論力」を実質2.5倍にまで引き上げた、まさに世代交代レベルのアップデートです。
先日登場したばかりのClaude Opus 4.6をも上回る性能を叩き出しており、AI業界の勢力図がまたも塗り替えられそうです。
推論力の爆発:ARC-AGI-2スコア「77.1%」が意味するもの
最大の衝撃は、AIの「本当の思考力」を測定するベンチマーク「ARC-AGI-2」で叩き出された数値です。
これは、AIが学習データにない「未知の論理パターン」をどれだけ正確に解けるかを測る、最も過酷なテストの一つです。
- Gemini 3.0 Pro: 31.1%
- Gemini 3.1 Pro: 77.1%
わずか3ヶ月でスコアは2.5倍(+148%)へと跳ね上がりました。
これは、AIが情報の検索やパターンマッチングの次元を超え、自ら「論理を構築して問題を解決する」ステージに到達したことを意味します。
Google公式はこの飛躍を「unprecedented depth and nuance(前例のない深みと繊細さ)」と表現しています。
エージェント時代の覇者へ:カスタムツールと自律性の進化
AIが自律的にタスクを完結させる「エージェント機能」において、Gemini 3.1 Proは競合を圧倒するデータを記録しています。
- 検索能力(BrowseComp): 59.2% → 85.9%
- 多段階ワークフロー(MCP Atlas): 54.1% → 69.2%
特筆すべきは、開発者向けに用意された専用エンドポイント「gemini-3.1-pro-preview-customtools」の存在です。
bashコマンドやカスタム関数の呼び出しに特化して最適化されており、DevOpsの自動化やAIコーディングアシスタントの信頼性が飛躍的に高まりました。
しかし、GoogleのコードエディタAntigravityでは、以下のようにメニューは表示されるものの、まだGemini 3.1 Proは利用できませんでした。(2026年2月20日時点)

早く利用可能になってほしいです。
究極の使い勝手:100MBのファイル解析と「Powerful Coding」への転換
Googleのポジショニングは、3.0時代の「Vibe Coding(実験的なコード生成)」から、3.1での「Powerful Coding(生産レベルの強力なコーディング)」へと明確にシフトしました。
- ファイル上限: 20MB → 100MB(大規模リポジトリやPDFセットを直接読み込み可能)
- YouTube URL直接解析: 動画リンクを入力するだけで、外部ツールなしで内容を詳細分析
- 出力上限: 65,000トークン(長大なレポートや完全なソースコードを一括生成)
動画チュートリアルの解析から大規模コードベースのセキュリティ監査まで、すべてのワークフローがGemini一つで完結します。
Claude Opus 4.6とどう使い分けるべきか?
最強のライバルであるClaude Opus 4.6との比較では、明確な「使い分け」の基準が見えてきます。
Gemini 3.1 Proが圧倒する領域
- 抽象的推論とエージェント実行: ARC-AGI-2(77.1%)やMCP Atlas(69.2%)で大きくリード。
- 低コスト・大規模処理: Claudeの半額以下のコストで、100万トークンのコンテキストを標準サポート。
- マルチモーダル: 動画・音声のネイティブ理解はGeminiの独壇場。
Claude Opus 4.6が優位を保つ領域
- 専門家タスク(GDPval-AA): 専門知識を要する分析ではClaudeが1606 Eloを記録(Geminiは1317 Elo)。
- ツール連携推論: ツールを使用したHLEテストではClaudeが53.1%と、Geminiの51.4%を僅差で上回る。
結論として、汎用的な推論、自律エージェント、コスト効率を求めるならGemini 3.1 Proが第一選択です。
一方で、極めて緻密な専門レポートや、ツールを複雑に組み合わせたエンジニアリングにはClaude Opus 4.6をルーティングするのが現在のベストプラクティスです。
AIとの向き合い方が変わる「新しい基準」
Gemini 3.1 Proの登場により、AIは「聞けば答えてくれる検索代行」から「複雑な問題を自律的に解くパートナー」へと変貌しそうです。
据え置きの価格で2.5倍の知能と15%の効率向上を手に入れられる今、積極的に3.1 Proを使っていきたいところ。
しかし、これまで生成AIの各モデルを利用してきて感じることは、ベンチマークの性能と実際の使い勝手は違うということで、そこは今後使い込んでいかないとわかりません。
先ほども書きましたが、Antigravityでは、まだGemini3.1 Proは利用できません。以前のGemini3.0の時にはエラーを吐くことが多く、GoogleのAIコードエディターなのに、Geminiで動作が不安定な感じでした。3.1Proでは安定して動作して実力を発揮してくれるとうれしいです。


