🧠 AI開発ナレッジ2026年2月22日5分で読める

Google Gemini 3.1 ProがARC-AGI-2で77.1%達成—推論性能が2倍以上に

GoogleがGemini 3.1 Proを発表。抽象的推論ベンチマークARC-AGI-2で77.1%を達成し、前バージョンから2倍以上の性能向上。複雑なワークフローと複数ステップの問題解決に最適化。

概要

Googleは2月20日、Gemini 3.1 Proを発表しました。実験的なDeep Thinkモードで開発された推論技術を統合し、抽象的推論ベンチマーク「ARC-AGI-2」で77.1%を達成。前バージョンの2倍以上の性能向上です。

出典: gHacks — 2026-02-20

詳細

ARC-AGI-2とは

ARC-AGI-2は、AIが「見たことのない論理パターン」を解けるかを測るベンチマークです。単純なパターンマッチングではなく、意図を理解して新しい問題に適応する能力—汎用知能に近い能力—を評価します。

Gemini 3.1 Proの特徴

  • 77.1%のARC-AGI-2スコア: 前バージョンの2倍以上
  • 構造化された計画能力: 複数ステップのワークフローを自律的に実行
  • エージェント型タスク対応: 単発の応答ではなく、継続的なタスク遂行

提供プラットフォーム

順次ロールアウト中:

  • Gemini App
  • NotebookLM(主要モデルとして)
  • Gemini API(開発者向けプレビュー)
  • Android Studio統合
  • 実験的Antigravity開発環境

AI Pro/Ultraプランでは高い使用上限と先行アクセスが提供されます。

ソロビルダーへの示唆

Gemini 3.1 Proは「推論が必要なタスク」に強みがあります:

  1. 複雑なデバッグ: 複数の要因が絡むバグの原因特定
  2. アーキテクチャ設計: 複数のトレードオフを考慮した意思決定
  3. コードレビュー: 論理的な問題の発見

NotebookLMでの利用が最もアクセスしやすいでしょう。APIプレビューに興味がある開発者は、Google AI Studioから申請可能です。

スコア内訳

スコア 理由
Newsworthiness 5/5 新モデル発表、ベンチマーク2倍達成
Value 4/5 推論強化は高度なタスクに有効
Actionability 4/5 NotebookLM、APIプレビューで利用可能
Credibility 5/5 Google公式発表
Timeliness 5/5 発表当日
合計 23/25