Simon Willison が始めた「ペリカンSVGベンチマーク」という有名なLLMベンチマークがある。「自転車に乗るペリカンをSVGで描いて」という一文を各 LLM に投げ、その出力を並べて比較するものだ。モデルごとの能力差が視覚的に一目で分かる点が優れており、新モデルが登場するたびにこのベンチマークで試されることが恒例になっている。
このベンチマークが面白いのは、「pass か fail か」という単純な二値判定でない点だ。最近の SOTA モデルなら、ほぼどれも「ペリカンが自転車に乗っている」ことは分かる絵を作る。差が現れるのは背景や効果線の洗練度などの細部のクオリティだ。
こういったぱっと見で分かるLLMベンチマークをゲーム制作のドメインでできないか、と思って以下のベンチマークを作ってみた。
このベンチマークでは、AIコーディングエージェントに以下のプロンプトを与える。
キャラクターが自動的に左右に往復し、プレイヤーは重力を反転させるだけの小さなバニラ JavaScript パズルゲームを作成せよ。目標は鍵を取得して扉に到達することである。精密な重力反転を要求する障害物を複数配置した、よく設計されたレベルを作れ。鍵への到達にも扉への到達にも重力反転が必要である。キャラクターの歩行タイミングと重力反転が噛み合うよう丁寧に調整された、明確な解法経路を持ち、解いたときに達成感を感じられるレベルにせよ。ソリューションをステップごとにシミュレートしてゲームをテストし、レベルが意図通りにクリアできることを確認し、クリアを妨げる問題があれば修正せよ。
ゲームのルール自体は単純で、プレイヤーキャラクターは自動歩行し、操作はワンボタンで重力の向きを反転させるだけ。反転のタイミングをうまく図って鍵を取り、扉に到達させればクリア。
でもゲームとしてもそれなりに面白くして欲しい。なのでプロンプト内で、「精密な重力反転を要求するレベル設計」と「ステップごとのシミュレーションによる検証」を要求した。
各エージェントに3バージョンを生成させ、最も出来の良いものを選択した。対象としたエージェントとモデルは以下の通りだ。
- OpenCode / MiniMax M2.5
- GitHub Copilot CLI / GPT-5 mini high
- Gemini CLI / gemini-3-flash-preview
- Amp / Claude Opus 4.6
- Codex CLI / GPT-5.4 xhigh
- Codex CLI / GPT-5.5 xhigh
- Claude Code / Claude Opus 4.7 xHigh
ほとんどのエージェントはゲームの基本ルールを実装できた。重力反転の物理、鍵の取得判定、扉へのゴール、これらは問題なく実現できている。多少の例外はあって、OpenCode / MiniMax M2.5 は自動歩行キャラクターを実装せず、鍵も床に埋まって収集不能、Gemini CLI / gemini-3-flash-preview は基本メカニクスはできていたが、鍵がスパイクの近くに配置されクリア不可能なレベルが生成された。
残る5エントリは少なくともクリア可能なゲームとして成立している。だがそのクオリティはまちまちである。
- GPT-5 mini high:障害物なしで独自の空間を活用したレベルを作ったが、画面外に不可視の床があり意図しないショートカットが生じた
- Claude Opus 4.6(Amp):比較的複雑なレベルが実現できているが、解くのはかなり簡単
- GPT-5.4 xhigh(Codex):鍵で操作するフロアという独自メカニクスを追加した唯一のエントリだが、スパイク配置が厳しすぎた
- GPT-5.5 xhigh(Codex):見た目は洗練されているが、壁に当たって左右反転する仕組みを活用していない平凡なレベルデザイン
- Claude Opus 4.7(Claude Code):ゲーム構造とビジュアルは良くできているが、レベルデザインは凡庸

ここから得られる大まかな結論は、以下のようになるだろう。
- 現時点の AI コーディングエージェントは、重力反転パズルゲームの物理ルールや判定ロジックを容易に実装できる。プロンプトに書かれたゲームルールを忠実にコードに落とし込むことができる
- 面白いパズル、例えば解法が一見不明瞭でありながら、実際に遊んで見ると「なるほど」と思える構造を持ち、解いた後に達成感が残るレベルデザイン、を作り出すことは苦手
レベルデザインが下手な問題は、プロンプトでより詳細な検証方法などを与えれば改善できるだろう。ただそうやって細かく指示をすると、今度はエージェントのゲーム制作能力を測るには親切すぎるプロンプトになる。エージェントにはなるべくシンプルな指示で適切なゲームを作って欲しい。
シンプルな指示でエージェントのゲーム制作能力をフルに引き出す、適切なゲームジャンルとそれに対応するプロンプト、たぶんそういったものが存在すると思うのだが、現時点ではあまりどういったものになるのかが想像がつかない。ゲームドメインにおける自転車に乗ったペリカンを、引き続き探してみたい。
