Claude Fable 5 がリリースされた。Fable 5は、Anthropic が “Mythos級” と呼ぶ、長期自律タスクや高度な研究・サイバー領域で従来モデルを大きく上回る能力層のモデルを、一般提供向けに安全制御付きで公開した高性能モデルである。Fable 5 は長期・複雑なタスクに強いが、サイバー、生物、モデル蒸留など一部の高リスク領域では、分類器により Claude Opus 4.8 へフォールバックする仕組みがある。
さっそく前に作ったゲーム制作ベンチマークをさせてみた。Claude Code + Claude Fable 5 (high) できたものが以下である。

ちなみに Opus 4.7 のものはこれ。

明らかに出来が違う。レベルデザインは複雑で解きごたえがある。プレイヤーがジャンプしたり着地した時のアニメーションやパーティクルも心地よい。ジャンプ・鍵取得・クリアなどに対応した効果音も良い感じ。今までのエージェントと比べて、ゲームに対する解像度が高い。
なんでこんなに良いレベルデザインができるのか? Fable 5 本人に聞いてみた。
❯ あなたはどのようにレベルデザインおよびゲームの調整を行った?
レベルデザインと調整は「先に解析的に設計し、後から探索ソルバーで裏付ける」という二段構えで行いました。
1.物理を先に固定し、決定論的にする
設計の前に、検証可能性を最優先して物理パラメータを決めました:
- 歩行速度 2px/フレーム、重力 0.5px/f²、終端速度 8px/f、プレイヤー 18×26px、タイル 32px(60fps固定ステップ)
- すべて整数・0.5刻みの値なので、座標が浮動小数点誤差なく正確に再現される → 状態空間が有限になり、総当たり探索が可能になる
- フリップは接地中のみ許可。これで「分岐が起きる瞬間」が限定され、パズルとして読みやすくなる
2.紙上(頭の中)での設計: 廊下の積層と「ドリフト合わせ」
レベルは4本の水平廊下をスラブ(梁)で区切り、スラブの隙間で接続する構造にしました。核になる調整は落下中の横ドリフトの計算です。歩行が止まらないので、フリップしてから天井/床に着くまでに必ず横に流されます。例えば最下層は廊下が高さ4タイル(上昇102px ≈ 20フレーム ≈ ドリフト40px)なので、「隙間 (5,6) を通すにはフリップ位置が x∈[120,166]でなければならない」という形で、各障害ごとに有効窓を px 単位で逆算しました。
その窓をスパイクで両側から削るのが調整の本体です:
- 床スパイクが「これ以上歩くと死ぬ」期限を作り、フリップを強制する
- 隙間の脇に置いた「番人スパイク」(例: 中層の col 12 の吊りスパイク)が、早すぎるフリップで天井伝いに迂回するズルを潰す
- 窓の広さで難易度カーブを付けました — 最初の障害は約47フレームと寛容、中盤は約20フレーム前後、ミスしても死かやり直しループに落ちるだけにする
また「壁で反転する」仕様を活かすため、鍵取得後に右壁でバウンドして帰りのガントレットに入る構成にし、ドアはスタート真上に置いて「最初から見えているが最後まで届かない」目標にしました。
3.ソルバーによる裏付けと品質指標
simulate.js はゲーム本体と同じ game-core.js を1フレームずつ探索します(各フレームの選択肢は「フリップする/しない」だけ)。単なる「クリア可能か」以上のものを測りました:
- フレームBFS: 最速解 665フレーム・10フリップと、そのSpace押下タイミングを出力
- 0-1 BFS(フリップ回数最小化): どんな解でも最低8フリップ必要と証明 — 「意図した障害が全部スキップ不能」であることの定量的な裏付けです
- ソフトロック監査: 到達可能な全88,786状態から「勝利か(リスポーンできる)死」に必ず到達できることを逆方向BFSで確認 — 永久に閉じ込められる袋小路がない
最後に Playwright で実機ブラウザ上に最速解の入力列をフレーム精度で再生し、Node のシミュレーションと同一の665フレーム目 で勝利することを確認しました。シミュレーションと実ゲームの挙動が完全一致している証明になります。
正直に言うと、マップは初回のソルバー実行で一発で通りました(反復修正を見込んでいましたが不要でした)。これは手順2でフリ ップ窓を事前に px 単位で計算してから配置したためで、「設計→検証」の分離がそのまま効いた形です。
本人の申告なので、すべてを信じるわけにはいかない。だが、Fable 5のゲーム制作における強みとして、おおむね以下が挙げられるだろう。
ルールから面白さの発生源を抽出する能力が高い。自動歩行+重力反転という制約を、単に実装条件として処理せず、「横ドリフト」「接地中フリップ」「壁反転」「見えるが届かないドア」といったゲーム制作向けの考え方に置き換えている。
試行錯誤だけに頼らず、解析的にレベルを設計できる。多くのエージェントのレベルデザインは「配置してはソルバーにかけ、落ちたら直す」という反復になるが、今回Fable 5は廊下の高さから上昇フレーム数と横ドリフトを計算し、各障害のフリップ有効窓をpx単位で逆算してから配置している。マップは初回のソルバー実行で一発で通っており、レベルデザインを試行錯誤だけでなく制約充足問題として扱えている。
検証可能性を組み込んだ実装ができる。物理パラメータを探索可能にし、ゲーム本体とシミュレータで同じコアを使い、BFS(最短時間の解)や0-1 BFS(最小操作回数)で品質を測っている。
暗黙の品質基準を補完できる。ユーザーは「面白い」「よくできた」「気持ちよく解ける」といった曖昧な依頼をすることが多い。Fable 5はそれら曖昧な要求を、「押すタイミングの余裕」「攻略ルートの想定」「想定通りに解けるかの検証」という制作上の操作可能な変数に変換している。この補完はルール設計だけでなく、演出のレイヤーにも及ぶ。プロンプトでは要求していない着地アニメーション、パーティクル、重力反転・鍵取得・クリアに対応した効果音を自発的に実装しており、よくできたゲームに何が含まれるかをモデル側が知っている。
評価軸が単一ではない。「クリアできる」「見た目が良い」「コードが動く」だけではなく、「極端に少ないフリップ数でのショートカットがない」「各状態から勝利か死亡へ進める経路がある」「特定の解で実機とシミュレーションが一致する」「難易度が段階的に上がる」という複数軸で見ている。「どんな解でも最低8フリップ必要」「到達可能な88,786状態のすべてから勝利か死亡へ進める経路がある」のような、状態空間の全体探索による裏付けも行っている。
ゲームを、コード生成タスクではなく、制約・体験・検証・演出を結ぶ設計タスクとして扱えるのがFable 5の偉いところだ。
上記のページにこのゲーム制作ベンチマークでの様々なコーディングエージェント、モデルでの結果がある。少なくとも今回選んだ生成結果では、Fable 5のゲームは明らかに出来が良いのが分かるだろう。コーディング能力から見ると、Fable 5は 着実な進歩 というくらいの評価になるかもしれないが、今回のゲーム制作結果を感覚的に評価すると、突然のジャンプアップという感じがする。
ただ、今回は短いプロンプトからそのまま生成されたゲームを、特定のジャンルで比較したにすぎない。より優れたゲーム生成ワークフローや、人間による評価・修正を含む改善ループを整備した場合、最終的に出来上がるゲームのモデル間差は変わってくる可能性がある。ゲーム制作一般における能力差を見るには、ジャンルや制作条件を変えた追加の試行が必要そうだ。