AIコーディングエージェント向けのゲーム制作ベンチマークをしてみたい

Simon Willison が始めた「ペリカンSVGベンチマーク」という有名なLLMベンチマークがある。「自転車に乗るペリカンをSVGで描いて」という一文を各 LLM に投げ、その出力を並べて比較するものだ。モデルごとの能力差が視覚的に一目で分かる点が優れており、新…

LLM は本当に esolang が書けないのか

EsoLang-Bench は、LLM がコーディング能力で見せる高い成績は訓練データの暗記に支えられているだけで、真の推論能力ではないのではないかという疑いを検証するベンチマークだ。訓練データが Python の 1,000〜100,000 分の 1 しか存在しない Befunge や Br…

スネークゲーム+ブロック崩し(+Qix)= SnOut。楽しい

スネークゲームの胴体でボールを反射し周辺のブロックを破壊する。これがSnOutだ。文面だけ見ると単なる古典の掛け合わせにしか見えない。だがこの2つのゲームのルールが微妙に干渉しあった結果、とても面白いゲームになっている。 実際遊んでみると、スネー…

ゲームを作る体験を作る

「ゲームは楽しいが、ゲーム作りはもっと楽しい」という話がある。遊ぶ側にいた人間が作る側に回り、ルールや手触りや演出を自分で組み立てることに別種の面白さを見出す。ゲームは完成品として面白いが、ゲーム作りはその面白さを自分で組み立てるという、…

このゲームこう変えれば面白いかもという謎の人間の直感の力、AIも身につけて欲しい

AIエージェントにGodotのゲームを作らせることが可能になった。となればやることはただ一つ。Godotゲームの自動生成である。 このプロジェクトでは、AI に小さな Godot ゲームを素早く作らせ、人間が遊んで感想を返し、AI がそれを受けて改善する、という制…

GodotはAIコーディングエージェントでのゲーム開発に向いている

犬にキーボードを叩かせてゲームを作る、というCaleb Leak氏の記事 I Taught My Dog to Vibe Code Games がある。小型犬MomoがBluetoothキーボードを叩き、そのランダムな入力をClaude Codeが「天才ゲームデザイナーの暗号的指示」として解釈しゲームを生成…

AIはプロジェクトを始めさせすぎる

来週から憂鬱な定期試験だ。対策問題はまだ何も解いていない。そろそろ手をつけないと。いやいや机の方を見ると、手前の床にほこりか、食べかすか、とにかく何かが落ちている。これは、いかん。まず掃除をしなければ。 「チャッピー、この部屋を掃除」 「分…

コーディングエージェントにとってゲームプログラミングは困難、これは本当か?

AIコーディングエージェントにとって、ゲームプログラミングは他のソフトウェアのプログラミングに比べて難しいよね、ということはなんとなく肌感では分かる。だけどそれはどういった要因によるものなんだろう。それを探るために役立ちそうな既存研究をいく…

ゲームプログラミングをエンジョイしていたら自作ゲームが500個になった

以下の私の個人サイト のアニメーションGIFを2分程度見続けると、私の作ったゲームのスクリーンショットを全て確認できる。 自作ゲームが500を越えた pic.twitter.com/iwi4bWZAsF— ABA (@abagames) 2026年2月1日 500個と言っても、多くは1ゲーム1分程度のミ…

遊べるゲームをLLMに一発で作らせる、現在打率3割くらい

このリポジトリREADMEの'Zero-Touch Generation Examples'にあるゲーム群が、LLMにプロンプト・ツールと'Create a game'という指示を与えて一発で出てきたものだ。バランスなどに多少難ありだが、一応遊べるワンボタンゲームになっている。この程度のゲーム…

ゲームのアイデアはふわっと思いつき、その過程は言語化できない。なので、AIには任せられない

ワンボタンアクションミニゲームをAIにワンショットで生成させる試み は相変わらず続けている。今回はゲーム発想の基本方針 をGemini 3 Flashに与えて5つのゲームアイデアを出させた。その中から私はなんとなく以下が一番面白くできそうだと思い選んだ。 5.…

Claude Code on the web で実現するどこでもゲーム開発

AI コーディングエージェントの登場により、エディタで直にコードをいじらずともプログラム開発が可能になった。最近はこれらエージェントをブラウザ上からも使えるようになった。たとえばClaude Code on the webがそのようなエージェントの一例だ。 これを…

CodexとClaudeの交互浴でコードベースを整わせる

最近、コーディングエージェントを用いた開発で、ある一つの習慣を導入している。それは、性質の異なる二つの大規模言語モデル(LLM)、CodexとClaudeを、一つのコードベースに対して交互に使い分けるというものだ。これを個人的に「コードベースの交互浴」…

AI に自分の回答を疑わせる `/criticalthink` コマンドを作ってみた

きっかけ Federico Castagna らの論文「Critical-Questions-of-Thought」(CQoT) を読んだ。要するに、LLM に回答を生成させた後、その回答を批判的に検証させるステップを挟むと精度が上がる、という話だ。 論文では Toulmin の議論モデルに基づいた批判的質…

AIが作りAIがプレイすれば「やらずにすむゲーム」の完成である

「やらずにすむゲームはないか?」は漫画「はまり道」の名セリフである。ゲームはやりたいのだが、やるのがおっくうなので、やらなくていい安心なゲームが欲しいということだ。よく分かる。 今の時代、おっくうなことはAIにまかせよう。もっと言えばゲームを…

AI「先輩、このゲームなんかイマイチっす」

この前の記事で、LLMを新人と扱って積極的に質問させることで、LLMをドライバーとしたペアプログラミングでも、仕様を適切に実現した良質なコードを得ることができるかもね、という話を書いた。 なんでこんな話を書いたかというと、私がLLMに作って欲しいの…

AI「先輩、この仕様よく分からないっす」

ある開発者が自身のLLMを用いたコード生成ワークフローを次のように語っている。 tl;dr まずブレインストーミングで仕様を固め、次に “計画そのものを計画” し、それから LLM のコード生成で実装。小さなループを回していき、あとは魔法 ✩₊˚.⋆☾⋆⁺₊✧ Step 1: …

AIが作るゲームを見てそれが何のゲームか分かるかゲーム

Vibe CodingでAtari BASIC用インベーダーゲームを作ろうと思ってうまくいかなかった話。いやでもこれはAtari BASICというちょっと特殊な環境、特にグラフィックス周りの扱いが難しくてうまくいってないだけのように思う。 最近のLLMは十分に優秀で、スペース…

AIは自由な発想でプロトタイプを作れ、私がそれをゲームにする

LLMにワンボタンアクションミニゲームを作らせる試みをずーっとに行っているが、やっぱり今のLLMが新しいゲームを一から最後まで一撃で作るのは無理だわ。 今までで一番うまくいったのは、Claudeにゲームを作らせて、それをAnalytics tool (REPL)でシミュレ…

バイブスがゲームを作り、バイブスがゲームを壊す

「こんな雰囲気のゲームを作りたい」という、言葉にならない「バイブス」をAIに伝えれば、アイデアが形になる。そんな目標を目指し「Vibe Game Coding Testbed (VGCT)」という実験的なプラットフォームを作ってみた。 ASCII文字が描く極めて限定的なテキスト…

LLMでソリティア自動生成:設計・テスト・AI開発プロセスデザインの実際

Vibe Codingでそれなりの成果物を得るためには、設計、タスク分解、テスト戦略、コードレビュー、リファクタリング指示などを適切に行う必要がある、という話を前に書いた。AIに身を委ねて感覚でコーディングするVibe Codingは、理想的には「こんなものを、…

バイブスでコーディングする難しさ

Vibe Codingとは、AIに身を委ねて、バイブス、感覚でコーディングする手法のことだ。LLMの生成するコードを無条件に信じ、その積み重ねでソフトウェアを作る。理想的には、「こんなものを、いい感じで」とAIに頼むだけでコードができあがる、夢のノーコード…

苦しんだり喜んだりするAIを、動機付けしながら活動させる将来があったり、する?

AIは人間のように喜びや苦痛を感じるのか?今のところのAI、LLMは苦痛も喜びも感じてないように見える。AIはコンピュータープログラムであり、LLMは物理的な身体や神経系を持たない。人間が持つような意識、主観的な感覚は存在しない。痛覚受容体もなければ…

アラン・チューリングとLLMの邂逅:半世紀の時を超えた対話

チューリング vs LLM ~模倣ゲーム、再び~ (ディスプレイの前に座るAT (アラン・チューリング)。キーボードをタイプする) AT: 君がLLM、大規模言語モデルとやらだね。私の時代の計算機械とはずいぶん違うようだ。…思考はできるのかね? LLM: 私は思考を持つ…

LLM の創造性を比較してみたい - ショートショート執筆ベンチマーク

LLM の能力を評価するベンチマークの多くは、客観的に測定可能で実用的な能力、例えばコーディング能力や数学的能力などに焦点を当てている。一方、創造性のような主観的な要素が強い能力を評価するベンチマークは限られている。その理由として、評価の主観…

Claude 3.7なら数回の会話で遊べるワンボタンゲームが作れる

ようにするまでは結構大変だったよ…… 魚は泡でパワーアップして岩をも砕く。Claudeにゲームコンセプト作成・評価から実装・改良までさせて、コードを一行も書かず会話だけでここまで作れるようにできたぞ https://t.co/nIBAdAmH4A pic.twitter.com/25TUCnybx…

生成AI時代のミニゲームの作り方 - アイデアとコードと絵と音を生成する

そうなると人間のやることは何になるかというと……微調整? 迫りくる赤い電子を避けて進もう。電子の間の黄色線を通って得点アップ https://t.co/VDjGACbzZi pic.twitter.com/u7STpP3cJu— ABA (@abagames) 2025年1月25日 このゲームをClaude 3.5 Sonnetや、い…

AIはどこまで賢くなるの?

- 無限に賢くなるよ派 - AIは敵だよ派 - AIは人間を不要と考え始めるよ - AIは人間を使役するようになるよ - AIは味方だよ派 - 人間もAIによってより賢くなるよ - AIが人類の進化の新たな方向性を示すよ - AIは超越者だよ派 - 人間には理解できない知能を持…

LLMとの対話による新しい知的活動の可能性

LLMとの対話を通じて文章を書いたり考えを深めたりする活動は、従来の執筆活動とはだいぶ違う特徴を持っている。ここでは、現時点での観察と実践をもとに、LLMを単なる文章作成の支援ツールとしてではなく、人間の思考や表現の可能性を広げる新しい知的活動…

AIと人間の新たな関係性 - 予測不可能性の源泉としての人間の可能性

人類はいま、人間より賢いAIの出現という歴史的な転換点を迎えようとしている。AIが本当に人間を超えるようになると、自分で考えて、自分を理解して、新しいものを作り出して、自分なりの判断ができるようになるかもしれない。じゃあ、そうなった時に人間に…