**EsoLang‑Bench：エソテリック言語でLLMの真正な推論力を評価する**

Summary

EsoLang‑Benchは、Brainfuck、Befunge‑98、Whitespace、Unlambda、および Shakespeare の5つのエソテリック言語にわたる80のプログラミング問題で大規模言語モデル（LLM）を評価します。Python に比べてトレーニングデータは 5 000〜100 000 倍稀少です。5つの最先端 LLM と5つのプロンプティング戦略、2つのエージェンシー型コーディングシステムをテストした結果、全体的な正答率は 3.8 % にとどまりました。一方で同じモデルが等価の Python タスクで約 90 % のスコアを達成します。

すべてのモデルは Easy 階層以上（Medium、Hard、Extra‑Hard）の問題で失敗し、各言語においてそれらのレベルで 0 % の正答率となります。Whitespace は可視化されない構文のため、どんな設定でも 0 % の精度で完全に未解決です。エソテリック言語の中では Befunge‑98 が最高単一言語スコア 11.2 % を達成し、おそらくそのスタックベースの 2D グリッドパラダイムが原因と考えられます。

エラー解析によると、Brainfuck の失敗の 83.9 % は論理エラー（構文的には有効だが出力が不正）であり、Unlambda は 74.6 % がコンパイルエラー、Befunge‑98 は 93.4 % が実行時問題（無限ループなど）です。

Few‑shot プロンプティングは zero‑shot より精度を向上させず（Wilcoxon p = 0.505）、コンテキスト内学習がエソテリックタスクに対して非効果的であることを示しています。批評家や計画者を追加するとノイズが増え、現在のモデルは有効な多代理アプローチのためのドメイン知識を欠いていると明らかになります。

Codex や Claude Code のようなツール拡張型エージェントは、実行フィードバックループを統合することでプロンプトのみの方法に比べて約 倍の精度 を達成し、将来の LLM がエソテリックプログラミング課題で良好な性能を発揮するには、より緊密なインタープリター統合が不可欠であることを示唆しています。

これらの結果は、主流言語モデルと実際のプログラミング能力との間に劇的なギャップが存在し、開発者、AI コーディングプラットフォーム、および自動コード生成に依存する産業に対して制限を強調しています。

EsoLang‑Bench

大規模言語モデルにおける真の推論力をエソテリックプログラミング言語で評価する

要旨

現在、大規模言語モデル（LLM）のコード生成性能を測定するベンチマークは主にPythonなどの主流言語を対象としています。これらのモデルは膨大な事前学習コーパスから恩恵を受けるため、実際にはデータの暗記によって高い精度が得られることがあります。このような現象を踏まえ、我々は EsoLang‑Bench を提案します。これは Brainfuck、Befunge‑98、Whitespace、Unlambda、Shakespeare の5つのエソテリック言語に対して80問ずつ（合計400問）のプログラミング問題を用意し、Python と比べて学習データが 5 000〜100 000 倍ほど希少な環境でモデルを評価します。

5 つの最先端モデルを 5 種類のプロンプト戦略と 2 つのエージェント型コーディングシステムで検証しました。最高性能のモデルは 全体精度わずか 3.8 % に留まり、同等の Python タスクでは約 90 % という高いスコアと比べて劇的に低いことが判明します。すべてのモデルは Easy 階層以上の問題で 0 % の精度を示し、Whitespace はすべての構成で完全に解決できませんでした（0 %）。自己反省機能もほぼ効果がありませんでした。これらの結果は、主流言語でのベンチマーク性能と実際のプログラミング能力との間に大きなギャップがあることを示し、現在の LLM コード生成能力は見かけ上の指標よりも遥かに狭い範囲に留まっていることを示唆しています。

説明動画

ご利用中のブラウザは video タグをサポートしていません。

リーダーボード

モデル	API	エージェント型
各言語でのプロンプト戦略別最高スコア。80 問/言語、テストケース 6 件ずつ。

主な発見

85 点以上の性能ギャップ
標準ベンチマークで 85–95 % を達成する最先端モデルは、同等のエソテリックタスクでは 0–11 % にしか落ち込みません。主流言語で高得点を示すことが、一般的なプログラミング能力を反映しているわけではないと明らかです。
Easy 階層以降は 0 %
すべてのモデルが Medium、Hard、Extra‑Hard の問題で 0 % を記録し、最も簡単なタスクを超える推論能力に大きな上限があることを示しています。
Whitespace は完全未解決
どの構成でも Whitespace コードを正しく生成できません。可視化されない構文（空白・タブ・改行のみ）は訓練データから学習できず、事前学習に含める価値が経済的には低いというパラダイムが示唆されています。
インコンテキスト学習は失敗
Few‑shot プロンプトはゼロショットと比べて有意な改善をもたらさず（Wilcoxon p = 0.505）、標準ベンチマークでの ICL 成功は訓練済み優先度の活性化に過ぎないことが示唆されます。
自己スキャフォールディングが支配
1 回の LLM 呼び出し／イテレーションでインタープリターからのエラーメッセージを直接フィードバックする方法が、マルチエージェント手法よりも一貫して優れた結果を示します。クリティックやプランナー（ReAct）を追加しても測定可能なメリットは得られず、ノイズしか生み出しません。
2 倍のエージェント利点
ツール補完型エージェント（Codex, Claude Code）は実行フィードバックループによりプロンプトのみのアプローチと比べて約 2 倍の精度を達成します。訓練データが希少な状況で部分的に代替できることを示しています。

結果と分析

性能崖
エソテリック言語（訓練データが 5 000–100 000 倍希少）では、最先端モデルは約 90 % の精度から単桁に落ち込みます。Befunge‑98 が最高で 11.2 % を記録し、その 2D グリッド構造がスタックベース言語と部分的に共通している点が影響しています。一方、Whitespace はすべてのモデル・戦略で 0 % のままです。
戦略比較
インタープリターから直接エラーメッセージを受け取り、反復的に改良する自己スキャフォールディングが最も優れた結果を示します。クリティック（テキストベースの自己スキャフォールディング）やプランナー（ReAct）を追加しても有意な効果はなく、むしろノイズが増加します。これはエソテリックコードに対する自己反省機能が現在のモデルでは不十分であることを示唆しています。
誤差分析
各言語で独自の失敗パターンが観察されます：
Brainfuck – 83.9 % が論理エラー（構文は正しいが出力が間違い）
Unlambda – 74.6 % がコンパイルエラー（有効な組合算子式を生成できない）
Befunge‑98 – 93.4 % がランタイムエラー（2D 実行モデルで無限ループに陥る）
Shakespeare – 59.2 % がランタイムエラー（演劇的構文は認識できても対話意味が誤っている）
エージェント型システム
実際のインタープリターをツールとして利用する Codex や Claude Code は、プロンプトのみのアプローチと比べて約 2 倍の精度を達成します。Codex は Brainfuck で最高 13.8 % を記録し、ツールによる実行フィードバックが希少な訓練データを部分的に補完できることを示しています。しかし、ツールアクセスがある場合でも精度は主流言語レベルには遠く及びません。

対応言語

5 つのエソテリック言語は、テープベース、関数型、自然言語風など多様なパラダイムを網羅しています。

BibTeX

@article{sharma2026esolangbench,
  title        = {{EsoLang-Bench}: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages},
  author       = {Sharma, Aman and Chopra, Paras},
  journal      = {arXiv preprint arXiv:2603.09678},
  year         = {2026},
  eprint       = {2603.09678},
  archivePrefix= {arXiv},
  primaryClass = {cs.LG},
  url          = {https://arxiv.org/abs/2603.09678}
}

EsoLang‑Bench：エソテリック言語でLLMの真正な推論力を評価する

Japanese Translation: