
2026/02/06 22:54
フォース? 本当ですか!?
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Summary
この記事は、FORTH スタイルの結合/適用言語構文をトランスフォーマーアーキテクチャに組み込むことで、連結を優先しスタック状態の一貫性を保つことによってデータベース操作を改善できると主張しています。これは、テーブル A と B の自然結合例で示されており、従来の
BUILD PROBE シーケンスがローカルに結合的な「横方向渡し」変換で置き換えられることを示しています。
DUP STATS SWAP BUILD [PUSHDOWN] DIP PROBE
著者はまた、データベース層の最適化パスとしてテキスト部分列に対する有限オートマトン変換を使用することも提案しています。
語順がトランスフォーマー性能に与える影響を評価するために、ベンチマーク実験では注意力トランスフォーマーが数列からパリティツリーを構築できるかどうかをテストしました。この研究はプレフィックスとポストフィックス表記を比較しています:プレフィックスはサブ回答を生成する前に全体のパリティを知っている必要があります(トップダウン)、一方ポストフィックスはサブ回答を先に生成します(ボトムアップ)。結果は、Opus と Haiku の 2 つのモデルで収集され、第三のモデル Sonnet はまだ分析中です。
主要な結果
| モデル | 試行タイプ | プレフィックス精度 | ポストフィックス精度 |
|---|---|---|---|
| Opus | Thinking | 98.3 % | 81.3 % |
| Opus | Non‑thinking | 50.0 % | 9.7 % |
| Haiku | Thinking | 88.3 % | 36.7 % |
| Haiku | Non‑thinking | 6.7 % | 4.3 % |
すべての試行で、ポストフィックスは一貫してプレフィックスより優れており、Opus は Haiku を常に上回っています。
この記事は、結合的変換を適用することでデータベース結合やその他のデータ集約タスクを合理化できると結論付けています。Sonnet でのさらなるテストが予定されており、これらの利点が確認できれば、このアプローチはトランスフォーマー ベースのシステムやデータベースエンジンに新しい最適化手法を提供し、計算オーバーヘッドを削減し大規模データアプリケーションでの性能向上につながる可能性があります。
本文
コロンの後に続く単語を生成しなければならないと想像してみてください。
その空白に何を書きますか? 質問が先に来る方が簡単です。
しかし、もし構文上で「空白」をまず生成させ、そのあとにそれを構成する部分を作らなければならないとしたらどうでしょう。LLM は素晴らしいですが、人間のトップダウン的な再帰分解を試みる人が多すぎます。そこで私は、FORTH や結合型/適用型言語がトランスフォーマー構造により良いかもしれないと考えました:統合ではなく連結で;スタック状態については合意するだけ。
この仮説を検証したいと思います。
横方向パッシングジョイン
以下のプログラムがあるとします。
A SCAN [foo > 5] FILTER B SCAN [foo < 5] FILTER BUILD PROBE
これは A と B の共通識別子に対して自然結合を行います。
結合型言語の特性により、局所的な編集は常に可能です。たとえば sed 的な変換であれば、
BUILD PROBE を次のように置き換えることで横方向情報パッシング結合を実現できます。
DUP STATS SWAP BUILD [PUSHDOWN] DIP PROBE
この同一性は、プログラムを「コンテキスト内で生成されたもの」と「まだ生成されるべきもの」に分割できることも示します。トークンを 1 つずつシャッフルしながらコンテキストを拡張し、トークン生成への欲求を消費していくわけです。
有限オートマタの部分列に対する変換がデータベース層の最適化パスを書き込む手段になると直感します。マンフリッツ・フォン・チュンの言葉を借りれば「構文的連結は意味的合成だ」。
ベンチマーク
この点でモデルが何をできるかを測定したいと思いました。注意機構付きトランスフォーマーにとって語順は重要でしょうか?実験は簡単です。数列から木構造を作り、木が指示に従う時点を測ります。サブツリーの子ノード合計が偶数か奇数かを判定する「パリティ」を使い、プレフィックス表記では全体の答えを先に知ってから部分的な答えを生成し、ポストフィックス表記では下位から上位へと逆順で生成します。
「次のトークンは何か?」という問いに対する回答方法を考えると、私の意図が分かるでしょう。
セットアップ
- 与えられるもの:数列
- 作るもの:プレフィックスまたはポストフィックスパリティ木
パリティ木とは、左寄りか右寄りに偏った不均衡な二項木で、葉が数値、内部ノードがその子孫全体の偶奇性を表すものです。
結果
Opus と Haiku で四つの試行を行いました(Sonnet は結果がまだ十分に理解できていないため公開前に検討中)。思考的アプローチは非思考的より優れました。Opus は常に Haiku を上回り、ポストフィックスはプレフィックスよりも優れていました。
| モデル | 思考 (Yes/No) | ポストフィックス正解率 | プレフィックス正解率 | 両方正しい | ポストフィックスのみ | プレフィックスのみ | 両方間違い |
|---|---|---|---|---|---|---|---|
| Haiku (Yes) | 88.3 % | 36.7 % | 110 | 155 | 0 | 35 | |
| Haiku (No) | 6.7 % | 4.3 % | 9 | 11 | 4 | 276 | |
| Opus (Yes) | 98.3 % | 81.3 % | 243 | 52 | 1 | 4 | |
| Opus (No) | 50.0 % | 9.7 % | 28 | 122 | 1 | 149 |
これらはすべて意味のある結果です。