
2026/06/16 23:50
SubQ 1.1 Small
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
SubQ 1.1 Small は、膨大なアーティファクト(例:全体コードベースや金融届出書など)を分析する際の以前の計算リミットを克服することで、企業用 AI の重要な進歩を示します。Subquadratic Sparse Attention (SSA) モデルのこの 2 番目のイテレーションは、コンテンツの関連性に基づいて注意をルーティングすることで固定された位置パターンではなく注意を配分し、 quadratic な計算スケーリングを排除します。これにより、針干草テスト(Needle-In-A-Haystack test)において 1,200 万トークンまでほぼ完璧な検索を実現しました。具体的には、1M トークンのコンテキストでは、単一レイヤーで dense メソッド(FlashAttention-2)よりも 64.5 倍少ない計算資源を必要とし、56 倍高速に動作します。その効率的優位性はより長いコンテキストにおいて线性なスケーリング式の特性によりさらに増大しますが、同時に強い推論能力も発揮し、RULER(マルチホップ変数追跡を含む)で 99.12%、GPQA Diamond で 85.4%、LiveCodeBench で pass@4 が 89.7% を記録しています。
このモデルは、本とコードリポジトリなどの膨大なデータセットでの staged context extension に続き、さらに継続的な事前学習を行ったことで、長文脈の検索と短期的なロジックのバランスを取りながら開発されました(複数の世代を超えて 100 回以上の実験を通じて)。主な使用用途には、財務分析 due diligence、法的契約業務、およびファイル横断解析を必要とするソフトウェアエンジニアリングタスクが含まれます。展開は数週間以内に選定パートナーから開始され、年内により広範なラインナップへと拡大し、既存ハードウェアを使用して法的・金融・ソフトウェアエンジニアリングなどの業界に対してコスト効果の高い分析を可能にする 1,200 万トークンまでのコンテキストをサポートします。
本文
SubQ 1.1 Small:コンテキスト長の制約を打破する次世代 AI モデルの公開
企業が直面する最も困難な人工知能(AI)課題は、「完全なアーティファクト」にわたる推論であり、これにはコード全体や契約書といった長文書が絡みます。従来の検索パイプラインやチャンキング戦略は、モデルのコンテキスト長の制限に対する workaround(回避策) に過ぎません。
根本的な解決が必要なのは、計算資源がコンテキスト長に応じて二次的に増大してしまう「注意機構(アテンション)」の制約です。SubQ はこの制約を取り除くために設計されたモデルで、本日公開する SubQ 1.1 Small はその第 2 世代であり、最も小規模なバージョンです。年内には最大 1,200 万トークンのラインナップも順次導入される予定です。
主な特徴とパフォーマンス
SubQ 1.1 Small は以下のような圧倒的な効率性と汎用性を兼ね備えています。
- 長コンテキストでの高精度検索
- 「ハローの下の針(Needle-in-a-Haystack)」テストにおいて、最大1,200 万トークンの長コンテキストでほぼ完璧な検索精度を実現します。
- 従来の注意機構に必要な計算資源を最大で約 1,000 分の 1 に削減します。
- 知識と推論能力の両立
- 長コンテキスト最適化だけでなく、コーディングや非コーディングの企業エージェントベンチマークでも高いパフォーマンスを発揮します。
- コンテキスト長を 100 万トークンに設定した場合の性能:
- 従来の高密度アテンション(Dense Attention)と比較して計算資源は 64.5 倍少なくて済みます。
- 単一の注意層だけでFlashAttention-2 よりも 56 倍高速で動作します。
これらの成果は、二次非線形スパーズアテンション(SSA)により実現可能なスケーリングの優位性を如実に示しています。
ベンチマーク評価結果
SubQ 1.1 Small は、長コンテキスト検索や一般化能力、知識、コーディング、および長期的なホライズンを要するエージェントタスクなどを含む5 つの軸で評価されました。
1. 長コンテキスト検索と一般化能力
- 採用テスト: 「ハローの下の針(NIAH)」テストと NVIDIA の「RULER」テストを採用。両方とも大きなコンテキスト内の単一事実を検出できるか、事象間のつながりを認識できるかを検証します。
- NIAH での結果:
- SubQ 1.1 Small は100 万〜1,200 万トークンのすべての長さでほぼ完璧なスコアを記録しました(主に 100 万トークンで学習)。
- 位置情報の固定パターンではなく、コンテンツの関連性に基づいて注意機構をルーティングするため、学習時の長さに達する 12 倍離れたコンテキストでも検索性能が極めて良好です。
- RULER での結果:
- 単一事実検索を超えた多段階の変数追跡や集約など、完全アーティファクト負荷を要するタスクをカバー。
- **128K のコンテキスト長において 99.12%**のスコアを記録しました。
2. 汎用知識と推論能力
- SubQ 1.1 Small は、長コンテキスト最適化を損なうことなく汎用的な推論能力とのバランスが取れています。
- GPQA Diamond: 85.4%(ミドルティアのフロンティアモデルに劣りますが、小規模モデルとしては圧倒的)
- LiveCodeBench: 89.7%(pass@4)で絶対的なフロンティアに近い性能を示しています。
- AutomationBench Finance: 13% を記録し、この分野の最強クラスモデルと肩を並べる水準です。
ベンチマーク比較表(サブセット)
| ベンチマーク | SubQ 1.1 Small | GPT-5.5 Opus | モデル 4.8 | Sonnet 4.6 | GPT-5.4-mini | Haiku 4.5 |
|---|---|---|---|---|---|---|
| 大学院レベルの科学 (GPQA Diamond) | 85.4% | 93.2% | - | 87.5% | 87.5% | 67.2% |
| エージェント型財務分析 | 13% | 18% | 16% | 8% | 0% | 3% |
| 競技プログラミング (LiveCodeBench) | 89.7% | 92.9% | 92.2% | 88.9% | 78.6% | 69.7% |
注:表内の「-」や「n/r」は、GPT-5.5 Opus や他のモデルが結果を報告していないため未記載です。
システム効率性とアーキテクチャ
SubQ は**二次非線形スパーズアテンション(SSA)**という新しい仕組みを採用しています。
- 構造転換: 高密度アテンションの
という計算コストを持つパスを、コンテキスト長に対して線形にスケーリングする学習済みスパース表現に置き換えます。O(n²) - 規模メリット: コンテキスト長が増加するほど、高密度アテンションに対する優位性はより顕著になります。
- 高速化: 100 万トークンでは FlashAttention-2 よりも56 倍高速で動作し、計算資源を劇的に削減します。
SSA を利用することで、長コンテキストにおけるトレーニングおよび推論の経済構造自体が変化しています。詳細なメカニズムや他のスパースアテンション手法との比較については技術報告書をご覧ください。
トレーニング方法
SubQ の開発には以下のアプローチが採用されました。
- 基礎: 既存の開示型フロンティアモデルを起点とし、高密度アテンションを SSA に置き換えました。
- 段階的な拡張: コンテキスト長を 26.2K → 51.2K → 100 万 → 200 万 トークンへと段階的に拡大して学習しました。
- 継続的な事前トレーニング(Continued Pretraining):
- 書籍、ドキュメント、レポジトリ規模のコードなど、自然的な長文書アーティファクトを用いた追加トレーニングを約 1 トリリオントークン実施。
- SSA の効率化がもたらした「長上下文继续预训练」により、長コンテキスト検索能力が大幅に強化されました。
- 実験と調整: 6〜7 代目のモデル迭代において 100 以上の実験を行い、長文書タスクと短文書タスクの能力分布を精密にバランス取りました。
使用事例
SubQ は、アーティファクト全体に分散している情報に対する推論を必要とする負荷のために設計されています。
- 財務分析とデューデリジェンス
- 決算報告書や契約書など、個別のドキュメントではなくコンテキスト全体にわたって相互に関連付けながら推論を行います。単なる要約ではなく、文脈全体の理解を重視します。
- 法務と契約業務
- 用語定義(2 ページ)→ 条件付与(12 ページ)→ 例外条項(46 ページ)のように情報が分散した契約書に対し、従来の検索技術が関係性を失うのを防ぎます。
- 文書の全体を保持したまま直接推論を行うことで、散在する情報の結びつきを理解できます。
- ソフトウェアエンジニアリング
- コードベースのロジックや依存関係を一度に保持できない短コンテキストモデルとは異なり、Entire リポジトリを一つのコンテキストウィンドウに読み込みます。
- アーキテクチャレベルの推論、クロスファイルのリファクタリング、依存関係追跡を一貫して実行可能です。
今後の展望
- デザインパートナーとの共同展開: 数週間以内に最初のバッチを開始し、年内には最大 1,200 万トークンのモデルラインナップを順次導入します。
- 一般向けリリース: 年内にも一般向けのモデルリリースを予定しています。