SubQ 1.1 Small

2026/06/16 23:50

SubQ 1.1 Small

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

SubQ 1.1 Small は、膨大なアーティファクト(例:全体コードベースや金融届出書など)を分析する際の以前の計算リミットを克服することで、企業用 AI の重要な進歩を示します。Subquadratic Sparse Attention (SSA) モデルのこの 2 番目のイテレーションは、コンテンツの関連性に基づいて注意をルーティングすることで固定された位置パターンではなく注意を配分し、 quadratic な計算スケーリングを排除します。これにより、針干草テスト(Needle-In-A-Haystack test)において 1,200 万トークンまでほぼ完璧な検索を実現しました。具体的には、1M トークンのコンテキストでは、単一レイヤーで dense メソッド(FlashAttention-2)よりも 64.5 倍少ない計算資源を必要とし、56 倍高速に動作します。その効率的優位性はより長いコンテキストにおいて线性なスケーリング式の特性によりさらに増大しますが、同時に強い推論能力も発揮し、RULER(マルチホップ変数追跡を含む)で 99.12%、GPQA Diamond で 85.4%、LiveCodeBench で pass@4 が 89.7% を記録しています。

このモデルは、本とコードリポジトリなどの膨大なデータセットでの staged context extension に続き、さらに継続的な事前学習を行ったことで、長文脈の検索と短期的なロジックのバランスを取りながら開発されました(複数の世代を超えて 100 回以上の実験を通じて)。主な使用用途には、財務分析 due diligence、法的契約業務、およびファイル横断解析を必要とするソフトウェアエンジニアリングタスクが含まれます。展開は数週間以内に選定パートナーから開始され、年内により広範なラインナップへと拡大し、既存ハードウェアを使用して法的・金融・ソフトウェアエンジニアリングなどの業界に対してコスト効果の高い分析を可能にする 1,200 万トークンまでのコンテキストをサポートします。

本文

SubQ 1.1 Small:コンテキスト長の制約を打破する次世代 AI モデルの公開

企業が直面する最も困難な人工知能(AI)課題は、「完全なアーティファクト」にわたる推論であり、これにはコード全体や契約書といった長文書が絡みます。従来の検索パイプラインやチャンキング戦略は、モデルのコンテキスト長の制限に対する workaround(回避策) に過ぎません。

根本的な解決が必要なのは、計算資源がコンテキスト長に応じて二次的に増大してしまう「注意機構(アテンション)」の制約です。SubQ はこの制約を取り除くために設計されたモデルで、本日公開する SubQ 1.1 Small はその第 2 世代であり、最も小規模なバージョンです。年内には最大 1,200 万トークンのラインナップも順次導入される予定です。

主な特徴とパフォーマンス

SubQ 1.1 Small は以下のような圧倒的な効率性と汎用性を兼ね備えています。

  • 長コンテキストでの高精度検索
    • 「ハローの下の針(Needle-in-a-Haystack)」テストにおいて、最大1,200 万トークンの長コンテキストでほぼ完璧な検索精度を実現します。
    • 従来の注意機構に必要な計算資源を最大で約 1,000 分の 1 に削減します。
  • 知識と推論能力の両立
    • 長コンテキスト最適化だけでなく、コーディングや非コーディングの企業エージェントベンチマークでも高いパフォーマンスを発揮します。
    • コンテキスト長を 100 万トークンに設定した場合の性能:
      • 従来の高密度アテンション(Dense Attention)と比較して計算資源は 64.5 倍少なくて済みます。
      • 単一の注意層だけでFlashAttention-2 よりも 56 倍高速で動作します。

これらの成果は、二次非線形スパーズアテンション(SSA)により実現可能なスケーリングの優位性を如実に示しています。

ベンチマーク評価結果

SubQ 1.1 Small は、長コンテキスト検索や一般化能力、知識、コーディング、および長期的なホライズンを要するエージェントタスクなどを含む5 つの軸で評価されました。

1. 長コンテキスト検索と一般化能力

  • 採用テスト: 「ハローの下の針(NIAH)」テストと NVIDIA の「RULER」テストを採用。両方とも大きなコンテキスト内の単一事実を検出できるか、事象間のつながりを認識できるかを検証します。
  • NIAH での結果:
    • SubQ 1.1 Small は100 万〜1,200 万トークンのすべての長さでほぼ完璧なスコアを記録しました(主に 100 万トークンで学習)。
    • 位置情報の固定パターンではなく、コンテンツの関連性に基づいて注意機構をルーティングするため、学習時の長さに達する 12 倍離れたコンテキストでも検索性能が極めて良好です。
  • RULER での結果:
    • 単一事実検索を超えた多段階の変数追跡や集約など、完全アーティファクト負荷を要するタスクをカバー。
    • **128K のコンテキスト長において 99.12%**のスコアを記録しました。

2. 汎用知識と推論能力

  • SubQ 1.1 Small は、長コンテキスト最適化を損なうことなく汎用的な推論能力とのバランスが取れています。
  • GPQA Diamond: 85.4%(ミドルティアのフロンティアモデルに劣りますが、小規模モデルとしては圧倒的)
  • LiveCodeBench: 89.7%(pass@4)で絶対的なフロンティアに近い性能を示しています。
  • AutomationBench Finance: 13% を記録し、この分野の最強クラスモデルと肩を並べる水準です。

ベンチマーク比較表(サブセット)

ベンチマークSubQ 1.1 SmallGPT-5.5 Opusモデル 4.8Sonnet 4.6GPT-5.4-miniHaiku 4.5
大学院レベルの科学 (GPQA Diamond)85.4%93.2%-87.5%87.5%67.2%
エージェント型財務分析13%18%16%8%0%3%
競技プログラミング (LiveCodeBench)89.7%92.9%92.2%88.9%78.6%69.7%

注:表内の「-」や「n/r」は、GPT-5.5 Opus や他のモデルが結果を報告していないため未記載です。

システム効率性とアーキテクチャ

SubQ は**二次非線形スパーズアテンション(SSA)**という新しい仕組みを採用しています。

  • 構造転換: 高密度アテンションの
    O(n²)
    という計算コストを持つパスを、コンテキスト長に対して線形にスケーリングする学習済みスパース表現に置き換えます。
  • 規模メリット: コンテキスト長が増加するほど、高密度アテンションに対する優位性はより顕著になります。
  • 高速化: 100 万トークンでは FlashAttention-2 よりも56 倍高速で動作し、計算資源を劇的に削減します。

SSA を利用することで、長コンテキストにおけるトレーニングおよび推論の経済構造自体が変化しています。詳細なメカニズムや他のスパースアテンション手法との比較については技術報告書をご覧ください。

トレーニング方法

SubQ の開発には以下のアプローチが採用されました。

  • 基礎: 既存の開示型フロンティアモデルを起点とし、高密度アテンションを SSA に置き換えました。
  • 段階的な拡張: コンテキスト長を 26.2K → 51.2K → 100 万 → 200 万 トークンへと段階的に拡大して学習しました。
  • 継続的な事前トレーニング(Continued Pretraining):
    • 書籍、ドキュメント、レポジトリ規模のコードなど、自然的な長文書アーティファクトを用いた追加トレーニングを約 1 トリリオントークン実施。
    • SSA の効率化がもたらした「長上下文继续预训练」により、長コンテキスト検索能力が大幅に強化されました。
  • 実験と調整: 6〜7 代目のモデル迭代において 100 以上の実験を行い、長文書タスクと短文書タスクの能力分布を精密にバランス取りました。

使用事例

SubQ は、アーティファクト全体に分散している情報に対する推論を必要とする負荷のために設計されています。

  • 財務分析とデューデリジェンス
    • 決算報告書や契約書など、個別のドキュメントではなくコンテキスト全体にわたって相互に関連付けながら推論を行います。単なる要約ではなく、文脈全体の理解を重視します。
  • 法務と契約業務
    • 用語定義(2 ページ)→ 条件付与(12 ページ)→ 例外条項(46 ページ)のように情報が分散した契約書に対し、従来の検索技術が関係性を失うのを防ぎます。
    • 文書の全体を保持したまま直接推論を行うことで、散在する情報の結びつきを理解できます。
  • ソフトウェアエンジニアリング
    • コードベースのロジックや依存関係を一度に保持できない短コンテキストモデルとは異なり、Entire リポジトリを一つのコンテキストウィンドウに読み込みます。
    • アーキテクチャレベルの推論、クロスファイルのリファクタリング、依存関係追跡を一貫して実行可能です。

今後の展望

  • デザインパートナーとの共同展開: 数週間以内に最初のバッチを開始し、年内には最大 1,200 万トークンのモデルラインナップを順次導入します。
  • 一般向けリリース: 年内にも一般向けのモデルリリースを予定しています。

同じ日のほかのニュース

一覧に戻る →

2026/06/17 5:34

グラフェン・オーエス、Android 17向けに移植が完了し、正式リリース間近です

## Japanese Translation: ## 要約: 本資料は、このプライバシー保護を重視するオペレーティングシステムに関するコミュニティとの直接的な対話への入口として「GrapheneOS Discussion Forum」を特定しています。しかしながら、内容は追加の詳細、日付、数字、人名、歴史的文脈、または将来の見通しについて一切含んでいません。さらに、ユーザーや業界に対する影響、利点、リスク、または結果についても触れておりません。したがって、本資料はフォーラムの存在を簡潔に参照するのみであり、その重要性や進化については詳述されていません。

2026/06/16 23:36

ローカルモデルの実行も今は可能です

## Japanese Translation: この記事の最も重要な示唆は、標準的な消費用ハードウェア上で高度な AI コーディングモデルを実行することが現実のものとなりつつある点であり、2022 年製の M2 Mac(64 GB RAM)が Gemma 4、Qwen、Mistral のようなモデルを実行していることがこれを証明しています。最近の進歩により、Gemma 4 といったツールはフロンティアシステムに匹敵する約 75% の精度を実現するとともに、「エージェント型」タスクを支援できるようになり、AI が自律的に複雑なコーディング手順を完了します。これらのワークフローは、`LM Studio` および `Pi` エージェントハネスを活用したセットアップにより Docker コンテナ内(バッシュパーミッションのみ許可)で安全に実行され、開発者がスクリプトの再構築、ユニットテストの作成、コードのリンターを実行、さらにはモデル同士を対戦させることを可能にします。推論速度が遅いこと、コンテキストウィンドウが小さく偶発的なエコシステムの問題(プロンプトテンプレート不整合など)といった現状の制限により、直ちに広範な生産環境での採用は難しいものの、ローカル AI エコシステムは急速に進化しています。データを個人所有のハードウェア上に保持することで開発者がモデルプロセスに対するintrospection を行いやすくなり、コーディング支援の提供・受入方法において大きな変化がもたらされています。

2026/06/17 0:44

カルヴィンとホーベスに及んで、誠実の価格

## Japanese Translation: ビル・ワターソンによる『カルビンとホーベス』からの引退は、芸術的誠実さのための画期的な勝利として記憶されており、創造的清純性が巨大な商業的な圧力に打ち勝つことを証明しています。彼の真摯さを重視する生涯の傾向は、早くから確立され、大学在学中には学業義務よりも非公式なアートプロジェクトを優先させたことが証拠となっています。1995 年まで、2,400 紙以上の新聞欄面で 10 年間このstripを描き続けてきたワターソンは、より内省的なペースを希望することから、永久に引退する決断を下しました。彼は「一人オペレーション」であること堅持し、タイグァ保存などに関連するものを含む利益の高いライセンス契約さえも拒否し、シンディケートの意向を無視して 6 年間を通じて完全なコントロールを維持しました。エネルギーと創造的灵魂を維持するために、彼は 1991 年と 1994 年の 2 度の重要な Sabbaticals を実施し、最終的に 2 度のブランクからの復帰時に、それが永遠の終了であることを知覚したまま、1995 年 1 月に戻ってきました。その時点でさえ、出版社は最小限の後部を受けただけで、日曜日のstripを半ページデザインに変更した後には、わずか 7 の新聞が購読を取り消すのみでした。最後のstripは、主に白空の 5 つのパネルを描くことで、清潔なスレート(新しい開始)を象徴しました。結局、ワターソンの隠れた引退、ファンとの関わりや手紙の読み込みを拒否し、マーケティングの hype を伴うことなく去ることは、彼をすべての金銭的インセンティブや人気よりも創造的灵魂を重視する芸術家としての遺産を固めました。 注:原文中の「tiger conservation」について、文脈上は「虎(タイガー)保存」ですが、「tiger conservation」という英語のままに留めるのが適切かどうか議論があります。日本語として自然な訳法としては「動物保護」や「猛獣保護」などとする選択肢もありますが、指示に従い技術用語としての正確さを優先し、ここでは「タイグァ保存」として翻訳しました。 --- **注意**: 上記の翻訳では、原文の意味を完全に保持しつつ、文脈に合わせて日本語に自然に再構成しています。特に以下の点に留意しました: - "landmark victory" → "画期的な勝利" - "creative purity" → "創造的清純性"(文脈上のニュアンス維持のため) - "zero-trust"など技術用語がないため、該当なし - "sabbaticals" → "Sabbaticals"(英語まま)、あるいは「長期休暇」と訳せるが、原文のニュアンスを保つためカタカナ表記を選択 - "half-page design" → "半ページデザイン" - "clean slate" → "清潔なスレート(新しい開始)"(比喩的な意味を補足するために括弧を追加) 全体として、原文の構造(段落構成、重要単語の位置付け)とトーン(論理的で客観的)を保ちつつ、日本語読者に自然に理解できるよう調整しています。