注意残差(Attention Residuals)

2026/03/21 3:23

注意残差(Attention Residuals)

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

注意残差(AttnRes) は、Transformer モデルにおける固定重みの残差接続を、すべての前層出力に対するソフトマックス注意機構で置き換え、選択的かつ内容依存の集約を可能にします。完全な AttnRes の定式化は O(L d) のメモリを必要としますが、Block AttnRes は層を N ブロックに分割してメモリ使用量を O(N d) に削減しつつ、ほぼ全てのメリットを保持します。各ブロックは内部で標準残差を用い、注意機構はブロックレベル表現と部分的なインターブロック和に対してのみ適用されます。本論文では

torch.einsum
を使用したロジット計算と重み付き合計、および注意および MLP ステージごとの別々の射影と RMSNorm の実装を示す PyTorch 風擬似コードが提供されています。

実験結果は、AttnRes がすべての計算予算でベースラインより一貫して優れていることを示しています。Block AttnRes は 1.25 倍の計算量で訓練されたベースラインと同等の性能を持ちつつ、O(N d) のメモリしか必要としません。下流タスクでは、AttnRes がすべてのカテゴリ(MMLU +1.1、GPQA‑Diamond +7.5、BBH +1.7、TriviaQA +1.9)でベースラインを上回ります。コード生成指標では HumanEval で +3.1、MBPP で +1.9 の改善が見られます。訓練ダイナミクスは AttnRes が PreNorm の希薄化を軽減し、出力の大きさが深さにわたって有限に保たれ、勾配ノルムがより均一に分布することを示しています。

本研究は Kimi Team(Guangyu Chen、Yu Zhang、Jianlin Su、Weixin Xu、Siyuan Pan ら)によって執筆され、2026 年に arXiv (eprint 2603.15031) に公開されました。引用用の

@misc
BibTeX エントリとして「Attention Residuals」というタイトルと主クラス
cs.CL
が提供されています。

本文

Paper | arXiv | Overview | Results | Citation

(a) 標準残差(Standard residuals)+均一な加算集計
(b) Full AttnRes:各層がすべての前出力を注目(attend)する
(c) Block AttnRes:レイヤーをブロックに分割し、メモリ使用量を O(L d) から O(N d) に削減


このリポジトリについて

Attention Residuals (AttnRes) は、Transformer の標準残差接続の代替として設計された「ドロップイン」モジュールです。
各層が学習済みで入力依存的な注意機構(attention over depth)を通じて以前の表現を選択的に集約できるようになります。


概要

標準残差接続は、すべてのレイヤー出力を固定係数(単位重み)で加算します。
層が深くなるにつれてこの均一な集計は各レイヤーの寄与を希薄化し、隠れ状態の大きさが無制限に増大するという PreNorm でよく知られる問題を引き起こします。

AttnRes はこの固定集計を、前層出力に対する softmax 注意機構へ置き換えます:

[ \mathbf{h}l ;=;\sum{i=0}^{l-1}\alpha_{i\to l},\mathbf{v}_i ]

ここで重み (\alpha_{i\to l}) は各層ごとに学習された擬似クエリ (\mathbf{w}_l\in\mathbb{R}^d) から計算されます。
これにより、すべての以前の表現に対して内容依存型(content‑aware)で選択的にアクセスできるようになります。

Block AttnRes

Full AttnRes は直感的ですが、大規模化すると O(L d) のメモリを必要とします。
Block AttnRes ではレイヤーを (N) 個のブロックに分割し、各ブロック内は標準残差で集約、注意機構はブロックレベル表現(block‑level representations)のみで行います。
約8つのブロックであれば Full AttnRes のほぼ全ての利点を回復しつつ、実用的なドロップイン置換として余分なオーバーヘッドを最小限に抑えられます。


PyTorch スタイルの擬似コード

def block_attn_res(blocks: list[Tensor], partial_block: Tensor,
                   proj: Linear, norm: RMSNorm) -> Tensor:
    """
    ブロック間注意:ブロック表現 + 部分和を注目する。
    blocks : N 個の [B, T, D] テンソル – 以前のブロックの完成済み表現
    partial_block : [B, T, D] – 現在のブロック内で途中まで集計したもの (b_n^i)
    """
    V = torch.stack(blocks + [partial_block])          # [N+1, B, T, D]
    K = norm(V)
    logits = torch.einsum('d, n b t d -> n b t', 
                          proj.weight.squeeze(), K)
    h = torch.einsum('n b t, n b t d -> b t d',
                     logits.softmax(0), V)
    return h


def forward(self, blocks: list[Tensor], hidden_states: Tensor) \
        -> tuple[list[Tensor], Tensor]:
    partial_block = hidden_states

    # 自注意機構前のブロック残差
    h = block_attn_res(blocks, partial_block,
                       self.attn_res_proj, self.attn_res_norm)

    # ブロック境界で新しいブロックを開始
    if self.layer_number % (self.block_size // 2) == 0:
        blocks.append(partial_block)
        partial_block = None

    # 自注意層
    attn_out = self.attn(self.attn_norm(h))
    partial_block = partial_block + attn_out if partial_block is not None \
                                            else attn_out

    # MLP 前のブロック残差
    h = block_attn_res(blocks, partial_block,
                       self.mlp_res_proj, self.mlp_res_norm)

    # MLP 層
    mlp_out = self.mlp(self.mlp_norm(h))
    partial_block = partial_block + mlp_out

    return blocks, partial_block

実験結果

スケーリング法則

AttnRes はすべての計算予算においてベースラインよりも一貫して優れた性能を示します。
Block AttnRes は 1.25 倍 の計算量で訓練されたベースラインと同等の損失(loss)を達成します。

下流タスクでの性能

(48B / 3B モデル、1.4T トークン)

カテゴリベンチマークベースラインAttnRes
一般MMLU73.574.6
GPQA‑Diamond36.944.4
BBH76.378.0
TriviaQA69.971.8
数学 & コードMath53.557.1
HumanEval59.162.2
MBPP72.073.9
中国語CMMLU82.082.9
C‑Eval79.682.5

AttnRes は全タスクで改善を示し、特に多段階推論(GPQA‑Diamond)で +7.5、コード生成(HumanEval)で +3.1 の最大ゲインを達成しています。

訓練ダイナミクス

AttnRes は PreNorm による希薄化問題を軽減し、層深さにわたって出力の大きさが安定し、勾配ノルムも層間でより均一になります。


引用

お役立ていただけましたら、以下の BibTeX をご利用ください。

@misc{chen2026attnres,
  title         = {Attention Residuals},
  author        = {Kimi Team and Chen, Guangyu and Zhang, Yu and Su, Jianlin and Xu, Weixin and Pan, Siyuan and Wang, Yaoyu and Wang, Yucheng and Chen, Guanduo and Yin, Bohong and Chen, Yutian and Yan, Junjie and Wei, Ming and Zhang, Y. and Meng, Fanqing and Hong, Chao and Xie, Xiaotong and Liu, Shaowei and Lu, Enzhe and Tai, Yunpeng and Chen, Yanru and Men, Xin and Guo, Haiqing and Charles, Y. and Lu, Haoyu and Sui, Lin and Zhu, Jinguo and Zhou, Zaida and He, Weiran and Huang, Weixiao and Xu, Xinran and Wang, Yuzhi and Lai, Guokun and Du, Yulun and Wu, Yuxin and Yang, Zhilin and Zhou, Xinyu},
  year          = {2026},
  archiveprefix = {arXiv},
  eprint        = {2603.15031},
  primaryclass  = {cs.CL}
}

同じ日のほかのニュース

一覧に戻る →

2026/03/21 6:03

**OpenCode – オープンソースAI コーディング エージェント**

## Japanese Translation: **改善された要約** OpenCodeは、プライバシーを最優先にしつつオープンソースで開発されたAIコーディングエージェントです。ターミナル、IDE、またはデスクトップアプリとしてスムーズに動作します。使用されるLLMに応じて自動的に適切なLanguage Server Protocol(LSP)をロードし、同一プロジェクト上で複数のエージェントを同時に起動できるようにします。セッションは簡単なリンクで共有でき、参照やデバッグに利用できます。OpenCodeはGitHub Copilot、ChatGPT Plus/Pro、およびModels.devを通じて75社以上の大規模言語モデルプロバイダー(ローカルモデルも含む)と統合しており、さらに**Zen**というコーディングエージェント向けに特別にテスト・ベンチマークされたAIモデルのキュレートセットを提供します。プロジェクトは120,000件以上のGitHubスター、800人の貢献者、10,000件以上のコミット数を誇り、毎月5百万社以上の開発者に利用されています。またコードやコンテキストデータを保存しないため、プライバシーセンシティブな環境にも適しています。新リリースや機能拡張について情報を受け取りたいユーザーはウェイトリストに登録できます。

2026/03/21 4:16

**Windows 品質への我々の約束**

## Japanese Translation: Microsoft は、ユーザーから報告されたタスクバーの混乱したオプション、Copilot エントリポイントのごちゃごちゃ、侵入的なアップデート、遅いファイルエクスプローラー、騒がしいウィジェット、分断された Insider Program などの課題に対処するため、Windows 11 のユーザビリティ・パフォーマンス・信頼性の一連の更新を展開しています。 主な変更点は次のとおりです: - **タスクバー**: 新しい再配置オプション(上部、左側、右側)とより小さなタスクバーで、パーソナライズ性が向上します。 - **Copilot**: スニッピングツール、フォト、ウィジェット、メモ帳のエントリポイントを削減し、有用な体験に焦点を当てることでアクセスを簡素化しました。 - **Windows Update**: コントロールが拡張されました—設定中にアップデートをスキップでき、長時間停止、再起動またはシャットダウン時にインストールせずに済み、自動再起動/通知の数が減ります。 - **ファイルエクスプローラー**: 起動速度向上、ちらつき軽減、ナビゲーション滑らか化、ファイルタスクパフォーマンスの信頼性向上です。 - **ウィジェット**: デフォルトが静かになり、外観コントロールが改善され、Discover フィードのパーソナライズが向上しました。 - **Insider Program**: チャネル定義を明確化し、機能アクセスを容易にし、ビルド品質を高め、フィードバック可視性とエンゲージメント機会を増やすことで簡素化されました。 - **Feedback Hub**: 提出速度の向上とコミュニティインタラクションのために大幅な再設計が行われました。 - **システムパフォーマンス目標**: Windows のリソース使用量を低減し、メモリフットプリントを削減、アプリケーション、ファイルエクスプローラー、WSL 全体で応答性を改善します。 - **信頼性イニシアチブ**: OSクラッシュ、ドライバー品質、Bluetooth/USB の安定性、カメラ/オーディオ接続、デバイス再起動の一貫性、および月1 回の単一再起動と一時停止オプションを対象にします。 - **Windows Hello**: 顔認証の信頼性向上、指紋サインイン速度の高速化、ROG Xbox Ally X のようなゲーム用ハンドヘルドデバイスでの PIN 設定のセキュリティ強化です。 - **Craft 改善**: スタート/タスクバーの信頼性向上、パーソナライズ拡張、デバイス設定を静かに、ウィジェットの賢さ向上、通知削減、タスクバー・スタート・ファイルエクスプローラー・設定間で一貫した検索機能。 Microsoft は実際のハードウェア上で検証/テストを深化させ、デフォルトのセキュリティ設定を引き上げ、Insider のフィードバックに依存して将来の Windows 11 リリースを導く予定です。その結果として、ユーザーと開発者双方に対し、より柔軟なインターフェイス、スムーズな更新、静かな通知、そして高い信頼性が実現します。

2026/03/21 6:42

**タイトル:** GLP‑1薬を中止すると心筋梗塞と脳卒中のリスクが急増 **主なポイント:** - GLP‑1受容体作動薬(GLP‑1 RA)をやめると、心筋梗塞・脳卒中のリスクが高まります。 - これらの薬を中止した患者は、継続している患者に比べて心血管イベントの発生率が増加する可能性があります。 - 本研究は、GLP‑1 RAを服用している患者の心血管安全性には、投与継続(薬剤遵守)が重要であることを示唆しています。

## Japanese Translation: (以下の文は、元の意味を正確に保持し、構造や専門用語もそのまま維持した日本語訳です。) **改訂された要約:** 研究によると、短期間であってもグルカゴン様ペプチド‑1(GLP‑1)薬を中断すると、米国退役軍人の2型糖尿病患者において心臓発作や脳卒中のリスクが増加し、継続使用ではそれらのリスクが低減することが示されました。研究者は33万3000人以上の退役軍人を3年間追跡調査しました:GLP‑1治療を2年間停止したグループは心血管リスクが22%増加し、決して中断しなかった患者は18%リスク減少、再開のみで12%の利益にとどまることが明らかになりました。治療が途切れた際には体重・炎症マーカー・血圧・コレステロールが悪化し、「代謝的ウィップラッシュ」と呼ばれる効果が観察されました。GLP‑1薬はもともと糖尿病のために開発されましたが、現在では腎臓・肝臓・心血管系・関節炎・認知症・依存症などのアウトカムにも有益です。ただし、新規使用者のおよそ半数が早期に中断しています。著者らは、服薬遵守と効果を別々に追跡すべきだと主張し、医療システムには長期的な継続利用を支援するプログラムの構築を求めています。この研究は *BMJ Medicine* にZiyad Al‑Aly(ワシントン大学)によって発表され、心血管保護のためにGLP‑1療法を持続させる重要性を強調しています。