**イラスト付きトランスフォーマー**

2025/12/23 4:15

**イラスト付きトランスフォーマー**

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

記事は「Attention is All You Need」で紹介されたTransformerアーキテクチャと、従来の再帰型や畳み込み型ニューラル機械翻訳モデルに比べてその注意力ベース設計がトレーニングを高速化する方法について説明しています。
Transformerはエンコーダスタック(通常6層)とデコーダスタック(同じく6層)で構成されます。各層には以下の要素があります:

  1. 自己注意では、トークン埋め込み(512次元ベクトル)がクエリ・キー・バリュー行列にそれぞれ64次元へ射影されます。ドット積スコアは (\sqrt{64}) で縮小し、softmax を適用して値を重み付けし、合計します。
  2. マルチヘッド注意では、各層に8セットの Q/K/V 射影が使用されます。すべてのヘッドからの出力は連結され、最終的な重み行列 (W_O) を通じて射影されます。
  3. フィードフォワードニューラルネットワーク(ReLU の間にある2つの線形層)。
    すべてのサブレイヤは残差接続とその後のレイヤ正規化で包まれています。

位置エンコーディング(512次元の正弦/余弦ベクトル)は埋め込みに加算され、モデルがトークン順序を知り、訓練時より長いシーケンスを扱えるようにします。デコーダでは自己注意がマスクされ、将来位置は (-\infty) に設定されるため、オートレグレッシブ生成が保証されます。

最終的なデコーダ出力は線形射影されてロジットベクトル(次元はターゲット語彙サイズ ≈10 000 単語)となり、その後 softmax で単語確率を得ます。訓練では、これらの分布とワンホットエンコードされた目標トークン間のクロスエントロピー損失が最小化され、逆伝播により最適化されます。

デコーディングは貪欲法またはビームサーチで行うことができ、記事では将来的にデコーディング戦略と大規模語彙や長いシーケンスへの訓練を改善する予定だと述べています。本文は元論文、Tensor2Tensor コード、Jupyter ノートブック、および後続のTransformerバリアントを参照し、Twitter での訂正を歓迎しています。

産業界において、Transformers を採用すると NLP プロジェクトが加速し、翻訳品質が向上し、言語集約型サービスへの展開が拡大します。

本文

ディスカッション

  • Hacker News(65ポイント、4コメント)
  • Reddit r/MachineLearning(29ポイント、3コメント)

翻訳
アラビア語、中国語(簡体字)1、中国語(簡体字)2、フランス語1、フランス語2、イタリア語、日本語、韓国語、ペルシャ語、ロシア語、スペイン語1、スペイン語2、ベトナム語

視聴
MIT の Deep Learning State‑of‑the‑Art 講義でこの投稿を参照

講座に掲載
スタンフォード、ハーバード、MIT、プリンストン、CMU など


更新:この投稿は今や書籍化されました!

LLM‑book.com をご覧ください。最新の Transformer モデル(マルチクエリアテンション、RoPE 位置埋め込み)をカバーした更新版・拡張章 3 が収録されています。


1. はじめに

前回の記事では Attention ― ニューラル機械翻訳を劇的に向上させた普遍的手法 ― を検討しました。
本記事は、Attention を活用して高速学習を実現しつつ Google の Neural Machine Translation モデルを特定タスクで上回る Transformer に焦点を当てます。最大の利点は並列化が容易な点です。これにより、Google Cloud は自社の Cloud TPU への参照モデルとして推奨しています。

Transformer は Attention Is All You Need で初めて紹介されました。
TensorFlow 実装は Tensor2Tensor パッケージにあり、Harvard の NLP グループは論文を添付した PyTorch ガイドを提供しています。本稿は専門知識が浅い読者でも基本概念を掴めるよう、過度に簡略化して解説します。

2025年アップデート:アニメーション付きの無料短期コースで本投稿を最新状態に保ちます。


2. 高レベル概要

機械翻訳用 Transformer はブラックボックスです。入力言語の文を受け取り、別言語への翻訳文を出力します。内部構成は以下の通りです。

  • エンコーダースタック – 同一構造の 6 層(数は可変)
  • デコーダースタック – エンコーダーと同じく 6 層

各エンコーダーには次の 2 層があります。

  1. 自己注意 ― トークンが入力中のすべてのトークンに注目できる
  2. フィードフォワードニューラルネットワーク (FFNN) ― 各位置で独立して適用

デコーダーも同様の 2 層を持ち、さらに エンコーダ―-デコーダー注意 層が追加されます。これにより、デコーダーはエンコーダー出力の関連部分に注目できます。


3. テンソルとフロー

  1. 埋め込み – 各入力単語を 512 次元ベクトルへ変換
  2. 最下層エンコーダーはこの埋め込みを受け取り、上位エンコーダーは前のエンコーダー出力を入力
  3. エンコーダー内では各トークンが自己注意 → FFNN のパスをたどり、トークン間で並列実行可能

4. 自己注意(概念)

自己注意はトークンが他の位置を「見る」ことでより豊かな表現を構築します。例として

The animal didn't cross the street because it was too tired
it を処理するとき、自己注意は animal と関連付けます。


5. 自己注意(数式詳細)

各入力ベクトル (x_i) に対し

  1. 射影
    [ q_i = x_i W_Q,\quad k_i = x_i W_K,\quad v_i = x_i W_V ] ただし (W_Q, W_K, W_V \in \mathbb{R}^{512\times 64})

  2. スコア
    [ s_{ij} = \frac{q_i^\top k_j}{\sqrt{d_k}},\qquad d_k=64 ]

  3. Softmax – スコアを正規化

  4. 加重和
    [ z_i = \sum_j \text{softmax}(s_{ij}), v_j ]

これらはベクトル化して実行されます。
[ Q = XW_Q,; K = XW_K,; V = XW_V,; Z = \text{softmax}!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V ]


6. マルチヘッド注意

Transformer は (h=8) ヘッドを使用します。

  1. 各ヘッドに対して別々の射影行列 (W_Q^h, W_K^h, W_V^h) を用意
  2. 上記と同様に各ヘッドで (Z^h) を計算
  3. すべての (Z^h) を連結し、(W_O) で再射影

これによりモデルは複数の表現空間を同時に捉えることができます。


7. 位置エンコーディング

自己注意は順序不変なので、各埋め込みに位置ベクトル (p_i) を足します:

[ x'_i = x_i + p_i ]

エンコーディングは正弦・余弦パターン(偶数インデックスは sine、奇数は cosine)で構成され、長いシーケンスへの一般化を可能にします。


8. 残差接続とレイヤノーマライゼーション

各サブレイヤーは残差接続でラップされ、その後レイヤノーマライゼーションが適用されます:

[ \text{output} = \text{LayerNorm}(x + \text{sub-layer}(x)) ]

これはエンコーダーとデコーダーの両方に当てはまります。


9. デコーダー機構

  1. マスク付き自己注意 – 将来位置への注目を防ぐ(下三角行列でマスク)
  2. エンコーダ―-デコーダー注意 – エンコーダ出力をキー・バリュー、現在のデコーダ状態をクエリとして使用
  3. 最終線形層がデコーダ出力を語彙に対するロジットへ射影し、softmax で確率分布を生成

10. 学習概要

  1. 語彙 – サイズ (V)(例:10,000)のワンホットベクトル
  2. 損失 – 予測確率分布とターゲットワンホットとのクロスエントロピー
  3. 逆伝播 がすべての重みを更新

デコード時は greedy または beam search により最高確率単語を選択します。


11. さらに読む・リソース

  • Attention Is All You Need(論文)
  • Tensor2Tensor リポジトリと Jupyter ノートブック
  • Łukasz Kaiser 等による講演

フォローアップ研究

Depthwise Separable Convolutions, One Model to Learn Them All, Discrete Autoencoders for Sequence Models, Image Transformer, Training Tips, Relative Position Representations など。


12. 謝辞

Illia Polosukhin、Jakob Uszkoreit、Llion Jones、Łukasz Kaiser、Niki Parmar、Noam Shazeer に以前の草稿へのフィードバックをいただき感謝します。

Twitter で修正やご提案があれば遠慮なくどうぞ。

同じ日のほかのニュース

一覧に戻る →

2025/12/23 4:37

**超音波による癌治療:サウンドウェーブで腫瘍と戦う**

## Japanese Translation: ### Summary HistoSonics の Edison システムは、水で満たされた膜を通じて高強度超音波を届け、腫瘍内部で崩壊する空洞泡を生成し、周囲の健康な組織を保護しながらがん細胞を機械的に液化します。この技術は 2001 年にミシガン大学で Zhen Xu によって発見されました。彼女は 20 MPa を超える負圧のマイクロ秒バーストが過熱なしに泡を作り出せることを示し、後に 2009 年に HistoSonics を設立して商業化しました。 FDA は 2023 年に肝臓腫瘍用として Edison を承認しました。主要な腎臓癌研究は 2026 年に完了予定で、その後規制承認が期待されます。大規模な膵臓試験(5 年生存率 13 % を目標)が進行中で、初期結果では深部病変の成功した焼灼と良好な耐容性が示され、ヒストトリッピーを他治療法と組み合わせることで残存疾患に対処し免疫応答を誘発できる可能性が示唆されています。 HistoSonics は、その目的に特化したデバイスが物理学、生物学、および生体医学工学を統合し、ロボット制御・コンピュータガイドシステムで繊維組織(例:血管)を保護しつつ液化腫瘍残渣の自然除去を可能にすると主張しています。技術はまた、がんタンパク質を露出させることで免疫応答を刺激し、免疫療法と組み合わせた際に全身性抗腫瘍活性を高める可能性があります。 新しいガイダンス技術—超音波ではなく X 線画像—と治療エコーを解析するフィードバックシステムが開発され、組織破壊のリアルタイムモニタリングが改善されています。 2025 年 8 月にジェフ・ベゾスの所有グループが HistoSonics を 22.5 億米ドルで取得し、研究開発と市場拡大への新たな資源を提供しました。成功すればヒストトリッピーは肝臓・腎臓・膵臓以外の癌にも非侵襲的手術オプションを広げ、音波をがん治療における変革的モダリティとして位置付ける可能性があります。

2025/12/23 3:46

**GLM‑4.7:コーディング機能の進化**

## Japanese Translation: (combining missing details, removing unfounded inferences, keeping clarity):** --- ## Summary GLM‑4.7 は GLM‑4.6 に対し、複数の面で大幅な性能向上を示しています: - **コーディングベンチマーク:** SWE‑bench (+5.8 % で 73.8 %)、SWE‑bench Multilingual (+12.9 % で 66.7 %)、Terminal Bench 2.0 (+16.5 % で 41 %)。 - **ツール使用 & ウェブ閲覧:** τ²‑Bench と BrowseComp において顕著な向上を示し、モデルのツール実行とウェブサイトナビゲーション能力が改善されています。 - **複雑推論:** HLE ベンチマークで +12.4 %(42.8 %)に達し、チャット・創作執筆・ロールプレイシナリオでの性能も向上しています。 リリースには、新しい *思考モード* — Interleaved Thinking, Preserved Thinking, Turn‑level Thinking — が含まれ、ツール使用と複雑なエージェント操作を強化します。GLM‑4.7 は 17 の評価テスト(例:MMLU‑Pro, GPQA‑Diamond, AIME 2025, IMOAnswerBench, LiveCodeBench‑v6)で競合他社より優れた性能を示しています。 ### Availability - **API アクセス:** Z.ai、OpenRouter などのパートナー経由で利用可能。ユーザーは「glm‑4.7」を選択するか、API リクエストで直接呼び出すことができます。 - **ローカルデプロイメント:** 重みは HuggingFace と ModelScope に公開されており、vLLM および SGLang 推論用の公式ドキュメントがあります。 - **価格とアップグレード:** GLM Coding Plan の購読者は自動でアップグレードされます。新規ユーザーは Claude レベルの性能を約 1/7 の価格で、使用量上限が 3 倍になるメリットがあります。 ### Ecosystem impact リリースはすでに人気のコーディングエージェント(Claude Code, Kilo Code, Cline, Roo Code)へ統合されており、Vibe Coding の UI 改善と同時期です。手頃な価格で高性能なコーディング支援とオープンウェイトを提供することで、GLM‑4.7 はソフトウェア開発ワークフロー全体のコスト低減と生産性向上が期待されています。 --- **Key points retained:** All major quantitative gains, new thinking modes, benchmark superiority, availability channels, pricing structure, local inference support, and ecosystem integrations are explicitly mentioned. Unnecessary inferences have been removed, and vague phrasing (e.g., “clear performance boost”) has been replaced with concrete data.

2025/12/23 4:30

**「ガーベジ・コレクション・ハンドブック」**

## Japanese Translation: ## 改訂版の概要 新しい「The Garbage Collection Handbook」では、過去60年間にわたる研究を一冊の分かりやすいリファレンスへとまとめ、並列・増分・同時実行・リアルタイムなど主要なガベージコレクション技術を網羅しています。 本書は、1996年に発表されたリチャード・ジョーンズのクラシック版および2012年に出版された第2版(当時の分野の状態を捉えていた)を基盤とし、永続性とエネルギー意識型GCに関する90ページ以上の新章、更新された擬似コード、図解、および約3,400件の論文を網羅した包括的なオンラインデータベースを追加しています。 電子書籍には37,000以上のハイパーリンクが含まれており、章・節・アルゴリズム・図表・用語集項目・索引項目、およびオリジナル研究論文へと直接アクセスできます。データベースはほぼすべて電子的に入手可能なエントリーの要旨、URLまたはDOIを提供し、BibTeX、PostScript、PDFとして検索・ダウンロードが可能です。 初版の中国語訳および日本語訳は2016年に出版され、本書の国際的な影響力を示しています。 ハンドブックのデジタルプラットフォームは新しい研究成果とともに継続的に拡充され、GC の動作やベンチマークデータについて詳細な洞察を求める開発者・言語設計者・商用コレクター・研究者にとって不可欠なリソースとなっています。

**イラスト付きトランスフォーマー** | そっか~ニュース