T5Gemma 2: The next generation of encoder-decoder models

2025/12/19 4:48

T5Gemma 2: The next generation of encoder-decoder models

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

概要:
T5Gemma 2は、Gemma 3のアーキテクチャをベースにしたエンコーダ–デコーダ型言語モデルで、マルチモーダルビジョンサポートと128 Kトークンのコンテキストウィンドウを追加しつつ、パラメータ数は低く抑えています。270 M/270 M(合計約370 M)、1 B/1 B(合計約1.7 B)、4 B/4 B(合計約7 B)の3種類のコンパクトバリアントがリリースされています。この設計は、語彙埋め込みを共有し、デコーダで自己注意とクロス注意を統合し、軽量なビジョンエンコーダを導入して効率的に視覚質問応答を実現します。140以上の言語を網羅する拡張多言語データセットで訓練され、T5Gemma 2は最小限の教師付き微調整後でも、コード生成・推論・マルチモーダルベンチマークにおいてGemma 3よりも優れた性能を達成します。プリトレーニング済みチェックポイントはKaggle、Hugging Face、Colab、およびVertex AIで入手可能で、アーキテクチャと結果を詳細に説明したarXiv論文が付属しています。このため、T5Gemma 2は長いコンテキスト推論とマルチモーダル機能を必要とする研究者や開発者にとって、多用途で低コストな選択肢となります。

本文

T5Gemma 2 の概要

  • T5Gemma 2とは?
    Gemma 3 アーキテクチャを基に構築された次世代のエンコーダ―デコーダモデルで、重要な設計変更と強力なマルチモーダルおよび長文コンテキスト機能が統合されています。

  • 主要なアーキテクチャ革新

    • エンコーダとデコーダ間の共有語埋め込み → パラメータ数を削減。
    • デコーダ内でのマージド・アテンション(自己注意+交差注意)→ 複雑さ低減と並列処理の向上。
    • コンパクトなモデルサイズ
      • 270 M / 270 M (~370 M総計、ビジョンエンコーダ除く)
      • 1 B / 1 B (~1.7 B総計)
      • 4 B / 4 B (~7 B総計)
  • コア機能

    • マルチモダリティ:画像とテキストを理解し、ビジュアル質問応答や多モーダル推論をサポート。
    • 拡張長文コンテキスト:Gemma 3 の交互ローカル/グローバル注意機構で最大128Kトークンに対応。
    • 大規模な多言語サポート:標準で140以上の言語をカバー。
  • パフォーマンスハイライト

    • Gemma 3 を上回るマルチモーダル性能(複数ベンチマーク)。
    • 分離エンコーダにより優れた長文処理。
    • コーディング、推論、マルチリンガルタスク全般で対応モデルを上回るスコア。

事前学習 vs. ポストトレーニング

  • 事前学習(Pre‑training):設計上の利点と基礎機能を実証。
  • ポストトレーニング(SFT):わずかな微調整で、デコーダのみモデルよりも優れた結果が得られる。研究や下流アプリケーションに適用可能。

始め方

  • 入手方法

    • Kaggle と Hugging Face に事前学習済みチェックポイントを公開。Colab で探索可能。
    • Vertex AI を通じて推論実行可。
  • ドキュメント & リソース

    • arXiv の完全論文を読んで詳細技術を把握。
    • デプロイ前にタスク固有の微調整を行う際、提供されたチェックポイントをベースにする。

同じ日のほかのニュース

一覧に戻る →

2025/12/19 4:08

We pwned X, Vercel, Cursor, and Discord through a supply-chain attack

## Japanese Translation: Discordの新しいドキュメントプラットフォーム、Mintlifyにおいて、`/_mintlify/_static/[subdomain]/[…route]` エンドポイントを介して配信される任意の静的ファイルに悪意あるJavaScriptを注入できるクロスサイトスクリプティング(XSS)脆弱性が判明しました。16歳の高校生研究者は、Discord のドメインを指すSVG内にコードを埋め込み、そのリンクを開いた際にスクリプトが実行されることで、このサプライチェーン脆弱性を検証し、Mintlify の全顧客に影響する可能性があることを示しました。この欠陥は「xyzeva」という友人によって独立して確認され、両者は協力してテストと開示を行いました。報告後、Discord はドキュメントの公開を2時間停止し、以前のプラットフォームに戻し、すべての Mintlify ルートを削除(インシデントリンク: https://discordstatus.com/incidents/by04x5gnnng3)し、Mintlify は Slack を通じて問題を修正しました。研究者たちは合計で約11,000ドルの報奨金(Discordから4,000ドル、残りは Mintlify から)を受け取りました。この事例は、Twitter (X)、Vercel、Cursor、Discord 自体など多くのハイプロファイルユーザーに脅威を与える可能性がある単一のサードパーティコンポーネントのリスクを浮き彫りにし、外部サービスへのより厳格な検証と広範なセキュリティ監査の必要性を強調しています。

2025/12/17 6:04

Texas is suing all of the big TV makers for spying on what you watch

## Japanese Translation: > **概要:** > テキサス州司法長官ケン・パクストンは火曜日にソニー、サムスン、LG、ヒセン、TCL を対象に訴訟を提起し、同社のテレビが自動コンテンツ認識(ACR)を使用して視聴者の視聴内容を秘密裏に記録していると主張した。ACR はテレビ番組、ストリーミングサービス、YouTube、セキュリティカメラ、Apple AirPlay/Google Cast、および HDMI 接続デバイスなど、多岐にわたるソースから視聴覚データを取得し、訴訟ではメーカーがユーザーに対して隠れたまたは曖昧な開示で ACR の起動を促すと主張されている。サムスンとヒセンは 500 ミリ秒ごとにスクリーンショットを取得し、パクストンはデータがユーザーの知識なしに各社へ送信され、ターゲティング広告のために販売されると述べている。訴訟はテキサス州詐欺取引慣行法(Deceptive Trade Practices Act)を引用し、民事罰金およびテキサス州居住者からの ACR データ収集・共有・販売の停止を求めている。パクストンはまた TCL とヒセンの中国との関係に懸念を示し、同社のテレビを「中国支援監視デバイス」と呼んでいる。訴訟は Vizio が 2017 年に FTC およびニュージャージー州と合意した 220 万ドルの和解金を参照しており、類似の主張があったことを示している。サムスン、ソニー、LG、ヒセン、および TCL はまだコメント要請に応じていない。パクストンは「テレビを所有することは、ビッグテックや外国対立勢力に個人情報を渡すことを意味しない」と述べ、プライバシー保護への重点を強調した。

2025/12/19 3:55

How China built its ‘Manhattan Project’ to rival the West in AI chips

## Japanese Translation: **改善された要約** 深圳の研究所が、極紫外線(EUV)リソグラフィを使用して高度な半導体チップを製造できるプロトタイプを完成させました。EUVリソグラフィは、人間の髪の数千倍薄い回路をシリコンウェーハに刻むプロセスです。この機械は工場全床面積のほぼすべてを占める規模で、2025年初頭に完成し、現在テスト中です。元ASMLエンジニアがオランダ企業のEUV装置を逆解析して構築したもので、西側企業が長らく独占してきた技術です。プロトタイプが意図通りに機能すれば、中国はより細密な回路を持つチップを製造できるようになり、AIシステムやスマートフォン、高度兵器の性能向上につながります。この進展は、西側の独占的半導体製造能力から重要な技術が移転する可能性があり、世界のサプライチェーンと競争構造を変えることになるでしょう。