
2025/12/19 4:48
T5Gemma 2: The next generation of encoder-decoder models
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
概要:
T5Gemma 2は、Gemma 3のアーキテクチャをベースにしたエンコーダ–デコーダ型言語モデルで、マルチモーダルビジョンサポートと128 Kトークンのコンテキストウィンドウを追加しつつ、パラメータ数は低く抑えています。270 M/270 M(合計約370 M)、1 B/1 B(合計約1.7 B)、4 B/4 B(合計約7 B)の3種類のコンパクトバリアントがリリースされています。この設計は、語彙埋め込みを共有し、デコーダで自己注意とクロス注意を統合し、軽量なビジョンエンコーダを導入して効率的に視覚質問応答を実現します。140以上の言語を網羅する拡張多言語データセットで訓練され、T5Gemma 2は最小限の教師付き微調整後でも、コード生成・推論・マルチモーダルベンチマークにおいてGemma 3よりも優れた性能を達成します。プリトレーニング済みチェックポイントはKaggle、Hugging Face、Colab、およびVertex AIで入手可能で、アーキテクチャと結果を詳細に説明したarXiv論文が付属しています。このため、T5Gemma 2は長いコンテキスト推論とマルチモーダル機能を必要とする研究者や開発者にとって、多用途で低コストな選択肢となります。
本文
T5Gemma 2 の概要
-
T5Gemma 2とは?
Gemma 3 アーキテクチャを基に構築された次世代のエンコーダ―デコーダモデルで、重要な設計変更と強力なマルチモーダルおよび長文コンテキスト機能が統合されています。 -
主要なアーキテクチャ革新
- エンコーダとデコーダ間の共有語埋め込み → パラメータ数を削減。
- デコーダ内でのマージド・アテンション(自己注意+交差注意)→ 複雑さ低減と並列処理の向上。
- コンパクトなモデルサイズ
- 270 M / 270 M (~370 M総計、ビジョンエンコーダ除く)
- 1 B / 1 B (~1.7 B総計)
- 4 B / 4 B (~7 B総計)
-
コア機能
- マルチモダリティ:画像とテキストを理解し、ビジュアル質問応答や多モーダル推論をサポート。
- 拡張長文コンテキスト:Gemma 3 の交互ローカル/グローバル注意機構で最大128Kトークンに対応。
- 大規模な多言語サポート:標準で140以上の言語をカバー。
-
パフォーマンスハイライト
- Gemma 3 を上回るマルチモーダル性能(複数ベンチマーク)。
- 分離エンコーダにより優れた長文処理。
- コーディング、推論、マルチリンガルタスク全般で対応モデルを上回るスコア。
事前学習 vs. ポストトレーニング
- 事前学習(Pre‑training):設計上の利点と基礎機能を実証。
- ポストトレーニング(SFT):わずかな微調整で、デコーダのみモデルよりも優れた結果が得られる。研究や下流アプリケーションに適用可能。
始め方
-
入手方法
- Kaggle と Hugging Face に事前学習済みチェックポイントを公開。Colab で探索可能。
- Vertex AI を通じて推論実行可。
-
ドキュメント & リソース
- arXiv の完全論文を読んで詳細技術を把握。
- デプロイ前にタスク固有の微調整を行う際、提供されたチェックポイントをベースにする。