アーマリアと、欧州ポルトガル語の大規模言語モデル(LLM)の未来

2026/05/09 1:34

アーマリアと、欧州ポルトガル語の大規模言語モデル(LLM)の未来

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

ポルトガル政府は、大学間の連携(NOVA、IST、IT、FCT)を通じて大規模言語モデルにおいて「一等市民」となるようにポルトガル語を確立するため、AMÁLIAに 550 万ユーロの投資を行いました。本モデルはゼロから学習させるのではなく、アーキテクチャの変更を加えることで EuroLLM の事前学習段階を拡張しており、Arquivo.pt を用いて事前学習を行い、生成された合成データを用いて監督微調整を実施しています。AMÁLIA は ALBA ベンチマークにおいて Qwen 3-8B に比べて劣るものの、ほとんどのポルトガル語ベンチマークで State-of-the-Art モデルを上回る性能を発揮していますが、「真のオープン性」が欠けているとして批判に直面しています。モデルの重み付けやデータセット、学習ログ、新たな評価についてはアクセス不能であり、公開された処理スクリプトにおいても同様に閲覧できません。データ分析によると、事前学習時にはトークンの約 5.5% がポルトガル語であり、微調整段階では 17〜18% に増加しましたが、モデル内で保持されているポルトガル語の正確な量は不明です。Olmo が重み付け、データ、コード、ログを公開する一方、AMÁLIA は現時点では完全なオープンソース基準を満たしていません。ALBA など新たなベンチマークは文法・構文・知識およびブラジルポルトガル語へのバイアスを評価しますが、現在の評価ではポルトガルの歴史や地理に関する本質的な知識を測っておらず、今後の事前学習でこのギャップを埋める必要があります。AMÁLIA が広く業界で成功するためには、開発者がそれに基づいて構築できるよう withheld のデータと重み付けを公開し、プロジェクトが目指す堅牢で欧州固有の AI ランドスケープの育成に整合させる取り組みが必要です。

Text to translate:

The Portuguese government's €5.5 million investment in AMÁLIA aims to establish European Portuguese as a "first-class citizen" in large language models through collaboration among universities NOVA, IST, IT, and FCT. The model extends the pre-training phase of EuroLLM with architectural modifications rather than training from scratch, using Arquivo.pt for pre-training and synthetically generated data for supervised fine-tuning. While AMÁLIA outperforms several State-of-the-Art models on most Portuguese benchmarks (though it lags behind Qwen 3-8B on the ALBA benchmark), it faces criticism for lacking true openness: model weights, datasets, training logs, and new evaluations remain inaccessible despite public processing scripts. Data analysis shows that during pre-training only about 5.5% of tokens were European Portuguese, rising to roughly 17–18% during fine-tuning, but the exact volume of European Portuguese retained in the model remains unclear. Unlike Olmo, which releases weights, data, code, and logs, AMÁLIA does not currently meet full open-source standards. New benchmarks like ALBA assess grammar, syntax, knowledge, and bias toward Brazilian Portuguese, yet current evaluations do not measure intrinsic knowledge of Portugal's history and geography, a gap that should be addressed in future pre-training. For AMÁLIA to succeed in the wider industry, future efforts must release withheld data and weights to enable developers to build upon it and to align with the project's goal of fostering a robust, European-specific AI landscape.

本文

2024 年 12 月、ポルトガル政府は「AMÁLIA」と呼ばれる大規模な言語モデル(LLM)に向けた 550 万ユーロの投資を公表しました。これは欧州ポルトガル語のためのプロジェクトです。つい先日、さまざまなポルトガルの自然言語処理(NLP)の取り組みについて概説を組み立てていたところ、技術報告書に出くわし、驚きました!話すことがたくさんありますね。では早速本題に入ります。

さて、それ以前に:簡単な免責事項をお付けします。AMÁLIA は立派な成果であり、研究者各位には大変誇れるべきものです。しかしながら、州政府からの投資がこのほどほどの規模である場合、その成果は整个国家が受け継ぐものでもある——その意味で、いくつかの鋭い問いを投げかけることも公正だと考えます。もしあなたがこのプロジェクトに参加し、この記事を読んでいただいているなら、あなたの貢献に感謝申し上げます!

では、ようやく本題です。

AMÁLIA 要約

AMÁLIA は「欧州ポルトガル語用完全なオープンソースの大規模言語モデル(LLM)」です。目標は単純で、欧州ポルトガル語を「第一級の言語」として扱う LLM を創出することにあります。イタリアも、例えば Minerva で同様の取り組みを行いました。AMÁLIA は、トップクラスのポルトガルの大学および研究機関(NOVA、IST、IT、FCT)による協力によって実現されました。

予想以上に、AMÁLIA はゼロから訓練されたものではなく、より以前に実施された EuroLLM プロジェクトの事前訓練段階の継続として構築されています(これは相当なポルトガル人スタッフによる取り組みです)。私の理解限りでは、アーキテクチャは EuroLLM と同じで、文脈長や RoPE スケーリングに関する若干の変更が行われているに過ぎません。

さて、AMÁLIA がどのようにしてポルトガル語に焦点を当てているのでしょうか。一言で言えば:「データ」です。訓練の各段階を通じて、モデルが用いる欧州ポルトガル語データの割合を増やすよう努めました:

  • 事前訓練では Arquivo.pt のデータを活用しました。
  • 監督された微調整(SFT)段階では、合成的に生成したポルトガル語データを多用しました。
  • 好みに基づく訓練段階では、SFT 段階のデータの一部をサンプリングしました。

訓練自体は興味深いが、さらに重要なのは、その訓練が実質的に有用かどうかを測ることにあります。今回のケースでは特に困難です。チームは欧州ポルトガル語向けに 4 つの新しいベンチマークを作成しました。その中で最も代表的なものは ALBA です。

(クリックして新たなタブでフルサイズ版を開く。AMÁLIA および ALBA の論文に基づいて再構築しました)

なぜ「完全にオープン」なのか?

完全なオープンモデルの基準は Olmo です。Olmo がベンチマークで勝つ必要はありません;その目的ではありません。Olmo の真価は、極めて高いオープンネスにあります。技術報告書をご覧いただければわかりますが、モデル重み? オープン。データ? オープン。コード? オープン。訓練ログ? オープン。すべて公開されており、これほど優れたリソースは他にないと言えます。

現時点でこの記事を書いているところですが、AMÁLIA においてオープンにされているものは極めて限られています。モデルの重み、データ、訓練ログ、あるいは新規ベンチマークに至るまで、どこにも存在しないのが現状です。Arquivo.pt の処理スクリプトは公開されていますが、そこから導かれたデータセット自体は見つかりません。現時点ではいくつかの GitHub リポジトリがあります。「重みはオープンだがソースコードはオープンでない」という多くの LLM が出現する時代において、これらを迅速に公開することがこれまで以上に重要であることは言うまでもありません。

もしかしたら、時機の問題かもしれません。なぜかまだモデルの重みが公開されていないのか、理解を超えた理由があるのかもしれません。あるいは研究が進行中なのかもしれません。しかしたとえ明日にでも重みが公開されたとしても、私は完全にこのアプローチに満足しているわけではありません。

ポルトガル語モデルに必要なポルトガル語データの量

さて、実際にはこのモデルの訓練にどの程度のポルトガル語データが用いられたのでしょうか?

報告書によれば、拡張事前訓練の総トークン数は 1070 億です。そのうち明確な欧州ポルトガル語成分となるのは Arquivo.pt からのもので 58 億トークンだけです。これは約 5.5%であり、決して多いとは言えません。公平を期すならば、EuroLLM のデータ混合物に既に一定量のポルトガル語データが含まれている可能性は高いでしょう。しかしながら、(1)その量は正確にはわからないし、(2)それが本当に欧州ポルトガル語なのか、それとも別の言語なのかすら判然としません。

SFT 側では割合がやや高く、およそ 17~18%ほどです。これは十分でしょうか?率直に言えば、このモデル全体における欧州ポルトガル語の具体的な含有量については完全に把握しておらず、それは知りたいところです。

驚くべきことに、AMÁLIA は Qwen 3-8B などと同等クラスの最新(SOTA)モデルの多くにおいて、ポルトガル語ベンチマークで上回っています(大きな勝利です!)。しかしながら、例えば ALBA というベンチマークでは Qwen 3-8B が我々を上回っています。なぜでしょうか?彼らがポルトガル語特化の訓練を行ったからでしょうか?そう考えられるとは思えません。そこで思い浮かぶのは:より多くの事前訓練データを追加することで、どれだけ恩恵を得られるのでしょうか?それは推測に過ぎませんが、本当に最適化すべき方向性なのかについても疑問です。

何をもって最適化すべきか

AMÁLIA チームは欧州ポルトガル語向けに 4 つの新しいベンチマークを作成しました。これらは幅広い分野をカバーしており、文法、構文、一般常識、そして(重要なのは)ブラジルポルトガル語への偏りがないかを検討しています。

しかし、私が見落としている次元があると考えます:モデルが実際にポルトガルについてどの程度を知っているかという点です。これは、比較的小型のモデルであっても、より深いポルトガルの内包的知識を備えていることを示す絶好の機会です。現時点でのベンチマークは、この次元を捉えていません。ポルトガル語の試験問題は役立ちますが、問題を完全に解決するものではありません。「アベイロで提供される最も有名なデザートは何ですか?」「1978 年から 1985 年の間のポルトガル共和国大統領は誰でしたか?」といった質問も考えられます。

ただ同時に、この課題に取り組む最も適切な場所として事前訓練段階を検討すべきだと考えます。これにははるかに多くのポルトガル語データが必要となり、チームもそれを認識しています。

最終的な感想

まず第一に、私はこの文章を書くことに対して当初躊躇しました。誰かの仕事を批評すること自体を好まないし、ましてやインターネット上で行うことを嫌います。葡萄牙が本プロジェクトに投資したことは嬉しく思います。非常に有能なチームがあり、彼らへの称賛は相応です。

第二に、小さな国そして「言語」のために大規模言語モデルを作ろうとすることは極めて困難です。データは限られていますが存在しており、発見方法について創意工夫が必要です。

第三に、これは魅力的な方向性への優れた第一歩です。欧州ポルトガル語の LLM の未来は明るいです!頭脳、重み、データ、そして評価基準を「オープン」に保つ必要があります。この投稿で述べる「ポルトガル語」とは、より簡潔にするため「欧州ポルトガル語」を指しています;そこはご容赦ください。

別件の付け足し:比較に Olmo 2-7B を含めましたが、Olmo 3-7B はなぜ含まなかったのでしょうか?理由がわかりません。

同じ日のほかのニュース

一覧に戻る →

2026/05/12 6:08

TanStack の NPM パッケージが乗っ取られました。

## Japanese Translation: GitHub は、ヘルスケア、金融サービス、製造業、政府などの業界にまたがり、エンタープライズから小規模・中規模チーム、スタートアップ、非営利団体に至るまであらゆる組織を対象とした、包括的で AI 搭載の開発プラットフォームへと進化しました。その核心となる価値は、Copilot、Spark、Models など高度な AI コード作成ツールと堅牢なセキュリティ機能を統合し、開発ライフサイクル全体を支援することにあります。主要なワークフローは GitHub Actions、Codespaces、Issues、Code Review によって可能にされ、アプリケーションのセキュリティは Advanced Security、Code Security、Secret Protection によって強化されています。アプリのモダン化、DevOps、CI/CD、DevSecOps などのユースケースに対応するソリューションが提供されています。エンタープライズ顧客には、GitHub Advanced Security、Copilot for Business、Premium Support を含む AI 搭載プラットフォームとアディオンが追加で提供されます。技術的な機能だけでなく、広範なドキュメント、コミュニティフォーラム、カスタマーサポート、Trust Center、オープンソースプログラム(Sponsors、Security Lab、Accelerator、Archive Program)を通じて協力的なエコシステムを育んでいます。この多用途でオールインワン環境は、複雑な開発プロセスの簡素化、継続的統合・デリバリーパイプラインの加速化、業界や組織規模を問わずユーザーへのソフトウェアセキュリティと生産性の向上を実現します。

2026/05/12 5:51

GitLab は、組織の人員削減と「CREDIT(クレジット)」バリューの終了を発表しました。

## Japanese Translation: GitLab は「エージェント時代」を主導するため、根本的な再編に着手しており、これは AI エージェントがほとんどの技術的ワークフローを管理し、人間は高レベルの戦略的判断に専念する転換を意味します。本年 6 月上旬までに完了させるこのシフトには、大幅な人員削減、特定の機能において最大 3 階分の管理レイヤーを撤廃する組織のフラット化、そして R&D を約 60 の小規模かつ権限を持たせたチームに再編し、エンドツーエンドの所有責任を与え直すことが含まれます。移行をサポートするためには、内部プロセスに AI エージェントを組み込み、レビュー、承認、ハンドオフを自動化し、会社の役割を最適化するとともに、自社の存在が縮小している市場においてパートナーネットワークを活用して小規模チームを支援する可能性があります(小規模なチームを持つ国では最大 30% の削減)。 同時に、GitLab は従来のサブスクリプションモデルに加え、AI エージェントタスク向けにコンシュームベースの価格設定を組み合わせたビジネスモデルに進化させ、運用オーバーヘッドの削減と、予測可能な収益と柔軟な使用量指標とのバランス実現を目指します。ユーザーにとっては、これらの変更によって摩擦が減った開発環境が提供され、より迅速なイノベーションを促し、完全に自律的かつ AI 駆動の開発サイクルへの移行を加速させます。また、GitLab は以前の価値観の枠組みを廃止し、「スピードと品質」「顧客所有」「直接的な顧客成果」に焦点を当てた 3 つの新規運営原則に移行します。 GitLab は本日、第 1 四半期および FY27(2026 fiscal year)の通年ガイダンスを維持することを再確認しました。詳細なスコープと財務影響については、取締役会承認後に 6 月 2 日の earnings call で共有される予定であり、同時に、許可された地域において 5 月 18 日までに申請が必要となるチームメンバー向けの任意での退職枠を提供しています。最終的に、この戦略的動きは GitLab を、手動のソフトウェアプロセスから完全に自律的で AI 駆動の開発サイクルへの移行における業界リーダーとしての地位を確立するものです。

2026/05/12 4:33

Java のレコードをネイティブメモリに高速でマップするためのライブラリ

## Japanese Translation: TypedMemory は、Foreign Function & Memory (FFM) API に基づいて構築された、実験的で高パフォーマンスの Java ライブラリであり、強力に型付けされた非ヒープメモリへのアクセスを簡素化します。本ライブラリは ClassFile API を使用しているため、Java 25 以降の使用を対象としており、ネイティブアクセスを有効にするために特定の JVM フラグ(例:`--enable-native-access`)の設定が必要です。本ライブラリでは `Mem.of()` を用いて Java レコードを物理メモリに直接マッピングし、`get`、`set`、`fill`、`copyTo`、`swap` などの操作をサポートします。また、型付けされたメモリアロケーション、レコードレイアウトの導出、メモリエイアウトに関する内省、既存のセグメントへのラッパー機能、アノテーションによる固定サイズ配列表場などの機能を備えています。 本 API はグラフィックパイプライン、シミュレーションシステム、ネイティブ連携層、バイナリプロトコルにおけるコードを大幅に削減しますが、以下の制限点にはユーザーが留意する必要があります:レコード内部は変長データのためにヒープアロケートされた配列に依存しており、ゼロコピー動作を必要とする厳密な非ヒープシナリオではパフォーマンスに影響を与える可能性があります。また、ユニオン型はまだサポートされていません。コア API は現在 Apache License 2.0 に基づいて実験的であり、新機能(単純な長整数アドレスを超えたポインタ型フィールドなど)の追加に伴い設計が変化し、互換性を損なう変更が生じる可能性があります。本ライブラリは Maven Central で `io.github.mambastudio:typedmemory:v0.1.0` として入手可能です。

アーマリアと、欧州ポルトガル語の大規模言語モデル(LLM)の未来 | そっか~ニュース