アーマリアと、欧州ポルトガル語の大規模言語モデル(LLM)の未来
## Japanese Translation:
ポルトガル政府は、大学間の連携(NOVA、IST、IT、FCT)を通じて大規模言語モデルにおいて「一等市民」となるようにポルトガル語を確立するため、AMÁLIAに 550 万ユーロの投資を行いました。本モデルはゼロから学習させるのではなく、アーキテクチャの変更を加えることで EuroLLM の事前学習段階を拡張しており、Arquivo.pt を用いて事前学習を行い、生成された合成データを用いて監督微調整を実施しています。AMÁLIA は ALBA ベンチマークにおいて Qwen 3-8B に比べて劣るものの、ほとんどのポルトガル語ベンチマークで State-of-the-Art モデルを上回る性能を発揮していますが、「真のオープン性」が欠けているとして批判に直面しています。モデルの重み付けやデータセット、学習ログ、新たな評価についてはアクセス不能であり、公開された処理スクリプトにおいても同様に閲覧できません。データ分析によると、事前学習時にはトークンの約 5.5% がポルトガル語であり、微調整段階では 17〜18% に増加しましたが、モデル内で保持されているポルトガル語の正確な量は不明です。Olmo が重み付け、データ、コード、ログを公開する一方、AMÁLIA は現時点では完全なオープンソース基準を満たしていません。ALBA など新たなベンチマークは文法・構文・知識およびブラジルポルトガル語へのバイアスを評価しますが、現在の評価ではポルトガルの歴史や地理に関する本質的な知識を測っておらず、今後の事前学習でこのギャップを埋める必要があります。AMÁLIA が広く業界で成功するためには、開発者がそれに基づいて構築できるよう withheld のデータと重み付けを公開し、プロジェクトが目指す堅牢で欧州固有の AI ランドスケープの育成に整合させる取り組みが必要です。
## Text to translate:
The Portuguese government's €5.5 million investment in AMÁLIA aims to establish European Portuguese as a "first-class citizen" in large language models through collaboration among universities NOVA, IST, IT, and FCT. The model extends the pre-training phase of EuroLLM with architectural modifications rather than training from scratch, using Arquivo.pt for pre-training and synthetically generated data for supervised fine-tuning. While AMÁLIA outperforms several State-of-the-Art models on most Portuguese benchmarks (though it lags behind Qwen 3-8B on the ALBA benchmark), it faces criticism for lacking true openness: model weights, datasets, training logs, and new evaluations remain inaccessible despite public processing scripts. Data analysis shows that during pre-training only about 5.5% of tokens were European Portuguese, rising to roughly 17–18% during fine-tuning, but the exact volume of European Portuguese retained in the model remains unclear. Unlike Olmo, which releases weights, data, code, and logs, AMÁLIA does not currently meet full open-source standards. New benchmarks like ALBA assess grammar, syntax, knowledge, and bias toward Brazilian Portuguese, yet current evaluations do not measure intrinsic knowledge of Portugal's history and geography, a gap that should be addressed in future pre-training. For AMÁLIA to succeed in the wider industry, future efforts must release withheld data and weights to enable developers to build upon it and to align with the project's goal of fostering a robust, European-specific AI landscape.