
2026/05/09 1:34
アーマリアと、欧州ポルトガル語の大規模言語モデル(LLM)の未来
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
ポルトガル政府は、大学間の連携(NOVA、IST、IT、FCT)を通じて大規模言語モデルにおいて「一等市民」となるようにポルトガル語を確立するため、AMÁLIAに 550 万ユーロの投資を行いました。本モデルはゼロから学習させるのではなく、アーキテクチャの変更を加えることで EuroLLM の事前学習段階を拡張しており、Arquivo.pt を用いて事前学習を行い、生成された合成データを用いて監督微調整を実施しています。AMÁLIA は ALBA ベンチマークにおいて Qwen 3-8B に比べて劣るものの、ほとんどのポルトガル語ベンチマークで State-of-the-Art モデルを上回る性能を発揮していますが、「真のオープン性」が欠けているとして批判に直面しています。モデルの重み付けやデータセット、学習ログ、新たな評価についてはアクセス不能であり、公開された処理スクリプトにおいても同様に閲覧できません。データ分析によると、事前学習時にはトークンの約 5.5% がポルトガル語であり、微調整段階では 17〜18% に増加しましたが、モデル内で保持されているポルトガル語の正確な量は不明です。Olmo が重み付け、データ、コード、ログを公開する一方、AMÁLIA は現時点では完全なオープンソース基準を満たしていません。ALBA など新たなベンチマークは文法・構文・知識およびブラジルポルトガル語へのバイアスを評価しますが、現在の評価ではポルトガルの歴史や地理に関する本質的な知識を測っておらず、今後の事前学習でこのギャップを埋める必要があります。AMÁLIA が広く業界で成功するためには、開発者がそれに基づいて構築できるよう withheld のデータと重み付けを公開し、プロジェクトが目指す堅牢で欧州固有の AI ランドスケープの育成に整合させる取り組みが必要です。
Text to translate:
The Portuguese government's €5.5 million investment in AMÁLIA aims to establish European Portuguese as a "first-class citizen" in large language models through collaboration among universities NOVA, IST, IT, and FCT. The model extends the pre-training phase of EuroLLM with architectural modifications rather than training from scratch, using Arquivo.pt for pre-training and synthetically generated data for supervised fine-tuning. While AMÁLIA outperforms several State-of-the-Art models on most Portuguese benchmarks (though it lags behind Qwen 3-8B on the ALBA benchmark), it faces criticism for lacking true openness: model weights, datasets, training logs, and new evaluations remain inaccessible despite public processing scripts. Data analysis shows that during pre-training only about 5.5% of tokens were European Portuguese, rising to roughly 17–18% during fine-tuning, but the exact volume of European Portuguese retained in the model remains unclear. Unlike Olmo, which releases weights, data, code, and logs, AMÁLIA does not currently meet full open-source standards. New benchmarks like ALBA assess grammar, syntax, knowledge, and bias toward Brazilian Portuguese, yet current evaluations do not measure intrinsic knowledge of Portugal's history and geography, a gap that should be addressed in future pre-training. For AMÁLIA to succeed in the wider industry, future efforts must release withheld data and weights to enable developers to build upon it and to align with the project's goal of fostering a robust, European-specific AI landscape.
本文
2024 年 12 月、ポルトガル政府は「AMÁLIA」と呼ばれる大規模な言語モデル(LLM)に向けた 550 万ユーロの投資を公表しました。これは欧州ポルトガル語のためのプロジェクトです。つい先日、さまざまなポルトガルの自然言語処理(NLP)の取り組みについて概説を組み立てていたところ、技術報告書に出くわし、驚きました!話すことがたくさんありますね。では早速本題に入ります。
さて、それ以前に:簡単な免責事項をお付けします。AMÁLIA は立派な成果であり、研究者各位には大変誇れるべきものです。しかしながら、州政府からの投資がこのほどほどの規模である場合、その成果は整个国家が受け継ぐものでもある——その意味で、いくつかの鋭い問いを投げかけることも公正だと考えます。もしあなたがこのプロジェクトに参加し、この記事を読んでいただいているなら、あなたの貢献に感謝申し上げます!
では、ようやく本題です。
AMÁLIA 要約
AMÁLIA は「欧州ポルトガル語用完全なオープンソースの大規模言語モデル(LLM)」です。目標は単純で、欧州ポルトガル語を「第一級の言語」として扱う LLM を創出することにあります。イタリアも、例えば Minerva で同様の取り組みを行いました。AMÁLIA は、トップクラスのポルトガルの大学および研究機関(NOVA、IST、IT、FCT)による協力によって実現されました。
予想以上に、AMÁLIA はゼロから訓練されたものではなく、より以前に実施された EuroLLM プロジェクトの事前訓練段階の継続として構築されています(これは相当なポルトガル人スタッフによる取り組みです)。私の理解限りでは、アーキテクチャは EuroLLM と同じで、文脈長や RoPE スケーリングに関する若干の変更が行われているに過ぎません。
さて、AMÁLIA がどのようにしてポルトガル語に焦点を当てているのでしょうか。一言で言えば:「データ」です。訓練の各段階を通じて、モデルが用いる欧州ポルトガル語データの割合を増やすよう努めました:
- 事前訓練では Arquivo.pt のデータを活用しました。
- 監督された微調整(SFT)段階では、合成的に生成したポルトガル語データを多用しました。
- 好みに基づく訓練段階では、SFT 段階のデータの一部をサンプリングしました。
訓練自体は興味深いが、さらに重要なのは、その訓練が実質的に有用かどうかを測ることにあります。今回のケースでは特に困難です。チームは欧州ポルトガル語向けに 4 つの新しいベンチマークを作成しました。その中で最も代表的なものは ALBA です。
(クリックして新たなタブでフルサイズ版を開く。AMÁLIA および ALBA の論文に基づいて再構築しました)
なぜ「完全にオープン」なのか?
完全なオープンモデルの基準は Olmo です。Olmo がベンチマークで勝つ必要はありません;その目的ではありません。Olmo の真価は、極めて高いオープンネスにあります。技術報告書をご覧いただければわかりますが、モデル重み? オープン。データ? オープン。コード? オープン。訓練ログ? オープン。すべて公開されており、これほど優れたリソースは他にないと言えます。
現時点でこの記事を書いているところですが、AMÁLIA においてオープンにされているものは極めて限られています。モデルの重み、データ、訓練ログ、あるいは新規ベンチマークに至るまで、どこにも存在しないのが現状です。Arquivo.pt の処理スクリプトは公開されていますが、そこから導かれたデータセット自体は見つかりません。現時点ではいくつかの GitHub リポジトリがあります。「重みはオープンだがソースコードはオープンでない」という多くの LLM が出現する時代において、これらを迅速に公開することがこれまで以上に重要であることは言うまでもありません。
もしかしたら、時機の問題かもしれません。なぜかまだモデルの重みが公開されていないのか、理解を超えた理由があるのかもしれません。あるいは研究が進行中なのかもしれません。しかしたとえ明日にでも重みが公開されたとしても、私は完全にこのアプローチに満足しているわけではありません。
ポルトガル語モデルに必要なポルトガル語データの量
さて、実際にはこのモデルの訓練にどの程度のポルトガル語データが用いられたのでしょうか?
報告書によれば、拡張事前訓練の総トークン数は 1070 億です。そのうち明確な欧州ポルトガル語成分となるのは Arquivo.pt からのもので 58 億トークンだけです。これは約 5.5%であり、決して多いとは言えません。公平を期すならば、EuroLLM のデータ混合物に既に一定量のポルトガル語データが含まれている可能性は高いでしょう。しかしながら、(1)その量は正確にはわからないし、(2)それが本当に欧州ポルトガル語なのか、それとも別の言語なのかすら判然としません。
SFT 側では割合がやや高く、およそ 17~18%ほどです。これは十分でしょうか?率直に言えば、このモデル全体における欧州ポルトガル語の具体的な含有量については完全に把握しておらず、それは知りたいところです。
驚くべきことに、AMÁLIA は Qwen 3-8B などと同等クラスの最新(SOTA)モデルの多くにおいて、ポルトガル語ベンチマークで上回っています(大きな勝利です!)。しかしながら、例えば ALBA というベンチマークでは Qwen 3-8B が我々を上回っています。なぜでしょうか?彼らがポルトガル語特化の訓練を行ったからでしょうか?そう考えられるとは思えません。そこで思い浮かぶのは:より多くの事前訓練データを追加することで、どれだけ恩恵を得られるのでしょうか?それは推測に過ぎませんが、本当に最適化すべき方向性なのかについても疑問です。
何をもって最適化すべきか
AMÁLIA チームは欧州ポルトガル語向けに 4 つの新しいベンチマークを作成しました。これらは幅広い分野をカバーしており、文法、構文、一般常識、そして(重要なのは)ブラジルポルトガル語への偏りがないかを検討しています。
しかし、私が見落としている次元があると考えます:モデルが実際にポルトガルについてどの程度を知っているかという点です。これは、比較的小型のモデルであっても、より深いポルトガルの内包的知識を備えていることを示す絶好の機会です。現時点でのベンチマークは、この次元を捉えていません。ポルトガル語の試験問題は役立ちますが、問題を完全に解決するものではありません。「アベイロで提供される最も有名なデザートは何ですか?」「1978 年から 1985 年の間のポルトガル共和国大統領は誰でしたか?」といった質問も考えられます。
ただ同時に、この課題に取り組む最も適切な場所として事前訓練段階を検討すべきだと考えます。これにははるかに多くのポルトガル語データが必要となり、チームもそれを認識しています。
最終的な感想
まず第一に、私はこの文章を書くことに対して当初躊躇しました。誰かの仕事を批評すること自体を好まないし、ましてやインターネット上で行うことを嫌います。葡萄牙が本プロジェクトに投資したことは嬉しく思います。非常に有能なチームがあり、彼らへの称賛は相応です。
第二に、小さな国そして「言語」のために大規模言語モデルを作ろうとすることは極めて困難です。データは限られていますが存在しており、発見方法について創意工夫が必要です。
第三に、これは魅力的な方向性への優れた第一歩です。欧州ポルトガル語の LLM の未来は明るいです!頭脳、重み、データ、そして評価基準を「オープン」に保つ必要があります。この投稿で述べる「ポルトガル語」とは、より簡潔にするため「欧州ポルトガル語」を指しています;そこはご容赦ください。
別件の付け足し:比較に Olmo 2-7B を含めましたが、Olmo 3-7B はなぜ含まなかったのでしょうか?理由がわかりません。