
2026/04/24 23:34
異なる言語モデルが類似した数値表現を学習する
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
サマリー:
大規模言語モデルは、数値を処理するために特定の周期的な数学的パターンを自然に学習し、2,5,10 などの周期を持つフーリエ領域の周波数を重視している。これらのリズム信号は線形手法を用いて数値进行分类する上で不可欠であるが(データポイントを直線で分離できるという概念)、それだけでは不十分である。真の分類成功のためには、異なるモデルアーキテクチャにわたって見られる特定の二段階の階層構造が必要とされる。研究は、多様なモデルが異なる経路(例:トークンが同時に出現する頻度を分析すること、または複数のトークンを用いて単純な加算問題を解くことなど)を通じて類似の解収束することを確認している。これに対し、単一トークンの加算のみを扱うタスクでは、これらの必要な幾何学的パターンは生成されない。究極的には、本調査は、堅牢な数値理解を実現するためには稀疏な周波数特徴だけでは不十分であり、データ型やトークナイザー設計などのトレーニング選択によって形成される複雑な内部構造を必要とすることを示しており、これは人工知能における数学的推論の複雑な進化的プロセスを浮き彫りにしている。
本文
【PDF 閲覧】|【HTML(実験的)】
要約:自然言語でトレーニングされた言語モデルは、周期特性を持ち、その支配的な周期が $T=2, 5, 10$ に現れる特徴を使って数字を表現することを学習する。本稿では、これらの特徴における二段階の階層構造を特定する。Transformer、線形 RNN、LSTM、そしてさまざまな方法でトレーニングされた古典的な単語埋め込みベクトルは、いずれもフーリエ領域において周期 $T$ に対応するスパイクを持つ特徴を学習するが、その中で線形的に数字を mod-$T$($T$ で割った余り)として分類に用いられる幾何学的分離可能な特徴を学習するのは一部のモデルのみである。この不整合を説明するためには、フーリエ領域におけるスパarsity は mod-$T$ 幾何学的分離可能性にとって必要条件ではあるが十分条件ではないことを本稿で証明する。経験的に、我々はモデルのトレーニングから幾何学的分離可能な特徴が得られる状況を調べ、そのためにはデータ、アーキテクチャ、最適化アルゴリズム、およびトークナイザーがすべて重要な役割を果たすことを明らかにする。特に、モデルが幾何学的分離可能な特徴を習得する二つの異なる経路を特定した:一般の言語データにおける補完的な共出現シグナル(テキストと数字の共出現、そして数字間相互作用を含む)から学ぶ場合と、マルチトークン加算問題(ただし単一トークンの加算では不可)から学ぶ場合である。全体として、我々の結果は特徴学習における収斂的進化という現象を強調している:多様なアーキテクチャを持つモデルが、異なるトレーニングシグナルから同様の特徴を学習するのである。
提出履歴:Deqing Fu より送信【メールの閲覧】
[v1] 2026 年 4 月 22 日水曜日 17:45:27 UTC(ファイルサイズ:559 KB)