異なる言語モデルが類似した数値表現を学習する

2026/04/24 23:34

異なる言語モデルが類似した数値表現を学習する

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

サマリー:

大規模言語モデルは、数値を処理するために特定の周期的な数学的パターンを自然に学習し、2,5,10 などの周期を持つフーリエ領域の周波数を重視している。これらのリズム信号は線形手法を用いて数値进行分类する上で不可欠であるが(データポイントを直線で分離できるという概念)、それだけでは不十分である。真の分類成功のためには、異なるモデルアーキテクチャにわたって見られる特定の二段階の階層構造が必要とされる。研究は、多様なモデルが異なる経路(例:トークンが同時に出現する頻度を分析すること、または複数のトークンを用いて単純な加算問題を解くことなど)を通じて類似の解収束することを確認している。これに対し、単一トークンの加算のみを扱うタスクでは、これらの必要な幾何学的パターンは生成されない。究極的には、本調査は、堅牢な数値理解を実現するためには稀疏な周波数特徴だけでは不十分であり、データ型やトークナイザー設計などのトレーニング選択によって形成される複雑な内部構造を必要とすることを示しており、これは人工知能における数学的推論の複雑な進化的プロセスを浮き彫りにしている。

本文

【PDF 閲覧】|【HTML(実験的)】

要約:自然言語でトレーニングされた言語モデルは、周期特性を持ち、その支配的な周期が $T=2, 5, 10$ に現れる特徴を使って数字を表現することを学習する。本稿では、これらの特徴における二段階の階層構造を特定する。Transformer、線形 RNN、LSTM、そしてさまざまな方法でトレーニングされた古典的な単語埋め込みベクトルは、いずれもフーリエ領域において周期 $T$ に対応するスパイクを持つ特徴を学習するが、その中で線形的に数字を mod-$T$($T$ で割った余り)として分類に用いられる幾何学的分離可能な特徴を学習するのは一部のモデルのみである。この不整合を説明するためには、フーリエ領域におけるスパarsity は mod-$T$ 幾何学的分離可能性にとって必要条件ではあるが十分条件ではないことを本稿で証明する。経験的に、我々はモデルのトレーニングから幾何学的分離可能な特徴が得られる状況を調べ、そのためにはデータ、アーキテクチャ、最適化アルゴリズム、およびトークナイザーがすべて重要な役割を果たすことを明らかにする。特に、モデルが幾何学的分離可能な特徴を習得する二つの異なる経路を特定した:一般の言語データにおける補完的な共出現シグナル(テキストと数字の共出現、そして数字間相互作用を含む)から学ぶ場合と、マルチトークン加算問題(ただし単一トークンの加算では不可)から学ぶ場合である。全体として、我々の結果は特徴学習における収斂的進化という現象を強調している:多様なアーキテクチャを持つモデルが、異なるトレーニングシグナルから同様の特徴を学習するのである。

提出履歴:Deqing Fu より送信【メールの閲覧】
[v1] 2026 年 4 月 22 日水曜日 17:45:27 UTC(ファイルサイズ:559 KB)

同じ日のほかのニュース

一覧に戻る →

2026/04/25 4:30

私のオーディオインターフェースは、SSH がデフォルトで有効になっています。

## Japanese Translation: Rodecaster Duo は、ファームウェア署名検証の欠如に起因する深刻なセキュリティ脆弱性を有しています。この欠陥は、研究者がコンテナを通じて SSH パスワード認証を有効にする自製ファームウェアの開発および展開に成功した事例から明らかとなりやすく、カスタムソフトウェアへのフラッシングを可能にしています。同装置は USB 書き込みを無効化することでブリック状態を防ぐように設計されていますが、この制限は回避可能であり、初期試みが失敗した場合(例:macOS)や予期せずトリガーされた場合でもファームウェア更新が進められる可能性があります。USB HID プロトコルの解析により、ファームウェア更新はレポート 1 を介して送信される単純な ASCII コマンド('M」と 'U」)によって開始されることが明らかとなり、実際のファイル操作にはディスクのマウント、`archive.tar.gz`および`archive.md5`の複製、許可付きパーミッションの設定(777)、そして再起動が含まれます。同装置はデフォルトで公開鍵認証とハードコードされた鍵を使用した SSH が有効になっており、これらの鍵が変更されない場合、セキュリティリスクを引き起こします。これらの欠陥についてサポートチケットへの回答はなく、システムのオープンな性質が、この専門的なオーディオツールを有益な改変のプラットフォームであると同時に、潜在的なセキュリティ侵害のプラットフォームにも変えつつあります。

2026/04/25 4:01

クラシック・アメリカン・ダイナー

## Japanese Translation: 米国のダイナーは、輸送史と料理文化の独自の融合を表しており、20 世紀に鉄道輸送用に製造された列車車から、象徴的な路辺のレストランへと進化してきました。歴史記録によれば、主要な高速道路沿いには多様なメニューが提供されており、1940 年夏のマーランド州バーウィン近郊のダイナーではホットドッグが 5 セント、プレートが 25 セント、ニューヨーク市の施設では 1959 年に朝食プレートが 75 セントで提供されていました。長い労働時間に対応するため、多くの場所はアバディーン(マリーランド州)などで見られるように 24 時間営業のモデルを採用し、トラックドライバーだけでなく一般住民もアクセスできるようにしました。国会図書館はこれらの施設の建築的多様性を捉えた広範な写真アーカイブを保管しており、ジョージア州カラムスにあるルート 27 ダイナー(韓国料理も販売している)の波打つ金属製の外観から、バーモント州チェスターにある「ストリームライン」アルミニウム仕上げのクラウニーガールダイナーまで多岐にわたります。これらの画像は単なる食料供給を超え、ダイナーを米国人の好意と国家の記憶を象徴する強力なシンボルとして示しており、20 世紀初頭からの文書からキャロル・M・ハイズミスの作品のような現代アーカイブに至るまで、ピジョンフォージにあるサンライナーダイナーやフェニックスにある5&ダイナーなどの現場を捉えています。

2026/04/24 23:28

過剰な思考、スコープクリープ、そして構造的相違によって引き起こされるプロジェクトへの sabotaging です。

## Japanese Translation: 著者は「やってみるか」という哲学を提唱し、広範な調査よりも即時の作成を優先することで楽しみを保ち、スコープの蔓延を防ぐことを重視する。この転換は、ハードウェアのプロトタイピングインターフェース、Clojure+Rust 融合言語、CAD プログラミングといった長年にわたる技術的関心を扱うが、焦点のない成功基準により数百時間の投入にも関わらず合成された解決策をもたらさず、こうしたサイクルを打破するために著者は迅速なプロトタイピングに注力する。友人の Marcin と一緒に週末プロジェクトとして製作した合板の棚は、機能的成果に絞って完璧な仕様ではなくてはしごを作ったものであり、逆にリソースが不要な機能や過剰な調査に浪費されるときには失敗する。具体的には、LLM エージェントプロジェクト(Finda スタイルのファイルシステム検索)でアンカー機能を見捨てること、difftastic、semanticdiff.com、diffsitter などのツールを数時間レビューして高レベル構造を正しく処理できないことが判明した例などが挙げられる。こうした限界に失望した著者は、Tyvek/ライトディフューザー材料の EU ベンダーを探したり、Coinbase クリプト破産分析から酵母ワクチンや Loon Lisp まで幅広い話題に触れたりする雑多な更新事項も記録している。