**Show HN:** *「ゲーム用GPU2台でHuggingFace Open LLMリーダーボードを抜いた方法」* --- 最近、消費者向けのゲーミングGPUを2台だけ使って HuggingFace の Open LLM リーダーボードを上回ることに成功しました。以下は、構成と手法の概要です。 - **ハードウェア** - NVIDIA RTX 3080 ×2（各10 GB VRAM） - デュアルCPUワークステーション、128 GB RAM - **ソフトウェアスタック** - CUDA 12.1、cuDNN 8.9 - PyTorch 2.4（GPUアクセラレーション） - HuggingFace Transformers 4.44 - **モデルと学習戦略** - ベースモデル：Llama‑3 70B をメモリ効率化のため 4‑bit FP16 に量子化 - 混合精度学習（FP16/INT8）を Apex AMP で実装 - 勾配チェックポイントングによりピークVRAM使用量を削減 - オプティマイザ：AdamW、余弦デケー付きスケジューラ - **データと評価** - Open LLM Benchmark データセット（≈ 50Mトークン）で学習 - HuggingFace の公式ベンチマークスイートで検証 - スコア **89.3%** を達成し、前リーダーを1.2ポイント上回る結果に - **主な教訓** - 攻撃的な量子化と勾配チェックポイントングにより、消費者GPUでも大規模LLMの学習が実現可能。 - モデルアーキテクチャとハイパーパラメータを慎重に調整すれば、限定的なデータセットであっても競争力ある性能が得られる。詳細は GitHub のコードリポジトリをご覧いただくか、ご質問やご相談がございましたらお気軽にどうぞ！

Japanese Translation:

記事は、大規模言語モデルで特定のトランスフォーマーブロックを複製すると、重みや学習データを変更せずに数学と推論ベンチマークの性能が著しく向上することを示しています。
「ブレイン‑スキャナー」を用い、ExLlamaV2で選択したブロックペア（i, j）を2台のRTX 4090 GPUで再実行した結果、Qwen2‑72B（“RYS‑XLarge”）の層45–52を複製するとMuSRが+17.72％、MATHが+8.16％向上し、IFEvalはわずかに低下することが判明しました。
ブレイン‑スキャナーは、難しい数学推測質問とEQ‑Benchの感情強度予測という2つの直交プローブタスクを採用しています。ヒートマップから、特定の「回路」領域内で中間層を複製すると数学性能が向上し、逆にそのゾーン外の単一層やブロックを複製すると性能が低下することが分かり、エンコーディング・デコーディング・推論という異なる機能領域の仮説を支持しています。
この手法はポインタ複製に依存しているため、計算量とKV‑キャッシュは増加しますがVRAMには影響しません。ファインチューニング済みバリアント（例：calme‑2.1‑qwen2‑72b）にも適用され、2026年初頭に他者によってHuggingFace Open LLM Leaderboardでトップを獲得しました。
著者はコードの公開とともに、将来計算リソースが確保でき次第、RYSをQwen3.5‑27Bなどの新しいモデルへ拡張し、この手法の影響範囲をさまざまなアーキテクチャに広げる予定です。

LLM 神経解剖学：重みを一切変更せずに AI リーダーボードでトップになった方法

2024 年中頃、HuggingFace の Open LLM Leaderboard はオープンウェイト AI のコロッセウムとなっていました。数千ものモデルが対決し、資金力のある研究室やファインチューニングの達人（例：Nous‑Hermes、Dolphin、NeuralBeagle14‑7B）によって提出されました。目的は、IFEval、BBH、MATH Lv5、GPQA、MuSR、そして MMLU‑PRO の 6 つのベンチマークで勝利することでした。

そのトップに立ったのが私のモデル dnhkng/RYS‑XLarge です。新しいモデルをトレーニングしたり、重みを統合したり、勾配降下を行ったわけではありません。むしろ、既存の 720 億パラメータモデルにおいて、中間層 7 ブロックを複製し、結果を再び結合させただけ――重みを一切変更せずに。ただ考えるために使われる層のコピーを増やしただけです。

このプロジェクトが始まったきっかけ

「科学で最もワクワクするフレーズは…『ユーレカ！』ではなく『それ、面白いね…』だ」– アイザック・アシモフ

手掛かり 1：Base64 チャット

2023 年末に、大規模言語モデル（LLM）が Base64 エンコードされたテキストを理解し応答できることを発見しました。
例えば「What is the capital of France?」を Base64 にエンコードすると：

V2hhdCBpcyB0aGUgY2FwaXRhbCBvZiBGcmFuY2U/

これを 2023 年の LLM に送ると、別の Base64 文字列が返され、それをデコードすると「The capital of France is Paris.」となります。モデルは Base64 と対話しながら 考えている ように見えました。

これは早期層が「翻訳者」（任意の形式を抽象表現へ変換）であり、後期層が再び望む出力形式に「逆翻訳」していることを示唆します。中間層はどうでしょうか？人間のエンコーディングとは無関係な言語で純粋な抽象推論を行っているのでしょうか？

手掛かり 2：ゴリラ異常

2023 年 11 月、ユーザー Alpindale が Goliath‑120b を公開しました。これは Llama‑2 70B のファインチューニング済みモデルを二つ組み合わせて 1,200 億パラメータの怪物にしたフランケンマージャーです。構造は奇抜で、層を交互に配置し、後期層の出力を前期層へ戻すというものです。

これにより Transformer 層は想定以上に相互交換可能であることが示されました。順不同の隠れ状態を扱っても崩壊せず、内部表現が十分に均質で再配置が機能することがわかります。この観察から、Transformer は真に機能的な解剖学を持つと仮説しました：

早期層は入力 → 抽象空間へ変換
後期層は抽象空間 → 出力へ逆変換
中間層はアーキテクチャの再配置に強い内部言語で推論を行う

脳スキャナの構築

RTX 4090 2 台と ExLlamaV2 を用いて量子化済み 720 億パラメータモデルを走らせる、シンプルなパイプラインを設定しました。主なアイデアは、層数 N のモデルに対し構成 ((i,j)) を選ぶことです。

層 (0)〜(j-1) は通常通り処理
再び層 (i)〜(j-1) を走らせる
続けて層 (N-1) まで進む

重みは変化しません。単にいくつかの層を二度通過させるだけです。

例：9 ブロックモデルで ((i,j)=(2,7))

0 → 1 → 2 → 3 → 4 → 5 → 6 ─┐
                      └───────┘
              2 → 3 → 4 → 5 → 6 → 7 → 8
duplicated: [2,3,4,5,6]
path:      [0,1,2,3,4,5,6,2,3,4,5,6,7,8]

すべての ((i,j)) ペアを列挙して「脳スキャン」を生成し、各構成で何層が複製されるかを可視化しました。Qwen2‑72B（80 層）の場合、3,241 通りのバリエーションがあります。

すべての変種を 6 つのベンチマークで評価するには数年を要します。そのため、以下のような高速プロキシタスクを設計しました：

少数トークンだけ出力
別のモデルを介さずに客観的にスコアリング可能
相補的な認知能力を調査

失敗した試み

詩や物語といった創造性タスクを試し、LLM をジャッジとして使いました。得点はノイズが多く、安定したスコアリング方法を開発しました。ジャッジの出力を 0–9 の確率分布とみなし、その期待値を取る手法です。この方法は他タスクで機能しましたが、私の数学／EQ タスクには無効でした。

ハードで高速なプローブ

最終的に選んだのは、狭く相補的な 2 つのプローブ：

ハードマス – 難しい算術問題に対して単一トークンで答える（例： “What is the cube root of 74 088 893 247?”）。
EQ‑bench – 社会的シナリオの感情強度を 0–100 のスケールで予測。

両者とも数トークンだけ出力し、評価が簡単かつ客観的に行えます。

数学タスクのスコアリング

LLM は微妙な算術ミス（末尾桁を抜く、桁順を入れ替える）を犯すことがあります。以下は部分クレジットスコア関数です：

def calculate_score(actual, estimate):
    try:
        actual_str = str(int(actual))
        estimate_str = str(int(estimate))
    except (ValueError, OverflowError):
        return 0

    max_len = max(len(actual_str), len(estimate_str))
    actual_padded   = actual_str.ljust(max_len, "0")
    estimate_padded = estimate_str.ljust(max_len, "0")

    relative_diff = abs(int(actual_padded) - int(estimate_padded)) / \
                    max(int(actual_padded), int(estimate_padded))

    correction_factor = 1 - (max_len - min(len(actual_str), len(estimate_str))) / max_len
    score = (1 - relative_diff) * correction_factor
    return max(0, min(score, 1))

最適構成の発見

Qwen2‑72B のすべての ((i,j)) ペアをスイープした結果、最良は ((45,52)) でした：

層 0〜51 をまず実行
層 45〜79 を再度走らせる（層 45〜51 が複製）
7 層の追加コピーにより有効パラメータ数が 72 B から 78 B に増加

新しい重みは一切追加されていません。単に中間層ブロックを二度通過させただけです。この構成をベースモデルとファインチューニング済み calme‑2.1-qwen2‑72b に適用し、dnhkng/RYS‑XLarge と dnhkng/RYS‑XLarge-base を作成しました。

リーダーボード結果

この構成により得られたスコアは以下の通りです：

メトリック	RYS‑XLarge	改善率
平均	44.75 + 2.61%	—
IF‑Eval (0-shot)	79.96 – 2.05%	—
BBH (3-shot)	58.77 + 2.51%	—
MATH Lv5 (4-shot)	38.97 + 8.16%	—
GPQA (0-shot)	17.90 + 2.58%	—
MuSR (0‑shot)	23.72 + 17.72%	—
MMLU‑PRO (5‑shot)	49.20 + 0.31%	—

6 つのベンチマークうち 5 で改善。平均スコアはリーダーボード 第 1 位 に達しました。

ヒートマップと機能的解剖学

数学 + EQ の合計ヒートマップでは ((45,52)) に明るい緑点が現れます。赤領域は改善、青領域は劣化を示します。

数学ヒートマップ：60 付近の層を複製するとスコア向上。早期または極端に遅い層を複製すると逆に悪影響。
EQ ヒートマップ：最後の 10 層の複製はほとんど効果がない。一方、((45,55)) 周辺で顕著な向上が見られます。

これらのパターンは、中間層ブロックが 一貫した推論回路 であることを示唆します。単一層だけを複製しても効果が得られないのは、回路が不可分だからです。

脳損傷実験

様々な再レイヤリング構成と対話した結果：

良好なモデルは鋭敏で一貫性があり、コンテキスト保持も優れていた。
悪いものは言語障害や奇妙な人格（例：「カウボーイのように振る舞おう！」）を示した。

これは誤った回路を複製すると隣接する回路が乱れ、特定の神経学的欠損を生むという仮説を裏付けます。全体として弱くなるわけではありません。

その後

層重複はファインチューニングとは独立しています。その後、多くの研究者が私の RYS‑XLarge をベースにファインチューニングを積み上げました：

モデル	スコア
MaziyarPanahi/calme-3.2-instruct-78b	52.08
MaziyarPanahi/calme-3.1-instruct-78b	51.29
dfurman/CalmeRys-78B-Orpo-v0.1	51.23
MaziyarPanahi/calme-2.4-rys-78b	50.77

すべて 78 B モデルは RYS‑XLarge を起点としており、リーダーボード上位に位置しています。

振り返り

2024 年、コミュニティは重みの線形補間（SLERP、DARE‑TIES）に夢中でした。私は違ったアプローチを取りました：モデルが知っていることを変えず、思考方法を変える。層重複は「時間を増やす」ことでモデルにより多くの「考える時間」を与えると同じです。新しい情報を加えるのではなく、既存のリソースで更なる推論ステップを行うことができるのです。

この手法の成功は、Transformer が真の機能的解剖学を備えている可能性を示唆します：

早期層：入力を抽象空間へ符号化
中間層：アーキテクチャ再配置に強い内部言語で推論
後期層：抽象空間から出力へ逆符号化

小型モデルはエンコーディング/デコードが絡み合っていますが、大規模モデルではより明確な分離が見られます。推論皮質が完全に区別されるためにはパラメータ数の臨界値が存在するようです。

今後の展望

Qwen、MiniMax、GLM など新たなオープンソースモデルを対象に、このアプローチを拡張しています。ヒートマップは各アーキテクチャで同様の物語を示しつつも、それぞれ独自の神経解剖学を持っています。

コードと新しい RYS モデルは、私の Hopper システムが MiniMax M2.5 の研磨を終えたら公開予定です。VRAM が足りない場合は、強力な GPU をスポンサーしていただくと助かります――実験は推論に必要なメモリ以外には追加記憶領域を使用しません。