2026/03/08 5:22

AutoResearch：単一GPUで自動的にNanoChatトレーニングを行うエージェントの研究 - 自己学習型エージェントが単一GPU上でリサーチタスクを実行します。 - NanoChatモデルの効率的な訓練ワークフローに焦点を当てます。 - データ収集・前処理・評価ステップを自動化します。

RSS: https://news.ycombinator.com/rss

要約▶

日本語訳:

（抜けている要素を含め、表現を明確にしたもの）

このリポジトリは、エージェントが短時間の5分間GPU実験中に
train.py
を編集して検証ビット／バイト数 (
val_bpb
) を改善することで、自律型AI研究をデモンストレーションします。
コアファイルは
prepare.py
（データ準備・トークナイザー）、
train.py
（モデル、オプティマイザ、学習ループ）と軽量な指示ファイル
program.md
です。エージェントの編集―構造変更、ハイパーパラメータ調整、オプティマイザ設定、およびバッチサイズ―はすべて
train.py
のみで完結します。
実験は単一の NVIDIA GPU（H100 でテスト済み）上で行い、固定の5分間壁時計予算内に収めることで、一貫した比較を可能にしています。同じGPUで1時間あたり約 12実験 が実施できます。
設定には Python 3.10+、
uv
パッケージマネージャー（
uv sync
の後
uv run prepare.py
）、PyTorch、および最小限のユーティリティが必要です。分散学習や複雑な設定は不要で、CPUや他のバックエンドには未対応です。macOS 用フォーク（
miolini/autoresearch-macos
）は存在し、追加ハードウェアサポートは親の nanochat リポジトリをフォークして実装できます。
このリポジトリは MIT ライセンスで公開されており、研究者・ホビエスト・教育者がコンシューマGPU上で迅速かつ再現可能なハイパーパラメータ探索を行うためのアクセスしやすいベンチマークとなります。

本文

Auto‑Research README（自動研究リードミー）

概要

かつての先端AI研究は、肉体的なコンピュータを使い、食事・睡眠・音波接続で時折コミュニケーションしていました。この時代は過去のものです。現在では、空中に張り巡らされた計算クラスタ上で、自律的に動くAIエージェントが集団を組み、モデル改善のため自分自身のコードを書き換えています。

本リポジトリはその始まり―一晩だけでエージェントが自主的に実験できる最小構成―について説明します。
– @karpathy, 2026年3月

コアアイデア

AIエージェントに小さなLLMトレーニングスタックを与え、次のことを行わせます：

コードを書き換える。
5分だけ学習する。
評価 (
```
val_bpb
```
– 小さいほど良い) を行う。
変更を保持するか破棄するか決める。
繰り返す。

朝になると実験ログが残っており、もしかするとより良いモデルが完成しているでしょう。

リポジトリの構成

ファイル	用途
`prepare.py`	定数固定・一度だけ行うデータ準備（学習データダウンロード、BPEトークナイザー作成）。実行時ユーティリティ（データローダー、評価）を含む。決して変更しないこと。
`train.py`	エージェントが編集するファイル：完全なGPTモデル、オプティマイザ（Muon + AdamW）、学習ループ。すべて自由に改変可。
`program.md`	一人のエージェント用ベース指示書。研究戦略を反復させるために人間が編集。

リポジトリはわずか3ファイルで構成され、他はすべて不要です。

実装詳細

5分固定予算 – スタートアップ・コンパイル時間を除く壁時計時間。
評価指標：val_bpb
（validation bits per byte）。小さいほど良い。語彙サイズに依存しません。
GPU1台、ファイル1つ、メトリクス1つ → 実験は直接比較可能です。

クイックスタート

# 1. uv プロジェクトマネージャーをインストール（未導入の場合）
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 依存関係をインストール
uv sync

# 3. データダウンロード＆トークナイザー作成（一度だけ、約2分）
uv run prepare.py

# 4. 単一実験（約5分）
uv run train.py

すべてが成功すれば、自動研究モードに移行できる準備完了です。

プラットフォームサポート

現在は 1枚の NVIDIA GPU が必要です（H100でテスト済み）。CPU/MPS/その他プラットフォームも可能ですが、コードが肥大化します。フォークや拡張について議論したい場合はお気軽に。

エージェントを起動

好きなLLM（Claude, Codex 等）を権限なしで立ち上げます。

プロンプト例：

Hi, have a look at program.md and let's kick off a new experiment! Let’s do the setup first.

エージェントは

program.md

の指示に従い

train.py

を編集します。

ディレクトリ構成

prepare.py      # 定数・データ準備・実行時ユーティリティ（変更禁止）
train.py        # モデル・オプティマイザ・学習ループ（エージェントが改変）
program.md      # エージェント指示
pyproject.toml  # 依存関係

デザインの選択

編集可能ファイルを1つに限定 → スコープ管理と差分レビューが容易。
固定時間予算 → プラットフォーム間で比較しやすく、ハードウェア最適化の発見を高速化。
セルフコンテインド – PyTorch と少数の小規模パッケージのみ。分散学習や複雑な設定は不要。

注目フォーク

```
miolini/autoresearch-macos
```

ライセンス

MIT

同じ日のほかのニュース

一覧に戻る →

2026/03/08 5:43

CAS番号（化学物質登録番号）

## Japanese Translation: CasNumは、コンパスと定規を用いた幾何学的構成により任意精度算術を実装するPythonライブラリです。数値は平面上の点としてエンコードされ、加算・乗算・除算・論理ゲートなどの演算は、線/点、円、直線と円の交点などの5つの基本的な幾何学プリミティブから構築されます。最適化には、2倍による特殊ケース乗算や剰余計算で最高位ビット（2のべき乗）を除去する手法が含まれています。このライブラリはGame BoyエミュレータのALUに組み込むことを想定しています。CasNumを統合するには、PyBoy の `opcodes_gen.py` を編集するだけで、他のエミュレータコードは変更されません。使用例としては、単純なRSA実装（`python3 -m examples.rsa`）や、幾何学ベースの算術のみで動作させるポケットモンスター赤版（`python3 -m examples.basic`）があります。初回起動に約15分かかりますが、その後はPython の `lru_cache` によりほぼ 0.5–1 FPS で再起動できます。ビュアースクリプト (`casnum/cas/viewer.py`) は幾何学的構成を可視化し自動ズームします。RSA例では手動ズームが必要になる場合があります。依存関係は、sympy（コア）、可視化用のオプション pyglet、テスト用 pytest‑lazy‑fixtures、RSA 用 pycryptodome、および任意で Euclid Postulate V です。インストールは `git clone --recursive` の後に `pip install -r requirements.txt` を実行します。使用している ROM（`2048.gb`）は zlib ライセンス、CasNum コアコードは MIT ライセンス、PyBoy は LGPL v3.0 でライセンスされており、このプロジェクトはオープンソースや教育プロジェクトに適しています。

2026/03/08 6:56

3T ブラインドスポット：米国の非営利団体

## Japanese Translation: **概要** 米国の非営利セクターは年間 **3兆ドル** を管理しており、これはイギリスのGDPを上回る金額ですが、そのうち実際にプログラム費用に充てられるのは **約36％（1,800億ドル）** に過ぎません。残りはオーバーヘッド、スタッフ給与、資金調達に使われています。登録済み非営利団体は **180万人以上** であり、その多くは収益が5万ドル未満の場合 IRS Form 990 の提出義務から免除されているため、セクター全体の大部分が公衆の監視から隠れています。寄付者の信頼感は低下しています。**米国の寄付者の32％が5年以上前よりも慈善団体に不信感を抱いています**（BBB Wise Giving Alliance）、世界的にも三分の一が非営利団体への信頼を失っています（Gallup）。財務的負担は顕著で、**調査対象の非営利団体の36％が2024年末に営業赤字を報告し、10年間で最高水準となりました**。また **41％しか全職員に生活賃金を支払えません**。資金提供者は通常オーバーヘッドを約15 % に抑えるよう指示しますが、多くの非営利団体は管理費に **31 % 近くを使っており、過小報告やコーナーカットが頻発する** ― これは「非営利組織の飢餓サイクル」と呼ばれる現象です。企業会計との大きな違いは顕著です。IRS Form 990 は年間一度提出され、公開までに **12–18か月** を要し、監査済み財務諸表や詳細なプログラム内訳が欠如しています。一方で公的企業は **10-K（年次）、10-Q（四半期）、8-K（重要事象）** を提出し、60日以内に監査済みの声明を求められます。このコンプライアンス中心の枠組みが可視性の問題を生み出し、寄付者の信頼を侵食しています。国際的には、英国で実施された研究で **ウガンダの井戸の45％が非営利団体によって資金提供されましたが、機能していませんでした**。これにより 2億1,500万〜3億6,000万ドル相当のリソースが無駄になっています—非効率性の重大さを示しています。既存技術（カメラ・センサー・衛星画像）はリアルタイムで成果を追跡できる可能性がありますが、現在の報告規則ではそのような機能は義務付けられていません。非営利セクターの将来は、コンプライアンス重視から真の透明性と説明責任への転換にかかっています。この変革なしには、非営利団体は営業赤字と寄付者の懐疑心を続けるでしょう。変革が実現すれば、信頼を回復し持続可能な資金調達を確保できる可能性があります。

2026/03/06 16:17

既存のブリックからLEGO NXTファームウェアをダンプする（2025）

## Japanese Translation: > 著者はPybricksプロジェクトで作業している際、オリジナルのファームウェアバージョン 1.01を動作させていた中古Lego NXTを入手し、このファームウェアの保存コピーが存在しないこと（利用可能なのは新しい 1.03のみ）に気づきました。 > > NXTのAT91SAM7S256 MCU上では、SAM‑BA PEEK/POKE を呼び出すことはできますが、それを行うとファームウェアを書き換えてしまい、古いMCUにはモダンなデバッグインターフェースが欠けているためJTAGも実用的ではありません。ロボットのプログラムは制限付きメモリ内で動作するバイトコードVMで走るので、著者は低レベル機能に焦点を当てました。 > > PyUSB を介して USB 「Read IO Map」コマンドを送信し、`0x100d3d`（フラッシュの約 3 KiB）に位置するVMの書き込み可能な関数ポインタ `pRCHandler` を読み取りました。32 KiB の書き込み可能 MemoryPool は NOP とカスタム ARM コードで埋めることができ、`pRCHandler` をこのプール内のアドレスにリダイレクトすることで任意の直接コマンドをそのコードとして実行させることができます。 > > 著者は、受信パケットから4バイトのアドレスを読み取り、そのアドレス上のワードを返す組み込みアセンブリを挿入し、元のハンドラを置き換えました。この乗っ取られたハンドラを利用して、USB経由で「direct」コマンドをバイト単位で送信し、フラッシュ領域全体（`0x00100000–0x00200000`）を読み取り、完全なファームウェアとユーザーデータを `nxtpwn-dump.bin` にダンプしました。 > > この脆弱性は、ストックファームウェアを実行している任意のNXTで機能し、未改変デバイス上でもベアメタルコードが動作できることを示しています。これにより、保存ツールや自己複製型マルウェアなどの可能性が開かれ、NXTファームウェアの整合性チェックにおける脆弱性も浮き彫りになっています。