まとめ:

主な成果は、Reflex AI アプリビルダーのコード生成において、Rust に遅延していた Python 部品を書き換えることで達成された約 220 倍の劇的な処理速度向上です。元のパフォーマンスのボトルネックは、非効率的な純粋な Python ループで生成されたコードを走査する

ast.walk

reflex compile

ast

Python AST の高速化：リナータ開発と 220 倍のスピードアップへ挑戦する道筋

はじめに：AI コード生成における課題とリナータの必要性

AI 向けのリフレックス（Reflex）アプリビルダは大量の Python コードを生成しますが、単純なエラーにより実行に失敗することがあります。

典型的なエラー例
- キーワード引数の後に位置引数を指定する
- 非同期ジェネレータ内で値を返却してしまう
- フレームワークの旧バージョンからの古風な構文を使用する
現状の問題点
- 「reflex compile」を実行するとバグが見つかるが、一度に 1 つしか特定できない。
- AI が複数のミスを犯した場合、修正できるはずの比較的簡単な問題でも、レイテンシを劇的に増大させてしまう。
解決策：独自リナータの開発
- 静的解析ツールの導入が最適解と判断。
- 既存ツールでは不十分だったため、「reflex 固有」のルールを実装できる独自のリナータを開発。

初期版のリナータはシンプルに見えたものの、生成される膨大なコード量によるパフォーマンス問題に直面した。

ボトルネックの所在
- コード走査において最も遅い部分は
```
isinstance
```
  チェックではなく、ast.walk
  だった。
- ```
ast.walk
```
  を直接加速することなく、いくつかの最適化を試みたが限界を感じた。
実測データ
- ```
difflib
```
  モジュールを同様のロジックで動作させた場合：7,000 ノードで約 2 ミリ秒。
- 計算上：ノードあたり約285 ナノ秒（数千 CPU クロック分）。
- この単純な探索に必要とされる時間は著しく多すぎる。

ast.walk

が内部で

yield

を使用しているため、リスト全体を消費するホットパスでループが頻繁に停止・再開（オーバーヘッド）していたことを発見した。

試行 1：リストへの変更
- メモリ節約のためにリストを格納し継続的に追加する方式へ変更。
- 結果：約 5% のみ改善（期待したほどではない）。
試行 2：インライン化
- ジェネレータ部分をインライン化して呼び出し元で処理。
- 結果：約 25% の改善。
- 残りの 75% の遅延の原因を探る過程で、再びジェネレータ（
```
iter_fields
```
  ）や例外処理に依存する
```
getattr
```
  がボトルネックであることが判明。

Python 言語の限界に達したため、ネイティブなマシンコード記述可能な「バインディング」アプローチへ移行する。

技術選定：Rust の採用
- C も可能だったが、慣れの問題からRustを選択。
- PyO3 を用い、重い型チェックを省く（
```
cast_unchecked
```
  を使用）。
改善の積み重ね
- ```
getattr_opt
```
  で
```
getattr(..., ..., None)
```
  のラップを実装。
- 累積的な改善は約 78% に到達。

多くの

getattr

が辞書読み出しにコンパイルされているため、辞書そのものを直接走査する戦略へ変更。

__dict__
への直接アクセス
- メモリのオフセットから直接値を読み込み。
- 約 93% の改善達成（全体としては約14 倍の高速化）。
サブクラスチェックの最適化
- AST.AST を継承するクラスはわずか132 つ。
- ```
isinstance
```
  呼び出しを避け、クラスのメモリアドレスをセットに格納してメンバシップをチェック。
- 注：小さい密度の高い整数用
  fastset
  はパニックを起こすため、普通のハッシュセットを使用。

残った CPython の呼び出し（

PyDict_Next

）を完全に排除し、理論上の限界に迫る最適化を行う。

事前計算によるマップ作成
- 各サブクラスについて「AST サブクラスかどうか」＋「
```
_fields
```
  の要素数」をキャッシュ。
- タイプポインタをキーとした小さな直接マッピング表を使用（サイズ約2KB、L1 キャッシュに収まる）。
アクセスパターンの利用
- AST サブクラスの
```
__dict__
```
  は予測可能：
```
_fields
```
  →
```
_attributes
```
  。
- 必要なのは
```
len(_fields)
```
  分のエントリのみ（事前計算済み）。
- ```
lineno/col_offset
```
  チェックや、lint ルールによる
```
.parent
```
  参照をスキップできる。

すべての最適化を組み合わせた結果、約 99.5% の遅延が除去され、理論的な限界に到達した。

最終改善率
- 約 220 倍の高速化。
- 反復処理から再帰処理への変更など、微々たる改善では収まらなかった。
現在の実装状態
- GitHub リポジトリ：reflex-dev/fast-walk で公開中。
- バッチ化されたプリフェッチを追加し、さらにわずかに性能を向上させている。