Japanese Translation:

ライブラリは、テストスイートに対して複数の型チェッカーを実行し、ソースコードに対して少なくとも 1 つの型チェッカーで検証を行うことで、安定した公開 API を確保すべきです。ユーザーはライブラリの公開 API における一貫した振る舞いに関心を持っていますが、内部の実装形式やフレームワークの選択にはあまり関心を示しません。しかし、ソースコード検証のみに基づいてしまうと、重要なユーザー視点からの使用パターンが未検証のままになるリスクがあります。2020 年にリリースされた現代的な DataFrame ライブラリである Polars の事例からは、この戦略の効果が確認できます。Polars は、まずテストスイート全体に対して Pyrefly を実行し、その後徐々に内部コードにも適用していくというアプローチを採用しています。Pyrefly は mypy より厳格なチェックを行うことができるものの、以前は書き換えや無視コメント（例：

DataType.__eq__

Python 型チェックツールの多様化とライブラリメンテナの向き合い方

TL;DR（まとめ）

テストスイートに対して可能な限り多くの型チェックツールを実行し、優先度を高く設定する。
ソースコード自体には少なくとも一つの実行ツールを適用することを推奨する。

最も重要な型チェック（視点の転換について）

この記事を最も重視すべきポイントは、多くのパッケージで誤って逆転しがちな**「型チェックツールの検証優先順位」**です。

現状の一般的アプローチ:
- ソースコード側のみを厳しくチェックし、テストコードは型アノテーションを省略する。
本来の正しい優先順位:
- 公開 API と対話する利用者（外部）が使用する環境を最優先にするべきです。

なぜこの視点が必要なのか？

ライブラリのメンテナとして重要なことは、内部の開発プラクティス（フォーマッターの選択やテストフレームワークなど）よりも、利用者が直面する体験品質を守ることです。

内部ソースコードの検証：主に内部ロジックの確認となり、どのツールを選んでも構いません。
公開 API の検証：利用者は独自のツール環境を使用するため、メンテナが提供するテストスイートが複数のツールで正常に動作していることが保証されなければなりません。

結論として： テストスイートに対して複数の型チェックツールを走査させることで、パッケージの公開 API が多様な利用者環境でも健全に動作することを担保できます。

Polars の事例から学ぶ教訓

データサイエンス界隈で注目を集めるライブラリ「Polars」における導入事例は、現状の課題を浮き彫りにしています。

ポイント

Polars は 2020 年リリース以降、高品質な自動補完やドキュメントを提供するために、正確な型定義が不可欠です。
CI/CD に厳格なツール（例：Pyrefly）を導入する際の実装難易度とメンテナンス負荷を実感させるケースです。

実装の壁：過度な

type-ignore

の増殖

異なる型チェックツールをすべて満たすためには、以下のようなコードが要求されます。

@overload  # type: ignore[override]
def __eq__(  # pyrefly: ignore[bad-override]
    self, other: pl.DataTypeExpr
) -> pl.Expr: ...

@overload
def __eq__(self, other: PolarsDataType) -> bool: ...

def __eq__(self, other: pl.DataTypeExpr | PolarsDataType) -> pl.Expr | bool:
    # ty: ignore[invalid-method-override]
    # pyright: ignore[reportIncompatibleMethodOverride]

7 ラインのコードに対し、4 つもの
type-ignore
コメントが必要になります。
コードベースは、異なるツールの振る舞いへの対処策によって急速に「汚染」されていきます。

真の検証基準：テストスイートの成功

公開 API が想定通りに動作するかを確認するには、内部実装の型定義をすべて網羅する必要はありません。テストケースがパスするかで十分です。

DTYPE_TEMPORAL_UNITS: Final[frozenset[TimeUnit]] = frozenset(["ns", "us", "ms"])

def test_dtype_time_units() -> None:
    # 単位を持つ時間型に対する等価性・不等価性の振る舞いを確認する
    for time_unit in DTYPE_TEMPORAL_UNITS:
        assert pl.Datetime == pl.Datetime(time_unit)
        assert pl.Duration == pl.Duration(time_unit)
        assert pl.Datetime(time_unit) == pl.Datetime
        assert pl.Duration(time_unit) == pl.Duration

mypy、Pyrefly、Pyright、ty、Zubanの全 5 ツールがエラーなしにこのテストを通過します。
ツールの実装手法は異なるため判断基準は異なりますが、公開 API に対する効果は完全に一致しています。

Polars での取り組み

Polars 全体のテストスイート：Pyrefly を比較的手軽に導入できました。
内部開発コードの適用：より大規模な変更を伴うため、段階的なアプローチが取られています。

ソースコードはどうするか？そもそもなぜ複数のツールが必要なのか？

型ヒント（Type Hints）の仕様は標準化されていますが、曖昧な点のためにツール間で設計判断が分かれることがあります。

ツールのスタンス

厳格派: 誤検知（偽陽性）が出ても問題とせず、潜在的なバグから利用者を守る。
寛容派: コードベースへの型情報の追加を段階的に進めやすくする。

推奨アプローチ

ソースコードの型チェックにおいては、「厳格側か寛容側か」の選択よりも、**「複数ツールによる完全な互換性を保証しない」**方が現実的です。

Pyrefly の特徴: 単に厳格であるだけでなく、設定による柔軟性を持ち、高速かつ標準準拠です。
フィードバック: プロジェクトで問題が発生した場合は必ず報告してください。修正版を通じて他の利用者也恩恵を受けられます。

結論：現在の状況と推奨アクション

現在 Python 界隈で注目されている主要な型チェックツールは以下の 5 つです。

mypy
Pyrefly
Pyright
ty
Zuban

メンテナが抱える課題

「5 つのツールすべてをソースコードに適用するのは維持コストが高すぎる」。
「過剰な
```
type-ignore
```
コメントでコードが汚染されてしまう」。

これらの懸念は実感的ですが、私たちはむしろ**「テストスイートに対して複数の型チェックツールを実行する」**アプローチを強く推奨します。

推奨される戦略

利用者の視点: ライブラリは利用者が対話するものです。ライブラリがどれだけ良好に型チェックされているかを、利用者の環境（多様なツールの組み合わせ）で検証することが本質的な品質保証です。
アクションプラン:
- ソースコード：少なくとも1 つのツールを適用して基本の健全性を保つ。
- テストスイート：可能な限り多くのツールを実行し、公開 API の互換性を最大化する。

今では 5 つの Python チェッカーを実行することを期待されますか？