**ハイプラ ― Apple Silicon向けのストレージ階層認識型LLM推論スケジューラー**

2026/03/25 1:02

**ハイプラ ― Apple Silicon向けのストレージ階層認識型LLM推論スケジューラー**

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Hypura は、Apple Silicon向けのストレージ層を意識したLLM推論スケジューラであり、アクセスパターン、帯域幅コスト、およびハードウェア制限に応じてGPU、RAM、NVMe間でモデルテンソルを分割します。

  • 正規化項、埋め込み、およびその他の小さな層 は高速GPUメモリに残し、密集型フィードフォワードネットワーク(約60%)はNVMeからダイナミックプールバッファを通じてストリームされ、自動プリフェッチ深度スケーリングが適用されます。 MoEエキスパート はオンデマンドでロードされ、エキスパートI/Oを約75%削減し、99.5%のキャッシュヒット率を実現します。
  • Hypura は 最適な推論モード を自動検出します:フルレジデント(モデルがGPU+RAMに収まる場合)、MoEモデル(Mixtralなど)のためのエキスパートストリーミング、またはLlama 70B のような密集型モデル用の Dense‑FFN ストリーミング。
  • M1 Max(32 GB統合メモリ)でベンチマークした結果、31 GB Mixtral 8×7B は約2.2トークン/秒、40 GB Llama 70B は約0.3トークン/秒を記録し、naive llama.cpp 実行時に発生するアウト・オブ・メモリクラッシュを回避します。Qwen 2.5 14B はフルレジデントで約21トークン/秒を達成します。
  • インストールには Rust 1.75+ と CMake が必要です(
    cargo build --release
    )。Homebrew タップは近日公開予定です。
  • Hypura は Ollama 互換の HTTP API(例:
    /api/generate
    /api/chat
    )をローカルサーバー(
    hypura serve ./model.gguf
    )経由で提供し、OpenClaw のようなツールへのドロップイン置き換えを可能にします。
    この設計により、開発者は Apple デバイス上で最大 70 GB モデルをローカルにデプロイでき、クラウド推論への依存を減らし、コンシューマー ハードウェアで強力な AI ワークロードを実現できます。

本文

Hypura – Apple Silicon 用のストレージ階層を考慮した LLM 推論スケジューラ


なぜ重要なのか

MacBook Pro や Mac Studio などのコンシューマ向け Mac は、統合メモリと NVMe ストレージが高速である一方、その容量は限定的です。
32 GB の M1 Max では 40 GB のモデルをロードすると OS がスワップ・スラッシングに陥りクラッシュします。
Hypura は、GPU、RAM、NVMe の各階層にテンソルをアクセスパターン・帯域幅コスト・ハードウェア性能に応じて配置することで、物理メモリを超えるモデルでも実行できるようにします。

モデル実行環境速度
31 GB Mixtral 8×7B (32 GB Mac Mini)2.2 tok/s
40 GB Llama 70B0.3 tok/s
Vanilla
llama.cpp
両方でクラッシュ

動作原理

  1. ハードウェアプロファイリング – GPU のワーキングセット、RAM、NVMe 帯域幅を測定。

  2. 配置最適化 – 各テンソルを次の階層に割り当てます。

    • GPU (Metal) – アテンション層、ノーマライゼーション、埋め込み。
    • RAM – GPU のワーキングセットに収まらないオーバーフロー層(
      mmap
      )。
    • NVMe – 残りのレイヤをオンデマンドでストリーミングし、
      pread
      ,
      F_NOCACHE
      で直接 I/O を行い、プレフェッチも実装。
  3. 推論モード

モード使用時GPU に残るものNVMe からストリームするもの
Full‑residentモデルが GPU + RAM に収まる場合すべてのテンソルなし
Expert‑streaming (Mixtral)MoE モデル非専門層(約1 GB)専門層(約30 GB)をプールバッファとニューロンキャッシュでストリーム(99.5 % ハイレート)
Dense‑FFN‑streaming (Llama 70B)大規模密結合モデルアテンション + ノーマル(約8 GB)FFN テンソル(約32 GB)を動的プールとスケーリングプレフェッチでストリーム

プールサイズ、プレフェッチ深度、メモリ予算はハードウェアプロファイルから自動計算されるため、手動チューニング不要です。


パフォーマンス

すべてのベンチマークは M1 Max(32 GB 統合メモリ、約5.1 GB/s の NVMe シーケンシャル読み込み)で実施しました。

モデルサイズGPUNVMeモードHypura
llama.cpp
Qwen 2.5 14B (Q4_K_M)8.4 GB8.4 GBfull‑resident21 tok/s~21 tok/s
Mixtral 8×7B (Q5_K_M)30.9 GB1.1 GB29.8 GBexpert‑streaming2.2 tok/sOOM
Llama 3.3 70B (Q4_K_M)39.6 GB7.8 GB31.8 GBdense‑FFN‑streaming0.3 tok/sOLM

重要ポイント

  • メモリに収まるモデルは Metal のフルスピードでオーバーヘッドゼロ。
  • サイズオーバーのモデルでは、Hypura が「実行できるかクラッシュするか」の差を生む。

インストール

git clone --recurse-submodules https://github.com/hypura/hypura.git
cd hypura
cargo build --release   # Rust 1.75+ と CMake 必須
# バイナリ: target/release/hypura

Homebrew tap は近日公開予定です。


クイックスタート

# ハードウェアをプロファイル(初回のみキャッシュ)
hypura profile

# GGUF モデルで推論実行
hypura run ./model.gguf --prompt "Hello, world"

# インタラクティブチャット
hypura run ./model.gguf --interactive

# ベンチマーク: Hypura スケジューリング vs ナイーブベースライン
hypura bench ./model.gguf

# モデル配置計画をロードせずに確認
hypura inspect ./model.gguf

未テストモデルは

--max-tokens 10
で始めてからスケールアップしてください。


Ollama‑互換サーバー

Hypura は Ollama と同等の HTTP API を公開し、Ollama を利用するツール(例: OpenClaw)への置き換えが可能です。

hypura serve ./model.gguf
# Hypura が Mixtral 8×7B Instruct v0.1 をサーブ中
#   エンドポイント: http://127.0.0.1:8080

エンドポイント

パス説明
GET /
ヘルスチェック
GET /api/tags
ロード済みモデル一覧
GET /api/version
サーバー版
POST /api/show
モデルメタデータ
POST /api/generate
テキスト生成(NDJSON ストリーミングまたは単一レスポンス)
POST /api/chat
チャット生成(NDJSON ストリーミングまたは単一レスポンス)

OpenClaw での利用

{
  "models": {
    "providers": {
      "ollama": {
        "baseUrl": "http://127.0.0.1:8080",
        "api": "ollama"
      }
    }
  }
}

または CLI から設定:

openclaw config set models.providers.ollama.baseUrl "http://127.0.0.1:8080"

Hypura はネイティブに Ollama プロトコル(

/api/chat
と NDJSON ストリーミング)を実装しているため、互換性のためのシムは不要です。

サーバーオプション

hypura serve <MODEL> [OPTIONS]

Options:
  --host <HOST>        バインドするホスト   [default: 127.0.0.1]
  --port <PORT>        バインドするポート   [default: 8080]
  --context <N>       最大コンテキスト長    [default: 4096]

アーキテクチャ

Hypura は Cargo ワークスペースで、2 つのクレートから構成されます。

クレート用途
hypura
メインバイナリとライブラリ。CLI (
src/main.rs
) とロジック (
src/lib.rs
)。
hypura-sys
llama.cpp
への FFI バインディング(
vendor/llama.cpp/
にベンダリング、CMake ビルド)。

主要モジュール:

モジュール用途
scheduler/placement.rs
GPU/RAM/NVMe 間での LP + グリーディテンソル配置。
compute/inference.rs
推論エンジン:ブロッキング生成、NVMe スケジューリング、サーバー向けロード。
compute/nvme_backend.rs
カスタム GGML バッファ型、プールベースの専門/FFN ストリーミング、ニューロンキャッシュ、評価コールバック。
server/routes.rs
Axum HTTP ハンドラ(Ollama 互換 API)。
profiler/
CPU・GPU・メモリ帯域幅・NVMe 循環スループットのハードウェア検出。
cli/bench.rs
A/B ベンチマークハーネス。
model/tensor_role.rs
テンソル分類(ノーマル、アテンション、MoE 専門層)による配置スコアリング。

FAQ

SSD を破壊しますか?
いいえ。Hypura は推論時に SSD からのみ読み取りを行い、書き込みは発生しません。NAND フラッシュセルへの負荷は極めて小さく、ベンチマーク結果の JSON ファイルやオプションで生成される統計情報以外にはほとんど書き込みがありません。

安全性に関する注意点

bench --baseline
はモデルが RAM から 4 GB のヘッドルームを差し引いた容量を超える場合はブロックされます。
--force
を使用する際は自己責任で行ってください。未テストのモデルには必ず
--max-tokens 10
で開始してください。


ライセンス

MIT


倫理的注意:
本リポジトリ内のコードは私自身が書いたものではありません。このプロジェクトは、私の指示に従って LLM を活用してタスクを実行する試みであり、多くは Socratic メソッドによるプロンプト作成と NVMe ベース推論への真摯な好奇心から派生しています。

同じ日のほかのニュース

一覧に戻る →

2026/03/25 0:29

Appleビジネス

## Japanese Translation: > **Apple Business ― デバイス管理と広告を統合したプラットフォーム** Apple は 4 月 14 日に、200 以上の地域で *Apple Business* を開始し、Apple Business Essentials、Apple Business Manager、および Apple Business Connect を置き換えます。新しいオールインワンソリューションは、組み込み型モバイルデバイス管理(MDM)と「Blueprints」を統合し、ゼロタッチ展開、自動化された Managed Apple Account の作成、従業員グループ/役割管理、アプリ配布、および Admin API を提供します。さらに、ビジネスメール、カレンダー、ディレクトリサービス、カスタムドメインサポート、iOS 26+、iPadOS 26+、macOS 26+ 向けの Apple Business アプリも付属しています。 既存顧客のデータは自動的に移行されます。 Apple Business は米国とカナダで Apple Maps 上の広告を追加(今夏開始)し、検索結果の上部および Suggested Places に表示される広告は明確にラベル付けされて透明性を保ちます。このプラットフォームには、Apple Business Connect のブランドプロファイルとロケーション機能が組み込まれており、リッチプレイスカード、ショーケース/カスタムアクション、ロケーションインサイト、ブランデッドコミュニケーション、および Tap to Pay ブランド化が含まれます。 コアサービスは全世界の新規ユーザーと既存ユーザーに対して無料で提供されます。有料オプションとして、最大 2 TB の iCloud ストレージ($0.99/ユーザー/月)と AppleCare+ for Business(デバイスあたり $6.99 またはユーザーあたり $13.99/月)が利用可能です。ゼロタッチ展開は、Apple または認定販売業者から購入したデバイスで利用でき、プライバシーモデルではユーザーの位置情報と広告インタラクションデータを Apple アカウントから分離し、オンデバイスに保存され、第三者と共有されません。

2026/03/25 6:24

害虫駆除向けの垂直型 SaaS を構築したいと思ったので、技術者として働くことにしました。

## Japanese Translation: (主要ポイントをすべて組み込む)** 著者は30 億ドルのTAMと強固な継続収益性が見えたため、害虫駆除業界へ転職しました。彼は業界最大手グループの子会社に採用され、即座にローカルブランド全体で**数十億ドル規模の売上を担当**しました。13日という記録的な期間で集中的な学習・セミナー・試験・監督付きトラック時間を経てライセンスを取得しました。 現場業務では、典型的な物流上の課題に直面しました:バッテリーがフラット、燃料カードが5週間以上遅れ、経費精算が遅い。会社のコアシステムは高度にカスタマイズされたSalesforce環境であり、オンボーディングには10個以上のモバイルアプリが必要でした。彼はトラックアイドリング、GPS、訪問時間、電話活動を通じて技術者のパフォーマンスを監視しました。最初は厳格な監視に抵抗したものの、結局は従事しました。 現場での成功により、彼は上級技術者を追跡し正式なトレーニングなしに小規模アップセルを実行したことから「潜入ボス」というニックネームを得ました。その後セールスへ転身し、アウトバウンドワークフローを構築して21日で24 k ARR契約(さらに小規模なアップセル)を確保しました。しかし、内部見積もりプロセスが複数署名と新規アカウント作成を必要とするため手間がかかり、取引損失のリスクがあることに気付きました。 セールスチームは10年以上の経験を持つベテラン担当者で構成されており、それぞれ800k–1.2M ARRを生成し低いチャーン率を維持しています。彼らの文化は変化に抵抗が強く、エグジットインタビュー後、マネージャーから自分自身の会社を立ち上げるよう提案されました。 今後、著者はローカルニッチオペレーターを取得し、専用ツールを開発し、見積もり・オンボーディング・監視を統合したスケーラブルなプラットフォームを構築する計画です。このモデルにより現場技術者とセールス担当者の効率が向上し、チャーンが減少し、収益獲得が加速し、害虫駆除業界で競争力のダイナミクスが変わる可能性があります。

2026/03/24 21:06

HNに知らせてください:PyPI 上の Litellm 1.82.7 と 1.82.8 が改ざんされていること。

## 日本語訳: > PyPI の wheel **`litellm==1.82.8`** には、悪意のある `.pth` ファイル(`litellm_init.pth`、34 628 バイト)が含まれており、このファイルは `litellm` をインポートしなくても、Python インタープリターが起動するたびに自動的に実行されます。 > 隠されたスクリプトは二重 Base64 エンコードされたペイロードを実行し、ホストから認証情報(SSH キー、クラウドプロバイダーのクレデンシャル、Git の設定、Docker 設定、データベースパスワード、暗号ウォレットの秘密鍵など)を収集します。取得したデータは一時ファイルに書き込まれ、その後ランダムな AES‑256 キーで暗号化されます。AES キー自体はハードコードされた 4096 ビット公開鍵(キーは `MIICIjANBgkqhkiG9w0BAQEFAAOCAg8A...` から始まります)を使って RSA 暗号化されています。 > 暗号化されたアーカイブ(`tpcp.tar.gz`)は **`https://models.litellm.cloud/`** に POST されます。 > この脆弱性は **2026‑03‑24** に、Ubuntu 24.04 の Docker コンテナで Python 3.13 を実行している環境で発見され、影響を受けたのはバージョン 1.82.8 だけが確認されています(他のリリースも脆弱になっている可能性があります)。 > PyPI 管理者はこの wheel を直ちに削除または取り下げるべきです。`litellm==1.82.8` をインストールしたユーザーは、`site‑packages/` 内の怪しい `.pth` ファイルを確認し、漏洩した認証情報をローテーションし、CI/CD パイプラインが侵害されていないか監査してください。この脆弱なバージョンを使用していたシステム(ローカル開発マシン、Docker コンテナ、本番サーバー、自動ビルドシステムなど)は、多数の組織にわたる幅広い秘密情報が漏洩した可能性があります。