
2026/03/11 2:14
**Launch HN:RunAnywhere(YC W26)― Apple Silicon上で高速なAI推論を実現**
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
## Summary RCLIはmacOS向けの完全にオンデバイスで動作する音声AIアシスタントです。Apple Silicon上で、スピーチ→テキスト(Whisper)、大規模言語モデル推論(LFM2、Qwen3、Parakeetなど)、テキスト→音声(Piper、Kokoro)のパイプラインをローカルに実行します。データはクラウドへ送信されず、エンドツーエンドのレイテンシが200 ms未満です。 本システムはRunAnywhere独自のMetalRT GPU推論エンジンで動作し、M3/M4チップ向けに最適化されています。古いM1/M2 Macではllama.cppにフォールバックします。ベンチマークでは、Snowflake埋め込みを使用したユーザドキュメント(PDF、DOCX、プレーンテキスト)でのRAG時に約550トークン/秒と約4 msのハイブリッド検索レイテンシが確認されています。 インストールにはApple Silicon上のmacOS 13+が必要です。ワンライナーcurlスクリプトまたは`brew install rcli`で実行し、続いて`rcli setup`で約1 GBのモデルバンドル(LFM2 1.2B、Whisper、Piper、Silero VAD、Snowflake埋め込み)をダウンロードします。RCLIはターミナルUIを提供し、以下の操作が可能です。 - プッシュ・トゥ・トーク(`SPACE`) - モデル閲覧(`M`) - アクション管理(`A`) - RAG取り込み(`R`) - 会話クリア(`X`) 約38個のmacOSアクション(例:Spotify制御、音量調整、Safari起動)をローカルAppleScriptとシェルコマンドで公開しています。 ユーザーは`rcli models`および`rcli rag ingest`で新しいモデルやドキュメントタイプを追加できます。コマンドライン使用例: - `rcli listen` – 継続的音声モード - `rcli ask "<text>"` – 一度限りのクエリ - `rcli rag ingest <dir>` / `rcli rag query <text>` – RAG操作 - エンジン切替(`rcli metalrt`、`rcli llamacpp`) トラブルシューティングではHomebrewインストール/アップグレードの問題(タップをリフレッシュまたはキャッシュをクリアしてSHA256不一致を解決)について記載しています。RCLIはMITライセンスでオープンソースです。MetalRTはプロプライエタリであり、ライセンシングに関するお問い合わせはfounder@runanywhere.aiまでお願いします。
本文
RCLI – macOS向けオンデバイス音声AI
RCLI は、Apple Silicon上でネイティブに動作する完結型の音声認識(STT)、大規模言語モデル(LLM)およびテキスト読み上げ(TTS)のパイプラインです。
- 音声で実行できる macOS アクション 38 個
- ローカル RAG によるドキュメント検索
- エンドツーエンドの遅延が 200 ms 未満
- クラウドや API キーは不要
Apple Silicon 向けに RunAnywhere, Inc. が開発した独自 GPU 推論エンジン MetalRT により実現しています。
デモ
Apple Silicon 上でのリアルタイムスクリーン録画 – クラウドも編集もトリックは一切無し。
- Voice Conversation – 自然に話すと RCLI が聞き取り、理解し、デバイス上で応答します。
- App Control – Spotify の再生や音量調整などを音声で操作。
- Models – TUI から LLM を閲覧・ホットスワップ可能。
- Document Intelligence (RAG) – ドキュメントを取り込み、音声で質問(約 4 ms のハイブリッド検索)。
インストール
前提条件:Apple Silicon 上の macOS 13+;MetalRT は M3 以降が必要。
M1/M2 Mac は自動的に llama.cpp にフォールバックします。
ワンライナー
curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash
Homebrew
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git brew install rcli rcli setup # 初回のみ約 1 GB の AI モデルをダウンロード
最新バージョンへアップグレード:
brew update brew upgrade rcli
トラブルシューティング
SHA256 不一致や古いバージョンエラーが出た場合:
cd $(brew --repo RunanywhereAI/rcli) && git fetch origin && git reset --hard origin/main brew reinstall rcli
あるいはキャッシュをクリアして再タップ:
brew untap RunanywhereAI/rcli rm -rf "$(brew --cache)/downloads/"*rcli* brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git brew install rcli rcli setup
クイックスタート
| コマンド | 説明 |
|---|---|
| インタラクティブ TUI(Push‑to‑Talk + テキスト) |
| 継続的音声モード |
| ワンショットコマンド |
| MetalRT GPU エンジン管理 |
| llama.cpp エンジン管理 |
ベンチマーク
- MetalRT デコードスループット vs. llama.cpp と Apple MLX(M3 Max)
- STT & TTS リアルタイム係数 – 低いほど良い;MetalRT STT はリアルタイムの 714 倍高速。
詳細は以下で確認ください。
- https://www.runanywhere.ai/blog/metalrt-fastest-llm-decode-engine-apple-silicon
- https://www.runanywhere.ai/blog/metalrt-speech-fastest-stt-tts-apple-silicon
- https://www.runanywhere.ai/blog/fastvoice-on-device-voice-ai-pipeline-apple-silicon
主な機能
音声パイプライン
Metal GPU 上で 3 本のスレッドが同時に動作:
- VAD – Silero Voice Activity Detection
- STT – Zipformer ストリーミング + Whisper / Parakeet オフライン
- LLM – Qwen3 / LFM2 / Qwen3.5(KV キャッシュ+Flash Attention)
- TTS – 句レベルでダブルバッファリング(次の文をレンダリング中に現在が再生)
ツールコール、多輪対応メモリ(トークン予算に応じたスライディングウィンドウ)も備えています。
macOS アクション 38 個
音声またはテキストで Mac を操作。LLM が意図を解釈し、AppleScript とシェルコマンドでローカル実行します。
| カテゴリ | 例 |
|---|---|
| Productivity | , , |
| Communication | , |
| Media | , , |
| System | , , , , |
| Web | , , , |
rcli actions で全 38 を確認、または TUI の Actions パネルでトグル。ツールコールが不安定に感じる場合は、TUI 内の X キーで会話をクリアしコンテキストをリセットしてください。
RAG(ローカルドキュメント Q&A)
ハイブリッドベクトル + BM25 検索(約 4 ms の遅延、5 k+ チャンク)。PDF・DOCX・プレーンテキストに対応。
rcli rag ingest ~/Documents/notes rcli ask --rag ~/Library/RCLI/index "summarize the project plan"
インタラクティブ TUI
端末ダッシュボード:
- Push‑to‑Talk
- ハードウェアモニタリング(ライブ)
- モデル管理
- アクションブラウザ
キー割り当て
| キー | 動作 |
|---|---|
| SPACE | Push‑to‑Talk |
| M | モデルの閲覧/ダウンロード |
| A | macOS アクションの有効化/無効化 |
| R | RAG 用ドキュメント取り込み |
| X | 会話クリア & コンテキストリセット |
| T | ツールコールトレース切替 |
| ESC | 停止 / 閉じる / 終了 |
MetalRT GPU エンジン
MetalRT は LLM、STT、TTS のオンデバイス推論で最速を誇り、最大 550 tok/s スループットとサブ 200 ms のエンドツーエンド遅延を実現します。
- 必須:Apple M3 以降(M3, M3 Pro, M3 Max, M4 …)
- 対応モデル:Qwen3 0.6B/4B、Llama 3.2 3B、LFM2.5 1.2B(LLM);Whisper Tiny/Small/Medium(STT);Kokoro 82M with 28 voices(TTS)
MetalRT は
rcli setup 実行時にインストールされます(“MetalRT”または “Both” を選択)。別途コマンドで管理可能。
rcli metalrt install rcli metalrt status
ライセンス関連の問い合わせは founder@runanywhere.ai まで。
サポートしているモデル
| タイプ | デフォルト / オプション |
|---|---|
| LLM | LFM2 1.2B(デフォルト)、LFM2 350M、LFM2.5 1.2B、LFM2 2.6B、Qwen3 0.6B、Qwen3.5 0.8/2/4 B、Qwen3 4B |
| STT | Zipformer(ストリーミング)、Whisper base.en(オフライン - デフォルト)、Parakeet TDT 0.6B(約 1.9% WER) |
| TTS | Piper Lessac/Amy、KittenTTS Nano、Matcha LJSpeech、Kokoro English/Multi‑lang |
| VAD | Silero VAD |
| Embeddings | Snowflake |
デフォルトインストール(
rcli setup)は約 1 GB:LFM2 1.2B + Whisper + Piper + Silero VAD + Snowflake embeddings。
モデル管理
rcli models # インタラクティブ管理 rcli upgrade-llm # ガイド付き LLM アップグレード rcli voices # TTS 声の閲覧・切替 rcli cleanup # 未使用モデル削除
ソースからビルド(CPU 版)
git clone https://github.com/RunanywhereAI/RCLI.git && cd RCLI bash scripts/setup.sh bash scripts/download_models.sh mkdir -p build && cd build cmake .. -DCMAKE_BUILD_TYPE=Release cmake --build . -j$(sysctl -n hw.ncpu) ./rcli
すべての依存関係は vendored か CMake 経由で取得。CMake 3.15+ と Apple Clang(C++17)が必要です。
CLI リファレンス
| コマンド | 説明 |
|---|---|
| インタラクティブ TUI |
| 継続的音声モード |
| ワンショットテキストコマンド |
| アクション一覧または詳細表示 |
| RAG 用ドキュメントをインデックス化 |
| インデックスに対する問い合わせ |
| `rcli models [llm | stt |
| TTS 声の管理 |
| MetalRT GPU エンジン管理 |
| llama.cpp エンジン管理 |
| デフォルトモデルをダウンロード |
| エンジン・モデル情報表示 |
オプション
– モデルディレクトリ(デフォルト:--models <dir>
)~/Library/RCLI/models
– RAG インデックスをロード--rag <index>
– LLM の GPU レイヤー数(デフォルト 99 = 全て)--gpu-layers <n>
– LLM コンテキストサイズ(デフォルト 4096)--ctx-size <n>
– テキスト出力のみ(TTS を無効化)--no-speak
– デバッグログ--verbose, -v
コントリビューション
貢献は大歓迎です。CONTRIBUTING.md にビルド手順と新アクション・モデル・声の追加方法が記載されています。
ライセンス
- RCLI – MIT License(オープンソース)
- MetalRT – RunAnywhere, Inc. の独自ライセンスで配布
RunAnywhere, Inc. が開発。