**Show HN:ドローンを操縦できるのはLLMが一つだけ**

2026/01/26 20:00

**Show HN:ドローンを操縦できるのはLLMが一つだけ**

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

SnapBenchはRustベースのコントローラで、Zig/raylibで実装された手続き的に生成された3Dボクセルワールドを通じて仮想ドローンを操縦します。ドローンは8つの移動コマンドと「識別」「スクリーンショット」を受け取り、OpenRouter Vision‑Language Model(VLM)を用いて4種類の生物(猫、犬、豚、羊)のいずれかを探知します。ドローンが各ターゲットから5ユニット半径内に3匹の生物を識別できた場合、その走行は成功とみなされます。

7つのLLMがベンチマーク対象でした。Gemini Flashは常にドローンを飛ばし、手取り足取りせずに生物を識別しました。一方、Claude Opusは識別時に地表レベルまで降下しなかったため失敗しました。ほとんどの走行では50イテレーション上限前に1匹しか捕捉できませんでしたが、シード72で実施した単一走行では、生成された位置が近接していたため2匹を発見しました。最も安価なモデル―Gemini Flash―はClaude Opus 4.5やGemini 3 Proなどの高価格モデルよりも優れた性能を示し、空間推論能力がモデルサイズと線形に比例するわけではないことを示唆しています。

検出品質は色対比によって変動しました。ピンク豚やグレー羊などの高コントラスト生物は地形に溶け込む低コントラストものよりも見つけやすかったです。DJI Telloドローンで行った実際のテストでは失敗(ドローンが単純に上昇した)の結果、しかし新しいGemini FlashパイロットはBetaFPVまたはTelloを用いた実機ベンチマークに有望な兆候を示しています。

現在のベンチマークは非公式で、1つの汎用プロンプトと基本的なフィードバックループ(位置情報、スクリーンショット、直近コマンド)および50イテレーション制限から構成されています。将来的な改善点としては、モデル固有のプロンプト、より豊富な空間コンテキスト、50を超える拡張イテレーション、多エージェント競争、大規模テレーンへの適用などが計画されています。このセットアップにはZig ≥ 0.15.2、Rust stable(2024版)、Python ≥ 3.11、uv、およびOpenRouter APIキーが必要です。リポジトリは

kxzk/snapbench
です。

本文

SnapBench

============

**Pokémon Snap(1999)**に触発され、SnapBench は 3‑D 世界をドローンでパイロットし、生物を探して識別します。


アーキテクチャ


%%{init: {'theme': 'base', 'themeVariables': { 'background': '#ffffff', 'primaryColor': '#ffffff'}}}%%
flowchart LR
    subgraph Controller["**Controller** (Rust)"]
        C[Orchestration]
    end

    subgraph VLM["**VLM** (OpenRouter)"]
        V[Vision‑Language Model]
    end

    subgraph Simulation["**Simulation** (Zig/raylib)"]
        S[Game State]
    end

    C -->|"screenshot + prompt"| V
    C <-->|"cmds + state<br>**UDP:9999**"| S

    style Controller fill:#8B5A2B,stroke:#5C3A1A,color:#fff
    style VLM fill:#87CEEB,stroke:#5BA3C6,color:#1a1a1a
    style Simulation fill:#4A7C23,stroke:#2D5A10,color:#fff
    style C fill:#B8864A,stroke:#8B5A2B,color:#fff
    style V fill:#B5E0F7,stroke:#87CEEB,color:#1a1a1a
    style S fill:#6BA33A,stroke:#4A7C23,color:#fff
  • Controller(Rust)はドローンをオーケストレーションします。
  • VLM(OpenRouter)はスクリーンショットとプロンプトを受け取り、コマンド列を返します。
  • Simulation(Zig/raylib)はゲーム状態を保持し、UDP :9999 経由でコマンドを受信します。

概要


シミュレーションは地形を手続き的に生成し、猫・犬・豚・羊などの生物をスポーンさせます。
ドローンの物理挙動と衝突判定を扱い、8 つの移動コマンドに加えて identifyscreenshot を受け付けます。

Rust コントローラはシミュレーションからフレームを取得し、位置情報や状態データでプロンプトを拡張した後、VLM のレスポンスを実行可能なコマンド列に解析します。

目的: 3 つの生物を見つけて正しく識別すること。
識別はドローンがターゲットから 5 単位以内に入ったときに成功します。


デモ

demo_3x.mov

「全員捕まえてみせる」?


7 つのフロンティア LLM に単純なタスクを与えました:3‑D ボクセル世界でドローンを操縦し、3 体の生物を探す。
実行できたのは 1 つだけでした。

これは厳密なベンチマークでしょうか?
いいえ。
しかし同じプロンプト・シード・反復制限で公平に比較できます。

なぜ Claude は下を見られない?

核心は知能ではなく高度制御でした。生物は地面にいるため、識別には降下が必要です。

モデル行動
Gemini Flash高度を積極的に調整し、対象レベルまで降下して識別
GPT‑5.2‑chat水平に近づくものの下げない
Claude Opus160 回以上試みるも失敗。誤った角度で接近
その他ランダムに歩き回るか詰まる

二体発見の異常

Run 13(シード 72)だけがモデル全員で 2 体を見つけた実行です。
Gemini Flash は一度目を見て戻り、二度目を発見しました。

ほとんどの実行では Flash が一体を速く見つけるも、残りを探す時間が足りずに反復制限で終了します。世界は大きいので 50 反復は短いです。

大きさ=良さ

Claude Opus 4.5(最も高価)と Gemini 3 Pro を期待したのに、最低価格モデルが 10 倍以上高価なモデルを上回りました。
可能性として:

  • 空間推論はモデルサイズでスケールしない――少なくとも今はそう。
  • Flash は別途訓練されており、ロボティクスやエンボディドシナリオが多いかもしれない。
  • 小さなモデルは指示を文字通りに解釈する傾向があります:「下げろ」→降下。

色彩理論?

経験上、灰色の羊やピンクの豚などコントラストが高い生物は見つけやすく、茶っぽいものは地形と混ざりやすかった。将来のバージョンでは可視性を正規化するか、挑戦として残すか検討中です。

先行研究

DJI Tello 実機ドローンで LLM を操縦させる実験も行いました。
結果:直立上昇し天井に衝突、ダンスを続けて Haiku 4.5 が捕まえるまで。Tello は現在破損中。BetaFPV を注文済みで再度 Tello を試す予定です。


未整備点


  • シミュレーションは副プロジェクト的に完成度が低いベンチマークスイートではありません。
  • 全モデル共通のブランケットプロンプトを使用しているため、モデル別調整が有効です。
  • フィードバックループは基本的(位置・スクリーンショット・直近コマンド)で、より創造的入力により改善可能。
  • 反復制限 (50) は遅いが最終的には成功するモデルを抑える恐れがあります。

自分で挑戦


必要なもの

ツールバージョンインストール
Zig≥ 0.15.2https://ziglang.org/download
Ruststable (2024 edition)https://rust-lang.org/tools/install
Python≥ 3.11https://python.org
uv最新版https://docs.astral.sh/uv

また OpenRouter API キー が必要です。

設定

gh repo clone kxzk/snapbench
cd snapbench
export OPENROUTER_API_KEY="sk-or-..."

シミュレーションを手動で起動

# ターミナル 1: シミュレーション開始(オプションシード)
zig build run -Doptimize=ReleaseFast -- 42
# または
make sim
# ターミナル 2: ドローンコントローラ起動
cargo run --release --manifest-path llm_drone/Cargo.toml -- --model google/gemini-3-flash-preview
# または
make drone

ベンチマークスイートを実行

# bench/models.toml に定義された全モデルを走らせる
uv run bench/bench_runner.py
# または
make bench

結果は

data/run_<id>.csv
に保存されます。


今後の展望


  • モデル別プロンプト:各モデルの強みを活かすよう指示を調整。
  • リッチなフィードバック:距離計測値、コンパス、ミニマップなど追加情報を渡す。
  • マルチエージェント実行:各モデルにドローンを与えて競わせる。
  • 反復延長:遅いモデルが十分な時間で推論できるようにする。
  • 実機ベンチマーク:Gemini Flash と BetaFPV を対決させる。
  • ポケモン資産:低ポリゴン Pokémon モデル(Poly Pizza)を使用しインスピレーションを深める。
  • 世界改善:大規模な地形、より良いビジュアル、パフォーマンス最適化。

参考文献


  • ドローン:NateGazzard CC‑BY via Poly Pizza。
  • Cube World Kit:Quaternius via Poly Pizza。

Poly Pizza に寄付し、プラットフォームを支援しました。

同じ日のほかのニュース

一覧に戻る →

2026/01/27 7:03

**Windows の状況:** Windows 11 は現在どんな状態になっているのでしょうか?

## 日本語訳: **概要:** Microsoft の最新 Windows 更新は、安定したオペレーティングシステムよりも AI 主導の機能―特に Copilot ―を優先しているため、広範なバグ、パフォーマンス問題、およびセキュリティ欠陥が発生しています。2026 年 1 月の KB パッチは、新しい Intel プロセッサでシャットダウン失敗、クラウド PST を使用した Outlook のハング、メモ帳、RDP、およびデバイスドライバーのクラッシュを引き起こしました。同じ更新パッケージは、大規模 AI モデルのダウンロードによりサイズが 4 倍になり、バイナリが肥大化し、「Copilot‑ification」による UI が導入されました。暗号化されていないスクリーンショットへの懸念から削除を余儀なくされた事例もあります。 このシフトは、2023 年 12 月に Edge、メモ帳、設定、Office 等へ Copilot を投入したことから始まりました。以前のローカルアカウント用修正(OOBE.exe /bypassNRO)は後続の更新で閉じられ、Microsoft アカウントを持たないユーザーの使い勝手が低下しました。RDP のロールバック、DRM 失敗、およびエクスプローラーの遅延に関する月次報告は、24H2/25H2 リリースに起因しています。 Microsoft は、大規模な AI 重視更新を継続しつつ、重要なバグについては迅速な KB パッチで対処すると考えられます。この戦略はユーザーの信頼を損ない、企業のサポートコストを増大させ、一部の企業が代替 OS プラットフォームやデスクトップ AI 機能の採用をより慎重に検討するきっかけになる可能性があります。 **概要スケルトン** - **メインメッセージ(何を伝えたいか)** Microsoft の最近の Windows 更新は、安定した OS よりも Copilot などの AI 主導機能を積極的に推進する方向転換が原因で、広範なバグ・パフォーマンス低下・セキュリティ問題を引き起こしています。 - **証拠 / 推論(何故そう言えるか)** - 2026 年 1 月の KB 更新により、新しい Intel チップでシャットダウン失敗、クラウド PST を使った Outlook のハング、およびアプリ(メモ帳、RDP、デバイスドライバー)のクラッシュが発生。 - 同じ更新パッケージは AI モデルのダウンロードにより以前のリリースの 4 倍のサイズになり、バイナリが肥大化。 - Copilot の統合で UI が「Copilot‑ification」され、暗号化されていないスクリーンショットへの懸念から削除を強いられた。 - **関連ケース / 背景(文脈・過去の出来事)** - このシフトは、2023 年 12 月に Microsoft Copilot が Edge、メモ帳、設定、Office 等へ投入されることで始まりました。 - ローカルアカウント用ワークアラウンド(OOBE.exe /bypassNRO)は後続の更新で閉じられ、ローカル アカウント利用者の使い勝手が低下。 - RDP のロールバック、DRM 失敗、およびエクスプローラーの遅延に関する月次報告は、24H2/25H2 リリースに起因。 - **今後何が起こるか(将来の展開・予測)** Microsoft は大規模な AI 重視更新を継続しつつ、重要バグについては迅速な KB パッチで対処すると見込まれます。Copilot のアップセルを優先することで、毎月のスキャンダルが増え、安定性が回復されるまでユーザー信頼が徐々に低下する可能性があります。 - **影響(ユーザー / 企業 / 業界)** - ユーザーは頻繁なシステムクラッシュ、生産性の損失、および暗号化されていないデータ取得へのセキュリティ懸念に直面。 - 企業はサポートコストが増大し、新しい Windows リリース採用を再検討する可能性。 - 業界全体では、競合 OS プラットフォームへのシフトやデスクトップ環境での AI 機能採用に対するより慎重な姿勢が広まる可能性があります。

2026/01/26 23:41

テレビは本日で百周年を迎えました。

## Japanese Translation: テレビは本日100周年を迎え、ジョン・ログィー・ベアードの先駆的な業績に特に焦点が当てられました。1926年1月26日、ベアードはフリス通り22番地のソーホウワークショップで回転ディスクとレンズ、穴付きシートを用いたライブテレビの最初の公開デモンストレーションを行いました。その後、光感受性セルを追加して影の階調を送信できるようにしました。最初に送信された画像は、現在ヘイスティングス博物館で展示されている聖ジョンズ救急隊メダルの影でした。 ベアードの初期デモには、バラエティ・ドミー「ストゥッキー・ビル」と最初の人間被写体ウィリアム・テイントンが含まれます。1927年にフォノヴィジョンを導入し、画像をグラムフォンレコードに記録しました。1928年にはノクトヴィジョン(赤外線テレビ)、カラーテレビ、および立体テレビの実験を行いました。また、1930–31年にBBC放送用の30ライン機械式システムも開発しました。 1932年にEMIによって電子エミトロンカメラが導入され、ベアードの240ライン機械式システムとマルコニ-EMIの405ライン電子システムは一時的にロンドンテレビで採用されました。三か月後、最終的にはマルコニ・システムが優位になりました。 ベアードは1924年11月にフリス通り22番地へ移転し、ゴードン・セルフリッジのパーム・コートデモで60ポンドを稼ぎ、第二次世界大戦で会社が破産手続きになるまで発明の展示を続けました。爆撃被害により後期のカラー作業は中断され、1946年に57歳で脳卒中で亡くなりました。 初期の成功にもかかわらず、英国家庭へのテレビ機器の普及には数十年が必要でした。カラーTVは1960年代まで一般的になりませんでした。今日ではほぼすべての人がテレビまたは同等のデバイスを所有しており、これはベアードの回転ディスクと機械式画像伝送に関する先駆的な業績のおかげです

2026/01/21 1:52

滑走路に秘められた設計技術

## 日本語訳: ### 要約: 本文は、2025年9月に発生した最近の滑走路オーバーランが、EMAS(Energy‑Management and Arresting System)とFAAガイドラインに従った慎重な設計などの高度な安全システムによって防止されたことを説明しています。これらのガイドラインは、航空場で使用される最大機体を基準に滑走路長を決定しつつ、風向き・温度・標高も考慮して十分な停止距離を確保します。Embraer 145、Gulfstream、Bombardier機が関与した米国の3件の事故では、EMASが衝撃エネルギーを効果的に吸収し、航空機が滑走路外の危険箇所に着地することを防ぎました。FAAの詳細ガイダンスは、風向き(約95%)に合わせて滑走路を配置し、ディスプレースド・スレッショルド、ブラストパッド、ランウェイセーフティエリア(RSA)を追加して安全マージンを高めることを推奨しています。今後は、EMASの活用と機体種別に応じた舗装材の調整、単一方向が支配的でない場合の風向き戦略の精緻化が継続されます。これらの改善はパイロットの怪我リスクを減らし、空港が安全インフラへの投資を促進させ、航空業界に滑走路設計がオーバーランを防ぐことへの信頼感を与え、保険費用の低減につながる可能性があります。 ### 要約骨格 **本文が主に伝えようとしていること(メインメッセージ)** 2025年9月の滑走路オーバーランは、EMASなどの設計上の安全機能のおかげで回避され、滑走路設計はFAAガイドラインに従い、主要機体を基準に長さが決定され環境要因も調整されています。 **証拠/根拠(なぜそう言われているのか)** 米国で起きた3件の事故では航空機が滑走路を超えて衝突したものの、EMASがエネルギーを吸収し危険箇所に着地しませんでした。FAAの40ページの文書は、長さ・風・温度が設計を決定する方法を説明しており、舗装層と表面処理は摩擦と構造的健全性を維持するよう指定されています。 **関連事例/背景(コンテキスト、過去の出来事)** オーバーランはEmbraer 145、Gulfstream、Bombardier機で2025年9月24–3日に発生。FAAガイドラインは滑走路を主流風に合わせる(約95%)とし、ディスプレースド・スレッショルド、ブラストパッド、RSAを標準安全対策として含めています。 **今後何が起こりうるか(将来の展開/予測)** 将来的な滑走路計画ではEMAS使用の強調、機体種別に応じた舗装材の適用、単一風向きが支配的でない場合の風向き戦略の改善が継続されるでしょう。設計更新は温度・標高調整をより正確に取り入れる可能性があります。 **これらが与える影響(利用者/企業/業界)** パイロットは安全なオーバーランと怪我リスクの低減を享受し、空港はEMASや表面メンテナンスへの投資を検討。航空業界は滑走路長計算が事故防止に十分であるという自信を得て、保険・責任コストの削減につながる可能性があります。

**Show HN:ドローンを操縦できるのはLLMが一つだけ** | そっか~ニュース