統計を用いたベストな愛犬用おやつの探し方

2026/06/23 2:46

統計を用いたベストな愛犬用おやつの探し方

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

概要:

科学者たちは、チェスの ELO レーティングに類似する数学的なランク付け手法であるブラッドリー・テリーモデルを用いて、ブーポップの最も好きなおやつを特定するために、毎日の頭脳対決によるペア比較を採用しました。実験中は、コマンドに従って 2 つの選択肢の間を選択するように訓練されたブーポップ(大型の体重 83 ポンドのグレイハウンド)が、5 つの具体的なおやつを評価しました:ア(鴨+生ひも)、B(グリーンリーズ大型)、C(ポークチョップスレッド)、D(チキン+生ひも)、および E(ピューラブチキンドライドチキン)。結果は GitHub に記録され、ランキングの安定性を評価するためにブートストラップリサンプリングが使用されました。分析では、おやつ B および C は信頼性高く劣り、後続の試験から除外されたことも示されました。また、右側へのバイアスも観察され、これはおそらく片側の試験エリア付近にある制御されていないファンによるものです。ブートストラップサンプルにおいて、E おやつのみが明確な勝者として浮き彫りにされ(約 63% の頻度)、次に A(約 33%)と D(約 4%)が続きました。モデルは、E が A を破る確率は約 57.5% と予測しており、これ以上の実験ではこれらの 2 つを優先的に比較するべきであることを示唆しています。この研究は、複雑な統計的ランク付けシステムがゲームやスポーツ以外のペットテストにも適用されることを実証するだけでなく、ドッグオーナーに最適な報酬を選択するための実践的なガイダンスを提供します。

本文

グレイハウンドの味覚実験:Bradley-Terry モデルによるおやつの順位付け

2026 年 6 月 19 日 | アダム・ウェスピサー

グレイハウンドのビーボップ(体重 83 ポンド、背丈 33 インチ)は「速く走る」「家の中で追う」「おやつをもらう」ことが大好きです。鋭い嗅覚と身体能力を持ち合わせており、噛むためのクランチーやこぼれたピザ、猫用のフードトレイに至るまで、あらゆるおやつの存在を感知します。しかし、私にとって彼の「一番好きなおやつ」が何なのかは依然として謎であり、直接訊くことができないため悩み続けていました。

この問題を解くために、統計学における Bradley-Terry モデル を適用しました。以下に実験の背景、手法、および結果をまとめます。


理論的背景:強さを推定するモデル

おやつの「強さ」を数学的に表現するには、二つの競争相手(おやつ)$i$ と $j$ の勝敗確率をモデル化します。

Bradley-Terry モデル

各おやつ $i$ に正の数値の強さスコア $\pi_i$ を割り当てます。 $i$ が $j$ を凌駕する確率は以下の式で表されます。

$$ \text{Pr}(i > j) = \frac{\pi_i}{\pi_i + \pi_j} $$

このスコアは、指数形スコア $\pi_i = e^{\beta_i}$ として表現されることが一般的です。

Elo レーティングとの関連

チェスで広く用いられる Elo ランキングシステム も同じ論理に基づいています。$R_i$ を Elo スコアとすると、勝敗確率は以下のようになります。

$$ \text{Pr}(i > j) = \frac{10^{R_i/400}}{10^{R_i/400} + 10^{R_j/400}} $$

Elo システムでは、対局後のレーティング更新は以下の式で逐次行われます。

$$ R_A' = R_A + K(S_A - E_A) $$

  • $S_A$: 実際の得点(勝利 1、引き分け 0.5、敗北 0)
  • $E_A$: 予想勝率
  • $K$: レーティング変動の制御係数

このように、Bradley-Terry モデルは Elo のアイデアを基礎としており、ヘッド・トゥ・ヘッド(同点対決)の結果のみからグローバルなランク付けを行うのに適した解決策です。過去に FaceSmash[1] や Chatbot Arena[2] でも同様の相関モデルが採用されています。


実験手法

トレーニングと手順

  • コマンド学習: 実験前に「choice(選択)」というコマンドを学習させました。
  • 実施時間: 毎日午後 11 時頃。
  • 手順:
    1. 台所で異なる 2 種類のおやつを用意する。
    2. 「choice」と言いつつ、両手に一つずつ提示する。
    3. ビーボップは片方を選び、もう一方はお菓子の袋に戻す。

ビーボップはこのルーティンに慣れ、おやつを口にする前に双方を嗅ぎ分けるようになりました。

おやつの選定

グリーンイーズなどの実績ある商品と、Amazon で検索して選びました。サイズの違いは簡素化のため無視しましたが、夕食後 2 時間後の満腹状態で実施したため、結果としてのバイアスはあると想定しています。

選定したおやつリスト:

  • Treat A: MON2SUN、ダック+ラウヒイド [Amazon リンク]
  • Treat B: グリーンイーズ、大型サイズ [Amazon リンク]
  • Treat C: ポーク・チョンプス、赤色 [Amazon リンク]
  • Treat D: MON2SUN、チキン+ラウヒイド [Amazon リンク]
  • Treat E: Pur Luv Chicken、デヒドレーション鶏肉 [Amazon リンク]

データ収集と分析

試行のスケジュール

毎日 2 組のペア比較(ヘッド・トゥ・ヘッド)を実施しました。例として:

  • C vs B: B の勝利
  • E vs B: E の勝利

右側バイアスの発見

同じおやつを提示した試行でも、ビーボップは一貫して右手(私の左手に置かれた方)をお選びでした。これは「右利き」の証明ではなく、サイド選択による測定バイアスであることを示唆しています。

  • 可能性:非対称なキッチンレイアウトや、窓辺ファンの風の影響かもしれません。

データの整理とスキップ

実験初期段階で以下の傾向が明確になりました:

  • Treat C(ポーク)と Treat B(グリーンイーズ)は確実に敗北していました。
  • これらの競合から外し、C または B を含む試行を「X」としてスキップしました。
  • 代わりに、統計的な力(パワー)向上のため、A/D/E の試行を追加することとしました。

実験結果

ブートストラップ分析による順位推定

観測データを反復サンプリングし、各サンプルに対して Bradley-Terry モデルを適合させ、首位となる頻度を記録しました。

試行結果での首位確率おやつ備考
63%Treat E (Pur Luv Chicken)デヒドレーション鶏肉であり合理的
33%Treat A有力な挑戦者 (E vs A の確率: 57.5%)
~4%Treat DE と A から有意に後退
脱落Treat B, C競合から外された

結論と今後の展望

現時点では、乾燥鶏肉である Treat E が最善のおやつとして勝利しています。ただし決着は固まっておらず、Treat A も非常に接近しています。

今後取るべきステップは明確です:

  1. 主要対戦: E vs A の追加試行に集中する。
  2. 稀なチェック: ティア境界を確認したい場合のみ、A/D や E/D を検証する。

ビーボップはこの科学的プロセスに対し、依然として高い関心とコミットメントを示し続けています。


ソースコード


参考文献:

  1. The Crimson, "Facemash Creator Survives Ad Board...", 2003.
  2. LMSYS Org, "Style Control", 2024.

同じ日のほかのニュース

一覧に戻る →

2026/06/23 2:09

Steam マシンが本日発売開始

## Japanese Translation: このフッターセクションは、Valve Corporation からの法的通知であり、コンテンツに対する留保された権利を主張するとともに、商標が世界中でそれぞれの所有者に帰属することを示しています。これは厳格な知的財産権の境界線を定め、プライバシーポリシー、アクセシビリティ基準、Steam サブスクライバー契約、返金手続き、クッキー情報を含む重要なポリシーへのアクセスを案内します。これらの契約的および法的枠組みを確立することで、本テキストはユーザーが自身のデータ権利、返金の有無、利用条件について理解できるよう通知し、企業資産と国際的・地域的な合意に基づく消費者保護に関する明確さを確保しています。

2026/06/23 5:48

LG スマート TVs の約半分が住宅用プロキシ SDK を内蔵しています

## Japanese Translation: LG webOS および Samsung Tizen TV 向けに導入されている 6,038 アプリについて調査したところ、そのうち 2,058 を超えるアプリが SDK(ソフトウェア開発キット)を介して静かにユーザーの IP アドレスを販売し、レジデンシャルプロキシとして機能することが明らかとなりました。従来の広告ベースの収益化モデルとは異なり、これらのアプリはスクリーンセーバーや水槽などの distractions なユーティリティ内に偽装された SDK を通じて、インターネット接続を静かに収益化しています。Amazon は明確に此类サービスを禁止しているほか、Roku も接触後に同様の SDK をブロックしたと報じられていますが、LG および Samsung では同様の公的ポリシーが存在せず、このビジネスモデルが検出されずに拡大することを許容する規制上の空白を生み出しています。特定企業のうち、Bright Data(367 件のフラグ付けされたアプリに関連)および Honeygain UAB(16 件のアプリの発行元)が含まれています。単なるデータ共有を超えた深刻なセキュリティリスクが存在します。一部の SDK はプライベート IP の範囲に対する適切なブロックリストを欠いており、その結果 TV が攻撃者のローカルデバイス(ルーターやカメラなど)へのアクセス手段となる可能性があります。これは Kimwolf ボットネットの事例で実証されています。提供者は同意フロー、KYC、監査などがリスクを軽減すると主張していますが、ユーザーがこれらの統制を検証するのは困難です。このため、研究者たちは、LG および Samsung に顕著な開示とユーザークントロールを要件とする明確なポリシーの確立を促しており、これによってこの目に見えない経済活動が検出されずに続かないよう求めています。

2026/06/23 6:21

Unsloth GLM-5.2 — ローカルで実行する方法

## Japanese Translation: Z.ai の GLM-5.2 は、40B(アクティブ)のパラメータを備えた 7440 億パラメータを持つ大規模オープンソースモデルであり、コーディング、推論、エージェントタスクにおいて GPT-5.5 や Claude 4.8 Opus などの主要なクローズドモデルと同等の最先端性能を発揮します。大きな進歩の一つは、Unsloth の Dynamic quantization を用いて標準ハードウェアでローカル実行可能な点であり、例えば推奨されている 2 ビットバージョン(UD-IQ2_M)では、必要な容量が 1.51TB からわずか 239GB に削減されつつ約 82% の上位 1% の精度を維持し、高メモリワークステーションや 256GB ユニファイドメモリの Mac、GPU オフロードを利用するシステムなどで動作します。また、「Non」「High」「Max」の 3 つの思考モードを Unsloth Studio インターフェースまたはコマンドラインからアクセスでき、必要に応じて推論深度を切り替え可能です。MacOS、Windows、Linux のすべてで動作し、Unsloth Studio や llama.cpp を通じて高速な推論を実行できます。さらに、KV キャッシュの quantization による最多 3.5 倍までのコンテキスト長延伸や、クラウド API に依存せず迅速なローカル展開を可能とする柔軟なインストールスクリプトなどの追加最適化も提供されます。