**ゲームアリーナでAIベンチマークを推進する**

2026/02/03 2:49

**ゲームアリーナでAIベンチマークを推進する**

RSS: https://news.ycombinator.com/rss

要約

日本語訳:

Google DeepMindは、Kaggle Game Arenaプラットフォームに「Werewolf」と「Heads‑Up No‑Limit Texas Hold'em poker」の2つの新ゲームを追加し、社会的ダイナミクス・コミュニケーション・リスク管理・戦略的推論を検証するAIベンチマークのセットを拡充しました。

  • Werewolf は、プレイヤーが村人の中から狼男を特定しなければならない隠れ役割ゲームで、モデルに自然言語による推論を使わせます。
  • Poker は、Heads‑Up No‑Limit Texas Hold'emを対戦させて不完全情報下での意思決定を評価し、相手のハンドを推測し戦略を調整する能力をテストします。

これらの新ベンチマークは、長期計画と適応を頭脳対頭脳のチェス競技で測定したオリジナルのチェスベンチマークに基づいています。現在のリーダーボード上位者は、チェスではGemini 3 Pro、WerewolfではGemini 3 Flashです。ライブAIポーカートーナメントは2月4日に終了し、結果はkaggle.com/game-arenaで公開されました。Hikaru Nakamura、Nick Schulman、Doug Polk、およびLiv Boereeによるライブストリームは2月2日〜4日の間に行われました。

DeepMindの目標は、Game ArenaをAI安全研究の重要なテストベッドとして維持し、モデルが操作を検出し、制御された環境でレッドチームシナリオを実行できるようにするとともに、社会的推論とリスク管理スキルを評価するためのより豊富なベンチマークを提供することです。

本文

現実世界の意思決定は、チェス盤のような完全情報に基づくことはほとんどありません。
Kaggle Game Arena を拡張し、「ウィーラー」(Werewolf) とポーカーを新たに追加することで、モデルが社会的ダイナミクスや計算リスクをどう扱うかをベンチマークします。


全体概要

Google DeepMind は Game Arena プラットフォームを拡張し、より複雑なシナリオで AI モデルの性能を評価できるようにしています。
今ならチェスに加えてウィーラーとポーカーでもモデルをテストできます。Kaggle で開催されるライブトーナメントを観戦すれば、トップモデルがどのようにプレイするか確認できます。

要約は Google AI によって生成されています。ジェネレーティブ AI は実験段階です。


ポイント

  • Google DeepMind の「Game Arena」記事では、ゲームを用いて AI をベンチマークし、完全情報の状況から離れる方針が示されています。
  • Game Arena はチェスに加えウィーラーも含めることで、AI モデルの社会的推理とコミュニケーション能力を評価します。
  • 新たなポーカー ベンチマークは、競技環境でリスク管理と不確実性量化の能力を測定します。
  • Kaggle で行われる AI コンペティション(ポーカー・ウィーラー・チェス)のライブストリームを専門解説付きで視聴できます。
  • これらのベンチマークは、複雑かつ実世界に近い環境でモデルの振る舞いを評価し、安全な AI の開発につながります。

要約は Google AI によって生成されています。ジェネレーティブ AI は実験段階です。


基本説明

Google DeepMind が Game Arena を作成した目的は、AI がどれだけ賢いかを検証することにあります。最初はチェスで先読み能力を測定し、その後ウィーラーとポーカーを追加して社会的スキルやリスクテイクのテストへ拡張しました。これらのゲームは、AI が実際の人間との協調やトリッキーな状況に安全に対処できるかどうかを確認する手段となります。

要約は Google AI によって生成されています。ジェネレーティブ AI は実験段階です。

同じ日のほかのニュース

一覧に戻る →

2026/02/03 3:02

Codex アプリ

## Japanese Translation: OpenAIは、macOS向けに新しいCodexアプリをリリースしました。このアプリは、開発者が複数のAIエージェントを同時にプロジェクト間で実行できるようにし、Plus、Pro、Business、Enterprise、およびEduプランではレート制限が2倍になります。コマンドセンターインターフェースは、各プロジェクトごとに別々のスレッドでエージェントを実行し、共有リポジトリのビルトインワークツリー編集をサポートし、「スキル」バンドル―Figma翻訳、Linear課題トリアージ、クラウドデプロイメント、画像生成、および文書編集などのタスクに対する数百の内部ツール―を提供します。デモでは、GPT‑Imageとウェブ開発スキルで作成されたレースゲームが1つのプロンプトから700万以上のトークンを消費しました。Codexはまた、スケジュールに従ってバックグラウンドジョブを実行するオートメーション、`/personality`によるパーソナリティ切替、およびセキュリティ用のネイティブサンドボックス機能も備えています。アプリは本日macOSで起動し、すべてのChatGPT購読者に利用可能です。無料/Goユーザーには一時的なアクセスが提供され、追加クレジットを購入することもできます。将来のアップデートでは、Windowsサポート、より高速な推論、拡張されたモデル機能、強化されたマルチエージェントワークフロー、クラウドトリガー型オートメーション、およびコーディング以外の幅広いアプリケーションが追加される予定です。

2026/02/03 5:48

Anki の所有権は AnkiHub に移転されました。

## Japanese Translation: AnkiHub は Anki の新たなリーダーシップ団体として登場し、プラットフォームをコミュニティ所有でオープンソースかつ利益中立に保ちつつ、そのデザイン・エコシステム・ガバナンスを強化することを誓約しています。チームは Damien に協力要請を行い、より大きな役割を受け入れました;ガバナンスの選択肢はまだ決定中ですが、コミュニティからの入力とともに公開される予定です。David Allison はフルタイムで参加し、技術的およびガバナンス上の質問に対応します。 Anki のユーザー主体性と非操作的設計の歴史がこの新方向を支えています。単一開発者への依存から離れ、より広範なボランティア参加へ移行しつつ、ビジネスモデルは公平かつ変更なしに保たれます。近い将来、AnkiHub は透明性と最小限の官僚主義を両立させる正式なガバナンス構造を構築し、UI/UX の再設計を開始し、アドオンエコシステムを拡大し、モバイルアプリを維持し、API をより明確にし、文書化を改善し、開発者向けのリリースサイクルを予測可能にし、非医療ユーザーもサポートします。 利用者にとっては、時間が増え、アクセシビリティが向上し、外部投資家から自由な安定したプラットフォームとなります。アドオン作成者は破壊的変更の減少と強力なサポートを享受でき、広範なコミュニティは一貫した行動、オープンコミュニケーション、約束の遵守により信頼を得ます。ボランティア寄与者は開発を継続する上で不可欠であり、この移行は単一人物以上のエンジニアリング・デザイン・サポートへの帯域幅を徐々に増やしていきます。

2026/02/03 6:28

GitHub での経験―部分的な停止や機能低下の事例

## Japanese Translation: (以下はご提示いただいたテキストの日本語訳です) ``` ## Summary 2026年1月26日(UTC 14:03〜23:42)の間に、GitHub Actions は Windows 標準ホストランナーで失敗を経験しました。これは、新しいランナー構成で D ドライブが欠落していたことによるものでした。すべての Windows ジョブの約2.5 % が影響を受け、22:02 UTC にロールバック完了後でも、パブリックリポジトリにおける 4 コア Windows ランナーで11 % の失敗率が残っていました。 GitHub は問題のある変更を迅速にロールバックし、その構成を持つプロビジョンドランナーを削除、23:45 UTC に残りの影響を受けた容量をオフラインにしました。20:10〜23:51 UTC の間に複数回アップデートが行われ、ユーザーに失敗したワークフローの再実行を促しました;ほとんどのリトライは成功し、変更のロールアウトが限定的だったためです。 再発防止のため、GitHub はランナーのテレメトリー拡張とランナー構成変更の検証改善に取り組みつつ、将来のインシデントに対するより迅速な緩和策を評価しています。このインシデントは、パブリックリポジトリで信頼性の高い CI/CD パイプラインを実現するために堅牢なランナー構成管理が重要であることを示しています。 ```