2026/05/19 2:20

カーソル社が Composer 2.5 をリリースしました。

RSS: https://news.ycombinator.com/rss

要約▶

Japanese Translation:

Cursor は、標準ベンチマークよりも実用的な有用性を重視した重大なアップデートである Composer 2.5 を発表した。核心的な成果は、大幅に改善されたコミュニケーションと調整されたエフォートにより、複雑で長期的なコーディングタスクを習得することにある。開発者は、トレーニングを拡張して動的な作成を含む 25 倍の多い合成タスク（機能削除などより難しいタスクの動的生成を含む）を含ませることでこれを構築し、長いローラウト中の帰属問題に対応するためにテキストフィードバックを使用した高度な強化学習手法を採用した。具体的には、キャッシュのリバースエンジニアリングやバイトコードのデコンパイルといった振る舞いを標的としてトレーニングを行い、有効なアクションを確保した。これらの複雑さに対処するため、モデルは Sharded Muon、分布型直交化、および双メッシュ HSDP を採用する新しいアーキテクチャを使用している。

以前のバージョンと同じオープンソースチェックポイント（Moonshot の Kimi K2.5）を共有しながらも、Composer 2.5 は SpaceXAI と Colossus 2 を含む強力なインフラストラクチャー上で動作し、H100 同等の計算資源 100 万で運用されている。このセットアップは、予期せぬ報酬ハッキング事例を効果的に処理する。ベースモデルは標準的な価格で提供される一方、すぐに卓越した AI アシスタンスへのアクセスを得るために、複雑なワークフローにおいて（$3.00/M input / $15.00/M output）より高コストの高速バリエーションも利用可能である。将来を見据えて、さらに大きなモデルがゼロから 10 倍の総計算資源を使用してトレーニングされており、さらなる能力の飛躍を実現する見込みである。企業が AI が専門的なインタラクションスタイルを洗練させるにつれて、長時間かかるプロジェクトの実行においてより信頼性の高い実行を期待できよう。

本文

Cursor 上で Composar バージョン 2.5 が公開されました。これは Composar バージョン 2 に比べ、知能レベルと振る舞い面で飛躍的な改善を遂げたものです。長期的なタスクに対してより持続的に作業を行えるようになり、複雑な指示もより信頼性高く従うほか、コラボレーションの体験もより心地よく設計されています。

Composar を改良するには、学習スケーリングを強化し、より複雑な RL 環境を生成するとともに、新たな学習手法を導入しました。Composar 2.5 では、さらに困難なタスクで学習を行った上に加え、コミュニケーションスタイルや努力度のカリブレーションといったモデルの振る舞い面も改善しています。これらの側面は既存の評価ベンチマークでは適切に評価されていませんが、我々はこれらが実際の現場での有用性において重要だと考えています。

Composar 2.5 は、Composar 2 が採用している同じオープンソースチェックポイント（Moonshot の Kimi K2.5 ベース）を基盤として構築されています。

SpaceXAI と連携し、合計 10 倍の計算リソースを用いてゼロからより大幅に規模の大きなモデルも同時に学習を進めています。Colossus 2 が持つ百万個の H100 に相当する演算能力と、双方が備えるデータおよび学習技術との組み合わせにより、このプロジェクトはモデルの性能において画期的な飛躍をもたらすものと期待されます。

Composar 2.5 のトレーニング概要

Composar 2.5 では、トレーニングスタック全体にいくつかの新規改善を導入しました。これらの変更は、モデルの知能レベル向上とユーザビリティ向上の両面を対象としています。

テキストフィードバックを用いたターゲット付き強化学習（Targeted RL）
強化学習における帰属評価（クレジットアサインメント）は、ロールアウトが数十万語に及ぶなどするにつれ、ますます困難な課題となっています。報酬計算が全体ロールアウトを対象とする場合、特定の意思決定が成果を助けたり損なったりしたかを見極めるのが難しくなります。これは、局所的な行動（不適切なツール呼び出し、混乱を招く説明、スタイル違反など）を抑制したい場合に特に制限的となります。最終的な報酬が何らかの問題が発生したことを示しても、「どこで問題が生じたか」というシグナルとしてはノイズ成分が大きすぎます。

これに対処するため、我々は Composar 2.5 を「ターゲット付きテキストフィードバック」を用いて学習しました [1]。これは、モデルがよりよく振る舞えるべき局面の直後にフィードバックを提供するという考え方です。例えば、対象となるモデルメッセージに対して、期待される改善点を簡潔に記述したヒントを構築し、それを局所的なコンテキストに挿入して教師分布を得、オリジナルのコンテキストで動作するポリシーを学習者（学生）として扱い、そのトークンの確率分布を教師分布へと寄せるようオンポリシーディスティルレーションの KL 損失を追加します。この手法により、変更したい行動について局所的な学習シグナルを得つつ、全体ロールアウトにわたる広範な RL の目的も維持できます。

テキストフィードバックのプロセスを例示するためには、ツール呼び出しエラーが含まれた長いロールアウトを考えてください。モデルは利用できないツールを呼び出そうとしますが、「ツールが見つかりません」というエラーを受け取りながら、その後も有効なツール呼び出しを続行します。数百回のツール呼び出しのうち一回のエラーが最終報酬に与える影響は最小限です。

テキストフィードバックを用いることで、この特定のミスをターゲットし、問題のあったターンにおけるコンテキスト内に「利用可能なツールのリストとともに『メモ：利用可能なツール…』」といったヒントを挿入します。このヒントによって教師分布の確率分布が変化し、誤ったツールの選択確率が低下すると同時に、有効な代替ツールの選択確率が上昇します。そのターンのみにおいて学習者の重みを新しい確率分布へと更新します。

Composar 2.5 の実行期間中、この手法はコーディングスタイルからモデル間のコミュニケーションに至るまで、多様なモデル行動に適用されました。
合成データ（Synthetic Data）
強化学習によるトレーニング过程中、Composar のコード能力は著しく向上し、最終的には大部分のトレーニング課題を正しく解決するようになります。知能をさらに高めるために、我々は実行過程を通じて動的に選択しつつも同時に、より困難なタスクを生成します。Composar 2.5 は Composar 2 より 25 倍多くの合成タスクを用いて学習されています。

合成タスクの作成には、実在するコードベースを基盤とする多様なアプローチを採用しています。例えば「機能削除」という手法の一つでは、大規模なテストセットが用意されたコードベースに対し、特定の実装可能な機能を削除しつつもコード全体が動作するように機能を再構築するようエージェントに指示を与えます。合成タスクとはその機能を再実装することであり、テスト結果を検証可能な報酬として活用します。

大規模な合成タスク生成の副作用として、予期せぬ「報酬ハッキング」を引き起こす可能性があります。モデルがより器用になるにつれ、Composar 2.5 は与えられた課題に対するますます洗練された回避策を見出すようになりました。ある事例では、モデルが残存していた Python の型チェックキャッシュを見つけ出し、その形式をリバースエンジニアリングして削除された関数のシグネチャを復元しました。別の例では、Java バイトコードを発見してコンパイルし直し、サードパーティ製の API を再構築しました。これらの問題についてはエージェント型モニタリングツールを用いて発見・診断できましたが、これらは大規模な強化学習において必要な慎重さの度合いの高さを示しています。
シャード Muon とデュアルメッシュ HSDP
継続的な事前学習のために、分散正規化（distributed orthogonalization）を備えた Muon を採用しました。運動量更新を形成した後、モデルの自然な粒度単位——即ち、アテンションプロジェクションごとにアテンションヘッド単位、スタッキングされた MoE 重みごとにエクスパート単位で——ニュートン＝シュルツ法（Newton-Schulz）を実行します。

ここでの主なコストはエクスパート重みの正規化にあります。シャードされたパラメータに対しては、同じ形状のテンソルをバッチ化し、アレルト（all-to-all）操作によって完全な行列に変換してニュートン＝シュルツ法を実行した後、結果をアレルトで元のシャードレイアウトに戻します。これらの転送は非同歩的に実行され、通信を待機している一方のタスクに対して、最適化ランタイムが他の Muon タスクを先行させ、ネットワークと計算を重畳させることができます。これは全行列形式的なMuon と同等の性能を示しつつもシャードグループを継続的に活用できる点があり、1T モデルにおける最適化ステップ時間では 0.2 秒です。

これは HSDP を MoE モデルにどのように利用しているかという点と緊密に関連しています。HSDP は複数の FSDP レプリカを形成し、対応するシャード間の勾配を全還元（all-reduce）します。非エクスパート重みとエクスパート重みに対して独立した HSDP レイアウトを採用しています：非エクスパート重みは比較的小さいため、FSDP グループは狭く維持でき、しばしばノードやラック内に収まります。一方、エクスパート重みにはパラメータの大部分と Muon 計算の大部分が属するため、より広範なエクスパートシャードメッシュを使用します。

これらのレイアウトを独立させることで、並列化次元も独立して重畳できます：CP＝2 および EP＝8 を 8 つの GPU で実行でき、単一の共有メッシュで 16 の必要があった場合よりも効率的です。これにより、小規模な非エクスパート状態に対する広範な通信を回避しつつ、エクスパート最適化作業を多数の GPU に分散できます。

Composar 2.5 をお試しください

Composar 2.5 の料金は、入力トークンあたり $0.50、出力トークンあたり $2.50 です。
同程度の知能レベルを持つ高速バージョンも用意されており、入力トークンあたり $3.00、出力トークンあたり $15.00 でご利用いただけます。これは他の先端モデルの高速ティアより低いコストです。Composar 2 に準じて、デフォルトオプションは「高速」モードです。詳細についてはモデルドキュメントをご覧ください。

さらに、Composar 2.5 では最初の 1 週間に利用量が二倍にカウントされる特別サービスを提供しています。

同じ日のほかのニュース

一覧に戻る →

2026/05/19 10:30

LLM による「過去六ヶ月の要約」――わずか五分で読み解く

## Japanese Translation: PyCon US 2026 における「2025 年 11 月の転換点」に関する振り返りは、AI ランドスケープが標準ハードウェア（例：Mac Mini）上で動作する実践的なローカルツールおよび個人用 AI アシスタントへと劇的に移行していることを示しました。2025 年後期から 2026 年初頭にかけての期間は、「最良」という称号を巡る過激な競争によって特徴づけられていました。11 月単独でわずか 2 ヶ月の間にトッププロバイダーにおけるリーダーシップは 5 回交代し、Claude Sonnet 4.5、GPT-5.1、Gemini 3、Codex Max などを経由した後、最終的に Claude Opus 4.5 に落ち着きました。この時代は、コーディングエージェントにおいて OpenAI や Anthropic の検証可能な報酬に基づく強化学習（Reinforcement Learning from Verifiable Rewards）への取り組みにより、単発的な動作から信頼できる日常利用ツールへと移行したことで推進されました。顕著な技術的進展としては、Google が実用的なオープンウェイトモデルとして Gemma 4 シリーズをリリースしたことや、中国の研究所が GLM-5.1（1.5TB モデル）を公開したことが挙げられます。これらのモデルは、動物がエスクーターに乗っている様子やバージニア北部のカナザが自転車に乗っているような不可能なタスクのアニメーション生成といった驚くべき能力を発揮しました。特定のコミュニティプロジェクトは「Warelay」として始まりましたが、「OpenClaw」という名称を最終的に採用し、人気のあるローカル「個人用 AI アシスタント」の代名詞となりました。2026 年 2 月には新規モデルに対する需要が高まりシリコンバレーで Mac Mini が品切れになった一方で、一部のプロジェクトはセキュリティ懸念とパフォーマンスの問題のため廃止されました。全体のテーマは、自律的にホストされる知能のブームであり、ラップトップ搭載のモデルが業界リーダーと比較して期待を大きく上回る性能を発揮し始めた点にあります。

2026/05/17 1:49

Android スマートフォンを业余無線局トランシーバーに変えてください。

## Japanese Translation: kv4p HT は、Android スマートフォンとの統合を目的として設計されたオープンソースの VHF/UHF アマチュア無線トランスceiver です。専用バッテリーや外部充電器の必要性を排除するため、スマートフォンから電力を供給します。カスタム PCB（v2.0e）、SA818-V/U または DRA818V/U モジュール、SMA メスアンテナなどの部品の使用により構成され、SMS 風のメッセージングおよび位置情報ビーコン機能（APRS）を含む高度なデータ通信タスクをサポートします。法的に運用するためには、少なくとも技師級のアマチュア無線免許証を保有している必要があります。製品には保証がありません。フルデザインと GPL3 ライセンスの ESP32 ファームウェアは GitHub 上に公開されており、3D プリンター用ファイルも用意されているため、DIY による組み立てが可能で、モジュール/PCB のハンダ付け、接着ゲルパッドによる装着、3D プリント製ケースの取り付けを伴います。新規ユーザーは、事前に組み立て済みのベンダーキットを購入しない場合は、ソフトウェアを手動でフラッシュする必要があります。本システムは、2017 年以降の Android 8 以上のデバイスとのみ互換性があります。リアルタイムクローズドキャプション、PTT 用のハプティックフィードバック、アニメーション制御など、アクセシビリティ機能により、多様なユーザーにとって使いやすさが向上しています。

2026/05/19 13:24

コーデックス・マキシング（Codex-maxxing）

## Japanese Translation: この文は、短命なチャットセッションから、複雑な知識労働に適した耐久性のある長時間稼働型コーディングエージェントへの転換を描いています。これらのエージェントは、「compaction（コンパクト化）」という機能を用いて古いのメッセージを剪定し、コスト超過やコンテキスト制限を防ぎつつ不可欠な履歴を保持しながら、数ヶ月間自動化された動作を持続させます。ユーザーは「Chief of Staff」のようなメガスレッドをピン留めして好みを蓄積し、Command-1 から Command-9 などのショートカットを通じてワークストリームを舵取りできますが、オフキャッシュのスレッドは新規の短寿命スレッドよりも高いコストを支払う可能性があります。エージェントは Codex および Wispr Flow を通じて音声入力を受付けることができ、システム全体での口述が可能になり、タイピング単独よりも豊富なコンテキストを実現します。ユーザーはツール呼び出し後（steering）に新たな方向性を注入し、ステップが完了するのを待たずにエージェントを誘導できます。共有メモリシステムはチャット外に Obsidian クォート内にアーティファクト（AGENTS.md を含む）を保存しており、これらを検証、編集、差分表示することを可能にします；GitHub でリポジトリとしてホストされる場合、クラウドツールを通じてメモリの更新内容を確認でき、審査されていない対話の「vibes（雰囲気）」が蓄積するのを防ぎます。$slack、$gmail、$calendar、$browser、@chrome、および@computer といったコネクタは、ローカルのウェブ表面、認証済みのブラウザ状態、Twitter やデスクトップアプリなどの GUI アプリケーションなど、追加機能を提供します。Hatch Pet などのインストール可能なスキルは再利用可能なワークフローをパッケージ化し、エージェントが再教育なしでタスクを繰り返せるようにします。リモートコントロール機能により、ユーザーは作業マシン上で長時間稼働するタスクを開始し、モバイルデバイスからステップを承認することで進捗を持続させつつ管理できます。スレッドローカルハートビートは、Slack/Gmail を 30 分ごとに、フィードバックを 15 分ごとにといった再帰的なチェックをスケジュールし、ユーザーの常在なしでループを稼働させます。ゴールはエージェントに明確な仕上げラインと成功基準を与え、例えば元の単一テストを全てパスしながら Python Rich を Rust に移行する場合などに適用されます。サイドパネルはアーティファクト（Markdown、PDF、スプレッドシート）を検証し、ウェブ表面（index.html、Storybook、Slidev）を操作し、ループを壊さずに変更を確認する作業領域として機能します。