LLM による「過去六ヶ月の要約」――わずか五分で読み解く

2026/05/19 10:30

LLM による「過去六ヶ月の要約」――わずか五分で読み解く

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

PyCon US 2026 における「2025 年 11 月の転換点」に関する振り返りは、AI ランドスケープが標準ハードウェア(例:Mac Mini)上で動作する実践的なローカルツールおよび個人用 AI アシスタントへと劇的に移行していることを示しました。2025 年後期から 2026 年初頭にかけての期間は、「最良」という称号を巡る過激な競争によって特徴づけられていました。11 月単独でわずか 2 ヶ月の間にトッププロバイダーにおけるリーダーシップは 5 回交代し、Claude Sonnet 4.5、GPT-5.1、Gemini 3、Codex Max などを経由した後、最終的に Claude Opus 4.5 に落ち着きました。この時代は、コーディングエージェントにおいて OpenAI や Anthropic の検証可能な報酬に基づく強化学習(Reinforcement Learning from Verifiable Rewards)への取り組みにより、単発的な動作から信頼できる日常利用ツールへと移行したことで推進されました。

顕著な技術的進展としては、Google が実用的なオープンウェイトモデルとして Gemma 4 シリーズをリリースしたことや、中国の研究所が GLM-5.1(1.5TB モデル)を公開したことが挙げられます。これらのモデルは、動物がエスクーターに乗っている様子やバージニア北部のカナザが自転車に乗っているような不可能なタスクのアニメーション生成といった驚くべき能力を発揮しました。特定のコミュニティプロジェクトは「Warelay」として始まりましたが、「OpenClaw」という名称を最終的に採用し、人気のあるローカル「個人用 AI アシスタント」の代名詞となりました。2026 年 2 月には新規モデルに対する需要が高まりシリコンバレーで Mac Mini が品切れになった一方で、一部のプロジェクトはセキュリティ懸念とパフォーマンスの問題のため廃止されました。全体のテーマは、自律的にホストされる知能のブームであり、ラップトップ搭載のモデルが業界リーダーと比較して期待を大きく上回る性能を発揮し始めた点にあります。

本文

2026 年 5 月 19 日
私は、PyCon US 2026 で行った五分間のライトニングトークに使用した注釈付きスライドをまとめました。これには、私の最新バージョンの注釈付きプレゼンテーションツールを使用しています。

  • # PyCon US 2026 でこのライトニングトークを行いました。LLM の過去 six カ月分の発展を五分間という短時間で要約することが目標でした。
    • 「six months」という期間は非常に扱いやすい長さです。なぜなら、私が「2025 年 11 月の転換点」と呼んできた出来事を捉えることができるからです。11 月は LLM、特にコーディング分野にとって極めて重要な月となりました。
  • # まず一つ目の理由として、「最も優秀な」と(主に雰囲気によって評価される)モデルは、三大プロバイダーの間で五回も ownership を交代しました。
    • ここでもいつも通り、私が「自転車にペリカンが乗っている svg を生成して」というテスト例を用いて、各モデルの違いを解説しています。なぜこのテストなのか?それは、ペリカンは描くのが難しいし、自転車もまた描くのが難しく、しかもペリカンは自転車を運転できないからです。さらに、そんなばかげたタスクのためにどの AI 研究室もモデルを開発する可能性は皆無です。
    • 11 月の初頭に、「最も優秀な」と広く認められていたのは、9 月 29 日にリリースされた Claude Sonnet 4.5 です。このモデルは私にこのペリカンを描かせてくれました。しかしその後、GPT-5.1 に後追いされ、さらに Gemini 3 に後追いされました。次に GPT-5.1 Codex Max がトップとなり、最後に Anthropic が再びクローンを握ることで Claude Opus 4.5 が王座を取り戻しました。この中で最も優れたペリカンを描いたのは Gemini 3 ですが、ペリカンだけでは全てが決まるわけではありません。多くの実践者は同意するように、Opus 4.5 が今後数ヶ月の間、王座を守り続けていそうです。
  • # 少し時間をかければ明かになりますが、11 月の本当のニュースはコーディングエージェントが大幅に良くなったことです。
    • OpenAI と Anthropic は 2025 年の大部分を通じて、自社の Codex や Claude Code エージェントハネスと組み合わせて、モデルが生成するコードの品質を高めるために「検証可能な報酬からの強化学習(RLVR)」を行ってきました。11 月になり、その成果が現れました。コーディングエージェントは「ときどき動く」レベルから「ほとんど動作する」レベルへと変わり、実際の仕事に取り組むための日常使いが可能になりつつあります。これまでのように、彼らの愚かなミスを直すために大半の時間を費やす必要がなくなりました。
  • # 同じく 11 月の出来事として、ある人物(ピーテ)によって不顕著なレポジトリ(当時はそうでした)である「Warelay」への最初のコミットがありました。
  • # お正月期間中(12 月から 1 月にかけて)、多くの人々がこの間を利用してこれらの新しいモデルやコーディングエージェントを試してみる機会を得ました。彼らは何もかもができていました!私たちは少しばかり興奮しすぎました。私は自分自身で非常に野心に満ちたプロジェクトを立ち上げ、これらのモデルの限界まで突き詰めることを試みることで、一時的ながら LLM 関連の一種の精神病を経験しました。
  • # そのプレイグラウンドデモでは、マイクロ・JavaScript ライブラリを使って実行された JavaScript コードが示されています。Python で動作し、Pyodide 内にある WebAssembly の中で実行され、さらにその JavaScript をブラウザ上で動かししています!かなりクールです!ですが、そんなバグがあり、遅く、不安全で未完成の「Python 上の JavaScript」実装が必要という人はいなかったでしょう。実は、そのお正月期間に私が作った他のいくつかのプロジェクトもありますが、それらは以来静かに廃止されました。
  • # 次に二月の話です。11 月末に初めてコミットがあった Warelay プロジェクトを覚えていますか?
    • 十二月と一月の間には、何度も名前変更が行われ続け、二月には最終的な名称「OpenClaw」で世界を震撼させるようになりました。まだ三ヶ月もしないプロジェクッが受けた注目は、驚くべきものでした。
  • # OpenClaw は「個人の AI アシスタント」であり、NanoClaw や ZeroClaw などの一般化された用語があり、これらは「Claws」と呼ばれています。
    • シリコンバレー周辺で Mac Mini が売り切れ始めている理由は、人々が Claws を動かすために購入しているからです。Drew Breunig は私に対し、それが新しいデジタルペットだからであり、Mac Mini があなたの Claw のための完璧な水族館だとの冗談を言いました。
    • 私にとって Claws の象徴は、2004 年の映画『スパイダーマン 2』でオットー・ミナーが演じたアルフレッド・モリナ扮するドク・オックです。彼の爪は AI によって動力づけられており、抑制チップが損傷する限り安全でした。しかしその後は悪になり、世界を掌握しました。
  • # また二月には、Gemini 3.1 Pro が登場し、非常に優れたペリカンが自転車を漕いでいる姿を描かせてくれました。見てみてください!バスケットには魚まで入っています!
    • さらにその後、Google の Jeff Dean は、アニメーション化された自転車に乗りながらペリカンを走行している映像をツイートしました。他にもウサギが penny-farthing を走らせたり、キリンが小さな車に乗ったり、オストリーチがインラインスケートをしてたり、カメがスクーターに飛び乗ったり、ダックスフントがストレッチリムジン運転したりする動画も含まれていました。つまり、AI リサーチラボは実際には真剣に取り組んでいたのかもしれませんね!
  • # 過去一ヶ月間だけでも多くのことが起こりました。
    • Google は Gemma 4 シリーズのモデルを発表しました。これは米国企業から提供される最も有能なオープンウェイトモデルです。
    • また先月、中国の AI リサーチラボ GLM から、GLM-5.1 という名の 1.5 タビットの巨大なオープンウェイトモデルが登場しました。非常に効果的なモデルですが、それを動かすためのハードウェアを持っていなければ利用できません。
    • GLM-5.1 は私に、自転車に乗ったペリカンを描かせてくれました。
    • しかし、これをアニメーション化しようと試みた際、自転車が上へ跳ね飛んでしまい、自転車自体が歪んでしまいました。
    • Bluesky の Charles より、「ノースバージニア opossum(イタチのような小型哺乳類)を電動スクーターに乗せる」という提案を受け、実際にこのように作成しました。他のモデルでも試しましたが、これほど近くには到達しません。「ダークからコモンウェリスムを巡っている」は完璧です。これもまたアニメーション化されています。
  • # ここで、9 月に描かれた Claude Sonnet 4.5 のペリカンを比較のために示します。
    • これらは過去 six カ月の主なテーマです。コーディングエージェントが本当に良くなったことと、ラップトップで利用可能なモデルはフロントティアに比べてまだ弱いものの、期待を大きく上回るパフォーマンスを発揮し始めたことです。

同じ日のほかのニュース

一覧に戻る →

2026/05/17 1:49

Android スマートフォンを业余無線局トランシーバーに変えてください。

## Japanese Translation: kv4p HT は、Android スマートフォンとの統合を目的として設計されたオープンソースの VHF/UHF アマチュア無線トランスceiver です。専用バッテリーや外部充電器の必要性を排除するため、スマートフォンから電力を供給します。カスタム PCB(v2.0e)、SA818-V/U または DRA818V/U モジュール、SMA メスアンテナなどの部品の使用により構成され、SMS 風のメッセージングおよび位置情報ビーコン機能(APRS)を含む高度なデータ通信タスクをサポートします。法的に運用するためには、少なくとも技師級のアマチュア無線免許証を保有している必要があります。製品には保証がありません。フルデザインと GPL3 ライセンスの ESP32 ファームウェアは GitHub 上に公開されており、3D プリンター用ファイルも用意されているため、DIY による組み立てが可能で、モジュール/PCB のハンダ付け、接着ゲルパッドによる装着、3D プリント製ケースの取り付けを伴います。新規ユーザーは、事前に組み立て済みのベンダーキットを購入しない場合は、ソフトウェアを手動でフラッシュする必要があります。本システムは、2017 年以降の Android 8 以上のデバイスとのみ互換性があります。リアルタイムクローズドキャプション、PTT 用のハプティックフィードバック、アニメーション制御など、アクセシビリティ機能により、多様なユーザーにとって使いやすさが向上しています。

2026/05/19 13:24

コーデックス・マキシング(Codex-maxxing)

## Japanese Translation: この文は、短命なチャットセッションから、複雑な知識労働に適した耐久性のある長時間稼働型コーディングエージェントへの転換を描いています。これらのエージェントは、「compaction(コンパクト化)」という機能を用いて古いのメッセージを剪定し、コスト超過やコンテキスト制限を防ぎつつ不可欠な履歴を保持しながら、数ヶ月間自動化された動作を持続させます。ユーザーは「Chief of Staff」のようなメガスレッドをピン留めして好みを蓄積し、Command-1 から Command-9 などのショートカットを通じてワークストリームを舵取りできますが、オフキャッシュのスレッドは新規の短寿命スレッドよりも高いコストを支払う可能性があります。エージェントは Codex および Wispr Flow を通じて音声入力を受付けることができ、システム全体での口述が可能になり、タイピング単独よりも豊富なコンテキストを実現します。ユーザーはツール呼び出し後(steering)に新たな方向性を注入し、ステップが完了するのを待たずにエージェントを誘導できます。共有メモリシステムはチャット外に Obsidian クォート内にアーティファクト(AGENTS.md を含む)を保存しており、これらを検証、編集、差分表示することを可能にします;GitHub でリポジトリとしてホストされる場合、クラウドツールを通じてメモリの更新内容を確認でき、審査されていない対話の「vibes(雰囲気)」が蓄積するのを防ぎます。$slack、$gmail、$calendar、$browser、@chrome、および@computer といったコネクタは、ローカルのウェブ表面、認証済みのブラウザ状態、Twitter やデスクトップアプリなどの GUI アプリケーションなど、追加機能を提供します。Hatch Pet などのインストール可能なスキルは再利用可能なワークフローをパッケージ化し、エージェントが再教育なしでタスクを繰り返せるようにします。リモートコントロール機能により、ユーザーは作業マシン上で長時間稼働するタスクを開始し、モバイルデバイスからステップを承認することで進捗を持続させつつ管理できます。スレッドローカルハートビートは、Slack/Gmail を 30 分ごとに、フィードバックを 15 分ごとにといった再帰的なチェックをスケジュールし、ユーザーの常在なしでループを稼働させます。ゴールはエージェントに明確な仕上げラインと成功基準を与え、例えば元の単一テストを全てパスしながら Python Rich を Rust に移行する場合などに適用されます。サイドパネルはアーティファクト(Markdown、PDF、スプレッドシート)を検証し、ウェブ表面(index.html、Storybook、Slidev)を操作し、ループを壊さずに変更を確認する作業領域として機能します。

2026/05/17 12:59

インターネット上で、誰でもあなたのドアベルを鳴らすことができます。

## Japanese Translation: ## 概要: テンムに Shenzhen Ruilang Technology が Naxclow バックエンドのブランドで 12 ドルという価格で販売しているスマートドアベル X3 は、ネットワークおよびデバイスの完全な侵害を可能にする致命的なセキュリティ脆弱性を有しています。CERT/CC との連携報告は 2026 年 5 月 6 日に提出されました。Naxclow 側による内部調査を行った後、研究者たちはこれらシステム的な問題は、デバイスに OTA アップデート用パーティションが存在せず、認証情報をローテートしないことに起因すると認めています。物理的には、ボード上の露出されたデバッグヘッダーはブート時において Wi-Fi キーを平文で漏洩させるとともに、ハードコード化された署名用塩と ID フォーマットにより攻撃者がコントロールプレーンのリクエストを偽造し、事実上 Entire fleet を列挙することを可能にします。最も重要なのは、恒久的なリレーパスワードがサーバーサイドでローテートせずに保存されている点であり、これにより静かな権限移転が可能となります。さらに、暗号化されていないピア対ピアメディアおよび漏洩した長寿命アカウントトークンは、ライブなりすまし攻撃を容易にします。これらの攻撃では、ハッカーが通話中に偽のビデオを配信し、所有者の携帯電話に鳴らすように強制することが可能となります。これらの脆弱性は、フィールドユニットへのパッチ適用や通知なしでの完全な権限侵害が可能となるため、プライバシーとホームセキュリティの根本的な崩壊をもたらします。