私のラップトップで動作させた Qwen3.6-35B-A3B が、Claude Opus 4.7 よりも優れたペリカンを描いてくれました。

2026/04/17 2:37

私のラップトップで動作させた Qwen3.6-35B-A3B が、Claude Opus 4.7 よりも優れたペリカンを描いてくれました。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

2026 年 4 月 16 日、ペリカンが自転車に乗っている SVG を生成する際の Qwen3.6-35B-A3B と Claude Opus 4.7 の比較ベンチマークで驚くべき結果が得られた。Unsloth を用いて標準の M5 MacBook Pro(LM Studio を介して)で量子化された Qwen モデル(Qwen3.6-35B-A3B-UD-Q4_K_S.gguf、約 20.9GB)を実行したところ、Anthropic が独自開発する Opus 4.7 の性能を上回った。Opus は思考機能の進化したモードであっても自転車フレームの描画に苦労したが、Qwen はその点で問題なく成功した。無関係な別の秘密ベンチマーク(単車に乗るフラミンゴの SVG を生成)においても、SVG 出力の中に

<!-- Sunglasses on flamingo! -->
という正確なコメントを含めるなどの理由から、Qwen は部分的に好ましい結果を達成した。全般的な指標において Qwen のパフォーマンスはわずかに劣っており、著者は各ラボがこれらのベンチマークのために特別にトレーニングを行っているとは考えていないものの、その結果は 2024 年末以降、高品質なペリカンイラストと主要モデルとの間の歴史的な相関関係が崩壊したことを示唆している。したがって、こうした特定のニッチ SVG タスクを必要とするユーザーは、高価な専用サーバーを迂回し、ローカルで実行可能なより小さいオープンソースの代替ソリューションを用いて優れた結果を得ることができ、つまりニッチタスクは一般的なパフォーマンスランキングには従わない場合があることが示されている。

本文

2026 年 4 月 16 日

これまで、私の「トビネコが自転車を漕ぐ」ベンチマークを、モデル評価の堅牢な指標として過信していただいていた方々(誠に恐縮ながら、そのような利用法は当初想定されていませんでした)へ。本日公開された两大モデルリリースから、それぞれに生成されたトビネコの画像を示します:アリババの Qwen3.6-35B-A3B と、アンソロピックの Claude Opus 4.7 です。

まず、Unsloth を用いて量子化された 20.9GB の「Qwen3.6-35B-A3B-UD-Q4_K_S.gguf」モデル(MacBook Pro M5 上で LM Studio および llm-lmstudio プラグインを介して実行)により生成された Qwen 3.6 のトビネコです。以下はその文字起こしです:

次に、アンソロピックの新規リリースである Claude Opus 4.7 から得られたトビネコ(文字起こし付き)もご紹介します:

結果から見て、私としては Qwen 3.6 の方を高く評価します。Opus はなんと自転車フレームを破損させてしまいました!
二度目に Opus を試行した際、「thinking_level: max」を指定しましたが、劇的な改善は見られませんでした(文字起こし付き):

なお、Qwen が不正行為をおこなっているとは考えません。
多くの皆様が、研究機関が私の「くだらないベンチマーク」のために特別トレーニングをしていると確信されているのは承知しています。実際にはそうではないのですが、正直なところ今回の結果は僅かな疑念を抱かせました。そこで、私が持っていた非公開のバックアップテストの一つを実行し、"Generate an SVG of a flamingo riding a unicycle(単輪でパチュリカが乗っている SVG を生成せよ)"という課題に対して、Qwen3.6-35B-A3B と Opus 4.7 の出力を比較しました:

この件でも再び Qwen 3.6 が優れています。その理由の一つは、SVG コメントに「(パチュリカにサングラス!))」という優れた表現が含まれていた点にあります。

これらの結果から何を学べるでしょうか?
そもそも、「トビネコベンチマーク」は冗談として設定されました。主に、モデル同士を比較するこの作業がいかに非合理で不自然なものであるかを指し示すものなのです。
しかし、この冗談の奇妙な点は、過去に生成されたトビネコの質と、モデル全体の有用性には強い相関関係があったことです。2024 年 10 月に出た最初のトビネコはすべて劣悪なものばかりでした。一方、その後進出してきた作品들은はるかに高品質で、特に Gemini 3.1 Pro では、実際にパチュリカが自転車を漕ぐイラストが必要な場面で使用できるレベルの絵を生成できるようになりました。
さて、今日に至ってはいよいよ、こうした「実用性との緩い結びつき」さえも崩れ去りました。私は Qwen に対する大きな敬意を抱いておりますが、現時点では、21GB の量子化バージョンに過ぎない最新の Qwen モデルが、アンソロピックの最新プロプライエタリリリース(Opus)よりも強力、あるいは有用であるとは極めて疑わしく思われます。
ただし、もしあなたが「トビネコが自転車を漕ぐ SVG イラスト」を必要としているなら、現時点ではノートパソコン上で動作する Qwen3.6-35B-A3B が、Claude Opus 4.7 よりも優れた選択肢であると言えるでしょう!

同じ日のほかのニュース

一覧に戻る →

2026/04/16 23:23

Claude オプス 4.7

## Japanese Translation: Claude Opus 4.7 は、すべての Claude プラットフォーム、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry において大幅な向上と一般利用を開始しました。先進的なソフトウェア工学における主要な飛躍として、長期的自律性と自己検証機能が強化された Opus 4.6 を引き継ぎます。モデルのビジョン能力も著しく向上し、最大約 375 万画素(従来の 3 倍以上)までの画像に対応します。料金は Opus 4.6 と同一の、入力トークン当たり 5 ドル、出力トークン当たり 25 ドルで維持され、より微細なトレードオフ制御を可能にする新たな"xhigh"レベルが導入されました。内部評価では、93 タスクからなるベンチマークにおけるコーディング精度が 13% 向上し、4 つの以前は解決不能だったタスクを完遂することを実現するなど大きな進歩が見られます。また、「General Finance」モジュールでは、Opus 4.6 の 0.767 に対し 0.813 という大幅な金融分析能力の進歩、CursorBench(明確回答率 70%)や Complex Multi-step Workflows(+14%)といったベンチマークでも著しい向上を記録。さらに Rakuten-SWE-Bench 上の本番タスク解決数は 3 倍に増加し、コード品質でも二位桁の改善が実現しました。これらの進展は、Devin などのような環境での長期的自律性を可能にし、Replit においては同等かそれ以下のコストで高性能な実行を達成します。新機能としては、「task budgets」ベータ版およびバグレビュー専用の `/ultrareview` スラッシュコマンドが含まれます。本リリースは「Project Glasswing」の一貫した慎重な安全アプローチと整合しており、自動的な防護機構により高リスクのサイバーセキュリティ用途をブロックすると同時に、正当な研究者に新しい Cyber Verification プログラムへの参加を呼びかけています。結論として、Opus 4.7 は金融分析や工学など重要分野における一貫性の新基準を設定し、次世代 AI ツールの採用準備が整った企業向けに、強化されたパフォーマンスと戦略的リソース管理を提供します。

2026/04/17 2:12

ほぼすべてのことに適用可能なコードックス。

## Japanese Translation: OpenAI は、Codex アプリに対する主要なアップデートを導入し、それを受動的アシスタントからユーザーのコンピュータを直接操作する能動的で自律的なエージェントへと変革します。macOS 上の高度なバックグラウンド機能(カーソル制御[見る、クリック、打つ]とマルチエージェント並列処理)を活用し、Codex はプルリクエストのレビュー、SSH を介したリモート環境の管理、PDF やスプレッドシートなどのリッチなファイルプレビューを開くことができます。アプリ内に統合されたブラウザを通じて、ユーザーは Web ページ上に直接コメントを付けることで正確な指示を提供できます。新しいシステムには、個人のコンテキストと好みを記憶するためのメモリレイヤーが追加され、90 以上のプラグインにより GitHub、GitLab、Atlassian、CircleCI、CodeRabbit などの外部ツールとの接続が可能になります。Codex は désormais、来週の日数や週間を跨いで作業をスケジューリングし、自律的に目覚めることで長期タスクをサポートします。また、Google Docs、Slack、Notion、コードベース内のオープンなコメントに基づき、能動的にアクションを提案します。さらに、このアップデートには gpt-image-1.5 が統合され、製品コンセプト、フロントエンドデザイン、マockアップ、ゲームなどの同じワークフロー内で画像の生成と反復を行うことができます。今日、ChatGPT にサインインしたデスクトップユーザー向けにロールアウトされており、これらの機能は間もなく Enterprise、Edu、EU、UK アカウントにも拡大されます。

2026/04/17 6:56

グイが、デュオテープ、古いカメラ、およびCNCマシンを組み合わせて、AIを駆使したハードウェアハッカー用の腕を作成しました。

## Japanese Translation: **改善されたサマリー:** 本テキストの主なメッセージは、電子機器に対する安全なピンプローブを可能化することを目的としたソースアベイラブルなハードウェアハッキング自動化スタックである「AutoProber」の導入です。標準的なツールが盲目的に進む可能性に対して、AutoProber は CNC モーション制御、光学顕微鏡、リアルタイムオシロスコープ監視を「安全第一」というアーキテクチャに統合します。本システムはプロジェクトを読み込み、ハードウェアと接続し、軸をキャリブレーションし、エージェントまたはダッシュボードを使用してターゲットを検出およびアノテーション済みマップをステッチします。特に重要なのは、安全が独立したチャンネル(オシロスコープ チャンネル 4)によって執行されており、電圧を連続的に監視することであり、あらゆる曖昧さ、アラート、またはトリガーが発生した場合に自動回復なく即座に停止し、作業者の介入を必須としている点です。 GRBL 互換 CNC ミル(例:SainSmart Genmitsu)、USB 顕微鏡、および Siglent オシロスコープを基盤とし、本スタックは現在、特定の安全制約付きで制限リリースカンドイドとして存在しています:コントロールダッシュボードが信頼できないネットワークに露出させてはならないこと、および商用ライセンス発行にはメールでの申請が必要であることが含まれます。本プロジェクトは、複雑なプローブ作業中の機器破損や人身傷害を防ぐために、ダッシュボード上でのプローブターゲット承認などの作業者による専用の監督を強調しており、ハードウェアハッキングにおける標準的な自動化ワークフローの前提を根本的に変化させます。