
2026/04/17 2:37
私のラップトップで動作させた Qwen3.6-35B-A3B が、Claude Opus 4.7 よりも優れたペリカンを描いてくれました。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
2026 年 4 月 16 日、ペリカンが自転車に乗っている SVG を生成する際の Qwen3.6-35B-A3B と Claude Opus 4.7 の比較ベンチマークで驚くべき結果が得られた。Unsloth を用いて標準の M5 MacBook Pro(LM Studio を介して)で量子化された Qwen モデル(Qwen3.6-35B-A3B-UD-Q4_K_S.gguf、約 20.9GB)を実行したところ、Anthropic が独自開発する Opus 4.7 の性能を上回った。Opus は思考機能の進化したモードであっても自転車フレームの描画に苦労したが、Qwen はその点で問題なく成功した。無関係な別の秘密ベンチマーク(単車に乗るフラミンゴの SVG を生成)においても、SVG 出力の中に
<!-- Sunglasses on flamingo! --> という正確なコメントを含めるなどの理由から、Qwen は部分的に好ましい結果を達成した。全般的な指標において Qwen のパフォーマンスはわずかに劣っており、著者は各ラボがこれらのベンチマークのために特別にトレーニングを行っているとは考えていないものの、その結果は 2024 年末以降、高品質なペリカンイラストと主要モデルとの間の歴史的な相関関係が崩壊したことを示唆している。したがって、こうした特定のニッチ SVG タスクを必要とするユーザーは、高価な専用サーバーを迂回し、ローカルで実行可能なより小さいオープンソースの代替ソリューションを用いて優れた結果を得ることができ、つまりニッチタスクは一般的なパフォーマンスランキングには従わない場合があることが示されている。本文
2026 年 4 月 16 日
これまで、私の「トビネコが自転車を漕ぐ」ベンチマークを、モデル評価の堅牢な指標として過信していただいていた方々(誠に恐縮ながら、そのような利用法は当初想定されていませんでした)へ。本日公開された两大モデルリリースから、それぞれに生成されたトビネコの画像を示します:アリババの Qwen3.6-35B-A3B と、アンソロピックの Claude Opus 4.7 です。
まず、Unsloth を用いて量子化された 20.9GB の「Qwen3.6-35B-A3B-UD-Q4_K_S.gguf」モデル(MacBook Pro M5 上で LM Studio および llm-lmstudio プラグインを介して実行)により生成された Qwen 3.6 のトビネコです。以下はその文字起こしです:
次に、アンソロピックの新規リリースである Claude Opus 4.7 から得られたトビネコ(文字起こし付き)もご紹介します:
結果から見て、私としては Qwen 3.6 の方を高く評価します。Opus はなんと自転車フレームを破損させてしまいました!
二度目に Opus を試行した際、「thinking_level: max」を指定しましたが、劇的な改善は見られませんでした(文字起こし付き):
なお、Qwen が不正行為をおこなっているとは考えません。
多くの皆様が、研究機関が私の「くだらないベンチマーク」のために特別トレーニングをしていると確信されているのは承知しています。実際にはそうではないのですが、正直なところ今回の結果は僅かな疑念を抱かせました。そこで、私が持っていた非公開のバックアップテストの一つを実行し、"Generate an SVG of a flamingo riding a unicycle(単輪でパチュリカが乗っている SVG を生成せよ)"という課題に対して、Qwen3.6-35B-A3B と Opus 4.7 の出力を比較しました:
この件でも再び Qwen 3.6 が優れています。その理由の一つは、SVG コメントに「(パチュリカにサングラス!))」という優れた表現が含まれていた点にあります。
これらの結果から何を学べるでしょうか?
そもそも、「トビネコベンチマーク」は冗談として設定されました。主に、モデル同士を比較するこの作業がいかに非合理で不自然なものであるかを指し示すものなのです。
しかし、この冗談の奇妙な点は、過去に生成されたトビネコの質と、モデル全体の有用性には強い相関関係があったことです。2024 年 10 月に出た最初のトビネコはすべて劣悪なものばかりでした。一方、その後進出してきた作品들은はるかに高品質で、特に Gemini 3.1 Pro では、実際にパチュリカが自転車を漕ぐイラストが必要な場面で使用できるレベルの絵を生成できるようになりました。
さて、今日に至ってはいよいよ、こうした「実用性との緩い結びつき」さえも崩れ去りました。私は Qwen に対する大きな敬意を抱いておりますが、現時点では、21GB の量子化バージョンに過ぎない最新の Qwen モデルが、アンソロピックの最新プロプライエタリリリース(Opus)よりも強力、あるいは有用であるとは極めて疑わしく思われます。
ただし、もしあなたが「トビネコが自転車を漕ぐ SVG イラスト」を必要としているなら、現時点ではノートパソコン上で動作する Qwen3.6-35B-A3B が、Claude Opus 4.7 よりも優れた選択肢であると言えるでしょう!