
2025/12/21 21:57
「粗いほうがいい」
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
要約:
この記事は、旧世代のAIアートモデル(例:Midjourney v2)と新世代のNano Banana Pro(NBP)を対比し、NBPが過度に文字通りで高解像度な画像を生成する傾向がある一方、旧モデルはより想像力豊かでスタイルの多様性に富む出力を提供すると示しています。
プロンプト比較:
– 「Electron Contours」:NBPはイタリア・未来派を再現しますが色調は抑えられています;Midjourneyは明るく鮮やかな画像を提示し、純粋な未来派から逸脱しています。
– 「Kowloon Walled City」:Midjourneyは粗い印象派的ボウディン風の画像を生成します;NBPは色褪せたカラーブラインド版を作成します。
– 「Dream Garden of the Poets」:Midjourneyは感動的なペルシャ小品を創造します;NBPは文字通りに英国博物館の写真として解釈します。
– 「Sack of Merv」:Midjourneyは視覚的に豊かで歴史的不明瞭なシーンを生成します;NBPはより文字通りで不正確な描写(アラブ衣装と博物館の参照)を提供します。
– 「Lady Lovelace」:Midjourneyは印象派的ロゼッティ風ポートレートを鮮やかな緑で生成します;NBPはオークションの一般的な油絵写真を出力し、スタイルが欠けています。
– その他のプロンプト(「Cosmic Microwave Background」, 「Dream Story」) も同様に、新しいモデルが具体的すぎる画像を生成し、旧世代の出力が持つ抽象的なギャップを欠いていることを示しています。
著者は、旧モデルの不完全さ(曖昧さ・誤り・矛盾)が視聴者の想像力を誘発する一方で、NBPが「ArtStationでトレンド」「英国博物館から」などのフレーズを文字通りに解釈するとアウトプットがずれやすいと主張しています。
結果として、AIアートを「再び奇妙に」したいという欲求が高まり、より創造的な曖昧さを促す旧世代の不正確なモデルを好む傾向が強まっています。
本文
DALL‑Eがリリースされたとき、私は数週間もその衝撃から立ち直ることができませんでした。
眠りにつくたびに翌朝、全てのクォータを満たすために寝起きでワクワクし、試してみたいプロンプトの山を抱えていました。まさに魔法のようで奇跡的――新しい宇宙を発見したかのような感覚でした。そこで私は今回の記事で最高の作品をまとめました。
数日前、友人が私の古いプロンプトを Nano Banana Pro (NBP) で走らせ、新旧モデルを並べてみたところです。長年の進歩にもかかわらず、画像生成は格段に上達している一方で「芸術性」は大きく劣っていることがわかります。
Electron Contours
イタリア・フューチャリズム調の電子輪郭、油彩、1922年、ArtStationで流行中。
- 旧 Midjourney v2 が描いたもの:
- [画像]
- NBP が描いたもの:
- [画像]
確かに MJ の出力はフューチャリズムとは少し離れていますが、何かを感じさせる魅力があります。色彩は鮮やかで生き生きしています。一方 NBp はイタリア・フューチャリズムのスタイルを忠実に再現しているものの、色合いが極端に muted(抑えられ)ており dull(鈍く)なっています。
「ArtStationで流行中」というフレーズは古臭さとパフォーマンス低下を招いているのかもしれません。削除してみます:
- Meh.
The Kowloon Walled City
コウロン・ウォールドシティの路地を描いた絵、Eugène Boudin、1895年、ArtStationで流行中。
- MJ が作ったもの:
- [画像]
- それは実際に「コウロン・ウォールドシティ」を思わせませんが、粗く印象派的で曖昧かつ神秘に満ちた美しさがあります。そして確かに Eugène Boudin のスタイルを持っています。
- これと対照的に NBp が描いたもの:
- [画像]
息を呑むようです。色が非常に desaturated(彩度低下)で、まるで colorblind(色盲)のように感じます。強制的に再挑戦してみます:
- コウロン・ウォールドシティの路地を描いた絵、Eugène Boudin、1895年。粗く印象派的で曖昧かつ神秘に満ちたものにしてください。
これは少し改善されましたが、やはり drab(寂しい)で colorless(無彩色)です。機械は私を落胆させようとしているのでしょうか?
The Dream Garden of the Poets
Attar と Ferdowsi が夢の庭園で描かれたペルシャ風ミニチュア、1300年頃、British Museum 所蔵。
- Midjourney v2:
- [画像]
- 何とも見慣れない雰囲気ですが、美しく感動的です。右上の小さなスプラッシュは hoopoe(フクロウ)だと想像します。NBp の出力:
- [画像]
こちらはペルシャミニチュアに見えます。「British Museum」 は文字通りではなく、エモーショナルに解釈する意図でした。プロンプトが架空のオブジェクトを示すことで、それを具現化させるつもりだったのです。しかし NBp は「これは British Museum にあるペルシャミニチュアの写真だ」と読み取っています。
The Sack of Merv
John William Waterhouse の『Merv の焼き討ち』、1896年、British Museum 所蔵。
- Midjourney v2:
- [画像]
- Waterhouse を真似ているように見えますが、語義的には「都市の包囲」ではなく、「火葬される女性」を描いています。美しく、炎と赤いドレス、背景の芦苇、そして水面の黒さが tarnished silver(錆びた銀)や pewter(板金)のように映ります。群衆の表情――左下のミノタウロス? 花? 彼女は曲げた左腕で何を持っているのでしょうか? この 1024×1024 のフレームには無限の宇宙が詰まっています。
- 対照的に NBp が描いたもの:
- [画像]
言い訳はありません。Waterhouse を再現できていません。馬乗りたちはアラブまたは中央アジア風装束を着ていますが、Merv は 1221 年にモンゴル帝国によって包囲されました。また「British Museum」 の行は同様に文字通り解釈されています。
Lady Lovelace
Ada Lovelace を Dante Gabriel Rossetti が描いた肖像画、1859年、Christie’s によるオークション。
- Midjourney:
- [画像]
- 美しく、粗く印象派的な筆致は文字通りよりもエモーショナルに訴えます。実際に Rossetti が描いた女性のようです。緑色がとても美しいです。パレットは狭いですが、絵画全体が素晴らしい。
- NBp の出力:
- [画像]
- 完全なる philistinism(庸俗主義)。「Christie’s によるオークション」はエモーショナルに解釈する意図でした:「これはオークションで売れるような絵画だ」と。NBp はそれを「オークションハウスの中の絵画写真」と捉えています。まあ、欲しかったものが手に入ったということもあります。
- しかし女性は Rossetti のスタイルとまったく合いません! 2022 年のモデルでこれを正しく描けるのか? SOTA(最先端)画像生成モデルが一般的な油彩のような汚れた作品しか提供できないのは馬鹿げています。
The Cosmic Microwave Background
ペルシャミニチュアで描かれた宇宙マイクロ波背景、ヘラート 1600 年代頃、ArtStationで流行中。
- Midjourney v2:
- [画像]
- NBp:
- [画像]
またもや…何とも言えません。
Dream Story
Dream Story、1961年、ぼんやりした白黒写真、黄色みがかったトーン、Metropolitan Museum of Art 所蔵。
これは私のお気に入りの DALL‑E 2 出力の一つです:
- [画像]
The King in Yellow を思わせます。真に creepy(不気味)でミステリアスなため好きです。このような作品からは数百のホラー物語を引き出せるでしょう。
NBp の結果は信じられません:
- [画像]
結論
ここで何をしているのでしょうか? 旧モデルは不完全さ、曖昧さ、ミス、矛盾があることで、観客の想像力に自由な余地を与えていました。画像は一つの固定された静止物ではなく、無限に多くの解釈が可能です。
新しいモデル――実際に必要かどうかも疑問ですが――それほど精密で高解像度なので、抽象的で多面的な作品を作れません。具体的で具体化されたものしか描けないのです。
AI アートを再び「変わった」ものにする必要があります。