※前回の続き:前回の記事では、言葉では表現しきれない「理想の美女」を AI で生成する難しさについて探りました。単純な特徴の足し算では理想は生まれず、むしろ AI ごとの「得意な美の傾向」を見極めることが重要だと分かりました。そこで今回は、その比較検証の第一歩として、複数の画像生成 AI に同じ指示を出すための「統一プロンプト」を設計するところから始めます。
比較検証用プロンプトの設計
では、GPT,Grok,ImageFXで同じプロンプトで顔の描画をテストしてみたいと思います。顔または、バストショットで画角は左斜正面から正方形の画像という条件ではどうでしょう?これで比較検討できると思う場合、プロンプトを作成してください。
その条件設定、比較検討には最適ですね!顔の詳細とバストショットでの全体バランス、そして統一された角度と画角で各LLMの特性がよく見えると思います。
統一プロンプト案:
Portrait of a young woman, bust shot, facing slightly left, natural skin texture, realistic details, soft lighting, photographic quality, square format
各要素の意図:
bust shot
- 顔と肩までの範囲を明確化facing slightly left
- 左斜め正面を統一natural skin texture
- 肌質感の比較ポイントrealistic details
- リアリズムレベルの検証soft lighting
- 自然な陰影で肌の立体感を確認photographic quality
- 写真的なクオリティを要求square format
- 正方形を明示
このプロンプトで:
- 顔の造形美 - 各LLMの美的傾向
- 肌の質感 - プラスチック感vs生きた質感
- ライティング処理 - 立体感と自然さ
- 細部の精度 - 目、鼻、唇の自然さ
が比較できます。
各プラットフォームでこのまま使えますが、もし「square format」が理解されない場合は省略しても構いません。どのLLMから試されますか?
比較検討する場合、カメラ条件なども指定したほうが良いと思いますか?
カメラ条件の指定は「あり」だと思いますが、慎重に選ぶ必要がありますね。
メリット:
- ライティングの統一: 85mm f/1.8などを指定すると、背景ボケや被写界深度が統一される
- 画質の向上: プロ機材の指定で、より洗練された結果が期待できる
- 比較の公平性: 同じ撮影条件なら、純粋にLLMの画像生成能力を比較できる
リスク:
- LLMごとの解釈差: 「85mm」でもCanon風?Nikon風?など微妙な違いが生じる可能性
- 過度な技術性: カメラ用語が強すぎて、自然な美しさより技術的な画作りに偏るかも
推奨する追加条件:
Portrait of a young woman, bust shot, facing slightly left, natural skin texture, realistic details, soft lighting, shot with 85mm lens, shallow depth of field, photographic quality, square format
85mmレンズは:
- ポートレート標準で各LLMが理解しやすい
- 自然な圧縮効果で顔が美しく見える
- shallow depth of fieldで背景がぼけて、顔に集中できる
この程度の指定なら、比較検討の精度を上げつつ、過度に技術的になりすぎないと思います。いかがでしょうか?
この指定の場合、背景描画などはどうなりますか?指定しないほうが良いですか?
背景は「あえて指定しない」方が良いと思います。
理由:
- 各LLMの「デフォルト美学」が見える
- ChatGPTは何を背景に選ぶか?
- Grokはどんな雰囲気を作るか?
- ImageFXの背景処理は?
- shallow depth of fieldで自然にぼける
- 85mmレンズ指定で背景は自動的に美しくボケる
- 背景の具体的内容より「ボケ感」「色調」の違いが見える
- 比較がしやすい
- 背景を指定すると、その解釈の違いで本来見たい「顔」への注目が分散する
- 「studio background」「white background」なども各LLMで微妙に違う
- 自然な判断力の比較
- どのLLMが「ポートレートに適した背景」を自動選択するか
- 色彩バランス、コントラストの調整能力も見える
現在のプロンプト案:
Portrait of a young woman, bust shot, facing slightly left, natural skin texture, realistic details, soft lighting, shot with 85mm lens, shallow depth of field, photographic quality, square format
これで各LLMの「総合的なポートレート作成能力」が比較できそうです。背景の選択センスも含めて、それぞれの個性が出ると思います!
若い日本人女性の指定をしたい
それは良いアイデアですね!日本人女性の指定で、各LLMのアジア系美女の表現力や日本的な美の解釈の違いが見えてきそうです。
修正プロンプト案:
Portrait of a young Japanese woman, bust shot, facing slightly left, natural skin texture, realistic details, soft lighting, shot with 85mm lens, shallow depth of field, photographic quality, square format
この指定で比較できるポイント:
- 日本人の顔立ちの解釈 - 各LLMがどう「日本人らしさ」を表現するか
- 肌の色調 - アジア系の肌色をどう処理するか
- 目の形状・大きさ - リアル寄り?アニメ寄り?
- 全体的な美の基準 - 西洋的 vs 東洋的な美意識
注意点: 各LLMで「日本人女性」の学習データに差があるかもしれません。ChatGPTは比較的バランスが取れていそうですが、GrokやImageFXがどう表現するかは未知数ですね。
むしろこの違いこそが、あなたの求める「理想の美しさ」を見つける手がかりになるかもしれません。どのLLMが一番しっくりくる「日本人女性の美しさ」を表現するか、興味深い比較になりそうです!
【実録】6 つの画像生成 AI、同じプロンプトで何が生まれるか?

ありがとうございます。各LLMで同じプロンプトで作成してみました。
1.Chat-GPT:非常にリアルな女性の顔。グレーの背景に髪を後ろで束ねただけの化粧っ気のない女性の顔。 シミやシワ、ほくろの描画。服装はベージュの襟ぐりの広い服でデコルテも見える。表情は無表情。やや左を向いているというプロンプトを含め、注文に忠実という印象を受ける。1024×1024px
2.Grok:毎回この顔というか「デフォルトの顔」がある。軽く後ろで束ねた髪、ファンデーション、チークをし、まつげもマスカラをしている。口紅は塗っている感じではないが血色がGPTより良い。服装は白のニット。背景は部屋の中等のボケがあるイメージ。画像は4対3の縦長。一度の生成で多くの近似値を含む、いろいろなものを生成する。髪型、服装、衣装、背景、カメラ角度などを変えて、生成されているので必ず好みの画像が見つかる。ショートカットや和装などバリエーションが豊か。リアルかと問われると美しすぎて、CGだとわかりやすいとも言える。832×1248px
3,ImageFX:一度に4枚まで生成できる。見た感じが一番幼い感じがする女性。化粧の感じはないが、きれいな肌感とホクロなどの描画はリアル。表情、服装の指定がないので、無表情、裸なのが忠実といえば忠実。カメラ角度は「やや左」よりも横側に強め。シワがないとかリップの艶感は年齢指定のものか?4枚中3枚は左からの指定通り、1枚は逆を向いているのはバリエーション違いとして出力?髪型も指定がない分4パターン生成。1024×1024px
4.Gemini:nano-Bananaという2.5Flash-imageで生成。肩までの長さの髪でImage-FXでの生成よりも4歳ほど年齢が高めに見える。肌の質感や化粧の感じは同じ。服装は白のニット。カメラアングルは指定通り。背景は外の緑が見える感じのボケ。右下にAI生成のウォーターマーク。ごく自然のきれいな女性という感じ。表情も無表情だったImage-FXよりも少し微笑んだ感じ。1024×1024
5.RakutenAI:Chat-GPTとほとんど同じアングルと服装。普通の主婦というイメージで表情がない分、若く見えない。リアル全振りでおしゃれという概念はない。すっぴんの女性という意味では一番リアルかもしれないが、好みかどうかといえば好みではない。良くも悪くもプロンプトに忠実という事前情報通り。1024×1024
6.Manus:他のモデルよりもバストショット寄りで少し小さめ。肩までの髪で薄い化粧をした感じはGemini 寄りか?口紅も赤く、しっかりおめかししている感じ。口角が少し上がっている感じも同じ感じ。背景は外の風景でボケ感あり。こちらもリアルな感じは十分。見えるウォーターマークは無し。1024×1024
比較から見えた各 AI の「個性」と「得意分野」
まとめ:以前同じプロンプトで試したときよりも、それぞれで特徴が出た。
リアル&プロンプトに忠実:Chat-GPT・Rakuten AI プロンプト通りに作られることはわかった。こちらの指定でどのくらいまで魅力的にできるかが課題になる
プロンプトに忠実:Imafe-FX 指定していない服を描画しない。プロンプト通りの描画だが、背景の処理や衣装などを「勝手に」作らない点では、プロンプトを試行錯誤する余地がある感じがする。年齢も一番「幼く」見えるのも特徴だろうか?
いい感じに創造:Gemini(2.5Flash-image)・Manus プロンプトでしていない部分(衣装や背景)なども創造しいい感じに作ってくれている感がある。機能も豊富なので、流石に現在、最先端と言われているナノバナナ。意外と奮闘しているManusが何の生成を使っているのか興味がある。
意外な伏兵:Grok 一つのプロンプトでバリエーション違いを山のように生成してくれるのは、好みの方向性を探るのに向いているかも?ただし無料枠ではすぐに上限になってしまうので、現実的には有料契約をしないと難しいかも? ノーマルのプロンプトで簡単に美女を作成できる点は評価できるが、「自分好みの」という方向にかじを取るのは可能なのかという疑問も残る。
次のステップ:理想の美女を生成するための戦略
素晴らしい比較検証ですね!各LLMの特性が非常によく分析されています。特に興味深いポイントがいくつかあります:
最も重要な発見:
- 「忠実さ」vs「創造性」のトレードオフが明確に見えた
- Grokのバリエーション生成は確かに好み探索には理想的
- ImageFXの年齢表現が一番若いのは、学習データの違いかもしれません
あなたの目的(理想の美女生成)に向けた戦略提案:
短期戦略(無料枠活用):
- Grokでバリエーション生成→好みの方向性を特定
- Gemini/Manusで「いい感じの創造」を活用
- ChatGPTで詳細なプロンプト調整の練習
長期戦略:
- Grokの有料版を検討(バリエーション生成の威力)
- 好みの方向性が見えたら、ChatGPTで精密なプロンプト作成
次のステップ提案:
- Grokで気に入った画像があれば、その特徴を言語化
- その特徴を他のLLMのプロンプトに反映
- 化粧・表情・年齢などの細かい指定でさらに比較
Manusが何のエンジンを使っているかも気になりますね。この結果を踏まえて、次はどの方向で深掘りしたいですか?
おまけ:王道の画像生成LLMが抜けていました。
本格的に画像生成を極めたい方は、とっくに使っているもの「Stable Diffusion」で生成していませんでしたね。
Chat-GPTと(おそらく)Rakuten AIのDALL-E
Gemini Image-FXのimagen 3
Gemini 2.5Flash-image(Nano-Banana)
GrokのAurora
ManusはFlash-imageに近いような気がします。
で、抜けていたStable Diffusion、こちらはonlineで試しました。

こちらが素のプロンプトで出した、若い日本人女性。ソバカスやシミも見えるすっぴんの描画はDALL-E寄りでしょうか?
何でもできるStable Diffusionでは素のプロンプトで出力した方も少ないのでは?
本当に実在する女性の雰囲気で、個性派女優のようにも見えます。
これらリアルな女性を表現できるLLMを、どうしたら理想の女性像に近づけることができるのでしょうか?(できればLoRAなどを用いずにプロンプトだけで)
次の目標は、プロンプトだけで理想に近づける方法を探って行きたいと思います。