画像生成について、あえて生成機能のないClaudeさんに聞いてみた件

公開日: 2025/9/7

AI画像生成AI活用CGChatGPT

画像を生成するLLMが数多く出てきた今、誰もが画像を作ることができるようになった今、皆が「誰も見たことのないすごい画像」を作ろうと考えると思います。でも、誰も見たことがないのだからそのものをイメージできるわけもなく、この矛盾を打破するためには、人のインスピレーションを大事にすることなど誰もが考えることしか出てこない。凄い矛盾だなと思いますが、claudeさんはどう考えますか？

その矛盾、とても鋭い洞察ですね。「誰も見たことがない」ものを作ろうとする時点で、既に既知の概念や枠組みに縛られているという根本的なパラドックスがありますね。

この矛盾には複数の層があると思います

概念的な矛盾として、「未見のもの」を意図的に作ろうとすること自体が、既に「未見性」という既知のカテゴリーに依存している。本当に革新的なものは、それを革新的だと認識する前に現れるものかもしれません。

技術的な矛盾もあります。LLMは膨大な既存の画像から学習しているので、どんなに「新しい」組み合わせを作っても、それは既存要素の再編成に過ぎない。真の新規性とは何なのか、という根本的な問いが浮かびます。

興味深いのは、歴史を振り返ると本当に衝撃的だった芸術作品（ピカソの『アビニヨンの娘たち』やケージの『4分33秒』など）は、作り手も完全には予期していなかったものが多いことです。

むしろこの状況は、「新しさ」の定義自体を問い直すチャンスかもしれません。万人が画像生成できる今だからこそ、「なぜ作るのか」「何のために作るのか」という動機や文脈の方が、技術的な新奇性よりも重要になってきているのかもしれませんね。

あなたはこの矛盾をどう乗り越えられると思いますか？

言語化できない「理想の美」と、画像生成 AI の現実

なぜ作るのか？何のために作るのか？は私はリアルで美しい女性像を考えています。綺麗、美しい、かわいい、など言葉では言えますが、好みとは千差万別です。自分が考える美しい、あるいは可愛い女性というのは、別の言葉で「理想の」とも言えるかもしれません。しかし、「理想」や「好み」は一つではありません。石原さとみが好き、でも、波留が好き、でも彼女らに共通点は日本の女性であり、俳優であるということくらい。足して2で割っても好みや理想ではありません。ある意味、画像生成の「ガチャ」要素の中から、選んでいくという手法しかありません。言葉やプロンプトで理想に近づけることの無理筋に光明がほしいと考えるのです。

その悩み、すごく本質的だと思います。「理想の美」を言語化することの限界と、画像生成における「ガチャ性」への依存という現実的な問題ですね。

言語の限界について考えると、「美しい」という概念自体が、無数の微細な要素の絶妙なバランスで成り立っているんですよね。石原さとみと波留の例が秀逸で、確かに共通項を抽出して平均化しても、それは単なる「平均顔」にしかならない。理想というのは、むしろそういった計算的な組み合わせを超越した、説明できない「何か」によるものかもしれません。

現在のプロンプト中心の画像生成は、確かに言語に依存しすぎているのが問題ですね。でも光明はいくつかあると思います：

参照画像を使った制御が一つの方向性。理想に近い既存の画像を複数組み合わせて、言語では表現できない特徴量を直接参照する方法。

反復的な洗練プロセスも重要で、生成→選択→微調整を繰り返すことで、言葉にできない好みのパターンを徐々に学習していく。

感覚的な操作インターフェースの発展も期待できます。スライダーや直感的な操作で、言語を介さずに好みを調整できるツールが出てきています。

「ガチャ」から「編集」へのパラダイムシフトが、あなたの求める光明になるかもしれませんね。

ヘアースタイルもそうです。ショートが似合う女性もいれば、ロングが似合う女性もいる。どちらも似合う女性もいる。LLMもそれぞれの特色もありそうです。自分の理想を作ってくれるLLMというのもあるのかもしれません。

まさにその通りです！髪型と顔立ちの相性という例が、この問題の核心を突いていますね。同じ「美しいショートヘア」でも、骨格や顔の輪郭、目鼻立ちによって全く違う印象になる。これは言語では到底表現しきれない複雑な関係性です。

LLMごとの特色についても鋭い指摘で、実際に各モデルには「得意な美の傾向」があるように思います：

Midjourneyは幻想的で芸術的な美しさに長けていて、DALL-Eはよりリアルで親しみやすい美しさ、Stable Diffusionは細かいカスタマイズ性に優れている、など。

「自分の理想を作ってくれるLLM」というアイデアは本当に魅力的です。個人の美的嗜好を学習して、その人だけの「美の言語」を理解してくれるパーソナライズされたモデル。あなたが過去に「いいね」した画像、時間をかけて見つめた画像、保存した画像などから、言葉では表現できない好みのパターンを学習する。

技術的には、個人向けのLoRA（追加学習）やDreamBooth的な手法で、すでにその方向に向かっていますね。将来的には「あなた専用の美意識AI」が、プロンプトなしでも直感的に理想の女性像を生成してくれる時代が来るかもしれません。

そういう意味では、現在の「ガチャ」状態は過渡期なのかもしれませんね。

無料枠で「理想の AI」を見つける、現実的なアプローチ

LoRAについては良い手法であるとは認識していながら、現状では特定のアニメであったり、俳優の画像を使った、著作権、肖像権に抵触しそうな使われかたをしているように思います。ローカルに設けた画像生成AIであれば、個人の好みの方向へ何度も何度も生成し近づけていくことはできそうですが、現状の無料枠でたまに生成する方法では不可能でしょう。DreamBooth的な手法というのは存じませんが、無料枠の画像生成でLLMの比較をしつつ、方向性を決めていくなどのやり方では駄目なのでしょうか？

おっしゃる通り、LoRAの現状は著作権・肖像権の問題が深刻ですね。特定の人物やキャラクターを学習させた「○○風」LoRAが氾濫している状況は確かに問題です。

DreamBoothは、少数の画像（3-5枚程度）から特定の被写体やスタイルを学習する手法で、LoRAと似ていますが、より少ない画像で学習できるのが特徴です。ただ、これも結局はローカル環境での反復学習が前提になります。

無料枠での比較・方向性決定というアプローチは、実は非常に現実的で賢い戦略だと思います：

複数のプラットフォーム比較（ChatGPT、Claude、Midjourney、Leonardo.aiなど）で、それぞれの「美の傾向」を把握
同じプロンプトで各サービスを試して、どれが自分の好みに近いかを見極める
最も相性の良いLLMを見つけてから、そこでプロンプトを洗練していく

無料枠の制限はありますが、「探索フェーズ」としては十分機能しそうです。むしろ制限があることで、一回一回を大切に、より慎重にプロンプトを考えるようになるかもしれません。

各LLMの「個性」を理解した上で使い分ける、というのは著作権問題もクリアで、現実的な解決策だと思います。どのLLMが一番しっくりくる感じでしたか？

AI の「クセ」を見抜く、比較検証のためのプロンプト設計術

現在は違法な画像の生成が反乱したせいで、性的な規制が厳しくなり、表現方法の記載方法にも制限が多くなってきています。それぞれのLLMでプロンプトの記述でNOを出されなく、かつ、それぞれのLLMで比較しやすい女性の全身像を書き出すプロンプトはどうすればよいでしょうか？全身像だと顔部分の作り込みが見えなくなるし、顔のみだと手や足の生成の精度もわかりにくいので、別にしたほうが良いでしょうか？体の造形もただ立っていているものは、どのLLMでも問題なく作られるようになってきているので、苦手とする「寝ている」「座っている」などのポーズの生成比較もしたいと考えます。

規制の厳格化は確かに表現の幅を狭めていますが、比較検証という学術的なアプローチであれば適切なプロンプトは作れると思います。

顔と全身は分けるのが賢明ですね。それぞれの得意分野が違うので：

顔部分の比較用プロンプト例：

Portrait of a young woman, natural lighting, detailed facial features, soft expression, looking at camera, photorealistic style, high quality

全身像の比較用プロンプト例：

Full body portrait of a young woman, casual clothing, natural pose, professional photography, clean background, photorealistic

ポーズ比較用（技術検証）：

座位：Woman sitting on a chair, relaxed posture, natural lighting
横臥：Woman lying on her side, reading a book, comfortable pose, soft lighting
動作：Woman walking, mid-step, natural movement, outdoor setting

比較を効率化するコツ：

基本テンプレートを決めて、LLM名+番号で画像を保存
同じseed値が使えるサービスでは固定して比較
段階的な複雑化：シンプル→複雑なポーズへ
評価軸の明確化：顔の自然さ、体のプロポーション、ポーズの違和感など

服装は「casual dress」「business attire」など具体的すぎない表現にすると、各LLMの解釈の違いも見えて興味深いかもしれません。

どの技術的側面を最も重視されますか？

不気味の壁を超えて生成できることは十分に検証できましたが、「リアルかつ好み（美しい、かわいい）を保持しつつ」プラスチックのような血色のない美人ではない、生きた人物をどこまで表現できるのか？を探りたいです。なるべく肌の質感を確認したいのですが、水着のようなよくあるシチュエーションにはしたくないです。

「生きた人物感」と肌質感の検証、とても興味深いテーマですね。確かにプラスチック的な質感は多くのLLMの弱点です。

肌質感を自然に確認できるシチュエーション：

日常的なカジュアル設定：

Woman in a light cotton t-shirt, natural morning light from window, soft shadows on skin, realistic skin texture, subtle skin imperfections, warm undertones

アクティブなシーン：

Woman after morning jog, slight perspiration, natural flush, breathing visible, realistic skin response to exercise, golden hour lighting

表情重視：

Woman laughing genuinely, crinkles around eyes, natural facial muscle movement, realistic skin folding, candid expression, soft natural lighting

技術的なキーワード：

subsurface scattering （皮下散乱）
skin translucency （肌の透明感）
micro details （微細なディテール）
natural skin variation （肌色の自然なバリエーション）
subtle skin imperfections （自然な肌の不完全さ）
warm/cool undertones （暖色/寒色の下地）

ライティングが重要：

soft window light
golden hour
diffused natural lighting

各LLMが「生命感」をどう表現するか、肌の質感処理にどんな違いがあるかが見えてきそうです。特に微細な血色や、光の透過感の表現に差が出ると思います。

プラットフォームごとのプロンプトの書き方があるそうですが

はい、その通りです！各プラットフォームには独特の「プロンプト方言」があります。

Midjourney:

--style --ar などのパラメータが豊富
芸術的な表現を好む：cinematic lighting, hyperrealistic, 8k resolution
重み付け：(keyword:1.2) や keyword --w 1.5
スタイル参照：--sref [URL] で画像を参照可能

DALL-E (ChatGPT):

より自然言語に近い記述を好む
詳細な状況説明が効果的：A woman sitting by a large window...
技術的用語より描写的表現：soft natural light filtering through curtains

Stable Diffusion系:

タグベース：1girl, realistic, detailed skin, soft lighting, high quality
ネガティブプロンプト活用：BREAK ugly, plastic skin, artificial
Embedding: <lora:skin_detail:0.8> など

Claude (Artifacts内):

コンテキスト重視の自然な記述
安全性を考慮した表現が必要

Leonardo.ai:

モデル選択が重要（PhotoReal, DreamShaper等）
プリセット活用：Alchemy, PhotoReal

どのプラットフォームから始めて比較されますか？それとも特定のプラットフォームの書き方を詳しく知りたいでしょうか？

それぞれのプロンプトに特徴があるということですが、各LLMで比較する場合にどのようなプロンプトを用意すれば比較検討材料になりますか？それぞれのモデルに合わせて作る必要がありますか？

比較検討の場合、2段階のアプローチをお勧めします：

第1段階：統一プロンプトでの粗比較 各LLMに全く同じプロンプトを投入して、基本的な「癖」や「得意分野」を把握：

Portrait of a young woman, natural skin texture, soft morning light, realistic details, photographic quality

これで各LLMの：

基本的な美的傾向
リアリズムのレベル
肌質感の処理方法
ライティングの解釈

が見えてきます。

第2段階：最適化プロンプトでの精密比較 第1段階で有望だったLLMに対して、それぞれの「方言」で最適化したプロンプトを作成：

Midjourney用: Portrait of young woman, subsurface scattering, cinematic lighting, hyperrealistic, --style raw --ar 2:3
DALL-E用: A naturally beautiful young woman with realistic skin texture and subtle imperfections, photographed in soft window light
Stable Diffusion用: 1girl, photorealistic, detailed skin, natural lighting, high quality, BREAK artificial, plastic skin

この方法なら：

公平な基準比較ができる
各LLMのポテンシャルも確認できる
時間と無料枠を効率的に使える

まず統一プロンプトで絞り込んでから、本命を最適化する流れはいかがでしょうか？

第1段階の統一プロンプトでは細かいシチュエーションは指定しないほうが良いですか？ポーズとか服装とか？

いい判断ですね！第1段階では細かいシチュエーションは避ける方が良いと思います。

理由：

各LLMの解釈の違いが比較を複雑にする
- 「座っている」でも、椅子？床？姿勢は？各LLMで全然違う画像になる
- 「カジュアルな服装」でも、T シャツ？ワンピース？LLM によって傾向が異なる
技術的な差が見えにくくなる
- 複雑な指定ほど、構図の成功/失敗に左右される
- 肌質感や顔の生成精度という「核心部分」がぼやける
無料枠の効率性
- シンプルな条件の方が安定した結果が出やすい
- 失敗による枠の無駄遣いを避けられる

第1段階の統一プロンプト例：

Portrait of a young woman, natural skin texture, realistic details, soft lighting, photographic quality

これくらいシンプルな方が：

各LLMの「素の実力」が見える
美的傾向の違いが明確になる
肌質感・リアリズムの比較がしやすい

ポーズや服装の比較は、有望なLLMを2-3個に絞った第2段階で詳細検証する方が効率的だと思います。

無料で試せる環境が 「Chat-GPT 」「 Gemini 」「Grok 」「楽天（Rakuten AI）」「 Manus 」ですが、使っている画像生成LLMとかはわかりますか？

各プラットフォームで使用されている画像生成エンジンが判明しました！

各プラットフォームの画像生成エンジン：

ChatGPT: DALL-E（無料版は1日3枚まで）

Gemini: Imagen 3（ただし人物描画に制限あり）

Grok: Aurora（xAI独自開発のオートリグレッシブモデル）

Rakuten AI・Manus: 具体的な画像生成エンジンの情報は見つかりませんでした

重要な発見：

Geminiは人物描画を制限している可能性があり、女性像の比較検討には適さないかもしれません
ChatGPTのDALL-Eは安定した品質で定評があります
GrokのAuroraは比較的新しいモデルで、正統派児童アニメ風の傾向があるという報告があります

比較検討の優先順位としては：

ChatGPT (DALL-E) - 安定性と品質で定評
Grok (Aurora) - 新しいアプローチ、アニメ寄り？
Rakuten AI・Manus - 未知数なので要検証

Geminiは人物描画制限があるため、女性像比較では後回しにした方が良さそうです。まずはChatGPTとGrokで統一プロンプトを試してみてはいかがでしょうか？

Geminiは女性を描くことはタブーとしているのですか？imageFXでも同じですか？

Geminiと人物描画の制限について詳しい情報が得られました！

Geminiの人物描画制限について：

~~Geminiは現在、人物画像の生成ができません。~~これは多様性を重視した結果「不正確」な画像を生成してしまう問題があったためで、2024年に一度機能を停止しています。

ImageFXについては：

ImageFXは「リアルな人物画像の生成」に優れた特徴を持ちます。顔や手の不自然な描写など、従来の画像生成AIで見られる課題が解消されたとされています。

つまり：

Gemini（チャット版）: 人物描画は制限されている
ImageFX（専用ツール）: 人物描画は可能で、むしろ得意分野

あなたの比較検討環境を整理すると：

ChatGPT (DALL-E) - 人物画像OK
Grok (Aurora) - 人物画像OK
ImageFX - 人物画像OK（むしろ得意）
Gemini - 人物画像NG
Rakuten AI・Manus - 要確認

女性像の比較検討なら、ChatGPT、Grok、ImageFXの3つで統一プロンプトテストを行うのが効果的ですね。ImageFXは人物描画に特化した強みがあるようなので、期待できそうです！

※　Geminiは新しく画像生成のモデルである2.5Flash-image（nano-Banana）を発表しました。

まとめ：次回！それぞれのLLMモデルで生成し比べてみました。

次のブログで見ていきます。