AIが描く絵は「別物」になった
ほんの数年前まで、AIが生成する画像はどこか不気味で、ぎこちないものがほとんどでした。しかし、MidjourneyやStable
Diffusionといった高性能な画像生成AIの登場により、その状況は一変しました。
今や、誰もが簡単な言葉(プロンプト)を入力するだけで、プロのアーティストが描いたような、あるいは写真と見紛うほどリアルな画像を瞬時に手に入れることができる時代です。


主要な画像生成AIサービス(特化型)
現在、多くの画像生成AIサービスが存在しますが、ここでは特に有名で個性的な3つのサービスを紹介します。
Midjourney
高品質で芸術的な作風が特徴。Discordというチャットアプリ上で利用します。独特の雰囲気を持つ、アーティスティックな画像を生成するのが得意です。
Stable Diffusion
オープンソースで自由度が非常に高いのが特徴。自分のPCに環境を構築したり、追加学習(LoRA)で特定のキャラクターや画風を再現したりと、カスタマイズ性に優れています。
DALL-E 3 (ChatGPT)
ChatGPTに搭載されており、対話形式で画像を生成できるのが強み。日本語の指示にも忠実で、ロゴやイラストなど、意図を正確に反映させたい場合に便利です。
同じお題で描かせてみた!マルチモーダルAIの個性と実力
画像生成は専用サービスだけのものではありません。普段使っている対話AIにも画像生成機能が搭載されています。同じプロンプトで、それぞれのAIがどんな絵を描くのか、その個性と実力を見ていきましょう。
今回使用したプロンプト
日本語プロンプト
画像の中央からやや左にずれて立っている若いアジア人女性がメインの被写体です。彼女は10代後半から20代前半です。短く、暗い茶色の髪に前髪があります。表情は落ち着いていて、ほのかな笑みを浮かべています。肌は明るい色調で、頬にはほんのり赤みがかっています。唇は薄いピンク色、瞳は暗い茶色です。彼女はライトベージュ色の服を着ています。背景は無地のライトグレーで、シンプルで清潔な雰囲気を醸し出しています。照明は均一で柔らかく、強い影は落としていません。視点は彼女の頭の少し上から正面を向いており、顔と上半身に焦点が当てられています。構図はシンプルで直接的で、彼女の特徴が際立っています。全体的なスタイルはエレガントでプロフェッショナルです。画像は非常に細かく描写されており、微妙な肌の色調と自然な顔立ちが表現されています。カラーパレットは、自然な色調と落ち着いた色に限られています。
英語プロンプト
A young Asian woman, positioned slightly off-center to the left of the image, is the main subject. She is in her late teens or early twenties. She has short, dark brown hair with a fringe. Her expression is neutral and pleasant, with a subtle smile. Her skin is light-toned, with subtle blush on her cheeks. Her lips are a light pink color, and her eyes are dark brown. She is wearing light-beige colored clothing. The background is a plain, light gray, creating a simple and clean environment. The lighting is even and soft, casting no harsh shadows. The perspective is from slightly above her head and is directly in front, focusing on her face and upper body. The composition is simple and direct, drawing attention to her features. The overall style is elegant and professional. The image is highly detailed, showing subtle skin tones and natural facial features. The color palette is limited to natural tones and muted colors.

Gemini 1.5 Pro
バージョンが低いせいか、ややリアルにかけている部分と、ほくろや血管などリアルな部分がチグハグな感じです。

GPT-4o
非常にフォトリアル。細部の描写や物理法則の理解度が高い。肌色の血色が悪かったり、服の皺から疲れている主婦のようです。

Grok
Grokでは肌の質感がイラストチックでプラスチック感が強く出ました。服を着ていないのはなぜでしょう?

楽天AI
楽天AIはstable diffusionをベースにしているのでしょうか?非常にリアルで落ち着いた感じで出力できました。
画像生成AIの「クセ」
AIが生成する画像は驚くほどリアルになりましたが、まだ完璧ではありません。AI特有の「クセ」を知ることで、フェイクを見抜く目を養うことができます。
1. 指の破綻
AIは人体の構造、特に複雑な手の形を苦手としています。指が6本あったり、関節が不自然な方向に曲がっていたりすることがよくあります。
また、よく見る備品なども不自然な形状になることがあります。

2. 文字の崩壊
画像内の看板や本のタイトルなど、文字らしきものは描けても、意味のある単語や文章になっていないことがほとんどです。
現在、英語、中国語の文字を正しく出力できるLLMモデルも発表されましたので、今後の進化に期待です。

3. 細部の違和感
AIはメインの被写体に集中するあまり、光と影の向き、イヤリングのような左右の装飾、背景の建物や人物など、細部に矛盾や破綻が生じることがあります。一見完璧に見える画像でも、よく観察すると不自然な点が見つかるかもしれません。

4. キャラクターの『顔』問題(不統一と画一性)
キャラクターの顔には、正反対の2つの問題が潜んでいます。
① 不統一の問題
同じプロンプトでも、生成のたびに顔が変わってしまうのは大きな課題です。絵本や漫画のように同じキャラクターを何度も登場させたい場合、この「不統一」は致命的です。この問題を解決するには、`seed`値を固定したり、`LoRA`という追加学習モデルを利用したりする高度なテクニックが必要になります。
② 画一性の問題
一方で、特に特定のモデルを使った場合、いわゆる「AI美女」のように、生成される女性の顔がどれも似通ってしまう「画一性」の問題も指摘されています。これは、AIが学習データの中で最も「評価されやすい」顔立ちを多用するために起こると考えられます。

カメラワークとプロンプトで表現力を高める
より意図した通りの画像を生成するために、カメラワークやレンズ、プロンプトの記述方法に関する専門用語を知っておくと表現の幅が大きく広がります。
カメラワークのテクニック
生成AIでキャラクターやシーンを魅力的に見せるためのカメラワークを以下にまとめます。これらは映像制作やアニメーションの原則に基づいています。
-
ズーム (Zoom):
カメラのレンズを調整して被写体を大きく(ズームイン)または小さく(ズームアウト)見せる。ズームインは感情やディテールを強調、ズームアウトは環境全体を描写。
"A slow zoom-in on a character's face, ultra-realistic, 4K."
-
パン (Pan):
カメラを水平方向に回転。風景や動く被写体を追うのに使用。
"A smooth pan across a futuristic cityscape, vibrant neon lights, 4K."
-
チルト (Tilt):
カメラを垂直方向に回転。上下の動きで高さや壮大さを表現。
"A tilt-up shot of a towering castle, dramatic lighting, 4K."
-
ドリー (Dolly):
カメラを物理的に前後に移動。奥行き感や緊張感を演出。
"A slow dolly-in towards a hero in a dark alley, cinematic, 4K."
-
トラック (Track):
カメラを左右や任意の方向に平行移動。動く被写体を追従。
"A tracking shot of a character running through a forest, ultra-realistic, 4K."
-
クレーン (Crane):
カメラを上下左右に立体的に動かす。ダイナミックな俯瞰ショットに最適。
"A crane shot rising over a battlefield, epic scale, 4K."
-
ペデスタル (Pedestal):
カメラを垂直に上下させる。高さを変えるシーンに使用。
"A pedestal shot of a character rising from a throne, cinematic, 4K."
-
ロール (Roll):
カメラを光軸を中心に回転。混乱やダイナミズムを表現。
"A roll shot of a spaceship spinning in space, dynamic, 4K."
-
フォロー (Follow):
カメラが動く被写体を追従。アクションや動きを強調。
"A follow shot of a character sprinting, vibrant colors, 4K."
-
オービット (Orbit):
カメラが被写体の周りを円形に動く。全方位の魅力を強調。
"An orbit shot circling a knight in armor, cinematic, 4K."
レンズ特性と被写界深度
レンズ特性(焦点距離、絞り値など)は、映像の視野や被写界深度に影響し、生成AIで視覚効果を制御します。
-
焦点距離 (Focal Length):
-
広角レンズ (10mm–35mm):
広い視野、遠近感強調。例: 風景やダイナミックなシーン。
"A 16mm wide-angle shot of a futuristic city, deep depth of field, 4K."
-
標準レンズ (35mm–50mm):
自然な遠近感。ポートレートに最適。
"A 50mm standard lens portrait of a warrior, cinematic, 4K."
-
望遠レンズ (70mm–200mm+):
背景圧縮、被写体強調。
"A 135mm telephoto shot of a character, shallow depth of field, 4K."
-
広角レンズ (10mm–35mm):
広い視野、遠近感強調。例: 風景やダイナミックなシーン。
-
絞り値 (F-Stop):
-
低F値 (f/1.4–f/2.8):
浅い被写界深度、背景ボケ。感情的なクローズアップに。
"A close-up with f/1.8, creamy bokeh, ultra-realistic, 4K."
-
高F値 (f/8–f/22):
深い被写界深度、全体がシャープ。風景に最適。
"A landscape with f/16, deep depth of field, vibrant colors, 4K."
-
低F値 (f/1.4–f/2.8):
浅い被写界深度、背景ボケ。感情的なクローズアップに。
-
特殊レンズ:
-
フィッシュアイレンズ:
強い歪み、ユニークな効果。
"A fisheye lens shot of a quirky character, vibrant, 4K."
-
マクロレンズ: 細部を詳細に捉える。
"A macro shot of a steampunk watch, ultra-detailed, 4K."
-
フィッシュアイレンズ:
強い歪み、ユニークな効果。
-
被写界深度 (Depth of Field):
-
浅い被写界深度:
背景をぼかし、被写体を強調。
"A portrait with shallow depth of field, creamy bokeh, 4K."
-
深い被写界深度:
全体をシャープに。風景や群衆シーンに。
"A battlefield with deep depth of field, every detail sharp, 4K."
-
ボケ効果 (Bokeh):
背景の光点が美しくぼける。
"A night scene with circular bokeh, dreamy atmosphere, 4K."
-
浅い被写界深度:
背景をぼかし、被写体を強調。
プロンプトの記述方法
生成AIのプロンプトを効果的に記述するためのテクニックと、ツールごとの強調記法やネガティブプロンプトの使い方。
-
強調記法:
-
丸括弧 ():
要素を強調(1.1倍程度)。例: `(detailed armor)`。
"A character with ((detailed armor:1.5)), cinematic, 4K."
-
角括弧 []:
要素を抑制(0.9倍程度)。例: `[blurry]`。
"A character, [no blurry background], ultra-realistic, 4K."
-
数値ウェイト: 明確な重要度指定。例:
`::1.5`。
"A character with cinematic lighting::1.3, 4K."
-
丸括弧 ():
要素を強調(1.1倍程度)。例: `(detailed armor)`。
-
ツールごとの有効性:
-
MidJourney: `()`, `[]`,
`--no`でネガティブプロンプト。
"A character, (detailed face), 4K --no blurry, deformed hands --v 6."
-
Stable Diffusion: `()`, `[]`,
`(keyword:1.5)`。
"A warrior with (glowing sword:1.3), 4K, Negative prompt: blurry, deformed hands."
-
DALL·E 3: `()`や`**`で軽い強調。
"A character with (glowing eyes), no blurry details, 4K."
-
Runway:
`()`で軽い強調、カメラワーク優先。
"A dolly-in shot with (vibrant costume), 4K --no blurry motion."
-
MidJourney: `()`, `[]`,
`--no`でネガティブプロンプト。
-
ネガティブプロンプト: 不要な要素を排除。
"--no blurry, deformed hands, extra fingers, low quality."
-
手足の破綻防止:
- 詳細指定: `realistic hands with five fingers`。
- ネガティブプロンプト: `deformed hands, extra fingers`。
-
構図工夫: 手足を隠す小道具や背景。
"A character with gloves, hands resting naturally, 4K --no deformed hands."
まとめ
画像生成AIは、クリエイティブな作業を加速させる強力なツールですが、その特性と限界を理解することが重要です。生成された画像を鵜呑みにせず、「賢く疑う視点」を持つことで、フェイク情報に惑わされることなく、その恩恵を最大限に享受できるでしょう。