画像生成AIの進化と現状 | なるほど！パソコン相談所

AIが描く絵は「別物」になった

ほんの数年前まで、AIが生成する画像はどこか不気味で、ぎこちないものがほとんどでした。しかし、MidjourneyやStable Diffusionといった高性能な画像生成AIの登場により、その状況は一変しました。
今や、誰もが簡単な言葉（プロンプト）を入力するだけで、プロのアーティストが描いたような、あるいは写真と見紛うほどリアルな画像を瞬時に手に入れることができる時代です。

主要な画像生成AIサービス（特化型）

現在、多くの画像生成AIサービスが存在しますが、ここでは特に有名で個性的な3つのサービスを紹介します。

Midjourney

高品質で芸術的な作風が特徴。Discordというチャットアプリ上で利用します。独特の雰囲気を持つ、アーティスティックな画像を生成するのが得意です。

Stable Diffusion

オープンソースで自由度が非常に高いのが特徴。自分のPCに環境を構築したり、追加学習（LoRA）で特定のキャラクターや画風を再現したりと、カスタマイズ性に優れています。

DALL-E 3 (ChatGPT)

ChatGPTに搭載されており、対話形式で画像を生成できるのが強み。日本語の指示にも忠実で、ロゴやイラストなど、意図を正確に反映させたい場合に便利です。

同じお題で描かせてみた！マルチモーダルAIの個性と実力

画像生成は専用サービスだけのものではありません。普段使っている対話AIにも画像生成機能が搭載されています。同じプロンプトで、それぞれのAIがどんな絵を描くのか、その個性と実力を見ていきましょう。

今回使用したプロンプト

日本語プロンプト

画像の中央からやや左にずれて立っている若いアジア人女性がメインの被写体です。彼女は10代後半から20代前半です。短く、暗い茶色の髪に前髪があります。表情は落ち着いていて、ほのかな笑みを浮かべています。肌は明るい色調で、頬にはほんのり赤みがかっています。唇は薄いピンク色、瞳は暗い茶色です。彼女はライトベージュ色の服を着ています。背景は無地のライトグレーで、シンプルで清潔な雰囲気を醸し出しています。照明は均一で柔らかく、強い影は落としていません。視点は彼女の頭の少し上から正面を向いており、顔と上半身に焦点が当てられています。構図はシンプルで直接的で、彼女の特徴が際立っています。全体的なスタイルはエレガントでプロフェッショナルです。画像は非常に細かく描写されており、微妙な肌の色調と自然な顔立ちが表現されています。カラーパレットは、自然な色調と落ち着いた色に限られています。

英語プロンプト

A young Asian woman, positioned slightly off-center to the left of the image, is the main subject. She is in her late teens or early twenties. She has short, dark brown hair with a fringe. Her expression is neutral and pleasant, with a subtle smile. Her skin is light-toned, with subtle blush on her cheeks. Her lips are a light pink color, and her eyes are dark brown. She is wearing light-beige colored clothing. The background is a plain, light gray, creating a simple and clean environment. The lighting is even and soft, casting no harsh shadows. The perspective is from slightly above her head and is directly in front, focusing on her face and upper body. The composition is simple and direct, drawing attention to her features. The overall style is elegant and professional. The image is highly detailed, showing subtle skin tones and natural facial features. The color palette is limited to natural tones and muted colors.

Gemini 1.5 Pro

バージョンが低いせいか、ややリアルにかけている部分と、ほくろや血管などリアルな部分がチグハグな感じです。

GPT-4o

非常にフォトリアル。細部の描写や物理法則の理解度が高い。肌色の血色が悪かったり、服の皺から疲れている主婦のようです。

Grok

Grokでは肌の質感がイラストチックでプラスチック感が強く出ました。服を着ていないのはなぜでしょう？

楽天AI

楽天AIはstable diffusionをベースにしているのでしょうか？非常にリアルで落ち着いた感じで出力できました。

画像生成AIの「クセ」

AIが生成する画像は驚くほどリアルになりましたが、まだ完璧ではありません。AI特有の「クセ」を知ることで、フェイクを見抜く目を養うことができます。

1. 指の破綻

AIは人体の構造、特に複雑な手の形を苦手としています。指が6本あったり、関節が不自然な方向に曲がっていたりすることがよくあります。
また、よく見る備品なども不自然な形状になることがあります。

2. 文字の崩壊

画像内の看板や本のタイトルなど、文字らしきものは描けても、意味のある単語や文章になっていないことがほとんどです。
現在、英語、中国語の文字を正しく出力できるLLMモデルも発表されましたので、今後の進化に期待です。

3. 細部の違和感

AIはメインの被写体に集中するあまり、光と影の向き、イヤリングのような左右の装飾、背景の建物や人物など、細部に矛盾や破綻が生じることがあります。一見完璧に見える画像でも、よく観察すると不自然な点が見つかるかもしれません。

4. キャラクターの『顔』問題（不統一と画一性）

キャラクターの顔には、正反対の2つの問題が潜んでいます。

① 不統一の問題

同じプロンプトでも、生成のたびに顔が変わってしまうのは大きな課題です。絵本や漫画のように同じキャラクターを何度も登場させたい場合、この「不統一」は致命的です。この問題を解決するには、`seed`値を固定したり、`LoRA`という追加学習モデルを利用したりする高度なテクニックが必要になります。

② 画一性の問題

一方で、特に特定のモデルを使った場合、いわゆる「AI美女」のように、生成される女性の顔がどれも似通ってしまう「画一性」の問題も指摘されています。これは、AIが学習データの中で最も「評価されやすい」顔立ちを多用するために起こると考えられます。

カメラワークとプロンプトで表現力を高める

より意図した通りの画像を生成するために、カメラワークやレンズ、プロンプトの記述方法に関する専門用語を知っておくと表現の幅が大きく広がります。

詳細は「生成AIのためのカメラワークとプロンプトガイド」で解説しています。

まとめ

画像生成AIは、クリエイティブな作業を加速させる強力なツールですが、その特性と限界を理解することが重要です。生成された画像を鵜呑みにせず、「賢く疑う視点」を持つことで、フェイク情報に惑わされることなく、その恩恵を最大限に享受できるでしょう。