AIイラストのプロンプトは文章では通じない？単語で書くべき理由とコツを解説！

イラスト生成の呪文（プロンプト）を書くとき、説明したいことが多すぎて文章になってしまう…。でも、その文章でイラストを生成してもイメージ通りの結果になりません…。それはなぜですか？

じつは、AIに「こういう画像を作ってください」と指示するときは、文章よりも単語が良いと言われます。

そこで今回は、なぜ文章ではなく単語のほうがAIに伝わりやすいのか徹底解説するとともに、文章を使ってもイメージ通りのイラストが生成できるテクニックを伝授します！

文章力は全くいらないやり方なので、ぜひ参考にしてみてください。

>>書籍：「画像生成AI Stable Diffusion スタートガイド」を注文する

呪文は文章より「単語」で区切るべき理由
- AIにひとつひとつの単語の意味を強調できるから
文章を使ってもイメージ通りのイラストができるテクニック
- 文章を書いてぶつ切りにしよう！
AI画像生成に文章力は必要ない！

呪文は文章より「単語」で区切るべき理由

AIにひとつひとつの単語の意味を強調できるから

AIは、文法や意味のつながりより、一つ一つのキーワードを重要視します。

例えば、「夜の月に照らされる女性」という文章は、「夜, 月, 照らされる, 女性」とカンマで区切ることで、「それぞれの単語を強く描け！」という指示になり、カンマで区切った単語はひとつひとつが重要であるとAIは判断します。

つまり、AIの視点に立つと、

「夜の月に照らされる女性」のイラストを生成して！

どれを優先して描けばいいの？夜？月？どの単語なのかわからない…

じゃあ、「夜, 月, 照らす, 女性」のイラストを生成して！

「夜」「月」「照らす」「女性」という単語の一つ一つが重要なキーワードなんだね。了解！

そこまで長くなければ、文章でもAIが認識してくれることはあります。
文章の長さに厳密な文字数や単語数のルールはありませんが、あまり長すぎると、どこを強調すべきかあいまいになってしまうので気をつけましょう。

>>書籍：「画像生成AI Stable Diffusion スタートガイド」を注文する

文章を使ってもイメージ通りのイラストができるテクニック

文章を書いてぶつ切りにしよう！

自分が生成したいと思っている画像のイメージを、いきなり単語にして並べていくのは、案外難しいものです。
そこで、まずは文章を書いて、その後にカンマでぶつ切りにしていきましょう。

例１．コスモスの匂いを楽しむ銀髪女性

私が初めに書いた文章は以下の通りです。

銀髪ボブの碧眼で儚げな表情をしている20代の日本のアニメ風の女性が、青空の下の噴水と緑が映える公園で、コスモスの花を1本持って匂いを楽しんでいる。

かなり長い文章なので、これをそのままプロンプトとして使うことはありません。
以下のように、カンマで区切ってみました。

銀髪ボブ, 碧眼, 儚げな表情, 20代の日本アニメ風の女性, 青空の下, 噴水と緑が映える公園, コスモスの花を1本持つ, 匂いを楽しむ

このプロンプトで画像を生成してもいいですが、以下のように、もう少しだけわかりやすく単語の配列を変えました。

日本アニメスタイル, 20代女性, 銀髪ボブ, 碧眼, 儚げな表情, 青空の下, 噴水と緑が映える公園, コスモスの花を1本持つ, 匂いを楽しむ

このプロンプトで生成したイラストが上の画像です。

おおよそ文章通りの画像が生成されました。

一点、プロンプトに入れていないのに、なぜかコスモス畑になっています。
これは、AIの学習データが原因のようです。
AIは、コスモスという単語に対して、「コスモス畑、あたり一面のコスモス」というように、コスモスを「集合体」として捉えてしまったようです。

>>書籍：「画像生成AI Stable Diffusion スタートガイド」を注文する

例２．エネルギーボール

カッコいい感じでＳＦっぽいエネルギーボールのイラストを生成したいなぁ。
そう思い、文章は以下の通りに書くことにしました。

青白い光源を放つボーリング玉の大きさくらいのエネルギーボールが片手の平で浮かんでいる。そのエネルギーボールは半透明で中が少し透けて見えている。エネルギーボールの中心には青黒い核があり、中心から外へ青白い電気がビリビリと流れている。エネルギーボールの回りには電気がビリビリ流れているとともに水流のような現象がエネルギーボールを纏っている

かなり長く、細かい内容を盛り込んだ文章になりました。

文法などの正しい文章は無視。
とにかく私の頭の中にあるエネルギーボールのイメージを思いつくままに書き殴りました。

次に、文章をカンマで区切っていきます。

青白い光源を放つ, ボーリング玉の大きさくらいのエネルギーボール, 片手の平で浮かんでいる, エネルギーボールは半透明, 中が少し透けて見えている, エネルギーボールの中心には青黒い核, 中心から外へ青白い電気がビリビリと流れている, エネルギーボールの回りには電気がビリビリ流れている, 水流のような現象がエネルギーボールを纏っている

カンマで区切りましたが、まだちょっと単語としては長い文になっているものがあります。
もう少し細かくしつつ、順番も変えてみます。

片手の平に浮かぶエネルギーボール, ボーリング玉くらいの大きさ, 青白い光源, 半透明, 内部が透けて見える, 中心に青黒い核, 中心から外へ青白い電気がビリビリと流れる, エネルギーボールの周りにビリビリと流れる電気, エネルギーボールを纏う水流のような現象

結果的に、少しは区切れましたが、まだ単語としては長い部分があります。
しかし、これ以上区切ろうとすると、文章の意味がわかりにくくなるので、区切りはいったん終えます。

文章をカンマで区切っている最中に、画風をどうするかを考えてなかったので、以下の単語をプロンプトの先頭につけて出来上がりです。

最高品質, 超高精細, 美しいライティング, SFアート, 幻想的, 片手の平に浮かぶエネルギーボール, ボーリング玉くらいの大きさ, 青白い光源, 半透明, 内部が透けて見える, 中心に青黒い核, 中心から外へ青白い電気がビリビリと流れる, エネルギーボールの周りにビリビリと流れる電気, エネルギーボールを纏う水流のような現象

結果、上の画像になりました。
まさに書き殴った文章通りのイラストになりました。

ちなみに、手だけではなく、「銀髪ボブの女性」にエネルギーボールを持たせてみました。

ここまでのやり方をまとめてみます。

最初に思いつくままの文章を書き殴る。文法はムシ。
文章をカンマで区切って単語にする。ざっくりと。
最後に、まだ区切れそうな箇所があれば区切る。新しく単語を加えるのもアリ。

このようにすれば、イメージどおりイラストを作ることができます。

次に、１，２，３どおりにプロンプトを作って、「カフェでくつろぐ女性」のイラストを作ってみました。

>>書籍：「画像生成AI Stable Diffusion スタートガイド」を注文する

例３．カフェの女性

まずは「１．」で、思いつくまま文章を書き殴ります。

黒色のテーラードジャケットを着た銀髪ボブでハイライトが入った美しい碧眼のアンニュイで儚げな表情の日本のアニメスタイルの20代の絶世の美女が、太陽のフレアがまぶしいカフェテラスで白い取っ手のついたカップを持ってコーヒーを飲んでいる。

長すぎですね。
けれど、意図はなんとなくわかると思います。

次に、「２．」のカンマで区切る作業。

黒色のテーラードジャケット, 銀髪ボブ, ハイライトが入った美しい碧眼, アンニュイで儚げな表情, 日本のアニメスタイル, 20代の絶世の美女, 太陽のフレアがまぶしい, カフェテラス, 白い取っ手のついたカップを持って, コーヒーを飲んでいる

文脈の意味が崩れないようにぶつ切りました。
次に「３．」で形を整えつつ、画像の質などのプロンプトを少し加えます。

最高品質, 超高精細, 日本アニメスタイル, 20代女性, 絶世の美女, 銀髪ボブ, ハイライトが入った美しい碧眼, アンニュイな表情, 儚げな表情, 黒色のテーラードジャケット, カフェテラス, 太陽のフレアが眩しい, 白い取っ手のカップを持つ, コーヒーを飲む, クローズアップ, 上半身ショット

英語化したプロンプト

Masterpiece, best quality, ultra detailed, Japanese anime style, 20s woman, stunning beauty, silver hair bob, beautiful blue eyes with highlights, melancholic expression, ephemeral expression, black tailored jacket, cafe terrace, dazzling sun flare, holding a cup with a white handle, drinking coffee, close-up, upper body shot

このプロンプトで画像生成した結果、上の画像になりました。

このように、文章として成立しないような状態でも、単語にしてぶつ切って生成すれば、意図したとおりのイラストができ上がります。

ちなみに、同じプロンプトで生成しても、ずっと同じ画像が作れるとは限りません。
しかし、プロンプトが正しくAIに伝われば、何枚生成しても「同じような画像」になるはずです。

>>書籍：「画像生成AI Stable Diffusion スタートガイド」を注文する

例４．図書館で本を借りる女性

文章は以下の通り。

黒色のテーラードジャケットを着た銀髪ボブでローライトが入った美しい碧眼の何を考えているかわからないミステリアスな雰囲気を醸し出す日本のアニメスタイルの20代の絶世の美女が、壮大なアーチ状の本棚にぎっちりと並べられた本の1冊を取り出そうとしている瞬間にニヤリと不敵に微笑しながらこっちをじっと見つめてきた。

この文章を書いている自分でさえ、途中、「何を言ってるんだ自分…」と混乱してしまいました。

早速、ぶつ切り作業です。

黒色のテーラードジャケット, 銀髪ボブ, ローライトが入った美しい碧眼, 何を考えているかわからないミステリアスな雰囲気, 日本のアニメスタイル, 20代の絶世の美女, 壮大なアーチ状の本棚, ぎっちりと並べられた本, 1冊を取り出そうとしている瞬間, ニヤリと不敵に微笑, こっちをじっと見つめてきた

整えます。

最高品質, 超高精細, 日本アニメスタイル, 20代女性, 絶世の美女, 銀髪ボブ, ローライトが入った美しい碧眼, 何を考えているかわからないミステリアスな雰囲気, 黒色のテーラードジャケット, 壮大なアーチ状の本棚, ぎっちりと並べられた本, 本を取り出そうとしている瞬間, ニヤリと不敵に微笑む, こちらをじっと見つめる, 図書館, 室内光

英語化したプロンプト

Masterpiece, best quality, ultra detailed, Japanese anime style, 20s woman, stunning beauty, silver hair bob, beautiful blue eyes with lowlights, mysterious atmosphere, enigmatic expression, black tailored jacket, vast arched bookshelf, books tightly packed, reaching for a book, smirking mischievously, looking directly at viewer, library, indoor lighting

生成されたのが上の画像です。
個人的には、もう少しミステリアス感が出て、ニヤリと笑ってほしかったです。

ちなみに同じプロンプトで再生成したときのイラストが下の2枚。