Stable Diffusionで描きたいものを描くためのチュートリアル

スポンサーリンク
Stable Diffusion
スポンサーリンク

Stable Diffusionでプロンプトを操って描きたいイラストを生成するためのチュートリアルを作ってみました。どのようにプロンプトを設定したらよいか分からない方の参考になればと思います。※プロンプトの作り方はいろいろありますので、今回の方法が必ずしもベストというわけではないのでご注意ください。

対象を決める

最初のステップとして生成したい対象を決めます。それと共に使うモデルを決めます。今回のチュートリアルでは「かぐや姫が月の世界へ帰っていくイラスト」を生成します。モデルには「MeinaPastel V6」を使用します。

問題1.「月の世界に帰るかぐや姫」を英語に変換して、それを元に以下のプロンプトに続けて、プロンプトを完成させなさい。

プロンプト
(illustration:1.0), masterpiece, best quality, 1girl, solo, ・・・・

なお、他の条件は以下のものを使って良い。
サンプラー:DPM++SDE Karras
CFGスケール:7
ステップ数:20
画像サイズ(横x縦):600×800
ネガティブプロンプト(例):
EasyNegative, nsfw, (worst quality, low quality:1.4), (depth of field, blurry, bokeh:1.5), (greyscale, monochrome:1.0), multiple views, text, title, logo, signature, (tooth, lip, nose, 3d, realistic:1.0), dutch angle,(cropped:1.4), text, title, signature, logo,( loli:1.2)

【考え方】
かぐや姫なので、着物の美女のイメージがあります。そのあたりのキーワードを入れても良いですが、ここでは「かぐや姫」というパワーワードをそのまま使っても良いです。

「月の世界に帰るかぐや姫」をDeepLなどを使って英訳すると「Kaguyahime returning to the moon world」となります。よって、今回はそれをそのまま使ってみます。

解答例1.(下の回答は一例です)

プロンプト
(illustration:1.0), masterpiece, best quality, 1girl, solo, Kaguyahime returning to the moon world

実はこれだけで「Kaguyahime」には和装の美女のイメージがあって、また、「moon」が入っていることで、月のイメージが強化されています。シードを変えて何枚か出すと、いろいろ違った画像が生成すると思います。

Seed: 3787988416

装飾品や髪型などを設定

続きて、先ほどの画像の条件を具体的に指定してみます。指定をしなくても、自動的にStable Diffusionがよい感じに調整はしてくれますが、自分で設定したい場合は、具体的にプロンプトの中に記載するのが良いです。

問題2.さきほどの問題1に加えて、以下の条件を追加してください。
・かぐや姫は金髪の長い髪
・服装は十二単のような平安貴族の正装
・こちらを振り返って悲しげな表情をしている
・月は大きな満月である

この問題も同じようにDeepLを使って単語抽出してもよいですが、今回はchatGPTにプロンプトを生成を手伝ってもらいます。

Q
画像生成のAI用のプロンプトを作りたいと思います。プロンプトは英単語のコンマ区切りからなります。プロンプトはDanbouruのタグを参考にして詳しく記載してください。
条件
・かぐや姫が月の世界へ帰っていくイラスト
・かぐや姫は金髪の長い髪
・服装は十二単のような平安貴族の正装
・こちらを振り返って悲しげな表情をしている
・月は大きな満月である
chatGPT

以下は、詳細な条件を含む画像生成のAI用のプロンプトです。Danbouruのタグを参考にして記載されています。

“character:Kaguya_Hime,illustration,moon,returning,blonde_hair,long_hair,Heian_aristocrat,traditional_costume,twelve-layer_robe,sad_expression,full_moon”

このプロンプトを使用すると、AIはかぐや姫が月の世界へ帰っていくイラストを生成する際の指標となります。かぐや姫は金髪で長い髪を持ち、十二単のような平安貴族の正装を身にまとっています。彼女はこちらを振り返って悲しげな表情をしており、月は大きな満月です。

上記を参考にして、プロンプトを作ってみました。

(illustration:1.0), masterpiece, best quality, 1girl, solo, Kaguyahime returning to the moon world, returning, blonde hair, long hair, Heian aristocrat, traditional costume, twelve layer robe, sad expression, full moon

かなりいい線で生成できていますが、「十二単」の部分が若干弱いような気がします。追加でchatGPTに聞いてみます。

Q
平安時代の十二単を表す画像生成のAIの英語プロンプトを作成したい。十二単の特徴を詳しく描写してプロンプトを作成してください。
chatGPT

以下は、平安時代の十二単を表す画像生成のAI用の詳細な英語プロンプトです。

“illustration,Heian_period,twelve-layer_robe,traditional_Japanese_clothing,Heian_aristocrat,female_attire,regal,flowing_sleeves,layered_garments,vibrant_colors,rich_patterns,graceful,elegant,ornate_embellishments,soft_fabrics,refined_craftsmanship”

このプロンプトは、AIに対して平安時代の十二単を特徴的に描写する指示を与えるものです。AIはこのプロンプトを参考に、イラスト生成を行い、平安時代の十二単を再現した画像を作成します。

このプロンプトには以下のような特徴が含まれています:

平安時代のイメージを表現するために、「Heian_period」というキーワードを使用しています。
十二単を指定するために、「twelve-layer_robe」というキーワードを使用しています。
伝統的な日本の衣装を示すために、「traditional_Japanese_clothing」というキーワードを使用しています。
平安貴族の女性の装いを示すために、「Heian_aristocrat」と「female_attire」というキーワードを使用しています。
豪華で華麗な印象を表現するために、「regal」「flowing_sleeves」「layered_garments」「vibrant_colors」「rich_patterns」「ornate_embellishments」「soft_fabrics」「refined_craftsmanship」といったキーワードを使用しています。
このプロンプトを使用することで、AIは平安時代の十二単に特徴的な要素を描写したイラストを生成することが期待されます。

上記のキーワードを追加してプロンプトを作ります。また、振り返るポーズとして「turning around」、また大きな満月として「big full moon」を強調したいので、括弧でくくって、1.5倍のウエイトを掛けます。(※プロンプト強調構文の使い方参照)

解答例2.(下の回答は一例です)

(illustration:1.0), masterpiece, best quality, 1girl, solo, Kaguyahime returning to the moon world, (turning around:1.5), blonde hair, long hair, Heian aristocrat, traditional costume, twelve layer robe, sad expression, (big full moon:1.5), Heian period, twelve-layer robe, traditional Japanese clothing, silk fabric, layered garments, wide sleeves, flowing skirt, vibrant colors, rich patterns, ornate embellishments, obi belted, waistband, decorative cords, layered necklines, overlapping robes, graceful elegance, regal appearance

Seed: 3227670881

プロンプトの強調構文

強調したいプロンプトは括弧でくくって、コロン(:)のあとに数字を入力することで、ウエイトを自由にコントロールできます。数字がない場合は括弧をつけるだけで1.2倍にウエイトを掛けます。0.6など1より小さな数字を入れると、逆にウエイトを小さくすることもできます。

練習問題

練習問題1.以下の条件に合致するイラストを自由に生成しましょう
・ファンタジー世界のドワーフ
・白い立派な髭を生やしている
・兜と鎧、手袋を身につけ、斧を持っている
練習問題2.以下の条件に合致するイラストを自由に生成しましょう
・かわいい女の悪魔
・角と羽根が生えている
・町を炎で燃やしてほほ笑んでいる
練習問題3.以下の条件に合致するイラストを自由に生成しましょう
・人気アイドル
・コンサートで歌っている

解答例

練習問題1解答例

プロンプト例
(illustration:1.0), masterpiece, best quality, fantasy world,dwarf, white beard, (iron helmet), (armor), elbow gloves, large axe, chibi, big head

練習問題2解答例

プロンプト例
(illustration:1.0), masterpiece, best quality, 1girl, solo, cute female demon,illustration,horns,wings,burning town,sinister smile,adorable devil,fiery destruction,wicked glee,flames,dark fantasy,destructive power,charming evil,charred buildings,playful mischief,demonic beauty,gleaming horns,demonic wings,blazing inferno,devilish grin,ravaged streets,chaotic scene,devil in disguise,sinister charm,innocent look,destruction and delight,dark sorcery,tempting malice,menacing cutie

練習問題3解答例

プロンプト例
(illustration:1.0), masterpiece, best quality, 1girl, solo, popular idol,concert,performing,stage,pop music,vibrant energetic performance,adoring fans,dynamic stage presence,colorful costume,microphone,infectious enthusiasm,crowd interaction,dazzling lights,musical excellence,upbeat tunes,dance moves,unforgettable melodies,mega star entertainment,passionate singing,captivating entertainment,stage effects,musical charisma,celebrity glamour,music industry icon,enthusiastic audience,massive popularity,showmanship,dynamic entertainment,sold-out arena

参考までに上記画像のchatGPTでの生成例をしまします。chatGPTはプロンプトを教えてもらうのに非常に優秀です。

Q
以下の条件に合う画像生成AIの英語プロンプトを生成してください。状況をイメージして情報を付加して30単語くらいで表してください。
・人気アイドル
・コンサートで歌っている
chatGPT

以下は、与えられた条件に合う画像生成AIの英語プロンプトです。状況をイメージして情報を付加して30単語くらいで表現しています。

“popular_idol,illustration,concert,performing,stage,pop_music,vibrant_energetic_performance,adoring_fans,dynamic_stage_presence,colorful_costume,microphone,infectious_enthusiasm,crowd_interaction,dazzling_lights,musical_excellence,upbeat_tunes,dance_moves,unforgettable_melodies,mega_star_entertainment,passionate_singing,captivating_entertainment,stage_effects,musical_charisma,celebrity_glamour,music_industry_icon,enthusiastic_audience,massive_popularity,showmanship,dynamic_entertainment,sold-out_arena”

このプロンプトには以下のような要素が含まれています:

“popular_idol”:人気のアイドルを表すキーワードです。
“illustration”:イラストを生成する指示です。
“concert”:コンサートを示すキーワードです。
“performing”:パフォーマンスを表すキーワードです。
“stage”:ステージを表すキーワードです。
“pop_music”:ポップミュージックを示すキーワードです。
“vibrant_energetic_performance”:活気に満ちたエネルギッシュなパフォーマンスを表すキーワードです。
“adoring_fans”:熱狂的なファンを示すキーワードです。
“dynamic_stage_presence”:ダイナミックなステージの存在感を表すキーワードです。
“colorful_costume”:カラフルな衣装を示すキーワードです。
“microphone”:マイクを表すキーワードです。
“infectious_enthusiasm”:伝染するような熱意を表すキーワードです。
“crowd_interaction”:観客との交流を表すキーワードです。
“dazzling_lights”:まばゆい光を表すキーワードです。
“musical_excellence”:音楽的な優れた演技を表すキーワードです。
“upbeat_tunes”:元気な曲を表すキーワードです。
“dance_moves”:ダンスの動きを表すキーワードです。
“unforgettable_melodies”:忘れられないメロディを表すキーワードです。
“mega_star_entertainment”:メガスターのエンターテイメントを表すキーワードです。
“passionate_singing”:情熱的な歌唱を表すキーワードです。
“captivating_entertainment”:魅力的なエンターテイメントを表すキーワードです。
“stage_effects”:ステージ効果を表すキーワードです。
“musical_charisma”:音楽的なカリスマ性を表すキーワードです。
“celebrity_glamour”:セレブの魅力を表すキーワードです。
“music_industry_icon”:音楽業界のアイコンを表すキーワードです。
“enthusiastic_audience”:熱狂的な観客を表すキーワードです。
“massive_popularity”:大きな人気を表すキーワードです。
“showmanship”:見せ場を演出する技術を表すキーワードです。
“dynamic_entertainment”:ダイナミックなエンターテイメントを表すキーワードです。
“sold-out_arena”:完売したアリーナを表すキーワードです。
これらの要素を含むプロンプトを使用することで、AIは人気アイドルがコンサートで歌っている状況をイメージしたイラストを生成することが期待されます。

最後に

プロンプトはStable Diffusion用のプロンプトはいろいろな方が公開しているので、それを参考にするのも良いでしょう。プロンプト集(呪文集)もありますので、そういうものを参考にプロンプトを組み立てていただければと思います。

コメント