ついにStability AIから商用可能な高品質画像生成AIのStable DiffuisionのアップグレードバージョンSDXL1.0がリリースされました。高品質なcheckpointも次々リリースされつつあります。早速、それらを試してみます。※SDXLを使う場合は現時点ではWebUIよりComfyUIを使う方が機能を最大限に発揮できるのでおすすめです(2023年8月14日追記)(参考→ComfyUIのインストール方法と使用法)
WebUIへのSDXL1.0の導入
WebUIの導入はこれまでのSD1.5系と同じです。(参考:Stable Diffusion WebUIをPCローカル環境へのセットアップ方法(2023年8月最新版))もし、すでにWebUIを導入している場合は、WebUIのバージョン1.5以上でアップデートをしましょう。
ターミナルで「stable-diffusion-webui」のフォルダを開いて、git pullコマンドでwebUIをアップデートします。(参考:Stable Diffusion WebUI、AUTOMATIC1111のアップデート方法)
git pull
WebUIのバージョンはWebUIの起動時に確認できます。
venv "D:\stable-diffusion-webui\venv\Scripts\Python.exe"
Python 3.10.8 (tags/v3.10.8:aaaf517, Oct 11 2022, 16:50:30) [MSC v.1933 64 bit (AMD64)]
Version: v1.5.1
Commit hash: 68f336bd994bed5442ad95bad6b6ad5564a5409a
SDXL1.0のモデルはこちらのリンクからダウンロードできます。「sd_xl_base_1.0.safetensors」をダウンロードして、modelsフォルダの「Stable-diffusion」のフォルダに入れます。VAEは入れても良いかもしれませんが、私の場合はVAEを入れるとうまく動かなかったので、なしにしました。
また、xformersは0.0.20に対応するようになったので、webui-user.batに下のように「–reinstall-xformers」を追記して、一回だけWebUIを起動させます。xformers0.0.20にアップデートされたあとは、その部分を消しておきます。
set COMMANDLINE_ARGS= --no-half-vae --opt-channelslast --autolaunch --xformers --reinstall-xformers
SDXL1.0を試してみる(ベースモデル)
まずはベースモデルで出してみます。1024×1024のサイズが基本のようです。実は私のGPUはRTX3080の10GBを使っているのですが、メモリ不足で動きませんでした。そんな時は、WebUIの起動時にメモリ消費量を節約するモードで起動すると大丈夫です。「stable-diffusion-webui」のフォルダにある「webui-user.bat」をシフトを押しながら右クリックで「編集」を選択して、起動時の引数に「–medvram」を加えてやります。別名で保存して、SDXLを使うときだけそちらを使ったら良いと思います。
@echo off
set PYTHON=
set GIT=
set VENV_DIR=
set COMMANDLINE_ARGS= --no-half-vae --medvram --opt-split-attention --opt-channelslast --autolaunch --xformers
call webui.bat
ベースモデルでの生成例
では実際に生成してみます。ベースモデルでもちゃんと日本人っぽい高品質な画像が出るようです。
masterpiece, best quality, 1girl, young Japanese woman, solo, smile, pure face, jeans, shirt, looking at veiwer, flat chest, standing, outdoor, , (RAW photo, best quality), (realistic, photo-realistic:1.3), masterpiece, an extremely delicate and beautiful, extremely detailed, CG, unity , 2k wallpaper, finely detail, light smile, extremely detailed CG unity 8k wallpaper, huge filesize, ultra-detailed, highres
Negative prompt: EasyNegative, bad-image-v2-39000, badhandv4, ulzzang-6500-v1.1, paintings, sketches, (worst quality:2), (low quality:2), (normal quality:2), lowres, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, glans, extra fingers, fewer fingers, ((watermark:2)), (white letters:1), (multi nipples), bad anatomy, bad hands, text, error, missing fingers, missing arms, missing legs, extra digit, fewer digits, cropped, worst quality, jpeg artifacts, signature, watermark, username, bad feet, {Multiple people}, blurry, poorly drawn hands, poorly drawn face, mutation, deformed, extra limbs, extra arms, extra legs, malformed limbs, fused fingers, too many fingers, long neck, cross-eyed, mutated hands, polar lowres, bad body, bad proportions, gross proportions, wrong feet bottom render, abdominal stretch, briefs, knickers, kecks, thong, {{fused fingers}}, {{bad body}}, bad-picture-chill-75v, ng_deepnegative_v1_75t, EasyNegative, bad proportion body to legs, wrong toes, extra toes, missing toes, weird toes, 2 body, 2 pussy, 2 upper, 2 lower, 2 head, 3 hand, 3 feet, extra long leg, super long leg, mirrored image, mirrored noise, (bad_prompt_version2:0.8), aged up, old, ((mosaic)), bag
Steps: 20, Sampler: DPM++ 2M SDE Karras, CFG scale: 9, Seed: 1825701801, Size: 1024x1024, Model hash: 31e35c80fc, Model: sd_xl_base_1.0, Version: v1.5.1
その他のモデルを試してみる
その他、商用利用可能なモデルが公開されているのでそれらを試してみます。いずれも高品質な画像が出てきました。まだまだプロンプトで調整幅はありそうです。下の画像は上とほぼ同じプロンプトで生成しています。(ANIMAGINE XLとCounterfeitXLはフォト要素を省いてイラストに寄せています。)
ANIMAGINE XL
ダウンロードはこちら→ANIMAGINE XL
DreamShaper XL1.0
ダウンロードはこちら→DreamShaper XL1.0
CounterfeitXL
ダウンロードはこちら→CounterfeitXL
まとめ
SDXL1.0と様々なモデルを試しに使ってみました。それぞれ非常に高品質な画像が出力しています。これまで1000ピクセル以上の大きなサイズでは画像が崩れてしまうことがありましたが、ベースが1024×1024ピクセルなのでその心配はなさそうです。
現時点で、10GBではGPUのメモリが足りていませんが、オプションで省メモリモードで立ち上げれば、問題なく使えそうです。ControlNetも一部公開されているようなので、これからますます目が離せませんね。
コメント