スマホ等で撮影した動画からStableDiffusionのmov2movなどを使って生成AI美女の踊ってみた動画を作る方法を解説します。YouTubeショートやTikTokでの踊ってみた動画を老若男女関わらず作る方法をまとめています。これから生成AIを始めてみたいと思った初めての方も是非お試しください。
この記事はYouTube動画との連動記事です。是非YouTube本編の方もご覧ください。
動画説明(YouTube動画)
『StableDiffusionで生成AI美女の踊ってみた動画を作ろう』
動画内の詳細情報
使い方は動画内で説明しています。
プロンプト
IP-Adapter用の画像とmov2movの動画で共通です。下記に加えてstyleで後述のプロンプトを付加しています。
プロンプト 1girl, blonde hair, short hair, pure face, pink sweater, jeans, flat chest, simple background, smile ネガティブプロンプト nsfw, nudity, nipples
style
SD1.5系の実写系の画像用のStyleです。
プロンプト (RAW photo, best quality), (realistic, photo-realistic:1.3), masterpiece, an extremely delicate and beautiful, extremely detailed, CG, unity , 2k wallpaper, finely detail, light smile, extremely detailed CG unity 8k wallpaper, huge filesize, ultra-detailed, highres ネガティブプロンプト EasyNegative, bad-image-v2-39000, badhandv4, ulzzang-6500-v1.1, paintings, sketches, (worst quality:2), (low quality:2), (normal quality:2), lowres, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, glans, extra fingers, fewer fingers, ((watermark:2)), (white letters:1), (multi nipples), bad anatomy, bad hands, text, error, missing fingers, missing arms, missing legs, extra digit, fewer digits, cropped, worst quality, jpeg artifacts, signature, watermark, username, bad feet, {Multiple people}, blurry, poorly drawn hands, poorly drawn face, mutation, deformed, extra limbs, extra arms, extra legs, malformed limbs, fused fingers, too many fingers, long neck, cross-eyed, mutated hands, polar lowres, bad body, bad proportions, gross proportions, bad proportion body to legs, wrong toes, extra toes, missing toes, weird toes, 2 body, 2 pussy, 2 upper, 2 lower, 2 head, 3 hand, 3 feet, extra long leg, super long leg, aged up, old, ((mosaic))
モデル(checkpoint)
動画内では「BracingEvoMix_v1.safetensors」を使用しています。
アジア系の女性を生成するのに良く使わせていただいています。リアルな女性の生成が持ち味です。表現力が高くてプロンプトに従順に従ってくれます。
License:CreativeML Open RAIL-M
Additional Copyright: sazyou_roukaku (TwitterID @sazyou_roukaku) as of May 31, 2023
VAE
動画内では「vae-ft-mse-840000-ema-pruned」を使用しています。
オリジナルがどこか良く分かりませんが、汎用性が高い写真系のVAEです。下記からダウンロード可能です。
フォルダ内の画像を結合して動画を作成するFFmpegのコマンド
コマンドの入力例:
ffmpeg -framerate 29.5 -i %05d-3212620344-0000.png -c:v libx264 -pix_fmt yuv420p out.mp4
以下にchatGPTによるコマンドの解説を載せておきます。
この`ffmpeg`コマンドは、一連の画像を使って動画を生成するためのものです。それぞれのオプションと引数が以下のような機能を持っています: - `-framerate 29.5`:入力フレームレートを指定します。この場合、29.5fps(フレーム毎秒)が設定されています。これは、生成される動画の再生速度を決定します。つまり、1秒あたり29.5枚の画像が動画の中で表示されるということです。 - `-i %05d-3212620344-0000.png`:入力ファイルのパターンを指定します。`%05d`は、5桁の数字でパディングされた連続する番号を意味し、この場合は`00000`, `00001`, `00002`のように連続する番号の画像ファイルを指します。`-3212620344-0000.png`はこれらの連続する番号の後に続くファイル名のパターンです。例えば、`00000-3212620344-0000.png`, `00001-3212620344-0000.png`のような名前のファイルが連番で存在すると仮定しています。 - `-c:v libx264`:ビデオのコーデックを指定します。ここでは`libx264`を使って、H.264/MPEG-4 AVCコーデックでビデオをエンコードします。これは広く互換性があり、高い圧縮率を持つ一般的なビデオフォーマットです。 - `-pix_fmt yuv420p`:ピクセルフォーマットを指定します。`yuv420p`はYUVピクセルフォーマットの一種で、クロマ(色情報)のサブサンプリングを行います。これはH.264の標準であり、広範な互換性があるため、ほとんどのビデオプレイヤーやプラットフォームで再生が可能です。 - `out.mp4`:出力ファイルの名前です。この場合、生成される動画ファイルは`out.mp4`という名前で保存されます。 簡単にまとめると、このコマンドは`00000-3212620344-0000.png`, `00001-3212620344-0000.png`, ...というパターンの名前を持つ一連のPNG画像ファイルを使って、29.5fpsのフレームレートで動画を生成し、その動画を`out.mp4`という名前のH.264ビデオファイルとして保存します。
事前準備の方法
下記の記事に環境構築の方法をまとめていますので、ご参考ください。もし、うまくいかない場合は「質問フォーム」か「メール」からお問合せください。
StableDiffusin WebUIを1.6.0以上に上げる
ControlNetの最新版をセットアップ
mov2movの最新版をセットアップ
mov2movだけ追加したら良いです(最新版ではModNetのセットアップは不要)
参考
ここで説明した方法で作成した動画例
『中身は男のAI美女でパフィーを踊ってみた』
コメント