スポンサーリンク
Stable Diffusion

Stable Deffusion WebUIの環境ライブラリ更新

Stable Diffusion WebUIが今週更新されました。この更新により標準ライブラリがtorch2.0.0とxfomers0.0.17に変更になっています。一概に最新バージョンが良いわけではありませんが、今後、新しいバージョンをベースに機能改善されていくことから、適当なタイミングでアップデートをしていきましょう。
Stable Diffusion

mov2movでTiktokの動画を生成する:Stable Diffusion WebUI拡張機能

mov2movでAI美女に踊らせてみました。元動画は私(おっさん)ですが、Stable Diffusionのmov2movにかかると、そんな私でも美女の踊ってみた動画が作れます。おっさんを美女に変換するという少し無茶なことをやっていますので、ちらつきが大きいです。
Stable Diffusion

Stable Diffusionで引きの画像で顔をきれいに出す方法の研究(Hires. fix+LLUL)

Stable Diffusionで人物の全身を出した時、顔が崩れて違和感があることがあります。ここでは画像の顔をなるべくきれいに出す方法を研究しました。好みの問題もありますが、Hires. fixやLLULをうまく使うことで顔をきれいに出すことができました。
Stable Diffusion

Sadtalker拡張機能でStable Diffusionで音声に合わせて会話する動画を作成

Stable Diffusionの進化が止まりません。Sadtalker拡張機能を使うことで、Stable DiffusionのWebUIで何と画像がしゃべる動画を作成できます。ここでは、Sadtalkerのセットアップから使用方法まで丁寧に解説します。
Stable Diffusion

Stable Diffusion WebUIのControlNetのm2mでショート動画を作ってみた

Stable DiffusionのWebUIのControlNetのm2m(movie to movie)を使ってショート動画を作ってみました。ちょっとまだ精度に問題はありますが、動きのあるアニメーションも簡単に作れてしまうのは感動です。
Stable Diffusion

ノートPCでStable Diffusion WebUIをローカル環境で使う方のためのおすすめ外付けGPU

Stable Diffusionをローカル環境で使うためにはNVIDIA製のGPUがほぼ必須です。高性能のノートPCを持っているのにGPUがないためにStable Diffusionが使えないが、新しくデスクトップPCを買わずに済ましたい方に向けてWindowsノートPC用のおすすめの外付けGPUを紹介します。
Stable Diffusion

Stable Diffusion WebUIを日本語化

Stable Diffusion WebUI Automatic1111の拡張機能をインストールして日本語化する方法をまとめました。日本語化することで、WebUIの機能が分かりやすくなりますね。
Stable Diffusion

xFormersでStable Diffusion WebUI高速化・省メモリ化

xFormersはフェイスブック(現メタ社)の開発者が開発したライブラリで、Transformerに最新のコンポーネントを取り入れることにより、従来より高速でメモリ効率の高い計算を実現します。Stable DiffusionでもxFormersを有効化することにより、画像生成速度やメモリ消費量を抑制することができる可能性があります。ここでは、xFormersの有効化を効果を検証します。
Stable Diffusion

CPUでStable Diffusion WebUI、Automatic1111を使う

Stable Diffusionを使うにはNVIDIA製GPUがほぼ必須ですが、そういったPCが用意できない場合、CPUでもローカルの環境構築は可能です。ここではCPUでのインストールを行ってみます。
Stable Diffusion

LoRA追加学習で画風を再現

LoRAによりStable Diffusionのモデルに画風の追加学習してみます。あらかじめターゲットとする画風の画像での追加学習により、Stable Diffusionで好みの画風の画像を生成できるようになります。今回もKahya_ssの...
Stable Diffusion

Automatic1111のwebui.batを読み解く:Windowsのバッチファイル解析

Stable Diffuisionのwebui、Automatic1111のwebui.batの記述内容を理解して、このバッチファイルの中でどんな処理が行われているか確認してみました。バッチファイルはどのように動いているか理解することで、実...
Stable Diffusion

LoRA追加学習で好きなキャラ召喚:Stable Diffusion WebUIでの画像生成

Stable DiffusionのWebUI Automatic1111用に追加学習によりLoRA学習モデルを作成します。追加学習の方法はいろいろありますが、比較的低スペックのPCでも対応可能なLoRAを実施します。手軽に自分の欲しい画像が出せるのは素晴らしいですね。今回は、東北ずん子様を学習データに用いたLoRAの生成をしてみます。
Stable Diffusion

WebUIのTagger拡張機能で画像のタグ付け

Stable Diffusion WebUI、Automatic1111のTagger拡張機能の使用方法をまとめました。LoRAでの学習用データへのタグ付けにも便利な拡張機能です。特にベースをWD14にしているため、WD1.5でのLoRA作成と相性が非常に良いです。
Stable Diffusion

WD1.5 Beta2+WebUI+ControlNetで高画質画像生成環境構築

WD1.5 Beta2はStable Diffusion2.1をベースにアジア圏の実写やアニメ1500万枚以上から学習した高画質な画像が生成できるモデルです。これまでの多くのモデルは、NovelAIからリークしたモデルを含んでいる可能性もあるとも言われ、倫理上問題があるといわれていました。一方、WD1.5モデルはStable Diffusion2.1をベースとして、新たに学習し直したモデルであり、本モデルは、「the Fair AI Public License 1.0-SD」の元、自由な使用が許諾され、商用利用も認められています。今回、WD1.5 BetaとAUTOMATIC1111のWebUI、ControlNetを組み合わせて、高画質の生成環境を構築していきます。
Stable Diffusion

Stable Diffusion WebUI、AUTOMATIC1111のアップデート方法

Stable Diffusion WebUI、AUTOMATIC1111を最新版にアップデートする方法をまとめます。バグ修正や機能追加などでAUTOMATIC1111が更新されることもありますので、必要に応じてアップデートを実施します。
Stable Diffusion

Depth library拡張機能でStable DiffusionのWebUIで思い通りの手を生成

Stable Diffusionの弱点の一つは、思い通りの指を作ることです。なかなか思い通りの指の形にならないとき、Depth libraryに登録された手を使うと思ったような画像を簡単に生成できます。ここでは、Depth library拡張機能をインストールして、拡張機能にデフォルトで入っている各種の手のDepthを使って画像修正をしてみます。
Stable Diffusion

ControlNetなどのWebUI拡張機能を最新版に更新する方法

Stable DiffusionのWebUIでポーズを指定した画像生成ができるControlNetは頻繁に更新されています。今回は現在のControlNetなどのWebUIの拡張機能を最新版に更新する方法をまとめます。
Stable Diffusion

WD1.5 Beta 2+Web UIで高画質アニメ絵生成環境構築

高画質のStable Diffusion2.1をベースにアジア圏の実写やアニメ1500万枚以上から学習したモデルWD1.5 Beta 2を使ったWebUIでの画像生成環境をWindowsのローカル環境に構築してみます。プロンプトで簡単に高画質なアニメ画像が生成できます。
Stable Diffusion

生成系AIを使うためのGPU搭載おすすめパソコン

Stable Diffusionなどの生成系AIをローカル環境で使うにはGPUを搭載したパソコンがほぼ必須です。ここでは、私の経験からStable Diffusionなどの生成系AIを楽しむためのおすすめのパソコンのスペックについて説明します。
自然言語処理

openAIなどのAPIキーをコントロールパネルの環境変数に登録して管理する

chatGPTのAPIなどで使うopenAIのAPIキーを環境変数に登録して管理する方法をまとめます。openAIのAPIでは認証にAPIキーを使用します。openAIではAPIリクエストに応じて課金される仕組みのため、APIキーの管理は非常に重要です。もし、間違えて、コード内に記載したまま、オンラインに公開してしまうと、他人に使われてしまう可能性があります。そこで、ここでは誤ってAPIキーをオンラインに上げないようにWindowsのコントロールパネルの環境変数で管理する方法をまとめます。
ブログ

プログラミング独学におすすめオンライン動画サービスudemyのご紹介

プログラミングの独学におすすめのudemyについて、個人的に便利だと思う活用方法やおすすめ動画などを紹介します
PyTorch

WindowsへのNVIDIA CUDAのGPU環境構築

WindowsネイティブへのNVIDIA CUDAのGPU環境構築の詳しい手順をまとめます。Stable DiffusionやCPT、Whisperなどの最近、大発展を遂げているAIを使うには今は不可欠になっています。ここでは、CUDAのGPU環境の前準備となるツールのインストールします。以前もおなじような記事をまとめたのですが、分かりにくい部分に追加の画像を加えたり、説明を追加したりしています。
Stable Diffusion

Stable Diffusion、WebUI、ControlNetでポーズ指定画像生成をWindowsローカル環境に実装

Stable Diffusionが公開されて半年余り、画像生成系AIは急速な改良と発展をしてきました。ControlNetは指定された制約条件の下が画像を生成することにより、狙った構図の画像を作り出すことができるツールです。今回、Windowsのローカル環境に環境構築をしていきます。
Stable Diffusion

Stable Diffusion WebUIのカスタム設定

Stable DiffusionのWebUI、AUTOMATIC1111に新たなモデルを追加したり、生成する画像の最大枚数やデフォルトサイズを変更する方法をまとめます。
PyTorch

PyTorchの基礎(1):Tensorを学ぶ

PyTorchはオープンソースの機械学習フレームワークです。少ないコードで様々な機械学習を実装できます。また、GPUを使って高速な計算をすることができ、また、豊富なライブラリを持つことから、最も広く用いられている機械学習にのライブラリの一つです。今回、PyTorchのチュートリアルをベースにPyTorchを基本から学んでいきたいと思います。
PyTorch

価格ドットコムのWebスクレイピングによるゲーミングPC定点価格調査(2023年2月編)

今回の調査で3回目になります。ここ数年、AIは革命的な進歩を遂げました。オープンソースで強力なツールをローカル環境に実装するにはNVIDEA製のGPUを搭載しているPCがおすすめです。パソコンの組み立てに自信がない場合は、BTOのPCの購入がおすすめです。メーカーの保証が受けられるほか、価格もセールを狙ったり、構成によっては自作よりも安く手に入れることができます。
自然言語処理

東北大学の言語処理100本ノックを解く(1章~3章)

東北大学知能情報科学講座の自然言語処理学分野の乾・鈴木研究室の新人教育に使われている言語処理100本ノックを解いてみます。現東京工業大学の岡崎教授が作った自然言語の問題集で、2023年2月現在、一般に公開されており、解くだけで自然言語処理の基本がわかってしまうというとても優れものです。いろいろ調べながらやってみましたが、なかなか難易度が高くて骨が折れます。こういうのを研究室で受け継いでいくのってうらやましいです。
Stable Diffusion

CPUでサクサク動く画像補正ツールlama-cleanerで画像から不要なものを消去

画像補正ツールlama-cleanerを紹介します。導入も簡単で、CPU環境でも十分動作可能です。デフォルトで設定されているLama以外にも、GPU環境が必要となりますが、Stable Diffusion1.5などの他のinpaintツールも利用可能です。びっくりする高性能ですが、無償で使える上に、Apach-2.0のライセンスで提供されており、商用利用や再配布も可能です。
化学ツール

分子の化学構造を文字列で表すSMILES記法まとめ

SMILES (Simplified Molecular Input Line Entry System)は、分子の化学構造を文字列形式で表現する方法です。各要素を文字記号で表し、結合関係を括弧や文字で表すことで分子を表します。SMILESは、分子をコンピュータ上で処理する際に便利な形式であり、化学データベースの検索や計算などに利用されています。
Whisper

日本語音声認識モデルReazonSpeechでSpeech-to-Textの文字起こしを試してみた

ReazonSpeechは日本のレアゾン・ヒューマンインタラクション研究所が開発した約19,000時間のラベル付き日本語音声コーパスで、そのコーパスから学習されたSpeech-to-TextのESPnetモデルが公開されています。日本語に特化して学習することで、少ないパラメータ数でもOpenAIのWhisperのlargeモデルに匹敵する文字起こしの精度を達成しているとのことです。Apache-2.0のライセンスで公開されており、商用利用や再配布可能な柔軟なライセンスのモデルが提供されています。
スポンサーリンク