Stable Diffusion WebUIのTagger拡張機能で画像のタグ付け Stable Diffusion WebUI、Automatic1111のTagger拡張機能の使用方法をまとめました。LoRAでの学習用データへのタグ付けにも便利な拡張機能です。特にベースをWD14にしているため、WD1.5でのLoRA作成と相性が非常に良いです。 2023.03.20 Stable Diffusion
Stable Diffusion WD1.5 Beta2+WebUI+ControlNetで高画質画像生成環境構築 WD1.5 Beta2はStable Diffusion2.1をベースにアジア圏の実写やアニメ1500万枚以上から学習した高画質な画像が生成できるモデルです。これまでの多くのモデルは、NovelAIからリークしたモデルを含んでいる可能性もあるとも言われ、倫理上問題があるといわれていました。一方、WD1.5モデルはStable Diffusion2.1をベースとして、新たに学習し直したモデルであり、本モデルは、「the Fair AI Public License 1.0-SD」の元、自由な使用が許諾され、商用利用も認められています。今回、WD1.5 BetaとAUTOMATIC1111のWebUI、ControlNetを組み合わせて、高画質の生成環境を構築していきます。 2023.03.11 Stable Diffusion
Stable Diffusion Stable Diffusion WebUI、AUTOMATIC1111のアップデート方法 Stable Diffusion WebUI、AUTOMATIC1111を最新版にアップデートする方法をまとめます。バグ修正や機能追加などでAUTOMATIC1111が更新されることもありますので、必要に応じてアップデートを実施します。 2023.03.11 Stable Diffusion
Stable Diffusion Depth library拡張機能でStable DiffusionのWebUIで思い通りの手を生成 Stable Diffusionの弱点の一つは、思い通りの指を作ることです。なかなか思い通りの指の形にならないとき、Depth libraryに登録された手を使うと思ったような画像を簡単に生成できます。ここでは、Depth library拡張機能をインストールして、拡張機能にデフォルトで入っている各種の手のDepthを使って画像修正をしてみます。 2023.03.11 Stable Diffusion
Stable Diffusion ControlNetなどのWebUI拡張機能を最新版に更新する方法 Stable DiffusionのWebUIでポーズを指定した画像生成ができるControlNetは頻繁に更新されています。今回は現在のControlNetなどのWebUIの拡張機能を最新版に更新する方法をまとめます。 2023.03.09 Stable Diffusion
Stable Diffusion WD1.5 Beta 2+Web UIで高画質アニメ絵生成環境構築 高画質のStable Diffusion2.1をベースにアジア圏の実写やアニメ1500万枚以上から学習したモデルWD1.5 Beta 2を使ったWebUIでの画像生成環境をWindowsのローカル環境に構築してみます。プロンプトで簡単に高画質なアニメ画像が生成できます。 2023.03.06 Stable Diffusion
Stable Diffusion 生成系AIを使うためのGPU搭載おすすめパソコン Stable Diffusionなどの生成系AIをローカル環境で使うにはGPUを搭載したパソコンがほぼ必須です。ここでは、私の経験からStable Diffusionなどの生成系AIを楽しむためのおすすめのパソコンのスペックについて説明します。 2023.03.04 Stable Diffusion
自然言語処理 openAIなどのAPIキーをコントロールパネルの環境変数に登録して管理する chatGPTのAPIなどで使うopenAIのAPIキーを環境変数に登録して管理する方法をまとめます。openAIのAPIでは認証にAPIキーを使用します。openAIではAPIリクエストに応じて課金される仕組みのため、APIキーの管理は非常に重要です。もし、間違えて、コード内に記載したまま、オンラインに公開してしまうと、他人に使われてしまう可能性があります。そこで、ここでは誤ってAPIキーをオンラインに上げないようにWindowsのコントロールパネルの環境変数で管理する方法をまとめます。 2023.03.04 自然言語処理
ブログ プログラミング独学におすすめオンライン動画サービスudemyのご紹介 プログラミングの独学におすすめのudemyについて、個人的に便利だと思う活用方法やおすすめ動画などを紹介します 2023.03.01 ブログ
PyTorch WindowsへのNVIDEA CUDAのGPU環境構築 WindowsネイティブへのNVIDEA CUDAのGPU環境構築の詳しい手順をまとめます。Stable DiffusionやCPT、Whisperなどの最近、大発展を遂げているAIを使うには今は不可欠になっています。ここでは、CUDAの... 2023.02.26 PyTorchStable DiffusionWhisper
Stable Diffusion Stable Diffusion、WebUI、ControlNetでポーズ指定画像生成をWindowsローカル環境に実装 Stable Diffusionが公開されて半年余り、画像生成系AIは急速な改良と発展をしてきました。ControlNetは指定された制約条件の下が画像を生成することにより、狙った構図の画像を作り出すことができるツールです。今回、Windowsのローカル環境に環境構築をしていきます。 2023.02.24 Stable Diffusion
Stable Diffusion Stable Diffusion WebUIのカスタム設定 Stable DiffusionのWebUI、AUTOMATIC1111に新たなモデルを追加したり、生成する画像の最大枚数やデフォルトサイズを変更する方法をまとめます。 2023.02.23 Stable Diffusion
PyTorch PyTorchの基礎(1):Tensorを学ぶ PyTorchはオープンソースの機械学習フレームワークです。少ないコードで様々な機械学習を実装できます。また、GPUを使って高速な計算をすることができ、また、豊富なライブラリを持つことから、最も広く用いられている機械学習にのライブラリの一つです。今回、PyTorchのチュートリアルをベースにPyTorchを基本から学んでいきたいと思います。 2023.02.20 PyTorch
PyTorch 価格ドットコムのWebスクレイピングによるゲーミングPC定点価格調査(2023年2月編) 今回の調査で3回目になります。ここ数年、AIは革命的な進歩を遂げました。オープンソースで強力なツールをローカル環境に実装するにはNVIDEA製のGPUを搭載しているPCがおすすめです。パソコンの組み立てに自信がない場合は、BTOのPCの購入がおすすめです。メーカーの保証が受けられるほか、価格もセールを狙ったり、構成によっては自作よりも安く手に入れることができます。 2023.02.18 PyTorchStable DiffusionWhisper
自然言語処理 東北大学の言語処理100本ノックを解く(1章~3章) 東北大学知能情報科学講座の自然言語処理学分野の乾・鈴木研究室の新人教育に使われている言語処理100本ノックを解いてみます。現東京工業大学の岡崎教授が作った自然言語の問題集で、2023年2月現在、一般に公開されており、解くだけで自然言語処理の基本がわかってしまうというとても優れものです。いろいろ調べながらやってみましたが、なかなか難易度が高くて骨が折れます。こういうのを研究室で受け継いでいくのってうらやましいです。 2023.02.12 自然言語処理
Stable Diffusion CPUでサクサク動く画像補正ツールlama-cleanerで画像から不要なものを消去 画像補正ツールlama-cleanerを紹介します。導入も簡単で、CPU環境でも十分動作可能です。デフォルトで設定されているLama以外にも、GPU環境が必要となりますが、Stable Diffusion1.5などの他のinpaintツールも利用可能です。びっくりする高性能ですが、無償で使える上に、Apach-2.0のライセンスで提供されており、商用利用や再配布も可能です。 2023.02.05 Stable Diffusion
化学ツール 分子の化学構造を文字列で表すSMILES記法まとめ SMILES (Simplified Molecular Input Line Entry System)は、分子の化学構造を文字列形式で表現する方法です。各要素を文字記号で表し、結合関係を括弧や文字で表すことで分子を表します。SMILESは、分子をコンピュータ上で処理する際に便利な形式であり、化学データベースの検索や計算などに利用されています。 2023.02.05 化学ツール
Whisper 日本語音声認識モデルReazonSpeechでSpeech-to-Textの文字起こしを試してみた ReazonSpeechは日本のレアゾン・ヒューマンインタラクション研究所が開発した約19,000時間のラベル付き日本語音声コーパスで、そのコーパスから学習されたSpeech-to-TextのESPnetモデルが公開されています。日本語に特化して学習することで、少ないパラメータ数でもOpenAIのWhisperのlargeモデルに匹敵する文字起こしの精度を達成しているとのことです。Apache-2.0のライセンスで公開されており、商用利用や再配布可能な柔軟なライセンスのモデルが提供されています。 2023.02.04 Whisper
Whisper Pythonライブラリpydudで直感的なオーディオファイル加工 Pythonライブラリpydudでwavファイルやmp3などの様々な音声ファイルの加工をしてみます。ffmpegベースで作動するため、様々な音声コーデックに対応し、このライブラリで様々なことができます。音声ファイルの解析の前処理などでは欠かせないライブラリです。 2023.02.03 Whisper
Whisper 音声認識Whisperと話者識別Pyannote.audioで議事録自動作成 Pythonの音声認識ライブラリWhisperと話者識別ライブラリPyannote.audioで面倒な議事録の自動作成をしてみます。WhisperはOpenAIからMITライセンスで提供されています。Pyannote.audioもMITライセンスで提供されています。いずれも適切なライセンス表示下で改変、配布、商用利用が認められており、非常に使いやすいライブラリです。 2023.02.02 Whisper
Whisper Pythonで話者識別ライブラリPyannote.audioを使ってみる 会議などの議事録を作成するのに便利な話者識別ライブラリPyannote.audio(ピアノート・オーディオ)を使ってみました。GitHubでオープンソースとして公開されています。Whisperなどのspeak-to-textと組み合わせることにより、議事録を簡単に作成することができます。MITライセンスで公開されており、適切なライセンスと著作権表示をすることで、商用利用も可能です。 2023.01.28 Whisper
Whisper 多言語AI音声認識モデルWhisperの使いこなし~インストールからWebUI実装まで 多言語AI音声認識モデルWhisperのインストールから、各パラメータの意味、WebUIを使った環境構築など、Whisperの使いこなしをまとめ見ました。オープンソースで商用利用可能な高性能な文字起こしをご自分のPCに入れてみましょう! 2023.01.20 Whisper
AtCoder 競プロ典型90問 自習3 競プロ典型問題「003 - Longest Circular Road(★4)のPython自習解答記録:「グラフ」、「幅優先探索(BFS)」、「探索部分のクラス化」、「スタックの実装」 2023.01.08 AtCoder
自然言語処理 Japanese-GPT-1bのチャットボットをVoiceVoxのAPIでしゃべらせてみる transformersの日本語特化学習済み事前言語処理モデルJapanese-GPT-1bと音声合成APIのVoiceVoxを組み合わせて、しゃべるチャットボットを作成してみました。 2023.01.07 自然言語処理音声合成
自然言語処理 日本語特化GPT言語モデルJapanese-GPT-1bで簡単チャットボット Japanese-GPT-1bはrinna株式会社が公開している商用利用可能なMITライセンスで提供されている日本語言語モデルです。transformersの学習モデルに対して、適切な事前学習を実施することにより、前後の文脈に沿った自然な文章を作り出してくれます。今回は、Japanese-GPT-1bを使って簡単にチャットボットを作ってみます。パラメータ数は13億ということですので、今話題のGPT-3の先代のGPT-2レベルの日本語特化モデルという位置づけです。今回はそのモデルを直接使ってチャットボットを作成してみます。 2023.01.05 自然言語処理
環境構築 WSL2上のUbuntuでpython深層学習モデルtransformersを使ってみる Windowsでさっとtransformersの環境構築をする方法をメモで残します。chatGPTが話題の自然言語処理ですが、学習を開始するのはオープンソースのtransformersがお手軽です。今回はtransformersの環境構築から、使ってみるところまでやってみます。 2023.01.03 環境構築自然言語処理
PyTorch WSL2のUbuntu上にPyTorchとGPU環境構築 今回は、WSL2のUbuntu上にPyTorchとGPU環境構築の方法についてまとめてみました。 2022.12.30 PyTorch環境構築
環境構築 WindowsのUbuntu上にvirtualenvでPython仮想環境構築 Windowsのネイティブ環境では構築がうまくいかない場合もあります。今回はUbuntu上で新しいPython開発環境を設定する方法をまとめます。 2022.12.28 環境構築
環境構築 VOICEVOXエンジンを使ったPythonでの「高」品質音声合成API VOICEVOXは、商用利用が可能である無料のテキスト読み上げソフトです。ホームページ上では中品質と言われていますが、実際にはかなりの高品質の読み上げソフトです。今回はVOICEVOXエンジンを実装して、そのAPIを使ってみることにします。 2022.12.25 環境構築音声合成
Python基礎 Pythonでのファイル読み書きまとめ chatGPTにPythonでのファイルの読み書きについて詳しく教えてもらいましたので、その結果をまとめます。 2022.12.22 Python基礎