PyTorch WindowsへのNVIDIA CUDAのGPU環境構築 WindowsネイティブへのNVIDIA CUDAのGPU環境構築の詳しい手順をまとめます。Stable DiffusionやCPT、Whisperなどの最近、大発展を遂げているAIを使うには今は不可欠になっています。ここでは、CUDAのGPU環境の前準備となるツールのインストールします。以前もおなじような記事をまとめたのですが、分かりにくい部分に追加の画像を加えたり、説明を追加したりしています。 2023.02.26 PyTorchStable DiffusionWhisper
Stable Diffusion Stable Diffusion、WebUI、ControlNetでポーズ指定画像生成をWindowsローカル環境に実装 Stable Diffusionが公開されて半年余り、画像生成系AIは急速な改良と発展をしてきました。ControlNetは指定された制約条件の下が画像を生成することにより、狙った構図の画像を作り出すことができるツールです。今回、Windowsのローカル環境に環境構築をしていきます。 2023.02.24 Stable Diffusion
Stable Diffusion Stable Diffusion WebUIのカスタム設定 Stable DiffusionのWebUI、AUTOMATIC1111に新たなモデルを追加したり、生成する画像の最大枚数やデフォルトサイズを変更する方法をまとめます。 2023.02.23 Stable Diffusion
PyTorch PyTorchの基礎(1):Tensorを学ぶ PyTorchはオープンソースの機械学習フレームワークです。少ないコードで様々な機械学習を実装できます。また、GPUを使って高速な計算をすることができ、また、豊富なライブラリを持つことから、最も広く用いられている機械学習にのライブラリの一つです。今回、PyTorchのチュートリアルをベースにPyTorchを基本から学んでいきたいと思います。 2023.02.20 PyTorch
PyTorch 価格ドットコムのWebスクレイピングによるゲーミングPC定点価格調査(2023年2月編) 今回の調査で3回目になります。ここ数年、AIは革命的な進歩を遂げました。オープンソースで強力なツールをローカル環境に実装するにはNVIDEA製のGPUを搭載しているPCがおすすめです。パソコンの組み立てに自信がない場合は、BTOのPCの購入がおすすめです。メーカーの保証が受けられるほか、価格もセールを狙ったり、構成によっては自作よりも安く手に入れることができます。 2023.02.18 PyTorchStable DiffusionWhisper
自然言語処理 東北大学の言語処理100本ノックを解く(1章~3章) 東北大学知能情報科学講座の自然言語処理学分野の乾・鈴木研究室の新人教育に使われている言語処理100本ノックを解いてみます。現東京工業大学の岡崎教授が作った自然言語の問題集で、2023年2月現在、一般に公開されており、解くだけで自然言語処理の基本がわかってしまうというとても優れものです。いろいろ調べながらやってみましたが、なかなか難易度が高くて骨が折れます。こういうのを研究室で受け継いでいくのってうらやましいです。 2023.02.12 自然言語処理
Stable Diffusion CPUでサクサク動く画像補正ツールlama-cleanerで画像から不要なものを消去 画像補正ツールlama-cleanerを紹介します。導入も簡単で、CPU環境でも十分動作可能です。デフォルトで設定されているLama以外にも、GPU環境が必要となりますが、Stable Diffusion1.5などの他のinpaintツールも利用可能です。びっくりする高性能ですが、無償で使える上に、Apach-2.0のライセンスで提供されており、商用利用や再配布も可能です。 2023.02.05 Stable Diffusion
化学ツール 分子の化学構造を文字列で表すSMILES記法まとめ SMILES (Simplified Molecular Input Line Entry System)は、分子の化学構造を文字列形式で表現する方法です。各要素を文字記号で表し、結合関係を括弧や文字で表すことで分子を表します。SMILESは、分子をコンピュータ上で処理する際に便利な形式であり、化学データベースの検索や計算などに利用されています。 2023.02.05 化学ツール
Whisper 日本語音声認識モデルReazonSpeechでSpeech-to-Textの文字起こしを試してみた ReazonSpeechは日本のレアゾン・ヒューマンインタラクション研究所が開発した約19,000時間のラベル付き日本語音声コーパスで、そのコーパスから学習されたSpeech-to-TextのESPnetモデルが公開されています。日本語に特化して学習することで、少ないパラメータ数でもOpenAIのWhisperのlargeモデルに匹敵する文字起こしの精度を達成しているとのことです。Apache-2.0のライセンスで公開されており、商用利用や再配布可能な柔軟なライセンスのモデルが提供されています。 2023.02.04 Whisper
Whisper Pythonライブラリpydudで直感的なオーディオファイル加工 Pythonライブラリpydudでwavファイルやmp3などの様々な音声ファイルの加工をしてみます。ffmpegベースで作動するため、様々な音声コーデックに対応し、このライブラリで様々なことができます。音声ファイルの解析の前処理などでは欠かせないライブラリです。 2023.02.03 Whisper
Whisper 音声認識Whisperと話者識別Pyannote.audioで議事録自動作成 Pythonの音声認識ライブラリWhisperと話者識別ライブラリPyannote.audioで面倒な議事録の自動作成をしてみます。WhisperはOpenAIからMITライセンスで提供されています。Pyannote.audioもMITライセンスで提供されています。いずれも適切なライセンス表示下で改変、配布、商用利用が認められており、非常に使いやすいライブラリです。 2023.02.02 Whisper