2023-02

スポンサーリンク
PyTorch

WindowsへのNVIDIA CUDAのGPU環境構築

WindowsネイティブへのNVIDIA CUDAのGPU環境構築の詳しい手順をまとめます。Stable DiffusionやCPT、Whisperなどの最近、大発展を遂げているAIを使うには今は不可欠になっています。ここでは、CUDAのGPU環境の前準備となるツールのインストールします。以前もおなじような記事をまとめたのですが、分かりにくい部分に追加の画像を加えたり、説明を追加したりしています。
Stable Diffusion

Stable Diffusion、WebUI、ControlNetでポーズ指定画像生成をWindowsローカル環境に実装

Stable Diffusionが公開されて半年余り、画像生成系AIは急速な改良と発展をしてきました。ControlNetは指定された制約条件の下が画像を生成することにより、狙った構図の画像を作り出すことができるツールです。今回、Windowsのローカル環境に環境構築をしていきます。
Stable Diffusion

Stable Diffusion WebUIのカスタム設定

Stable DiffusionのWebUI、AUTOMATIC1111に新たなモデルを追加したり、生成する画像の最大枚数やデフォルトサイズを変更する方法をまとめます。
PyTorch

PyTorchの基礎(1):Tensorを学ぶ

PyTorchはオープンソースの機械学習フレームワークです。少ないコードで様々な機械学習を実装できます。また、GPUを使って高速な計算をすることができ、また、豊富なライブラリを持つことから、最も広く用いられている機械学習にのライブラリの一つです。今回、PyTorchのチュートリアルをベースにPyTorchを基本から学んでいきたいと思います。
PyTorch

価格ドットコムのWebスクレイピングによるゲーミングPC定点価格調査(2023年2月編)

今回の調査で3回目になります。ここ数年、AIは革命的な進歩を遂げました。オープンソースで強力なツールをローカル環境に実装するにはNVIDEA製のGPUを搭載しているPCがおすすめです。パソコンの組み立てに自信がない場合は、BTOのPCの購入がおすすめです。メーカーの保証が受けられるほか、価格もセールを狙ったり、構成によっては自作よりも安く手に入れることができます。
自然言語処理

東北大学の言語処理100本ノックを解く(1章~3章)

東北大学知能情報科学講座の自然言語処理学分野の乾・鈴木研究室の新人教育に使われている言語処理100本ノックを解いてみます。現東京工業大学の岡崎教授が作った自然言語の問題集で、2023年2月現在、一般に公開されており、解くだけで自然言語処理の基本がわかってしまうというとても優れものです。いろいろ調べながらやってみましたが、なかなか難易度が高くて骨が折れます。こういうのを研究室で受け継いでいくのってうらやましいです。
Stable Diffusion

CPUでサクサク動く画像補正ツールlama-cleanerで画像から不要なものを消去

画像補正ツールlama-cleanerを紹介します。導入も簡単で、CPU環境でも十分動作可能です。デフォルトで設定されているLama以外にも、GPU環境が必要となりますが、Stable Diffusion1.5などの他のinpaintツールも利用可能です。びっくりする高性能ですが、無償で使える上に、Apach-2.0のライセンスで提供されており、商用利用や再配布も可能です。
化学ツール

分子の化学構造を文字列で表すSMILES記法まとめ

SMILES (Simplified Molecular Input Line Entry System)は、分子の化学構造を文字列形式で表現する方法です。各要素を文字記号で表し、結合関係を括弧や文字で表すことで分子を表します。SMILESは、分子をコンピュータ上で処理する際に便利な形式であり、化学データベースの検索や計算などに利用されています。
Whisper

日本語音声認識モデルReazonSpeechでSpeech-to-Textの文字起こしを試してみた

ReazonSpeechは日本のレアゾン・ヒューマンインタラクション研究所が開発した約19,000時間のラベル付き日本語音声コーパスで、そのコーパスから学習されたSpeech-to-TextのESPnetモデルが公開されています。日本語に特化して学習することで、少ないパラメータ数でもOpenAIのWhisperのlargeモデルに匹敵する文字起こしの精度を達成しているとのことです。Apache-2.0のライセンスで公開されており、商用利用や再配布可能な柔軟なライセンスのモデルが提供されています。
Whisper

Pythonライブラリpydudで直感的なオーディオファイル加工

Pythonライブラリpydudでwavファイルやmp3などの様々な音声ファイルの加工をしてみます。ffmpegベースで作動するため、様々な音声コーデックに対応し、このライブラリで様々なことができます。音声ファイルの解析の前処理などでは欠かせないライブラリです。
Whisper

音声認識Whisperと話者識別Pyannote.audioで議事録自動作成

Pythonの音声認識ライブラリWhisperと話者識別ライブラリPyannote.audioで面倒な議事録の自動作成をしてみます。WhisperはOpenAIからMITライセンスで提供されています。Pyannote.audioもMITライセンスで提供されています。いずれも適切なライセンス表示下で改変、配布、商用利用が認められており、非常に使いやすいライブラリです。
スポンサーリンク