鷹の目週末プログラマー

openAIなどのAPIキーをコントロールパネルの環境変数に登録して管理する

chatGPTのAPIなどで使うopenAIのAPIキーを環境変数に登録して管理する方法をまとめます。openAIのAPIでは認証にAPIキーを使用します。openAIではAPIリクエストに応じて課金される仕組みのため、APIキーの管理は非常に重要です。もし、間違えて、コード内に記載したまま、オンラインに公開してしまうと、他人に使われてしまう可能性があります。そこで、ここでは誤ってAPIキーをオンラインに上げないようにWindowsのコントロールパネルの環境変数で管理する方法をまとめます。

2023.03.04

自然言語処理

プログラミング独学におすすめオンライン動画サービスudemyのご紹介

プログラミングの独学におすすめのudemyについて、個人的に便利だと思う活用方法やおすすめ動画などを紹介します

2023.03.01

ブログ

WindowsへのNVIDIA CUDAのGPU環境構築

WindowsネイティブへのNVIDIA CUDAのGPU環境構築の詳しい手順をまとめます。Stable DiffusionやCPT、Whisperなどの最近、大発展を遂げているAIを使うには今は不可欠になっています。ここでは、CUDAのGPU環境の前準備となるツールのインストールします。以前もおなじような記事をまとめたのですが、分かりにくい部分に追加の画像を加えたり、説明を追加したりしています。

2023.02.26

PyTorchStable DiffusionWhisper

Stable Diffusion、WebUI、ControlNetでポーズ指定画像生成をWindowsローカル環境に実装

Stable Diffusionが公開されて半年余り、画像生成系AIは急速な改良と発展をしてきました。ControlNetは指定された制約条件の下が画像を生成することにより、狙った構図の画像を作り出すことができるツールです。今回、Windowsのローカル環境に環境構築をしていきます。

2023.02.24

Stable Diffusion

Stable Diffusion WebUIのカスタム設定

Stable DiffusionのWebUI、AUTOMATIC1111に新たなモデルを追加したり、生成する画像の最大枚数やデフォルトサイズを変更する方法をまとめます。

2023.02.23

Stable Diffusion

PyTorchの基礎（１）：Tensorを学ぶ

PyTorchはオープンソースの機械学習フレームワークです。少ないコードで様々な機械学習を実装できます。また、GPUを使って高速な計算をすることができ、また、豊富なライブラリを持つことから、最も広く用いられている機械学習にのライブラリの一つです。今回、PyTorchのチュートリアルをベースにPyTorchを基本から学んでいきたいと思います。

2023.02.20

PyTorch

価格ドットコムのWebスクレイピングによるゲーミングPC定点価格調査（2023年2月編）

今回の調査で３回目になります。ここ数年、AIは革命的な進歩を遂げました。オープンソースで強力なツールをローカル環境に実装するにはNVIDEA製のGPUを搭載しているPCがおすすめです。パソコンの組み立てに自信がない場合は、BTOのPCの購入がおすすめです。メーカーの保証が受けられるほか、価格もセールを狙ったり、構成によっては自作よりも安く手に入れることができます。

2023.02.18

PyTorchStable DiffusionWhisper

東北大学の言語処理100本ノックを解く(1章～3章)

東北大学知能情報科学講座の自然言語処理学分野の乾・鈴木研究室の新人教育に使われている言語処理100本ノックを解いてみます。現東京工業大学の岡崎教授が作った自然言語の問題集で、2023年2月現在、一般に公開されており、解くだけで自然言語処理の基本がわかってしまうというとても優れものです。いろいろ調べながらやってみましたが、なかなか難易度が高くて骨が折れます。こういうのを研究室で受け継いでいくのってうらやましいです。

2023.02.12

自然言語処理

CPUでサクサク動く画像補正ツールlama-cleanerで画像から不要なものを消去

画像補正ツールlama-cleanerを紹介します。導入も簡単で、CPU環境でも十分動作可能です。デフォルトで設定されているLama以外にも、GPU環境が必要となりますが、Stable Diffusion1.5などの他のinpaintツールも利用可能です。びっくりする高性能ですが、無償で使える上に、Apach-2.0のライセンスで提供されており、商用利用や再配布も可能です。

2023.02.05

Stable Diffusion

分子の化学構造を文字列で表すSMILES記法まとめ

SMILES (Simplified Molecular Input Line Entry System)は、分子の化学構造を文字列形式で表現する方法です。各要素を文字記号で表し、結合関係を括弧や文字で表すことで分子を表します。SMILESは、分子をコンピュータ上で処理する際に便利な形式であり、化学データベースの検索や計算などに利用されています。

2023.02.05

化学ツール

日本語音声認識モデルReazonSpeechでSpeech-to-Textの文字起こしを試してみた

ReazonSpeechは日本のレアゾン・ヒューマンインタラクション研究所が開発した約19,000時間のラベル付き日本語音声コーパスで、そのコーパスから学習されたSpeech-to-TextのESPnetモデルが公開されています。日本語に特化して学習することで、少ないパラメータ数でもOpenAIのWhisperのlargeモデルに匹敵する文字起こしの精度を達成しているとのことです。Apache-2.0のライセンスで公開されており、商用利用や再配布可能な柔軟なライセンスのモデルが提供されています。

2023.02.04

Whisper

Pythonライブラリpydudで直感的なオーディオファイル加工

Pythonライブラリpydudでwavファイルやmp3などの様々な音声ファイルの加工をしてみます。ffmpegベースで作動するため、様々な音声コーデックに対応し、このライブラリで様々なことができます。音声ファイルの解析の前処理などでは欠かせないライブラリです。

2023.02.03

Whisper

音声認識Whisperと話者識別Pyannote.audioで議事録自動作成

Pythonの音声認識ライブラリWhisperと話者識別ライブラリPyannote.audioで面倒な議事録の自動作成をしてみます。WhisperはOpenAIからMITライセンスで提供されています。Pyannote.audioもMITライセンスで提供されています。いずれも適切なライセンス表示下で改変、配布、商用利用が認められており、非常に使いやすいライブラリです。

2023.02.02

Whisper

Pythonで話者識別ライブラリPyannote.audioを使ってみる

会議などの議事録を作成するのに便利な話者識別ライブラリPyannote.audio（ピアノート・オーディオ）を使ってみました。GitHubでオープンソースとして公開されています。Whisperなどのspeak-to-textと組み合わせることにより、議事録を簡単に作成することができます。MITライセンスで公開されており、適切なライセンスと著作権表示をすることで、商用利用も可能です。

2023.01.28

Whisper

多言語AI音声認識モデルWhisperの使いこなし～インストールからWebUI実装まで

多言語AI音声認識モデルWhisperのインストールから、各パラメータの意味、WebUIを使った環境構築など、Whisperの使いこなしをまとめ見ました。オープンソースで商用利用可能な高性能な文字起こしをご自分のPCに入れてみましょう！

2023.01.20

Whisper

競プロ典型90問　自習3

競プロ典型問題「003 - Longest Circular Road（★4）のPython自習解答記録：「グラフ」、「幅優先探索（BFS）」、「探索部分のクラス化」、「スタックの実装」

2023.01.08

AtCoder

Japanese-GPT-1bのチャットボットをVoiceVoxのAPIでしゃべらせてみる

transformersの日本語特化学習済み事前言語処理モデルJapanese-GPT-1bと音声合成APIのVoiceVoxを組み合わせて、しゃべるチャットボットを作成してみました。

2023.01.07

自然言語処理音声合成

日本語特化GPT言語モデルJapanese-GPT-1bで簡単チャットボット

Japanese-GPT-1bはrinna株式会社が公開している商用利用可能なMITライセンスで提供されている日本語言語モデルです。transformersの学習モデルに対して、適切な事前学習を実施することにより、前後の文脈に沿った自然な文章を作り出してくれます。今回は、Japanese-GPT-1bを使って簡単にチャットボットを作ってみます。パラメータ数は13億ということですので、今話題のGPT-3の先代のGPT-2レベルの日本語特化モデルという位置づけです。今回はそのモデルを直接使ってチャットボットを作成してみます。

2023.01.05

自然言語処理

WSL2上のUbuntuでpython深層学習モデルtransformersを使ってみる

Windowsでさっとtransformersの環境構築をする方法をメモで残します。chatGPTが話題の自然言語処理ですが、学習を開始するのはオープンソースのtransformersがお手軽です。今回はtransformersの環境構築から、使ってみるところまでやってみます。

2023.01.03

環境構築自然言語処理

WSL2のUbuntu上にPyTorchとGPU環境構築

今回は、WSL2のUbuntu上にPyTorchとGPU環境構築の方法についてまとめてみました。

2022.12.30

PyTorch環境構築

WindowsのUbuntu上にvirtualenvでPython仮想環境構築

Windowsのネイティブ環境では構築がうまくいかない場合もあります。今回はUbuntu上で新しいPython開発環境を設定する方法をまとめます。

2022.12.28

環境構築

VOICEVOXエンジンを使ったPythonでの「高」品質音声合成API

VOICEVOXは、商用利用が可能である無料のテキスト読み上げソフトです。ホームページ上では中品質と言われていますが、実際にはかなりの高品質の読み上げソフトです。今回はVOICEVOXエンジンを実装して、そのAPIを使ってみることにします。

2022.12.25

環境構築音声合成

Pythonでのファイル読み書きまとめ

chatGPTにPythonでのファイルの読み書きについて詳しく教えてもらいましたので、その結果をまとめます。

2022.12.22

Python基礎

WindowsへのPythonローカル環境構築のおすすめの方法

この記事は、Windows上でPythonを使うためのローカル環境を構築する方法を紹介しています。趣味でPythonプログラミングをする方にご参考にしていただければと思います。PowerShellのアップデート、Python本体のインストール、Visual Studio Codeのインストールを行います。

2022.12.18

Python基礎

競プロ典型90問　自習2

競プロ典型問題「002 - Encyclopedia of Parentheses（★3）」のPython自習解答記録：「ビット表記」、「正しいかっこ列の条件」

2022.12.17

AtCoder

競プロ典型90問　自習１

競プロ典型問題「001 - Yokan Party（★4）」のPython自習解答記録：「二分探索」、「分割可否の判定」

2022.12.17

AtCoder

WebUIでStable Diffusion　１からの手順

WebUI（AUTOMATIC1111）でStable Diffusionを動かしてみます。比較的軽い環境で動くので、folk版のStable Difuusionしか動かなくても使える可能性はあります。今回は１から導入の手順をまとめました。

2022.12.16

PyTorchStable Diffusion環境構築

Stable Diffusion Pipelineまとめ（1）text2img

Stable Diffusion Pipelineを公式ページをChatGPTの解説にしてもらいながらかみくだきました。パラメータの意味などをしっかり理解すると生成する画像の意味もよく理解できます。

2022.12.11

Stable Diffusion

Stable Diffusionのモデルをローカルに保存

Stable Diffusionのモデルは、デフォルトでは実行時にwebからダウンロードされ、キャッシュに保存されます。2度目以降は、キャッシュから使用されますが、ローカルで安定してStable Diffusionを使用するために、特定の場所に保存する方法をまとめました。

2022.12.11

Stable Diffusion環境構築

Stable Diffusion 2で高画質画像生成

Stable Diffusion2での画像生成に挑戦してみます。以前のv1に比べて、高解像度の768x768に対応した新しい安定拡散モデルを用いて、高画質の画像生成が可能になっているそうです。

2022.12.07

Stable Diffusion環境構築

openAIなどのAPIキーをコントロールパネルの環境変数に登録して管理する

プログラミング独学におすすめオンライン動画サービスudemyのご紹介

WindowsへのNVIDIA CUDAのGPU環境構築

Stable Diffusion、WebUI、ControlNetでポーズ指定画像生成をWindowsローカル環境に実装

Stable Diffusion WebUIのカスタム設定

PyTorchの基礎（１）：Tensorを学ぶ

価格ドットコムのWebスクレイピングによるゲーミングPC定点価格調査（2023年2月編）

東北大学の言語処理100本ノックを解く(1章～3章)

CPUでサクサク動く画像補正ツールlama-cleanerで画像から不要なものを消去

分子の化学構造を文字列で表すSMILES記法まとめ

日本語音声認識モデルReazonSpeechでSpeech-to-Textの文字起こしを試してみた

Pythonライブラリpydudで直感的なオーディオファイル加工

音声認識Whisperと話者識別Pyannote.audioで議事録自動作成

Pythonで話者識別ライブラリPyannote.audioを使ってみる

多言語AI音声認識モデルWhisperの使いこなし～インストールからWebUI実装まで

競プロ典型90問 自習3

Japanese-GPT-1bのチャットボットをVoiceVoxのAPIでしゃべらせてみる

日本語特化GPT言語モデルJapanese-GPT-1bで簡単チャットボット

WSL2上のUbuntuでpython深層学習モデルtransformersを使ってみる

WSL2のUbuntu上にPyTorchとGPU環境構築

WindowsのUbuntu上にvirtualenvでPython仮想環境構築

VOICEVOXエンジンを使ったPythonでの「高」品質音声合成API

Pythonでのファイル読み書きまとめ

WindowsへのPythonローカル環境構築のおすすめの方法

競プロ典型90問 自習2

競プロ典型90問 自習１

WebUIでStable Diffusion １からの手順

Stable Diffusion Pipelineまとめ（1）text2img

Stable Diffusionのモデルをローカルに保存

Stable Diffusion 2で高画質画像生成

競プロ典型90問　自習3

競プロ典型90問　自習2

競プロ典型90問　自習１

WebUIでStable Diffusion　１からの手順