音声変換の革命RVCで自分の声を自然な女性の声にしてみる：ローカル環境構築

音声変換技術RVCを使って自分（男性）の声を自然な女性の声にしてみたいと思います。今回はRVC変換の環境をWindowsローカルで作って、録音した自分の声の変換したいと思います。今回は公開されている学習済みモデルを使いますので、声のデータを集めたり、学習させたりは必要ありません。手軽に試せるので、ぜひ皆さんもお試しください。※実行にはNVIDIA製のGPUを搭載したPCが必要だと思われます。（未確認）

必要なアプリケーションの準備
RVC-betaで音声変換
音声サンプル
最後に

必要なアプリケーションの準備

RVCはRetrieval-based-Voice-Conversionの略で日本語では、「検索ベース音声変換」という技術を使っています。RVCは音声から簡単に学習してモデルを作れることを最大の特徴にしていますが、今回はすでに学習済みモデルを使って録音した音声に対する音声変換をしたいと思います。

VoiceConversionWebUI RVC-betaのダウンロード

音声変換に使うRVC-betaはHugging Faceのサイトからダウンロードができます。下記のリンクから「RVC-beta.7z」をダウンロードします。

lj1995/VoiceConversionWebUI at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

ダウンロードした「RVC-beta.7z」は好きなところにおいて解凍します。7z形式のファイルの解凍には7zipが必要になります。7zipの配布サイトからダウンロードし、7zipから「RVC-beta.7z」を解凍します。RVC-betaの中には、学習済みモデル以外必要なものが全部入っていますので、フォルダを好きなところに置きます。

学習済みモデルの準備

学習済みモデルを入手する必要があります。モデルはいろいろなところで無料で配布されていたり、販売されていたりするので好きなものを入手しましょう。公開されているモデルの中にはライセンス表示があやふやなものもありますので、しっかりルールを守って使いましょう。以下のリンク先におすすめモデルを紹介しますので、そこからモデルの入手をしてください。今回、使うのはpthの学習済みモデルのファイルになります。ダウンロードしたら、解凍した解凍したRVC-betaの中の「weights」の中に入れます。

RVC-betaで音声変換

RVC-betaを起動のために、RVC-betaフォルダの中の「go-web.bat」のファイルをダブルクリックします。しばらくするとwebブラウザでUIが開きます。もし、下記のメッセージが出ても開かない場合は、Webブラウザから、「http://localhost:7897/」にアクセスしてください。

D:\Users\RVC\RVC-beta>runtime\python.exe infer-web.py --pycmd runtime\python.exe --port 7897
Use Language: ja_JP
Running on local URL:  http://0.0.0.0:7897

ターゲットの音声ファイルが準備できたら音声変換をしてみましょう。

起動したら、以下のような画面が表示されます。今回は、このソフトの機能のほんの一部しか使いません。モデル推論のタブの上半分を使います。

音源推論・・・ダウンロードした学習済みモデルを選択します。ここにはweightフォルダに入れたファイルが表示されます。もし、入れたのに表示されていない場合は、「音源リストを更新」ボタンを押して最新の状態に更新してください。

ピッチ・・・ピッチ（音の高さ）を入力します。ー１２～１２の範囲で設定します。。例えば、男性が女性っぽい声を使いたい場合は、１２を入れ、女性が男性の声にしたい場合はー１２を入れるのが推奨されています。実際は、ー１２～１２の範囲で、しっくりくる数字にするのがおすすめです。

処理対象音声ファイルのパス・・・例に倣って変換元のファイルのフルPATHを入力します。

ピッチ抽出アルゴリズム・・・リアルタイム変換ではpmがいいそうだが、今回のように音声→音声の場合はharvestを選択する。

特徴量検索データベースのファイルパス・・・入れてもあまり違いがなかったので今回は入力を省略します。そもそもindexファイルがついていないモデルもあったりするので。もし、使う場合は、ここに特徴量検索データベース（.index拡張子）のファイルパスを入力してください。

変換ボタン・・・このボタンを押すと右側に生成した音声が出てきます。