音声変換の革命RVCで自分の声を自然な女性の声にしてみる:ローカル環境構築

スポンサーリンク
音声合成
スポンサーリンク

音声変換技術RVCを使って自分(男性)の声を自然な女性の声にしてみたいと思います。今回はRVC変換の環境をWindowsローカルで作って、録音した自分の声の変換したいと思います。今回は公開されている学習済みモデルを使いますので、声のデータを集めたり、学習させたりは必要ありません。手軽に試せるので、ぜひ皆さんもお試しください。※実行にはNVIDIA製のGPUを搭載したPCが必要だと思われます。(未確認)

必要なアプリケーションの準備

RVCはRetrieval-based-Voice-Conversionの略で日本語では、「検索ベース音声変換」という技術を使っています。RVCは音声から簡単に学習してモデルを作れることを最大の特徴にしていますが、今回はすでに学習済みモデルを使って録音した音声に対する音声変換をしたいと思います。

VoiceConversionWebUI RVC-betaのダウンロード

音声変換に使うRVC-betaはHugging Faceのサイトからダウンロードができます。下記のリンクから「RVC-beta.7z」をダウンロードします。

ダウンロードした「RVC-beta.7z」は好きなところにおいて解凍します。7z形式のファイルの解凍には7zipが必要になります。7zipの配布サイトからダウンロードし、7zipから「RVC-beta.7z」を解凍します。RVC-betaの中には、学習済みモデル以外必要なものが全部入っていますので、フォルダを好きなところに置きます。

学習済みモデルの準備

学習済みモデルを入手する必要があります。モデルはいろいろなところで無料で配布されていたり、販売されていたりするので好きなものを入手しましょう。公開されているモデルの中にはライセンス表示があやふやなものもありますので、しっかりルールを守って使いましょう。以下のリンク先におすすめモデルを紹介しますので、そこからモデルの入手をしてください。今回、使うのはpthの学習済みモデルのファイルになります。ダウンロードしたら、解凍した解凍したRVC-betaの中の「weights」の中に入れます。

RVC-betaで音声変換

RVC-betaを起動のために、RVC-betaフォルダの中の「go-web.bat」のファイルをダブルクリックします。しばらくするとwebブラウザでUIが開きます。もし、下記のメッセージが出ても開かない場合は、Webブラウザから、「http://localhost:7897/」にアクセスしてください。

D:\Users\RVC\RVC-beta>runtime\python.exe infer-web.py --pycmd runtime\python.exe --port 7897
Use Language: ja_JP
Running on local URL:  http://0.0.0.0:7897

ターゲットの音声ファイルが準備できたら音声変換をしてみましょう。

起動したら、以下のような画面が表示されます。今回は、このソフトの機能のほんの一部しか使いません。モデル推論のタブの上半分を使います。

音源推論・・・ダウンロードした学習済みモデルを選択します。ここにはweightフォルダに入れたファイルが表示されます。もし、入れたのに表示されていない場合は、「音源リストを更新」ボタンを押して最新の状態に更新してください。

ピッチ・・・ピッチ(音の高さ)を入力します。ー12~12の範囲で設定します。。例えば、男性が女性っぽい声を使いたい場合は、12を入れ、女性が男性の声にしたい場合はー12を入れるのが推奨されています。実際は、ー12~12の範囲で、しっくりくる数字にするのがおすすめです。

処理対象音声ファイルのパス・・・例に倣って変換元のファイルのフルPATHを入力します。

ピッチ抽出アルゴリズム・・・リアルタイム変換ではpmがいいそうだが、今回のように音声→音声の場合はharvestを選択する。

特徴量検索データベースのファイルパス・・・入れてもあまり違いがなかったので今回は入力を省略します。そもそもindexファイルがついていないモデルもあったりするので。もし、使う場合は、ここに特徴量検索データベース(.index拡張子)のファイルパスを入力してください。

変換ボタン・・・このボタンを押すと右側に生成した音声が出てきます。

入力して出力させた例は以下の通りです。右側に「Success」と表示されて、音声ファイルが出力されます。

音声ファイルはその場で聞いて確認することもできますし、ダウンロードもできますj。

音声サンプル

出力した音声のサンプルを示します。モデルとして、蘭茶みすみさん刻鳴時雨さん(CV:丸ころさん)852話さんの「友-yuu-」を使っています。

短歌

歌や抑揚のある言葉もうまく変換できます。

蘭茶みすみさん
刻鳴時雨さん(CV:丸ころさん)
852話さんの「友-yuu-」

会話

会話も元音声の通り再現します。私の活舌悪くてすみません。「そぉだなぁ~、今度の休日はどこに行こうか?」って言っています。

蘭茶みすみさん
刻鳴時雨さん(CV:丸ころさん)
852話さんの「友-yuu-」

最後に

近年のAI技術、とりわけ、個人のディスクトップPCレベルでも可能な技術がどんどん増えてきました。今回は、RVCでの音声変換を紹介しましたが、このRVCはリアルタイムでも音声の変換ができます。そちらの方は少し複雑ですが、また、後日記事にしたいと思います。

もし、何か質問や間違っているところががあればお願いします。

コメント