YukarinリポジトリのREADME（日本語版）を参考に進めていきますと、まず最初に「必要なライブラリのインストール」の指示があります。 pip install -r requirements.txtによるものですが、その内容が以下となります。 https://github.com/Hiroshiba/yukarin/blob/master/requirements.txt

numpy
cupy<6.0.0
chainer<6.0.0
librosa<0.7.0
pysptk
pyworld
matplotlib
tensorflow
tqdm
git+https://github.com/neka-nat/tensorboard-chainer
git+https://github.com/Hiroshiba/become-yukarin

ここで気になるのは、cupy chainer librosaのバージョンが低いことです。 PyPIで、Release historyを確認しながら、具体的に以下にてインストールを実施してみました。尚、私が実施した環境は、Ubuntu 18.04.6 LTSにて、GPUはRTX3090を使用しています。 RTX3090を用いていることから、CUDAはバージョンが11以上である必要があり、それに伴ってCUDNNもバージョンが8以上となります。

!pip install cupy==5.4.0  # <6.0.0
!pip install chainer==5.4.0  # <6.0.0
!pip install librosa==0.6.3  # <0.7.0

結果、chainerとliblosaは、該当バージョンにてインストールができましたが、cupyはインストールができませんでした。理由は恐らく以下です。

  **************************************************
  *** WARNING: Unsupported cuDNN version: 8005
  *** WARNING: cuDNN v5000= and <=v7999 is required
  **************************************************

ただ、cupyに関しては、リポジトリ内で使用箇所を検索してみると、そう重要な処理部分ではなさそうである為、一旦、これで良しとしようと思います。

データ作成ついて（1. 音声データを用意する）

yukarinリポジトリは、パラレルデータを用いた声質変換を行うものである為、それを用意する必要があります。尚、変換対象としては、ある特定の方の声を、所望の方への声へと変換するというものですので、one-to-oneの対象となります。

参考：https://blog.nefrock.com/entry/2020/03/17/171730

変換対象による分類は、変換元／変換先が単数なのか複数なのかによる分類で、主に3つに分かれる
- one-to-one
  - ある特定の人の声を、ある特定の人の声に変換する。e.g. のび太くんの声をドラえもんの声に変換
- many-to-one、または、any-to-one
  - 複数の人の声を、ある特定の人の声に変換する。e.g. のび太くんとしずかちゃんの声をドラえもんの声に変換
- many-to-many、または、any-to-any
  - 複数の人の声を、複数の人の声に変換する。e.g. のび太くんの声をドラえもんの声に変換し、しずかちゃんの声はのび太くんの声に変換

先ず、変換先のデータですが、客野さんが展開して下さっているVoiceVoxを用いようと思います。尚、VoiceVoxの音声は、2021/11/28時点にて、出典の記載により商用／非商用共に許可をして頂いている模様です。

キャラクター「春日部つむぎ」の利用規約 https://tsukushinyoki10.wixsite.com/ktsumugiofficial/%E5%88%A9%E7%94%A8%E8%A6%8F%E7%B4%84

VoiceVoxの使用に関しては、voicevox_enginリポジトリを参考に進めていくと、効率よく音声データを取得することができます。例えば、朗読時間10秒かかる内容でも、1秒をはるかに下回る時間で音声が生成されます。（※それは変換にGPURTX3090を用いた際の実践結果による間隔となります。）

上記に関して、私が実践した方法としては、VOICEVOXのインストールを、ページ記載の手順にて、Ubuntuに対して行いました。そして、VOICEVOXを起動している状態にて、voicevox_engineリポジトリのAPIドキュメントに記載されている方法を参考に、shellを組み、実践した形となります。尚、curlについては、アクセスするアドレスをダブルクオーテーションで括った方が、動作が安定するとのことで、以下のように実践することをオススメさせて頂く次第です。（※参考：zsh: no matches found:となった時の対応方法）

echo -n "こんにちは、音声合成の世界へようこそ" >text.txt

curl -s \
    -X POST \
    "localhost:50021/audio_query?speaker=1" \
    --get --data-urlencode text@text.txt \
    > query.json

curl -s \
    -H "Content-Type: application/json" \
    -X POST \
    -d @query.json \
    "localhost:50021/synthesis?speaker=1" \
    > audio.wav

パラレルデータにおけるターゲットの音声は、上記で用意できる見通しがたった為、次には、VoiceVoxに朗読してもらうテキストと、それを別の方が朗読している音声データが必要となります。尚、yukarinリポジトリ自体は、one-to-oneの声質変換を行うものとなっていますが、不特定多数の方が使用をするailia-modelsに搭載する機能としては、many-to-oneにする必要があろうかと思います。ただし、以下のyukarinのissuesを見ると、many-to-oneの実施確認はされているような印象を受けます。 https://github.com/Hiroshiba/yukarin/issues/49

上記ニーズを満たすデータセットとして、Mozillaが発行してくれている音声データセットで、commonvoiceというものが存在しました。これは、日本語のテキストと、音声ファイル（.mp3）がセットで存在するものです。音声ファイルは現状で24,000弱程存在、話者数も多い印象（1人の話者から、10〜20個の音声ファイルが生成されている印象）です。

その処理を行うshellファイル内容が、以下となります。尚、./text/*配下には、音声ファイル毎に対応する、朗読内容のテキストファイルが、その個数が1対1となるような形で、24,000弱個格納されている形です。

#!/bin/zsh

for input in ./text/*
do
  echo "input = $input"
  curl -s \
       -X POST \
       "localhost:50021/audio_query?speaker=8"\
       --get --data-urlencode text@$input \
       > query_.json

  output=`echo ${input/text/audio}`
  output=`echo ${output/.txt/.wav}`
  echo "output = $output"

  curl -s \
       -H "Content-Type: application/json" \
       -X POST \
       -d @query_.json \
       "localhost:50021/synthesis?speaker=8" \
       > $output
done

以上で、恐らくは、yukarinリポジトリでの学習データが生成されたものと思われます。

次の手順に合わせて、以下のようなフォルダ構成とします。

$ tree *_wav/
input_wav/
├── common_voice_ja_19482480.mp3
├── common_voice_ja_19482491.mp3
├── common_voice_ja_19482498.mp3
├── …
├── common_voice_ja_27446518.mp3
├── common_voice_ja_27446519.mp3
└── common_voice_ja_27446520.mp3
target_wav/
├── common_voice_ja_19482480.wav
├── common_voice_ja_19482491.wav
├── common_voice_ja_19482498.wav
├── …
├── common_voice_ja_27446518.wav
├── common_voice_ja_27446519.wav
└── common_voice_ja_27446520.wav

0 directories, 46796 files

尚、同じファイル名称（拡張子を除く）が同じファイルは、異なる話者が同じ内容を話している形となっており、target_wavフォルダ内の音声ファイルは全て、VOICEVOXの「春日部つむぎ」というキャラクターの音声となっています。

データ作成ついて（2. 音響特徴量を切り出す）

yukarinのREADMEによれば、次のステップとして、データから音響特徴量を切り出すとの説明があります。それを実践するコマンドは、以下とのことです。

python scripts/extract_acoustic_feature.py \
    -i './input_wav/*' \
    -o './input_feature/'

python scripts/extract_acoustic_feature.py \
    -i './target_wav/*' \
    -o './target_feature/'

ここで、scripts/extract_acoustic_feature.pyを確認してみますと、以下の設定コードを基に、音響特徴量を切り出しているようでした。

class AcousticParam(object):
    def __init__(
            self,
            sampling_rate: int = 24000,
            pad_second: float = 0,
            threshold_db: float = None,
            frame_period: int = 5,
            order: int = 8,
            alpha: float = 0.466,
            f0_floor: float = 71,
            f0_ceil: float = 800,
            fft_length: int = 1024,
            dtype: str = 'float32',
    ) -> None:
        self.sampling_rate = sampling_rate
        self.pad_second = pad_second
        self.threshold_db = threshold_db
        self.frame_period = frame_period
        self.order = order
        self.alpha = alpha
        self.f0_floor = f0_floor
        self.f0_ceil = f0_ceil
        self.fft_length = fft_length
        self.dtype = dtype

    def _asdict(self):
        return self.__dict__

注目すべきポイントとしては、sampling_rateです。 24,000Hzという設定になっています。

VOICEVOXにて生成される、キャラクター音声のデフォルトのサンプルレートについても、24,000Hzとなっていました。 yukarinのissuesにおいても、結月ゆかり声質変換の音声は24000Hzを想定している。という記載があります。

また、この設定値を用いて、以下コードにて、特徴抽出を行っています。

        f0, t = cls.extract_f0(x=x, fs=fs, frame_period=frame_period, f0_floor=f0_floor, f0_ceil=f0_ceil)
        sp = pyworld.cheaptrick(x, f0, t, fs, fft_size=fft_length)
        ap = pyworld.d4c(x, f0, t, fs, fft_size=fft_length)

このコードは、以下記事に書かれている特徴抽出の方法と同様になっています。 WORLDというライブラリ、及び、WORLDのpython wrapperを用いています。 https://r9y9.github.io/nnmnkwii/v0.0.1/nnmnkwii_gallery/notebooks/00-Quick%20start%20guide.html#Acoustic-features

尚、抽出した特徴に関しては、以下pdfが解説をして下さっていました。 http://www.isc.meiji.ac.jp/~mmorise/lab/publication/paper/SP2017-128.pdf

WORLD による音声分析合成の概要を図 1 に示す．
WORLDでは，音声をフレームシフト幅毎の時間で分析し，フレーム毎に 3 つのパラメータを取得する．
パラメータは，基本周波数 (Fundamental frequency: F0)，スペクトル包絡 (Spectral envelope: SP)，非周期性指標 (Aperiodicity: AP) の 3 種類である．
これらのパラメータは，それぞれ音声の高さ，音声の音色，音声のかすれの程度に対応している．

以下のQiita記事も紹介をして下さっています。 https://qiita.com/ohtaman/items/84426cee09c2ba4abc22

1. 基本周波数：声のベースとなる高さをあらわします
2. スペクトル包絡：いわゆるスペクトルを滑らかにしたもので、音色をあらわします
3. 非周期性指標：声帯振動のゆらぎや雑音混入による影響をあらわします

また、Mozilla発行のcommonvoiceデータセットに用意されている、音声ファイル（.mp3）については、サンプルレートが48,000Hzとなっています。このサンプルレートの違いが、yukarinでの処理にどう影響するかは気になるところです。念の為、commonvoiceの音声ファイルについて、サンプルレートを48,000Hzから24,000Hzへと変換する処理も、ここで実施しておこうと思います。

尚、上記処理にはilbrosaライブラリを用いますが、librosaは.mp3がサポートされていないとのことで、.mp3拡張子のファイルを.wavに変換する必要もあります。

それら処理は、以下の記事を参考にさせて頂き、以下のコードで実施をします。 https://algorithm.joho.info/programming/python/pydub-mp3-wav/ https://note.com/npaka/n/n6f421b546024

import pydub
import librosa
import soundfile as sf

for filename_tmp in filename:
    # 入力ファイル名称から、出力ファイル名称を生成（各方の環境に合わせて…）
    filename_out = filename_tmp.replace('_48000Hz', '')  # フォルダ名変更（私の場合…）
    filename_out = filename_out.replace('.mp3', '.wav')  # 拡張子の変更
    # .mp3を読込
    sound = pydub.AudioSegment.from_mp3(filename_tmp)
    # .wavにて書出
    sound.export(filename_out, format="wav")
    # .wavを読込
    y, sr = librosa.core.load(filename_out, sr=24000, mono=True)
    # .wavにて書出（16bitで書き込み）
    sf.write(filename_out, y, sr, subtype="PCM_16")

こちらは、CPUでの処理になりますので、ファイル数が多いと、それなりの時間を要します。尚、変換前後を、私の耳で比較した限りは、殆ど音の劣化は無いように思えました。

音声ファイルのサンプルレートを合わせたところで、音響特徴の切り出しを実施してみます。改めまして、実践コマンドは以下です。

python scripts/extract_acoustic_feature.py \
    -i './input_wav/*' \
    -o './input_feature/'

python scripts/extract_acoustic_feature.py \
    -i './target_wav/*' \
    -o './target_feature/'

コマンドを実施したところ、以下のエラーが発生しました。

Traceback (most recent call last):
  File "scripts/extract_acoustic_feature.py", line 13, in <module>
    from yukarin.acoustic_feature import AcousticFeature
  File "/hoge/yukarin/yukarin/__init__.py", line 1, in <module>
    from .acoustic_converter import AcousticConverter
  File "/hoge/yukarin/yukarin/acoustic_converter.py", line 7, in <module>
    import librosa
  File "/opt/conda/lib/python3.7/site-packages/librosa/__init__.py", line 12, in <module>
    from . import core
  File "/opt/conda/lib/python3.7/site-packages/librosa/core/__init__.py", line 109, in <module>
    from .time_frequency import *  # pylint: disable=wildcard-import
  File "/opt/conda/lib/python3.7/site-packages/librosa/core/time_frequency.py", line 10, in <module>
    from ..util.exceptions import ParameterError
  File "/opt/conda/lib/python3.7/site-packages/librosa/util/__init__.py", line 71, in <module>
    from . import decorators
  File "/opt/conda/lib/python3.7/site-packages/librosa/util/decorators.py", line 9, in <module>
    from numba.decorators import jit as optional_jit
ModuleNotFoundError: No module named 'numba.decorators'

このエラーは、pip install numba==0.48を実施することで解決されました。新しいバージョンのnumbaであると、出てしまうエラーであるようです。（参考：https://github.com/librosa/librosa/issues/1160 ）

対応したところ、以下ログを出力し、処理が正常終了しました。

{'alpha': 0.466,
 'dtype': 'float32',
 'enable_overwrite': False,
 'f0_ceil': 800,
 'f0_floor': 71,
 'fft_length': 1024,
 'frame_period': 5,
 'ignore_feature': ['sp', 'ap'],
 'input_glob': './input_wav/*',
 'order': 8,
 'output': PosixPath('input_feature'),
 'pad_second': 0,
 'sampling_rate': 24000,
 'sampling_rate_for_thresholding': None,
 'threshold_db': None}
100%|███████████████████████████████████████████████████████| 23398/23398 [34:56<00:00, 11.16it/s]

{'alpha': 0.466,
 'dtype': 'float32',
 'enable_overwrite': False,
 'f0_ceil': 800,
 'f0_floor': 71,
 'fft_length': 1024,
 'frame_period': 5,
 'ignore_feature': ['sp', 'ap'],
 'input_glob': './target_wav/*',
 'order': 8,
 'output': PosixPath('target_feature'),
 'pad_second': 0,
 'sampling_rate': 24000,
 'sampling_rate_for_thresholding': None,
 'threshold_db': None}
100%|███████████████████████████████████████████████████████| 23398/23398 [28:54<00:00, 13.49it/s]

この処理を、input_wavフォルダと、target_wavフォルダとに対して実施します。すると、input_featureフォルダと、target_featureフォルダとの配下に、音声ファイルを同じ数だけの.npyが生成されます。

# tree ./*_feature/
./input_feature/
├── arguments.json
├── common_voice_ja_19482480.npy
├── common_voice_ja_19482491.npy
├── common_voice_ja_19482498.npy
├── …
├── common_voice_ja_27446518.npy
├── common_voice_ja_27446519.npy
└── common_voice_ja_27446520.npy
./target_feature/
├── arguments.json
├── common_voice_ja_19482480.npy
├── common_voice_ja_19482491.npy
├── common_voice_ja_19482498.npy
├── …
├── common_voice_ja_27446518.npy
├── common_voice_ja_27446519.npy
└── common_voice_ja_27446520.npy

0 directories, 46798 files

このnpyファイルに格納されている内容ですが、可視化してみると以下のようになりました。

参考までに、先ず、元データ .wav を、librosaでload（yukarin内の処理と同様）をした波形データを可視化します。

次に、出力特徴の内の、基本周波数（音声の周期性を表現し、音高を司る音響特徴量）の可視化です。

次に、以下コードにて抽出されたであろう特徴ですが、こちらは nan となっていました。

        sp = pyworld.cheaptrick(x, f0, t, fs, fft_size=fft_length)
        ap = pyworld.d4c(x, f0, t, fs, fft_size=fft_length)

feature1.sp = nan
feature2.sp = nan

feature1.ap = nan
feature2.ap = nan

次に、出力特徴の内の、コードの非周期性というものの可視化です。意味合いや使い方については、おいおい分析を進める過程にて、必要に応じて掘り下げようと思います。

次に、出力特徴の内の、メルケプストラムの可視化です。

最後に、出力特徴の内の、発声タイミングの可視化です。

データ作成ついて（3. データを揃える（アライメントする））

次の手順は、データを揃えるとのことです。これは、リポジトリ管理者Hiroshibaさんの以下記事に記載される内容に関連するところかと思われます。 https://blog.hiroshiba.jp/sandbox-alignment-voice-actress-data/

処理コマンドは、以下とのことです。

python scripts/extract_align_indexes.py \
    -i1 './input_feature/*.npy' \
    -i2 './target_feature/*.npy' \
    -o './aligned_indexes/'

これを実施すると、以下ログを出力の上で、正常終了しました。

# python scripts/extract_align_indexes.py \
>     -i1 './input_feature/*.npy' \
>     -i2 './target_feature/*.npy' \
>     -o './aligned_indexes/'
{'dtype': 'int32',
 'enable_overwrite': False,
 'ignore_feature': ('feature1', 'feature2'),
 'input_glob1': './input_feature/*.npy',
 'input_glob2': './target_feature/*.npy',
 'output': PosixPath('aligned_indexes')}
100%|██████████████████████████████████████████████████████| 23398/23398 [01:25<00:00, 273.90it/s]

処理終了後に、出力フォルダを確認すると、こちらにも.npyファイルが格納されました。

# tree aligned_indexes/
aligned_indexes/
├── arguments.json
├── common_voice_ja_19482480.npy
├── common_voice_ja_19482491.npy
├── common_voice_ja_19482498.npy
├── …
├── common_voice_ja_27446518.npy
├── common_voice_ja_27446519.npy
└── common_voice_ja_27446520.npy

0 directories, 23399 files

リポジトリ管理者のHiroshibaさんが、別途記載して下さっているBLOGによれば、input_wavとtarget_wavの両方を時間調整したものが、格納されている様子です。 scripts/extract_align_indexes.pyのコード内容を確認をしてみますと、これは align_indexes という名称のインデックス情報が格納されているようでした。

実践方法として、Hiroshibaさんが、nnmnkwiiリポジトリより踏襲する形で実装したものを用いているようです。その中の、coreな処理としては fastdtw を用いた時系列データ間距離測定機能を用いているようです。 fastdtw については、以下の記事が参考になりました。 https://irukanobox.blogspot.com/2020/07/dtw.html

そうして抽出されたものを可視化してみますと、以下のようなインデックスの情報となっていました。これを元に、input_wav と target_wav の発声タイミングや発声区間を合わせ込むものと思われます。幾つかの音声データについて、出力された結果を貼っていきます。

どうやら、音声の合わせ方としては、input か target のどちらからの音声を遅らせることで、実現をする考えのように思われます。（※青色線が input、オレンジ線が target となります。）

データ作成ついて（4. 周波数の統計量を求める）

データ作成における最後の手順になります。以下コマンドの実施にて、周波数の統計量を求めるとのことです。

python scripts/extract_f0_statistics.py \
    -i './input_feature/*.npy' \
    -o './input_statistics.npy'

python scripts/extract_f0_statistics.py \
    -i './target_feature/*.npy' \
    -o './target_statistics.npy'

コマンドを実施してみますと、以下のような形にて、正常終了しました。

# python scripts/extract_f0_statistics.py \
>     -i './input_feature/*.npy' \
>     -o './input_statistics.npy'
{'input_glob': './input_feature/*.npy',
 'output': PosixPath('input_statistics.npy')}
100%|████████████████████████████████████████████████████| 23398/23398 [00:02<00:00, 10279.13it/s]
# python scripts/extract_f0_statistics.py \
>     -i './target_feature/*.npy' \
>     -o './target_statistics.npy'
{'input_glob': './target_feature/*.npy',
 'output': PosixPath('target_statistics.npy')}
100%|████████████████████████████████████████████████████| 23398/23398 [00:01<00:00, 12385.32it/s]

出力されたファイルは、以下のようになりました。

# ls -l *_statistics.npy
-rw-r--r-- 1 root root 416 Dec 12 13:04 input_statistics.npy
-rw-r--r-- 1 root root 416 Dec 12 13:04 target_statistics.npy

学習について（1. 学習用の設定ファイル `config.json` を作る）

先程までの手順にて、学習データが準備できたと思われる為、次の手順の学習用設定ファイルの作成に進みたいと思います。

学習の設定は、ファイル sample_config.json にて表現をするとのことです。とりあえずということであれば、input_glob、target_glob、indexes_glob を変更すれば動くとのことです。

sample_config.json の中身は以下となっています。

{
  "dataset": {
    "acoustic_param": {
      "alpha": 0.410,
      "dtype": "float32",
      "f0_ceil": 800,
      "f0_floor": 71,
      "fft_length": 1024,
      "frame_period": 5,
      "order": 8,
      "pad_second": 0,
      "sampling_rate": 24000,
      "threshold_db": 25
    },
    "input_glob": "./input_feature/*.npy",
    "target_glob": "./target_feature/*.npy",
    "indexes_glob": "./aligned_indexes/*.npy",
    "in_features": [
      "mc"
    ],
    "out_features": [
      "mc"
    ],
    "train_crop_size": 512,
    "input_global_noise": 0.01,
    "input_local_noise": 0.01,
    "target_global_noise": 0.01,
    "target_local_noise": 0.01,
    "seed": 0,
    "num_test": 5
  },
  "model": {
    "in_channels": 9,
    "out_channels": 9,
    "generator_base_channels": 8,
    "generator_extensive_layers": 8,
    "discriminator_base_channels": 1,
    "discriminator_extensive_layers": 5,
    "weak_discriminator": true
  },
  "loss": {
    "adversarial": 0,
    "mse": 100
  },
  "project": {
    "name": "",
    "tags": []
  },
  "train": {
    "batchsize": 8,
    "gpu": 0,
    "log_iteration": 250,
    "snapshot_iteration": 10000,
    "stop_iteration": null,
    "optimizer": {
      "alpha": 0.0002,
      "beta1": 0.5,
      "beta2": 0.999,
      "name": "Adam"
    }
  }
}

input_glob、target_glob、indexes_glob についても、手順通りに実施したところで、変更の必要がなさそうですので、そのままの内容とします。

学習について（2. 学習処理する）

いよいよ、次の手順にて、学習の実施となります。実施は、以下コマンドとのことです。

python train.py \
    sample_config.json \
    ./model_stage1/

ここで、序盤にてinstallに失敗した cupy でエラーが発声しました。

# python train.py \
>     sample_config.json \
>     ./model_stage1/
Not found cupy.
Traceback (most recent call last):
  File "train.py", line 35, in <module>
    cuda.get_device_from_id(config.train.gpu).use()
  File "/opt/conda/lib/python3.7/site-packages/chainer/backends/cuda.py", line 163, in get_device_from_id
    check_cuda_available()
  File "/opt/conda/lib/python3.7/site-packages/chainer/backends/cuda.py", line 93, in check_cuda_available
    raise RuntimeError(msg)
RuntimeError: CUDA environment is not correctly set up
(see https://github.com/chainer/chainer#installation).No module named 'cupy'

エラーログに記載されているリンクから、以下のリンクに辿り着くことができ、そこに記載されているコマンドの実施にて、cupy をインストールしてみました。 https://docs.cupy.dev/en/stable/install.html

pip install cupy-cuda112

その後、import cupy を実施してみましたところ、以下のエラーが発生しました。

ImportError: libnvrtc.so.11.2: cannot open shared object file: No such file or directory

こちらについて、nvidia-smi を実行した際のCUDAのversionが 11.2 となっていた為に、pip install cupy-cuda112 とした次第でしたが、以下記事によれば、そこが認識違いのようでした。 https://blog.mktia.com/get-cuda-and-cudnn-version/

nvidia-smi でも CUDA のバージョンらしきものは表示されますが，ドライバが対応している CUDA のバージョンを表示しているに過ぎないとのことです。代わりに、私の環境ですと、/usr/local/cuda/bin/nvcc --version というコマンドにて、CUDAのバージョンを確認することができ、正しくは 11.1 であることが判明しました。

# /usr/local/cuda/bin/nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2020 NVIDIA Corporation
Built on Mon_Oct_12_20:09:46_PDT_2020
Cuda compilation tools, release 11.1, V11.1.105
Build cuda_11.1.TC455_06.29190527_0

その為、以下にてインストールを再実施しました。

pip uninstall cupy-cuda112
pip install cupy-cuda111

すると、エラーが発生せずに、処理が動き始めました。尚、cupyについては、chainerを使用するに当たって、インストールをしている必要があるもので、それなしでyukarinリポジトリの学習を行うことは、難しいようでした。（当初の判断が誤っておりました。） https://github.com/chainer/chainer#installation

尚、cupy、及び、cupy-cudaXXXのインストールにつきましては、設定ファイルがインストール時に上書きがされるようで、複数インストールがされている場合は、最後にインストールしたものが、import cupy時に参照されるようです。つまり、共存ができない形である為、全てのcupyをしっかりとuninstallし、何れのcupyもinstallされていない状態で、所望のcupy-cudaXXXをinstallする必要があります。

学習が動き始めますと、train.py の実行時に引数として渡したフォルダ配下に、モデルファイルやログが出力される形となりました。

（学習実施コマンド再掲）
python train.py \
    sample_config.json \
    ./model_stage1/

　▼

# ls model_stage1
cg.dot                                       predictor_10000.npz  predictor_50000.npz
config.json                                  predictor_20000.npz  predictor_60000.npz
events.out.tfevents.1639306034.7217833e7f1b  predictor_30000.npz  predictor_70000.npz
log                                          predictor_40000.npz

尚、学習の実施について、終了Epoch数を指定する箇所が見当たらず、Ctrl + C 等で処理を止めない限り、学習処理が終わらないようでした。データ数 23398、バッチサイズ 128にて、10〜20時間程、学習処理を回してみます。

その後、ちょうど20時間程学習を回し、学習モデルが一定のiteration間隔で複数保存されました。

yukarin# tree model_stage1
model_stage1
├── cg.dot
├── config.json
├── events.out.tfevents.1639306034.7217833e7f1b
├── log
├── predictor_10000.npz
├── predictor_100000.npz
├── predictor_110000.npz
├── predictor_120000.npz
├── predictor_130000.npz
├── predictor_140000.npz
├── predictor_150000.npz
├── predictor_160000.npz
├── predictor_170000.npz
├── predictor_180000.npz
├── predictor_190000.npz
├── predictor_20000.npz
├── predictor_200000.npz
├── predictor_210000.npz
├── predictor_220000.npz
├── predictor_230000.npz
├── predictor_240000.npz
├── predictor_250000.npz
├── predictor_260000.npz
├── predictor_270000.npz
├── predictor_280000.npz
├── predictor_290000.npz
├── predictor_30000.npz
├── predictor_300000.npz
├── predictor_310000.npz
├── predictor_320000.npz
├── predictor_330000.npz
├── predictor_340000.npz
├── predictor_350000.npz
├── predictor_360000.npz
├── predictor_370000.npz
├── predictor_380000.npz
├── predictor_390000.npz
├── predictor_40000.npz
├── predictor_400000.npz
├── predictor_410000.npz
├── predictor_420000.npz
├── predictor_430000.npz
├── predictor_440000.npz
├── predictor_450000.npz
├── predictor_460000.npz
├── predictor_470000.npz
├── predictor_480000.npz
├── predictor_490000.npz
├── predictor_50000.npz
├── predictor_500000.npz
├── predictor_510000.npz
├── predictor_520000.npz
├── predictor_530000.npz
├── predictor_540000.npz
├── predictor_550000.npz
├── predictor_560000.npz
├── predictor_570000.npz
├── predictor_580000.npz
├── predictor_590000.npz
├── predictor_60000.npz
├── predictor_600000.npz
├── predictor_610000.npz
├── predictor_620000.npz
├── predictor_630000.npz
├── predictor_640000.npz
├── predictor_650000.npz
├── predictor_660000.npz
├── predictor_670000.npz
├── predictor_680000.npz
├── predictor_690000.npz
├── predictor_70000.npz
├── predictor_700000.npz
├── predictor_710000.npz
├── predictor_720000.npz
├── predictor_730000.npz
├── predictor_740000.npz
├── predictor_750000.npz
├── predictor_760000.npz
├── predictor_770000.npz
├── predictor_780000.npz
├── predictor_790000.npz
├── predictor_80000.npz
├── predictor_800000.npz
├── predictor_810000.npz
├── predictor_820000.npz
├── predictor_830000.npz
├── predictor_840000.npz
└── predictor_90000.npz

0 directories, 88 files

logに、学習のlossが記録されるのですが、その経過は以下のようでした。

    {
        "predictor/mse": 0.35239657759666443,
        "predictor/adversarial": 1.009699821472168,
        "predictor/loss": 35.23966979980469,
        "discriminator/real": 0.21418224275112152,
        "discriminator/fake": 0.49350425601005554,
        "discriminator/loss": 0.7076864838600159,
        "discriminator/accuracy": 0.95191650390625,
        "discriminator/precision": 0.9904609629602085,
        "discriminator/recall": 0.9126904296875,
        "test/predictor/mse": 0.4434267282485962,
        "test/predictor/adversarial": 0.6913116574287415,
        "test/predictor/loss": 44.342674255371094,
        "test/discriminator/real": 0.7373173236846924,
        "test/discriminator/fake": 0.7232625484466553,
        "test/discriminator/loss": 1.4605798721313477,
        "test/discriminator/accuracy": 0.44375,
        "test/discriminator/precision": 0.125,
        "test/discriminator/recall": 0.01875,
        "train/predictor/mse": 0.2641863226890564,
        "train/predictor/adversarial": 0.8317578434944153,
        "train/predictor/loss": 26.41863250732422,
        "train/discriminator/real": 0.7838372588157654,
        "train/discriminator/fake": 0.6074777841567993,
        "train/discriminator/loss": 1.39131498336792,
        "train/discriminator/accuracy": 0.509375,
        "train/discriminator/precision": 1.0,
        "train/discriminator/recall": 0.01875,
        "epoch": 5,
        "iteration": 1000,
        "elapsed_time": 81.01380289904773
    },

　▼

    {
        "predictor/mse": 0.3256767988204956,
        "predictor/adversarial": 5.032227993011475,
        "predictor/loss": 32.56768035888672,
        "discriminator/real": 0.05071548372507095,
        "discriminator/fake": 0.038136936724185944,
        "discriminator/loss": 0.0888524278998375,
        "discriminator/accuracy": 0.98839599609375,
        "discriminator/precision": 0.9971560586514624,
        "discriminator/recall": 0.9796044921875,
        "test/predictor/mse": 0.35689324140548706,
        "test/predictor/adversarial": 3.7905514240264893,
        "test/predictor/loss": 35.68932342529297,
        "test/discriminator/real": 2.556612491607666,
        "test/discriminator/fake": 0.02566264010965824,
        "test/discriminator/loss": 2.582275152206421,
        "test/discriminator/accuracy": 0.509375,
        "test/discriminator/precision": 1.0,
        "test/discriminator/recall": 0.01875,
        "train/predictor/mse": 0.2284717708826065,
        "train/predictor/adversarial": 3.8663880825042725,
        "train/predictor/loss": 22.847177505493164,
        "train/discriminator/real": 2.8593335151672363,
        "train/discriminator/fake": 0.02544046752154827,
        "train/discriminator/loss": 2.8847739696502686,
        "train/discriminator/accuracy": 0.503125,
        "train/discriminator/precision": 1.0,
        "train/discriminator/recall": 0.00625,
        "epoch": 54,
        "iteration": 10000,
        "elapsed_time": 798.8362969011068
    },

　▼

    {
        "predictor/mse": 0.3052104711532593,
        "predictor/adversarial": 6.364946365356445,
        "predictor/loss": 30.521047592163086,
        "discriminator/real": 0.003857325529679656,
        "discriminator/fake": 0.00210120202973485,
        "discriminator/loss": 0.005958528723567724,
        "discriminator/accuracy": 0.99937744140625,
        "discriminator/precision": 0.9999804520455513,
        "discriminator/recall": 0.9987744140625,
        "test/predictor/mse": 0.3660505414009094,
        "test/predictor/adversarial": 1.631148006708827e-05,
        "test/predictor/loss": 36.60505294799805,
        "test/discriminator/real": 9.940130257746205e-05,
        "test/discriminator/fake": 13.819330215454102,
        "test/discriminator/loss": 13.819429397583008,
        "test/discriminator/accuracy": 0.5,
        "test/discriminator/precision": 0.5,
        "test/discriminator/recall": 1.0,
        "train/predictor/mse": 0.22484809160232544,
        "train/predictor/adversarial": 1.64138382388046e-05,
        "train/predictor/loss": 22.48480987548828,
        "train/discriminator/real": 5.373924068408087e-05,
        "train/discriminator/fake": 13.840730667114258,
        "train/discriminator/loss": 13.840784072875977,
        "train/discriminator/accuracy": 0.5,
        "train/discriminator/precision": 0.5,
        "train/discriminator/recall": 1.0,
        "epoch": 547,
        "iteration": 100000,
        "elapsed_time": 8113.639713731012
    },

　▼

    {
        "predictor/mse": 0.30366745591163635,
        "predictor/adversarial": 7.030780792236328,
        "predictor/loss": 30.366737365722656,
        "discriminator/real": 0.010039892978966236,
        "discriminator/fake": 0.0017708293162286282,
        "discriminator/loss": 0.011810722760856152,
        "discriminator/accuracy": 0.9988623046875,
        "discriminator/precision": 0.999941303506524,
        "discriminator/recall": 0.997783203125,
        "test/predictor/mse": 0.35088080167770386,
        "test/predictor/adversarial": 6.8735448621737305e-06,
        "test/predictor/loss": 35.08808135986328,
        "test/discriminator/real": 0.0005439310916699469,
        "test/discriminator/fake": 16.6959228515625,
        "test/discriminator/loss": 16.69646644592285,
        "test/discriminator/accuracy": 0.5,
        "test/discriminator/precision": 0.5,
        "test/discriminator/recall": 1.0,
        "train/predictor/mse": 0.24123618006706238,
        "train/predictor/adversarial": 6.821536317147547e-06,
        "train/predictor/loss": 24.12361717224121,
        "train/discriminator/real": 0.0016821377212181687,
        "train/discriminator/fake": 16.701169967651367,
        "train/discriminator/loss": 16.702852249145508,
        "train/discriminator/accuracy": 0.5,
        "train/discriminator/precision": 0.5,
        "train/discriminator/recall": 1.0,
        "epoch": 1094,
        "iteration": 200000,
        "elapsed_time": 16456.76111229905
    },

　▼

    {
        "predictor/mse": 0.2946970760822296,
        "predictor/adversarial": 8.057758331298828,
        "predictor/loss": 29.469711303710938,
        "discriminator/real": 0.002485891105607152,
        "discriminator/fake": 0.0005037991795688868,
        "discriminator/loss": 0.0029896902851760387,
        "discriminator/accuracy": 0.99978515625,
        "discriminator/precision": 0.9999804735172078,
        "discriminator/recall": 0.99958984375,
        "test/predictor/mse": 0.3218367099761963,
        "test/predictor/adversarial": 2.8206122806295753e-06,
        "test/predictor/loss": 32.18367004394531,
        "test/discriminator/real": 1.4969022004152066e-06,
        "test/discriminator/fake": 18.49074363708496,
        "test/discriminator/loss": 18.490745544433594,
        "test/discriminator/accuracy": 0.5,
        "test/discriminator/precision": 0.5,
        "test/discriminator/recall": 1.0,
        "train/predictor/mse": 0.22985798120498657,
        "train/predictor/adversarial": 2.979112196044298e-06,
        "train/predictor/loss": 22.985797882080078,
        "train/discriminator/real": 6.583236972801387e-05,
        "train/discriminator/fake": 18.465129852294922,
        "train/discriminator/loss": 18.46519660949707,
        "train/discriminator/accuracy": 0.5,
        "train/discriminator/precision": 0.5,
        "train/discriminator/recall": 1.0,
        "epoch": 2188,
        "iteration": 400000,
        "elapsed_time": 33794.79855498602
    },

　▼

    {
        "predictor/mse": 0.2946617007255554,
        "predictor/adversarial": 8.973788261413574,
        "predictor/loss": 29.466167449951172,
        "discriminator/real": 0.0021689562126994133,
        "discriminator/fake": 0.00024469412164762616,
        "discriminator/loss": 0.002413650043308735,
        "discriminator/accuracy": 0.999833984375,
        "discriminator/precision": 0.9999902200488998,
        "discriminator/recall": 0.999677734375,
        "test/predictor/mse": 0.33563244342803955,
        "test/predictor/adversarial": 9.00166441386574e-10,
        "test/predictor/loss": 33.5632438659668,
        "test/discriminator/real": 2.0852203519439172e-08,
        "test/discriminator/fake": 30.933984756469727,
        "test/discriminator/loss": 30.933984756469727,
        "test/discriminator/accuracy": 0.5,
        "test/discriminator/precision": 0.5,
        "test/discriminator/recall": 1.0,
        "train/predictor/mse": 0.26031461358070374,
        "train/predictor/adversarial": 7.850932681741085e-10,
        "train/predictor/loss": 26.031461715698242,
        "train/discriminator/real": 1.5840148748225147e-08,
        "train/discriminator/fake": 31.085153579711914,
        "train/discriminator/loss": 31.085153579711914,
        "train/discriminator/accuracy": 0.5,
        "train/discriminator/precision": 0.5,
        "train/discriminator/recall": 1.0,
        "epoch": 4596,
        "iteration": 840000,
        "elapsed_time": 74940.43543752504
    },

学習について（3. テスト）

次に、テストを行ってみます。先ずは、学習に用いたデータがどれ程上手く変換できるかを確認します。尚、学習データは、対となるセットの音声データが23,398×2個と、相当数存在します。

学習データにて、テストを行うコマンドは、以下とのことです。

python scripts/voice_change.py \
    --model_dir './model_stage1' \
    --config_path './model_stage1/config.json' \
    --input_statistics 'input_statistics.npy' \
    --target_statistics 'target_statistics.npy' \
    --output_sampling_rate 24000 \
    --disable_dataset_test \
    --test_wave_dir './input_wav/' \
    --output_dir './output/'

実行してみますと、以下のエラーが発生しました。

Traceback (most recent call last):
  File "scripts/voice_change.py", line 11, in <module>
    from yukarin import AcousticConverter
  File "/docker/ax/20211128_yukarin/yukarin/__init__.py", line 1, in <module>
    from .acoustic_converter import AcousticConverter
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 14, in <module>
    from yukarin.dataset import decode_feature
  File "/docker/ax/20211128_yukarin/yukarin/dataset.py", line 10, in <module>
    from yukarin.align_indexes import AlignIndexes
  File "/docker/ax/20211128_yukarin/yukarin/align_indexes.py", line 5, in <module>
    from become_yukarin.dataset.utility import MelCepstrumAligner
ModuleNotFoundError: No module named 'become_yukarin'

こちらは、requirements.txt に記載されていたものの、インストールが漏れていたものでした。以下コマンドにて、インストールを実施します。

pip install git+https://github.com/Hiroshiba/become-yukarin

再度、先程のテストコマンドを実施します。すると、以下エラーログが出力されました。

Loaded acoustic converter model "model_stage1/predictor_840000.npz"
Traceback (most recent call last):
  File "scripts/voice_change.py", line 67, in process
    p_in = Path(glob.glob(str(dataset_wave_dir / p_in.stem) + '.*')[0])
TypeError: unsupported operand type(s) for /: 'NoneType' and 'str'
Traceback (most recent call last):
  File "scripts/voice_change.py", line 67, in process
    p_in = Path(glob.glob(str(dataset_wave_dir / p_in.stem) + '.*')[0])
TypeError: unsupported operand type(s) for /: 'NoneType' and 'str'
Traceback (most recent call last):
  File "scripts/voice_change.py", line 67, in process
    p_in = Path(glob.glob(str(dataset_wave_dir / p_in.stem) + '.*')[0])
TypeError: unsupported operand type(s) for /: 'NoneType' and 'str'
Traceback (most recent call last):
  File "scripts/voice_change.py", line 67, in process
    p_in = Path(glob.glob(str(dataset_wave_dir / p_in.stem) + '.*')[0])
TypeError: unsupported operand type(s) for /: 'NoneType' and 'str'
Traceback (most recent call last):
  File "scripts/voice_change.py", line 67, in process
    p_in = Path(glob.glob(str(dataset_wave_dir / p_in.stem) + '.*')[0])
TypeError: unsupported operand type(s) for /: 'NoneType' and 'str'
Traceback (most recent call last):
  File "scripts/voice_change.py", line 75, in process
    f_in_effective, effective = acoustic_converter.separate_effective(wave=w_in, feature=f_in, threshold=threshold)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 92, in separate_effective
    feature = feature.indexing(effective)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_feature.py", line 86, in indexing
    f0=self.f0[index] if _is_target(self.f0) else numpy.nan,
IndexError: boolean index did not match indexed array along dimension 0; dimension is 922 but corresponding boolean dimension is 921
Traceback (most recent call last):
  File "scripts/voice_change.py", line 75, in process
    f_in_effective, effective = acoustic_converter.separate_effective(wave=w_in, feature=f_in, threshold=threshold)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 92, in separate_effective
    feature = feature.indexing(effective)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_feature.py", line 86, in indexing
    f0=self.f0[index] if _is_target(self.f0) else numpy.nan,
IndexError: boolean index did not match indexed array along dimension 0; dimension is 692 but corresponding boolean dimension is 691
Traceback (most recent call last):
  File "scripts/voice_change.py", line 75, in process
    f_in_effective, effective = acoustic_converter.separate_effective(wave=w_in, feature=f_in, threshold=threshold)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 92, in separate_effective
    feature = feature.indexing(effective)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_feature.py", line 86, in indexing
    f0=self.f0[index] if _is_target(self.f0) else numpy.nan,
IndexError: boolean index did not match indexed array along dimension 0; dimension is 1076 but corresponding boolean dimension is 1075
Traceback (most recent call last):
  File "scripts/voice_change.py", line 75, in process
    f_in_effective, effective = acoustic_converter.separate_effective(wave=w_in, feature=f_in, threshold=threshold)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 92, in separate_effective
    feature = feature.indexing(effective)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_feature.py", line 86, in indexing
    f0=self.f0[index] if _is_target(self.f0) else numpy.nan,
IndexError: boolean index did not match indexed array along dimension 0; dimension is 692 but corresponding boolean dimension is 691
Traceback (most recent call last):
  File "scripts/voice_change.py", line 75, in process
    f_in_effective, effective = acoustic_converter.separate_effective(wave=w_in, feature=f_in, threshold=threshold)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 92, in separate_effective
    feature = feature.indexing(effective)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_feature.py", line 86, in indexing
    f0=self.f0[index] if _is_target(self.f0) else numpy.nan,
IndexError: boolean index did not match indexed array along dimension 0; dimension is 692 but corresponding boolean dimension is 691
Traceback (most recent call last):
  File "scripts/voice_change.py", line 75, in process
    f_in_effective, effective = acoustic_converter.separate_effective(wave=w_in, feature=f_in, threshold=threshold)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 92, in separate_effective
    feature = feature.indexing(effective)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_feature.py", line 86, in indexing
    f0=self.f0[index] if _is_target(self.f0) else numpy.nan,
IndexError: boolean index did not match indexed array along dimension 0; dimension is 692 but corresponding boolean dimension is 691
^CTraceback (most recent call last):
  File "scripts/voice_change.py", line 133, in <module>
    main()
  File "scripts/voice_change.py", line 127, in main
Traceback (most recent call last):
    list(multiprocessing.Pool().map(process_partial, paths_test))
  File "scripts/voice_change.py", line 80, in process
    f_out = acoustic_converter.decode_spectrogram(f_out)
  File "/opt/conda/lib/python3.7/multiprocessing/pool.py", line 268, in map
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 169, in decode_spectrogram
    alpha=pysptk.util.mcepalpha(self.out_sampling_rate),
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 179, in mcepalpha
    alpha in alpha_candidates]
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 179, in <listcomp>
    alpha in alpha_candidates]
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 192, in _warping_vector
    omega = step * np.arange(0, length)
KeyboardInterrupt
    return self._map_async(func, iterable, mapstar, chunksize).get()
  File "/opt/conda/lib/python3.7/multiprocessing/pool.py", line 651, in get
Traceback (most recent call last):
  File "scripts/voice_change.py", line 80, in process
    f_out = acoustic_converter.decode_spectrogram(f_out)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 170, in decode_spectrogram
    fftlen=fftlen,
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 75, in apply_along_last_axis
    ret = np.apply_along_axis(func, -1, *args, **kwargs)
  File "<__array_function__ internals>", line 6, in apply_along_axis
  File "/opt/conda/lib/python3.7/site-packages/numpy/lib/shape_base.py", line 402, in apply_along_axis
    buff[ind] = asanyarray(func1d(inarr_view[ind], *args, **kwargs))
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 94, in automatic_type_conversion
    return func(*args, **kwargs).astype(dtypein)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/conversion.py", line 149, in mc2sp
    symc[i] = c[i]
KeyboardInterrupt
    self.wait(timeout)
  File "/opt/conda/lib/python3.7/multiprocessing/pool.py", line 648, in wait
    self._event.wait(timeout)
  File "/opt/conda/lib/python3.7/threading.py", line 552, in wait
    signaled = self._cond.wait(timeout)
  File "/opt/conda/lib/python3.7/threading.py", line 296, in wait
    waiter.acquire()
KeyboardInterrupt
Traceback (most recent call last):
  File "scripts/voice_change.py", line 80, in process
    f_out = acoustic_converter.decode_spectrogram(f_out)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 169, in decode_spectrogram
    alpha=pysptk.util.mcepalpha(self.out_sampling_rate),
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 179, in mcepalpha
    alpha in alpha_candidates]
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 179, in <listcomp>
    alpha in alpha_candidates]
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 195, in _warping_vector
    warpfreq = np.arctan(num / den)
KeyboardInterrupt
Traceback (most recent call last):
  File "scripts/voice_change.py", line 80, in process
    f_out = acoustic_converter.decode_spectrogram(f_out)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 170, in decode_spectrogram
    fftlen=fftlen,
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 75, in apply_along_last_axis
    ret = np.apply_along_axis(func, -1, *args, **kwargs)
  File "<__array_function__ internals>", line 6, in apply_along_axis
  File "/opt/conda/lib/python3.7/site-packages/numpy/lib/shape_base.py", line 402, in apply_along_axis
    buff[ind] = asanyarray(func1d(inarr_view[ind], *args, **kwargs))
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 94, in automatic_type_conversion
    return func(*args, **kwargs).astype(dtypein)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/conversion.py", line 154, in mc2sp
    return np.exp(np.fft.rfft(symc).real)
KeyboardInterrupt
Traceback (most recent call last):
Traceback (most recent call last):
  File "scripts/voice_change.py", line 80, in process
    f_out = acoustic_converter.decode_spectrogram(f_out)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 170, in decode_spectrogram
    fftlen=fftlen,
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 75, in apply_along_last_axis
    ret = np.apply_along_axis(func, -1, *args, **kwargs)
  File "<__array_function__ internals>", line 6, in apply_along_axis
  File "/opt/conda/lib/python3.7/site-packages/numpy/lib/shape_base.py", line 402, in apply_along_axis
    buff[ind] = asanyarray(func1d(inarr_view[ind], *args, **kwargs))
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 94, in automatic_type_conversion
    return func(*args, **kwargs).astype(dtypein)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/conversion.py", line 149, in mc2sp
    symc[i] = c[i]
KeyboardInterrupt
  File "scripts/voice_change.py", line 80, in process
    f_out = acoustic_converter.decode_spectrogram(f_out)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 170, in decode_spectrogram
    fftlen=fftlen,
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 75, in apply_along_last_axis
    ret = np.apply_along_axis(func, -1, *args, **kwargs)
  File "<__array_function__ internals>", line 6, in apply_along_axis
  File "/opt/conda/lib/python3.7/site-packages/numpy/lib/shape_base.py", line 402, in apply_along_axis
    buff[ind] = asanyarray(func1d(inarr_view[ind], *args, **kwargs))
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 94, in automatic_type_conversion
    return func(*args, **kwargs).astype(dtypein)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/conversion.py", line 143, in mc2sp
    c = freqt(mc, int(fftlen // 2), -alpha)
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 70, in apply_along_last_axis
    ret = func(*args, **kwargs)
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 80, in automatic_type_conversion
    @decorator
KeyboardInterrupt
Traceback (most recent call last):
Traceback (most recent call last):
  File "scripts/voice_change.py", line 80, in process
    f_out = acoustic_converter.decode_spectrogram(f_out)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 170, in decode_spectrogram
    fftlen=fftlen,
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 75, in apply_along_last_axis
    ret = np.apply_along_axis(func, -1, *args, **kwargs)
  File "<__array_function__ internals>", line 6, in apply_along_axis
  File "/opt/conda/lib/python3.7/site-packages/numpy/lib/shape_base.py", line 402, in apply_along_axis
    buff[ind] = asanyarray(func1d(inarr_view[ind], *args, **kwargs))
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 94, in automatic_type_conversion
    return func(*args, **kwargs).astype(dtypein)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/conversion.py", line 154, in mc2sp
    return np.exp(np.fft.rfft(symc).real)
  File "<__array_function__ internals>", line 6, in rfft
  File "/opt/conda/lib/python3.7/site-packages/numpy/fft/_pocketfft.py", line 409, in rfft
    output = _raw_fft(a, n, axis, True, True, inv_norm)
  File "scripts/voice_change.py", line 78, in process
    f_out = acoustic_converter.convert_loop(f_in_effective)
  File "/opt/conda/lib/python3.7/site-packages/numpy/fft/_pocketfft.py", line 70, in _raw_fft
    r = pfi.execute(a, is_real, is_forward, fct)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 142, in convert_loop
    o_warp = self.convert(f)
KeyboardInterrupt
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 109, in convert
    out = self.model(inputs).data[0]
  File "/docker/ax/20211128_yukarin/yukarin/model.py", line 148, in __call__
    return self.decoder(self.encoder(x))
  File "/docker/ax/20211128_yukarin/yukarin/model.py", line 134, in __call__
    h = self['c%d' % i](h)
  File "/docker/ax/20211128_yukarin/yukarin/model.py", line 70, in __call__
    h = self.c(x)
  File "/opt/conda/lib/python3.7/site-packages/chainer/link.py", line 242, in __call__
    out = forward(*args, **kwargs)
  File "/opt/conda/lib/python3.7/site-packages/chainer/links/connection/deconvolution_nd.py", line 150, in forward
    outsize=self.outsize, dilate=self.dilate, groups=self.groups)
  File "/opt/conda/lib/python3.7/site-packages/chainer/functions/connection/deconvolution_nd.py", line 377, in deconvolution_nd
    y, = func.apply(args)
  File "/opt/conda/lib/python3.7/site-packages/chainer/function_node.py", line 263, in apply
    outputs = self.forward(in_data)
  File "/opt/conda/lib/python3.7/site-packages/chainer/functions/connection/deconvolution_nd.py", line 186, in forward
    return self._forward_xp(x, W, b, numpy)
  File "/opt/conda/lib/python3.7/site-packages/chainer/functions/connection/deconvolution_nd.py", line 83, in _forward_xp
    return self._forward_xp_core(x, W, b, xp)
  File "/opt/conda/lib/python3.7/site-packages/chainer/functions/connection/deconvolution_nd.py", line 128, in _forward_xp_core
    gcol = xp.tensordot(W, x, (0, 1)).astype(x.dtype, copy=False)
Traceback (most recent call last):
Traceback (most recent call last):
Traceback (most recent call last):
  File "scripts/voice_change.py", line 80, in process
    f_out = acoustic_converter.decode_spectrogram(f_out)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 169, in decode_spectrogram
    alpha=pysptk.util.mcepalpha(self.out_sampling_rate),
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 179, in mcepalpha
    alpha in alpha_candidates]
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 179, in <listcomp>
    alpha in alpha_candidates]
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 193, in _warping_vector
    num = (1 - alpha * alpha) * np.sin(omega)
  File "scripts/voice_change.py", line 80, in process
    f_out = acoustic_converter.decode_spectrogram(f_out)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 170, in decode_spectrogram
    fftlen=fftlen,
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "scripts/voice_change.py", line 78, in process
    f_out = acoustic_converter.convert_loop(f_in_effective)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 75, in apply_along_last_axis
    ret = np.apply_along_axis(func, -1, *args, **kwargs)
Traceback (most recent call last):
KeyboardInterrupt
  File "<__array_function__ internals>", line 6, in tensordot
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 142, in convert_loop
    o_warp = self.convert(f)
  File "<__array_function__ internals>", line 6, in apply_along_axis
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 109, in convert
    out = self.model(inputs).data[0]
  File "/opt/conda/lib/python3.7/site-packages/numpy/lib/shape_base.py", line 402, in apply_along_axis
    buff[ind] = asanyarray(func1d(inarr_view[ind], *args, **kwargs))
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 94, in automatic_type_conversion
    return func(*args, **kwargs).astype(dtypein)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/conversion.py", line 150, in mc2sp
    symc[-i] = c[i]
KeyboardInterrupt
  File "/opt/conda/lib/python3.7/site-packages/numpy/core/numeric.py", line 1132, in tensordot
    res = dot(at, bt)
  File "<__array_function__ internals>", line 6, in dot
KeyboardInterrupt
  File "/docker/ax/20211128_yukarin/yukarin/model.py", line 148, in __call__
    return self.decoder(self.encoder(x))
  File "/docker/ax/20211128_yukarin/yukarin/model.py", line 134, in __call__
    h = self['c%d' % i](h)
  File "/docker/ax/20211128_yukarin/yukarin/model.py", line 70, in __call__
    h = self.c(x)
  File "scripts/voice_change.py", line 74, in process
    f_in = acoustic_converter.extract_acoustic_feature(w_in)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 67, in extract_acoustic_feature
    dtype=self._param.dtype,
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_feature.py", line 141, in extract
    mc = pysptk.sp2mc(sp, order=order, alpha=alpha)
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 75, in apply_along_last_axis
    ret = np.apply_along_axis(func, -1, *args, **kwargs)
  File "<__array_function__ internals>", line 6, in apply_along_axis
  File "/opt/conda/lib/python3.7/site-packages/numpy/lib/shape_base.py", line 402, in apply_along_axis
    buff[ind] = asanyarray(func1d(inarr_view[ind], *args, **kwargs))
Traceback (most recent call last):
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 231, in fun
    args, kw = fix(args, kw, sig)
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 203, in fix
    ba = sig.bind(*args, **kwargs)
  File "/opt/conda/lib/python3.7/inspect.py", line 3015, in bind
    return args[0]._bind(args[1:], kwargs)
  File "/opt/conda/lib/python3.7/inspect.py", line 2944, in _bind
    if param.kind == _VAR_POSITIONAL:
KeyboardInterrupt
  File "/opt/conda/lib/python3.7/site-packages/chainer/link.py", line 242, in __call__
    out = forward(*args, **kwargs)
  File "/opt/conda/lib/python3.7/site-packages/chainer/links/connection/deconvolution_nd.py", line 150, in forward
    outsize=self.outsize, dilate=self.dilate, groups=self.groups)
  File "scripts/voice_change.py", line 74, in process
    f_in = acoustic_converter.extract_acoustic_feature(w_in)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_converter.py", line 67, in extract_acoustic_feature
    dtype=self._param.dtype,
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_feature.py", line 141, in extract
    mc = pysptk.sp2mc(sp, order=order, alpha=alpha)
  File "/opt/conda/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/opt/conda/lib/python3.7/site-packages/pysptk/util.py", line 75, in apply_along_last_axis
    ret = np.apply_along_axis(func, -1, *args, **kwargs)
  File "<__array_function__ internals>", line 6, in apply_along_axis
  File "/opt/conda/lib/python3.7/site-packages/numpy/lib/shape_base.py", line 401, in apply_along_axis
    for ind in inds:
  File "/opt/conda/lib/python3.7/site-packages/numpy/lib/shape_base.py", line 370, in <genexpr>
    inds = (ind + (Ellipsis,) for ind in inds)
  File "/opt/conda/lib/python3.7/site-packages/numpy/lib/index_tricks.py", line 683, in __next__
    def __next__(self):
KeyboardInterrupt
  File "/opt/conda/lib/python3.7/site-packages/chainer/functions/connection/deconvolution_nd.py", line 377, in deconvolution_nd
    y, = func.apply(args)
  File "/opt/conda/lib/python3.7/site-packages/chainer/function_node.py", line 263, in apply
    outputs = self.forward(in_data)
  File "/opt/conda/lib/python3.7/site-packages/chainer/functions/connection/deconvolution_nd.py", line 186, in forward
    return self._forward_xp(x, W, b, numpy)
  File "/opt/conda/lib/python3.7/site-packages/chainer/functions/connection/deconvolution_nd.py", line 83, in _forward_xp
    return self._forward_xp_core(x, W, b, xp)
  File "/opt/conda/lib/python3.7/site-packages/chainer/functions/connection/deconvolution_nd.py", line 128, in _forward_xp_core
    gcol = xp.tensordot(W, x, (0, 1)).astype(x.dtype, copy=False)
  File "<__array_function__ internals>", line 6, in tensordot
  File "/opt/conda/lib/python3.7/site-packages/numpy/core/numeric.py", line 1132, in tensordot
    res = dot(at, bt)
  File "<__array_function__ internals>", line 6, in dot
KeyboardInterrupt
Traceback (most recent call last):
  File "scripts/voice_change.py", line 85, in process
    wave = f_out.decode(sampling_rate=sampling_rate, frame_period=frame_period)
  File "/docker/ax/20211128_yukarin/yukarin/acoustic_feature.py", line 193, in decode
    frame_period=frame_period,

一方で、output フォルダ配下には、音声変換されたデータが格納されています。変換処理が、上手く行えているものもあれば、行えていないものもある、という形であるようです。尚、できあがった変換音声を聞いてみると、学習データにおける変換となりますが、あまり上手く行えていませんでした。読まれている文章の内容が、聞き取れないものが大半でした。聞き取れるものでも、ロボットが読んでいるような、不自然なニュアンスです。

尚、学習に使用した音声データは、23,398個のファイルがあり、ダウンロード元によれば、話者数が恐らく397名かと思われます。そのレベルで変換ができないということは、any-to-oneの変換には不向きということなのかもしれません。

或いは、改めてデータを確認してみると、海外の方がカタコトで日本語を話されているものや、言い間違えているもの、ボソボソと聞き取りづらいもの、外部ノイズが混じっているもの、無音のもの等、学習を難しくしているデータが混じっている様子でした。

そこで、試しに、品質の良い音声データだけに絞って、再び学習を実施してみようと思います。

尚、VoiceVoxにて生成した音声についても、イントネーションがおかしい部分が、比較的多数存在することに気が付きました。イントネーションについては、VoiceVoxのアプリ版にて調整が可能なのですが、コマンドラインによるツール実施であると難しい次第です。その為、この点は目をつむって、学習を実施します。

学習について（X. 再学習〜再テスト）

学習データを選定した結果、18,000程の音声データを削除し、5,894にまで絞りました。このデータにて、改めて前処理を実施の上、学習処理を実施します。

python scripts/extract_acoustic_feature.py \
    -i './input_wav/*' \
    -o './input_feature/'

python scripts/extract_acoustic_feature.py \
    -i './target_wav/*' \
    -o './target_feature/'

python scripts/extract_align_indexes.py \
    -i1 './input_feature/*.npy' \
    -i2 './target_feature/*.npy' \
    -o './aligned_indexes/'

python scripts/extract_f0_statistics.py \
    -i './input_feature/*.npy' \
    -o './input_statistics.npy'

python scripts/extract_f0_statistics.py \
    -i './target_feature/*.npy' \
    -o './target_statistics.npy'

python train.py \
    sample_config.json \
    ./model_stage1/

選定を行った学習データにて、13時間程学習を回し、モデルファイルを生成しました。

yukarin# tree model_stage1/
model_stage1/
├── cg.dot
├── config.json
├── events.out.tfevents.1640679958.9e39f0c75923
├── log
├── predictor_10000.npz
├── predictor_100000.npz
├── predictor_110000.npz
├── predictor_120000.npz
├── predictor_130000.npz
├── predictor_140000.npz
├── predictor_150000.npz
├── predictor_160000.npz
├── predictor_170000.npz
├── predictor_180000.npz
├── predictor_190000.npz
├── predictor_20000.npz
├── predictor_200000.npz
├── predictor_210000.npz
├── predictor_220000.npz
├── predictor_230000.npz
├── predictor_240000.npz
├── predictor_250000.npz
├── predictor_260000.npz
├── predictor_270000.npz
├── predictor_280000.npz
├── predictor_290000.npz
├── predictor_30000.npz
├── predictor_300000.npz
├── predictor_310000.npz
├── predictor_320000.npz
├── predictor_330000.npz
├── predictor_340000.npz
├── predictor_350000.npz
├── predictor_360000.npz
├── predictor_370000.npz
├── predictor_380000.npz
├── predictor_390000.npz
├── predictor_40000.npz
├── predictor_400000.npz
├── predictor_410000.npz
├── predictor_420000.npz
├── predictor_430000.npz
├── predictor_440000.npz
├── predictor_450000.npz
├── predictor_460000.npz
├── predictor_470000.npz
├── predictor_480000.npz
├── predictor_490000.npz
├── predictor_50000.npz
├── predictor_500000.npz
├── predictor_510000.npz
├── predictor_520000.npz
├── predictor_530000.npz
├── predictor_540000.npz
├── predictor_550000.npz
├── predictor_560000.npz
├── predictor_570000.npz
├── predictor_580000.npz
├── predictor_590000.npz
├── predictor_60000.npz
├── predictor_600000.npz
├── predictor_610000.npz
├── predictor_620000.npz
├── predictor_630000.npz
├── predictor_640000.npz
├── predictor_70000.npz
├── predictor_80000.npz
└── predictor_90000.npz

0 directories, 68 files

最終的なlogは以下となります。選定前よりも改善しているように思えます。

    {
        "predictor/mse": 0.26048386096954346,
        "predictor/adversarial": 34.359676361083984,
        "predictor/loss": 26.048383712768555,
        "discriminator/real": 0.006752286572009325,
        "discriminator/fake": 0.016222849488258362,
        "discriminator/loss": 0.02297513745725155,
        "discriminator/accuracy": 0.9975341796875,
        "discriminator/precision": 0.9963241332156757,
        "discriminator/recall": 0.9987548828125,
        "test/predictor/mse": 0.3014129102230072,
        "test/predictor/adversarial": 0.0002113436785293743,
        "test/predictor/loss": 30.14129066467285,
        "test/discriminator/real": 9.132438572123647e-05,
        "test/discriminator/fake": 8.595941543579102,
        "test/discriminator/loss": 8.596033096313477,
        "test/discriminator/accuracy": 0.5,
        "test/discriminator/precision": 0.5,
        "test/discriminator/recall": 1.0,
        "train/predictor/mse": 0.20771053433418274,
        "train/predictor/adversarial": 0.00020970181503798813,
        "train/predictor/loss": 20.771053314208984,
        "train/discriminator/real": 0.0001445886300643906,
        "train/discriminator/fake": 8.599419593811035,
        "train/discriminator/loss": 8.599564552307129,
        "train/discriminator/accuracy": 0.5,
        "train/discriminator/precision": 0.5,
        "train/discriminator/recall": 1.0,
        "epoch": 13950,
        "iteration": 641850,
        "elapsed_time": 54962.55319662788
    }

新たに生成したモデルにて、学習データに対して、改めてテストを実施します。

python scripts/voice_change.py \
    --model_dir './model_stage1' \
    --config_path './model_stage1/config.json' \
    --input_statistics 'input_statistics.npy' \
    --target_statistics 'target_statistics.npy' \
    --output_sampling_rate 24000 \
    --disable_dataset_test \
    --test_wave_dir './input_wav/' \
    --output_dir './output/'

その結果、前の結果よりは改善された印象はあるものの、話している内容が聞き取れないものが大半でした。具体的には、以下ブログでの「ベース手法での変換結果」というものに、かなり劣る印象でした。 https://blog.hiroshiba.jp/voice-conversion-deep-leanring-and-other-delusions/

ただ、以下ブログに掲載されている結果とは、比較的近い印象を受けました。しかし、やはり劣るとも思えます。 https://blog.hiroshiba.jp/voice-conversion-deep-leanring-and-other-delusions/

ここで、学習設定である sample_config.json を眺めてみます。実は、yukarinの学習中、GPUのメモリ使用量は1GB未満でした。ひょっとすると、リアルタイムでの処理を考慮して、軽いネットワーク構造としているのかもしれません。

改めて、config内容を確認してみると、幾つか気になる点が存在した。先ず、lossの配分として、mseが100、adversarialが0となっているようでした。これは、issueにその意図が記載されていました。 mse以外のlossが、目的と反する形での品質向上を招くようです。ただ、adversarialを1にしても良いとの記載もあります。これを、試してみようと思います。 https://github.com/Hiroshiba/yukarin/issues/46 https://github.com/Hiroshiba/yukarin/issues/45

次に、stop_iterationというものを確認しました。ここで、設定をすれば、学習の終了タイミングを指定できるものと思われます。 500,000等を設定しておこうと思います。

optimizerの設定にAdamが指定されているのを確認しました。こちらは、RAdamを試してみようと思いましたが、chainerにはRAdamが無いようでしたので、AdaBoundを試してみようと思います。しかし、chainerのversionが古く、AdaBoundがAttributeError: module 'chainer.optimizers' has no attribute 'AdaBound'となってしまった為、こちらは見送ろうと思います。

batchsizeですが、128を指定してみようと思います。

crop_sizeという項目があり、こちらは以下のコードによって、1次元の音声データをsplitする際の、データ長指定のようでした。この設定は、データが24,000Hzであることを考え得ると、もう少し長くても良い気がしますので、defaultで512が指定されていたものを、2048へと変更してみようと思います。

    start = random.randint(len_time - crop_size + 1)
    return numpy.split(data, [start, start + crop_size], axis=time_axis)[1]

最後に、本題のネットワーク構成ですが、フィルタの需要野等は、先程のissue等から、チューニングがしっかりされているようでしたので、変更しないようにしたいと思います。ネットワークをリッチにするに当たっては、generator_base_channels、discriminator_base_channels辺りかと思われますので、それぞれ16倍にしてみようと思います。

generator_base_channels ： 8→128
discriminator_base_channels ： 1→16

上記configの変更を行った上で、再度学習を実施します。

すると、stop_iterationを設定したことによって、処理進捗を示すプログレスバーが表示されるようになりました。処理完了時間の予測もされる為、有り難い次第です。

yukarin# python train.py \
>     sample_config.json \
>     ./model_stage1/
     total [#.................................................]  2.52%
this epoch [###########################################.......] 86.65%
     12600 iter, 273 epoch / 500000 iterations
    1.5014 iters/sec. Estimated time to finish: 3 days, 18:10:36.084940.

GPUのメモリ使用量としても、13GB程が使用されるようになりました。 batchsizeの大きさから考えると、最近のリッチなモデルと比較して、決してリッチとはいえないかと思いますが、取り急ぎは、この構造にて取り組ませて頂こうと思います。

4時間程、学習を実施した後、学習データに対してテストを実施してみましたところ、比較的かなり聞き取りやすくなっていました。また、学習データ選定の際に、学習データから除いたデータの内、品質としては問題ないものをテストデータとして、テストを行ってみましたところ、こちらも比較的聞き取りやすくなっていました。尚、このテストデータは、同一の話者が学習データに含まれていたり、含まれていなかったりするものとなります。

ネットワーク構造をリッチにすることで、品質の向上が見込める期待が持てましたので、ここで、もう少しネットワークのパラメーターを調整しようと思います。

具体的には、以下です。

generator_base_channels ： 128→256
discriminator_base_channels ： 16→32

併せて、batchsizeですが、半分に減らして、64を指定してみます。

また、ブログによれば、adversarialのloss割合を高くすると、話者性が失われるとのことでしたが、そうでもない印象でした。かつ、adversarialのloss割合を高くすることで、話している内容の品質が上がるとの記載も、ブログにありましたので、adversarialを2にしてみようと思います。

上記設定にて、一晩、学習を回してみました。そうして生成されたモデルにて、テストデータでの音声変換を実施してみました。しかし、芳しい結果には至りませんでした。先の比較的聞き取りやすい結果からの進展が無い形でした。

その後も、issueやブログ内容を参考にしながら、幾つかのパラメーターチューニングを行ってみましたが、少々改善した程度で、「比較的聞き取りやすい」というレベルを超えられなかった印象です。話者の変換は、しっかりできている印象です。しかし、話している内容が、ハッキリと聞き取りづらい形です。或いは、厳密には、内容が聞き取れるものよりも、聞き取りきれないものの方が多い印象です。

このハッキリとは聞き取りづらい音声が、yukarinの第2段階でキレイになる可能性はあろうかと思うのですが、現時点で、内容が聞き取りづらいものが一転聞き取りやすくなるというのは、個人的には難易度が高いのではないかと考える次第です。

ここからの対策については、例えば、ネットワーク構造の変更や、学習方法の工夫等、比較的根本的な対応が必要となるのではないかと思われます。或いは、比較的簡易に対応できそうな方法が思い付けば、それを順次試させて頂きたいと思います。

（後続作業、一旦保留…）

mucunwuxian commented 2 years ago

調査分析メモ（２） 📝

yukarinの学習処理やデータ転送の待ち時間に、同様研究における最新動向についても調べてみました。

最新の論文などですと、特に、any-to-anyでの研究結果が多いようでした。尚、今回、実践したいことは、any-to-oneになります。 any-to-anyは、any-to-oneの一般化になりますが、精度発揮の難易度が基本的には高くなるものと思われます。

当該issueの先述コメントにも、散文的に調査結果のリンクを貼らせて頂いていますが、その中でも、今回実施したいことにマッチしていて、かつ、デモ結果の精度が高いものとして、以下がありました。

（any-to-any：MediumVC）

Githubリポジトリ：https://github.com/BrightGu/MediumVC
変換結果DEMO：https://brightgu.github.io/MediumVC/

（any-to-one：SingleVC）

Githubリポジトリ：https://github.com/BrightGu/SingleVC
変換結果DEMO：https://brightgu.github.io/SingleVC/

尚、上記2つのリポジトリは、以下の共通する1論文にて、解説がまとめられています。 https://arxiv.org/pdf/2110.02500.pdf

論文によれば、SingleVCを行った後、MediumVCを行うとのことで、つまり、先ず any-to-one の変換をかけた後、one-to-any の変換を実施することで、結果的に any-to-any を実現するとのことです。論文中では、中間的な one のことを、specificspeaker speeches as the intermedium features(SSIF) と表現しています。

今回で言えば、先ずは、any-to-oneを実現したい次第である為、SingleVCが精度高くできれば、目的が果たせそうです。そのSingleVCについてですが、上記yukarinの学習にも用いさせて頂いた、

Mozillaが発行してくれている音声データセット（日本語のテキストと、その読み上げ音声が含まれる為、） https://commonvoice.mozilla.org/ja/datasets

（続きます…）

http://www.udialogue.org/ja/download-ja/cstr-vctk-corpus.html pip install pyrubberband apt-get install libsndfile1 https://akio-blogger.blogspot.com/2018/01/dockerubuntusndfile.html?m=1 パス調整 os.environ['CUDA_VISIBLE_DEVICES'] = '0' pip install transformers apt-get update -y apt-get install -y rubberband-cli

mucunwuxian commented 2 years ago

（備忘） 以下、参考までのslackでのやり取りとなります。 https://axincai.slack.com/archives/C019HCVQBCP/p1641213162122700

Hiroshibaさんがお使いになられている、JVSコーパスデータセットも、学習データに使用することを検討する。 Hiroshibaさんの音声変換が高い精度で実施されており、データの品質の高さというところで、期待が持てるものと考えております。サンプル音声を聞いてみてみると、Mozillaが発行してくれている音声データセット「commonvoice」と比べて、音質がかなりクリアであるように思えます。また、「commonvoice」と読み上げているテキストは同じようで、これはJSUTコーパスに準ずるもののようです。つまり、変換先のデータを新たに作成する必要は無い為、分析の効率は良いかと思われます。

また、音声認識 -> 音声合成 という方法についても、調査を実施してみようと思います。

axinc-ai / ailia-models

ADD yukarin #544

備忘📝

yukarinリポジトリ各種

yukarinリポジトリ作成者の方によるBLOG

関連の記事

調査分析メモ（１） 📝

ライブラリのインストールについて

データ作成ついて（1. 音声データを用意する）

データ作成ついて（2. 音響特徴量を切り出す）

データ作成ついて（3. データを揃える（アライメントする））

データ作成ついて（4. 周波数の統計量を求める）

学習について（1. 学習用の設定ファイル `config.json` を作る）

学習について（2. 学習処理する）

学習について（3. テスト）

学習について（X. 再学習〜再テスト）

調査分析メモ（２） 📝

axinc-ai / ailia-models

ADD yukarin #544

備忘📝

yukarinリポジトリ各種

yukarinリポジトリ作成者の方によるBLOG

関連の記事

調査分析メモ（１） 📝

ライブラリのインストールについて

データ作成ついて（1. 音声データを用意する）

データ作成ついて（2. 音響特徴量を切り出す）

データ作成ついて（3. データを揃える（アライメントする））

データ作成ついて（4. 周波数の統計量を求める）

学習について（1. 学習用の設定ファイル config.json を作る）

学習について（2. 学習処理する）

学習について（3. テスト）

学習について（X. 再学習〜再テスト）

調査分析メモ（２） 📝

学習について（1. 学習用の設定ファイル `config.json` を作る）