用的Extra-Fix版本，训练了好多次，每次声音都有问题，是哪里有需要注意的地方没做到位么 #326

499909744 · 2024-02-06T10:34:20Z

499909744
Feb 6, 2024

用的是master ,2.3版本和 Extra-Fix版本都试过，目前的这个是Extra-Fix版本的。

服务器配置

训练完的模型，克隆出来的声音都是这样

audio.mov

esd.list

./data/chenhui/wavs/lzg_10s.wav|李志刚|ZH|根据我们以往的一些流行病学调查,目前中国推荐的筛查年龄通常在45岁到70岁之间 ./data/chenhui/wavs/wyz_002.wav|王洪武|ZH|像傻瓜相机一样,谁都可以用

train.list

./data/chenhui/wavs/lzg_10s.wav|李志刚|ZH|根据我们以往的一些流行病学调查,目前中国推荐的筛查年龄通常在四十五岁到七十岁之间|_ g en j v w o m en y i w ang d e y i x ie l iu x ing b ing x ve d iao ch a , m u q ian zh ong g uo t ui j ian d e sh ai ch a n ian l ing t ong ch ang z ai s i0 sh ir w u s ui d ao q i sh ir s ui zh ir j ian _|0 1 1 4 4 3 3 5 5 2 2 3 3 5 5 4 4 1 1 2 2 2 2 4 4 2 2 4 4 2 2 0 4 4 2 2 1 1 2 2 1 1 4 4 5 5 1 1 2 2 2 2 2 2 1 1 2 2 4 4 4 4 2 2 3 3 4 4 4 4 1 1 2 2 4 4 1 1 1 1 0|1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 ./data/chenhui/wavs/wyz_002.wav|王洪武|ZH|像傻瓜相机一样,谁都可以用|_ x iang sh a g ua x iang j i y i y ang , sh ei d ou k e y i y ong _|0 4 4 3 3 1 1 4 4 1 1 2 2 4 4 0 2 2 1 1 2 2 3 3 4 4 0|1 2 2 2 2 2 2 2 1 2 2 2 2 2 1

config.json

{
  "train": {
    "log_interval": 200,
    "eval_interval": 1000,
    "seed": 42,
    "epochs": 1000,
    "learning_rate": 0.0001,
    "betas": [
      0.8,
      0.99
    ],
    "eps": 1e-09,
    "batch_size": 6,
    "bf16_run": false,
    "fp16_run": false,
    "lr_decay": 0.99996,
    "segment_size": 16384,
    "init_lr_ratio": 1,
    "warmup_epochs": 0,
    "c_mel": 45,
    "c_kl": 1.0,
    "c_commit": 1.0,
    "skip_optimizer": true,
    "freeze_ZH_bert": false,
    "freeze_JP_bert": false,
    "freeze_EN_bert": false,
    "freeze_emo": false
  },
  "data": {
    "training_files": "data/chenhui/train.list",
    "validation_files": "data/chenhui/val.list",
    "max_wav_value": 32768.0,
    "sampling_rate": 44100,
    "filter_length": 2048,
    "hop_length": 512,
    "win_length": 2048,
    "n_mel_channels": 160,
    "mel_fmin": 0.0,
    "mel_fmax": null,
    "add_blank": true,
    "n_speakers": 2,
    "cleaned_text": true,
    "spk2id": {
      "李志刚": 0,
      "王洪武": 1
    }
  },
  "model": {
    "use_spk_conditioned_encoder": true,
    "use_noise_scaled_mas": true,
    "use_mel_posterior_encoder": false,
    "use_duration_discriminator": true,
    "use_wavlm_discriminator": true,
    "inter_channels": 192,
    "hidden_channels": 192,
    "filter_channels": 768,
    "n_heads": 2,
    "n_layers": 6,
    "kernel_size": 3,
    "p_dropout": 0.1,
    "resblock": "1",
    "resblock_kernel_sizes": [
      3,
      7,
      11
    ],
    "resblock_dilation_sizes": [
      [
        1,
        3,
        5
      ],
      [
        1,
        3,
        5
      ],
      [
        1,
        3,
        5
      ]
    ],
    "upsample_rates": [
      8,
      8,
      2,
      2,
      2
    ],
    "upsample_initial_channel": 512,
    "upsample_kernel_sizes": [
      16,
      16,
      8,
      2,
      2
    ],
    "n_layers_q": 3,
    "use_spectral_norm": false,
    "gin_channels": 256,
    "slm": {
      "model": "./slm/wavlm-base-plus",
      "sr": 16000,
      "hidden": 768,
      "nlayers": 13,
      "initial_channel": 64
    }
  },
  "version": "2.4"

wavs

config.yml

# 全局配置
# 对于希望在同一时间使用多个配置文件的情况，例如两个GPU同时跑两个训练集：通过环境变量指定配置文件，不指定则默认为./config.yml

# 拟提供通用路径配置，统一存放数据，避免数据放得很乱
# 每个数据集与其对应的模型存放至统一路径下，后续所有的路径配置均为相对于datasetPath的路径
# 不填或者填空则路径为相对于项目根目录的路径
dataset_path: "data/chenhui"

# 模型镜像源，默认huggingface，使用openi镜像源需指定openi_token
mirror: ""
openi_token: ""  # openi token

# resample 音频重采样配置
# 注意， “:” 后需要加空格
resample:
  # 目标重采样率
  sampling_rate: 44100
  # 音频文件输入路径，重采样会将该路径下所有.wav音频文件重采样
  # 请填入相对于datasetPath的相对路径
  in_dir: "raw" # 相对于根目录的路径为 /datasetPath/in_dir
  # 音频文件重采样后输出路径
  out_dir: "wavs"


# preprocess_text 数据集预处理相关配置
# 注意， “:” 后需要加空格
preprocess_text:
  # 原始文本文件路径，文本格式应为{wav_path}|{speaker_name}|{language}|{text}。
  transcription_path: "esd.list"
  # 数据清洗后文本路径，可以不填。不填则将在原始文本目录生成
  cleaned_path: ""
  # 训练集路径
  train_path: "train.list"
  # 验证集路径
  val_path: "val.list"
  # 配置文件路径
  config_path: "config.json"
  # 每个语言的验证集条数
  val_per_lang: 4
  # 验证集最大条数，多于的会被截断并放到训练集中
  max_val_total: 12
  # 是否进行数据清洗
  clean: true


# bert_gen 相关配置
# 注意， “:” 后需要加空格
bert_gen:
  # 训练数据集配置文件路径
  config_path: "config.json"
  # 并行数
  num_processes: 4
  # 使用设备：可选项 "cuda" 显卡推理，"cpu" cpu推理
  # 该选项同时决定了get_bert_feature的默认设备
  device: "cuda"
  # 使用多卡推理
  use_multi_device: false

# emo_gen 相关配置
# 注意， “:” 后需要加空格
emo_gen:
  # 训练数据集配置文件路径
  config_path: "config.json"
  # 并行数
  num_processes: 4
  # 使用设备：可选项 "cuda" 显卡推理，"cpu" cpu推理
  device: "cuda"
  # 使用多卡推理
  use_multi_device: false

# train 训练配置
# 注意， “:” 后需要加空格
train_ms:
  env:
    MASTER_ADDR: "localhost"
    MASTER_PORT: 10086
    WORLD_SIZE: 1
    LOCAL_RANK: 0
    RANK: 0
    # 可以填写任意名的环境变量
    # THE_ENV_VAR_YOU_NEED_TO_USE: "1234567"
  # 底模设置
  base:
    use_base_model: false
    repo_id: "Stardust_minus/Bert-VITS2"
    model_image: "Bert-VITS2_中文特化底模" # openi网页的模型名
  # 训练模型存储目录：与旧版本的区别，原先数据集是存放在logs/model_name下的，现在改为统一存放在Data/你的数据集/models下
  model: "models"
  # 配置文件路径
  config_path: "config.json"
  # 训练使用的worker，不建议超过CPU核心数
  num_workers: 16
  # 关闭此项可以节约接近50%的磁盘空间，但是可能导致实际训练速度变慢和更高的CPU使用率。
  spec_cache: True
  # 保存的检查点数量，多于此数目的权重会被删除来节省空间。
  keep_ckpts: 8
  #永久ckpt 保存起始step
  permanent_ckpt_start: 10000
  #永久检查点的间隔（训练步数）。永久检查点即使不是最新的，也不会被移除。该数值表示每4000步保存一份永久ckpt模型
  permanent_ckpt_interval: 4000


# webui webui配置
# 注意， “:” 后需要加空格
webui:
  # 推理设备
  device: "cuda"
  # 模型路径
  model: "models/G_1000.pth"
  # 配置文件路径
  config_path: "config.json"
  # 端口号
  port: 8080
  # 是否公开部署，对外网开放
  share: true
  # 是否开启debug模式
  debug: false
  # 是否开启fp16推理，开启后可减少~45%的显存占用
  fp16_run: false
  # 语种识别库，可选langid, fastlid
  language_identification_library: "langid"


# server-fastapi配置
# 注意， “:” 后需要加空格
# 注意，本配置下的所有配置均为相对于根目录的路径
server:
  # 端口号
  port: 5000
  # 模型默认使用设备：但是当前并没有实现这个配置。
  device: "cuda"
  # 需要加载的所有模型的配置，可以填多个模型，也可以不填模型，等网页成功后手动加载模型
  # 不加载模型的配置格式：删除默认给的两个模型配置，给models赋值 [ ]，也就是空列表。参考模型2的speakers 即 models: [ ]
  # 注意，所有模型都必须正确配置model与config的路径，空路径会导致加载错误。
  # 也可以不填模型，等网页加载成功后手动填写models。
  models:
    - # 模型的路径
      model: ""
      # 模型config.json的路径
      config: ""
      # 模型使用设备，若填写则会覆盖默认配置
      device: "cuda"
      # 模型默认使用的语言
      language: "ZH"
      # 模型人物默认参数
      # 不必填写所有人物，不填的使用默认值
      # 暂时不用填写，当前尚未实现按人区分配置
      speakers:
        - speaker: "科比"
          sdp_ratio: 0.2
          noise_scale: 0.6
          noise_scale_w: 0.8
          length_scale: 1
        - speaker: "五条悟"
          sdp_ratio: 0.3
          noise_scale: 0.7
          noise_scale_w: 0.8
          length_scale: 0.5
        - speaker: "安倍晋三"
          sdp_ratio: 0.2
          noise_scale: 0.6
          noise_scale_w: 0.8
          length_scale: 1.2
    - # 模型的路径
      model: ""
      # 模型config.json的路径
      config: ""
      # 模型使用设备，若填写则会覆盖默认配置
      device: "cpu"
      # 模型默认使用的语言
      language: "JP"
      # 模型人物默认参数
      # 不必填写所有人物，不填的使用默认值
      speakers: [ ] # 也可以不填

# 百度翻译开放平台 api配置
# api接入文档 https://api.fanyi.baidu.com/doc/21
# 请不要在github等网站公开分享你的app id 与 key
translate:
  # 你的APPID
  "app_key": ""
  # 你的密钥
  "secret_key": ""

训练出来的模型文件

bjkite · 2024-02-25T15:36:43Z

bjkite
Feb 25, 2024

发现一样的问题，应该是源码有问题

0 replies

pengpengzi · 2024-02-26T08:10:28Z

pengpengzi
Feb 26, 2024

同样的问题，我尝试了降低学习率，但是奇怪的是1000步的检查点正常，2000之后的开始同样的情况

0 replies

starmoon-1134 · 2024-02-27T12:26:53Z

starmoon-1134
Feb 27, 2024

1.没遇到过这个问题，也没试过这么少的样本量，建议增加样本量，并确保文本标注准确，音频只有纯净的人声，不要包含背景音乐和噪音。
缺样本可以从这里下载：https://github.com/AI-Hobbyist/Genshin_Datasets/tree/main/Label%20%26%20Voice

2.如果还不行，把log_interval改到20，重新训练，并通过tensorboard观察loss曲线是否出现异常
启动方式：tensorboard --logdir path/to/models

0 replies

pengpengzi · 2024-02-28T03:27:41Z

pengpengzi
Feb 28, 2024

我看楼主的train_ms的设置中 use_base_model: 这一项是false，这是不是意味着你没有使用底模而是在从头训练？

1 reply

499909744 Mar 13, 2024
Author

这个true和false都试过，都不行

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

用的Extra-Fix版本，训练了好多次，每次声音都有问题，是哪里有需要注意的地方没做到位么 #326

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 4 comments 1 reply

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

用的Extra-Fix版本，训练了好多次，每次声音都有问题，是哪里有需要注意的地方没做到位么 #326

499909744 Feb 6, 2024

服务器配置

训练完的模型，克隆出来的声音都是这样

esd.list

train.list

config.json

wavs

config.yml

训练出来的模型文件

Replies: 4 comments · 1 reply

bjkite Feb 25, 2024

pengpengzi Feb 26, 2024

starmoon-1134 Feb 27, 2024

pengpengzi Feb 28, 2024

499909744 Mar 13, 2024 Author

499909744
Feb 6, 2024

Replies: 4 comments 1 reply

bjkite
Feb 25, 2024

pengpengzi
Feb 26, 2024

starmoon-1134
Feb 27, 2024

pengpengzi
Feb 28, 2024

499909744 Mar 13, 2024
Author