Replies: 4 comments 1 reply
-
发现一样的问题,应该是源码有问题 |
Beta Was this translation helpful? Give feedback.
-
同样的问题,我尝试了降低学习率,但是奇怪的是1000步的检查点正常,2000之后的开始同样的情况 |
Beta Was this translation helpful? Give feedback.
-
1.没遇到过这个问题,也没试过这么少的样本量,建议增加样本量,并确保文本标注准确,音频只有纯净的人声,不要包含背景音乐和噪音。 2.如果还不行,把log_interval改到20,重新训练,并通过tensorboard观察loss曲线是否出现异常 |
Beta Was this translation helpful? Give feedback.
-
我看楼主的train_ms的设置中 use_base_model: 这一项是false,这是不是意味着你没有使用底模而是在从头训练? |
Beta Was this translation helpful? Give feedback.
-
用的是master ,2.3版本和 Extra-Fix版本都试过,目前的这个是Extra-Fix版本的。
服务器配置
训练完的模型,克隆出来的声音都是这样
audio.mov
esd.list
./data/chenhui/wavs/lzg_10s.wav|李志刚|ZH|根据我们以往的一些流行病学调查,目前中国推荐的筛查年龄通常在45岁到70岁之间 ./data/chenhui/wavs/wyz_002.wav|王洪武|ZH|像傻瓜相机一样,谁都可以用
train.list
./data/chenhui/wavs/lzg_10s.wav|李志刚|ZH|根据我们以往的一些流行病学调查,目前中国推荐的筛查年龄通常在四十五岁到七十岁之间|_ g en j v w o m en y i w ang d e y i x ie l iu x ing b ing x ve d iao ch a , m u q ian zh ong g uo t ui j ian d e sh ai ch a n ian l ing t ong ch ang z ai s i0 sh ir w u s ui d ao q i sh ir s ui zh ir j ian _|0 1 1 4 4 3 3 5 5 2 2 3 3 5 5 4 4 1 1 2 2 2 2 4 4 2 2 4 4 2 2 0 4 4 2 2 1 1 2 2 1 1 4 4 5 5 1 1 2 2 2 2 2 2 1 1 2 2 4 4 4 4 2 2 3 3 4 4 4 4 1 1 2 2 4 4 1 1 1 1 0|1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 ./data/chenhui/wavs/wyz_002.wav|王洪武|ZH|像傻瓜相机一样,谁都可以用|_ x iang sh a g ua x iang j i y i y ang , sh ei d ou k e y i y ong _|0 4 4 3 3 1 1 4 4 1 1 2 2 4 4 0 2 2 1 1 2 2 3 3 4 4 0|1 2 2 2 2 2 2 2 1 2 2 2 2 2 1
config.json
wavs
config.yml
训练出来的模型文件
Beta Was this translation helpful? Give feedback.
All reactions