Skip to content
This repository has been archived by the owner on Mar 3, 2023. It is now read-only.

Commit

Permalink
update readme
Browse files Browse the repository at this point in the history
  • Loading branch information
luoyily committed Feb 9, 2023
1 parent 39a943b commit 7b0738d
Show file tree
Hide file tree
Showing 9 changed files with 54 additions and 54 deletions.
108 changes: 54 additions & 54 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -13,6 +13,16 @@ Speech synthesis model repo for galgame characters based on Tacotron2 , Hifigan

## 近期更新

1.3.0:

> 1. 增加openvpi版diff svc,原版diff svc 24000模型,带fs模型不再支持,需要请下载1.2.5版本
> 2. 优化GUI设置相关代码
> 3. VITS支持发送至diff svc(语音合成完毕后交给diff svc进行语音转换)
> 4. 修改cleaners逻辑,现在可以选择自动clean(待输入文本clean后再合成)
> 5. 多人模型可以使用下拉列表选择说话人
> 6. 修复diff svc界面高DPI 下控件显示错位
> 7. 更新配置文件格式
1.2.5:

> 1. 规范diff_svc import
Expand All @@ -34,7 +44,7 @@ Speech synthesis model repo for galgame characters based on Tacotron2 , Hifigan
> 1. 更新diff-svc(同步diffsvc原项目:支持nsf hifigan,增加Crepe缓存,修复了一些BUG)
> 2. 11-22:BUG通知,加载输入音频会覆盖原始wav,记得备份。配置文件开启UV可能导致呼吸声与空白异常。下版本修复。
GPU版请见本仓库“gpu”分支。
GPU版请见本仓库“gpu”分支。代码见dev分支。

## 用户协议

Expand All @@ -51,84 +61,74 @@ GPU版请见本仓库“gpu”分支。

## 使用方法

### 模型目录格式
### 模型目录及配置文件格式

1. 单模型可以放在任意位置,如果模型带有配置文件,请将它重命名为`config.json`(diff-svc请重命名为`config.yaml`)并与模型放置在同一目录。

1. 单模型可以放在任意位置,如果模型带有配置文件,请将它重命名为`config.json`(diff-svc请重命名为`config.yaml`)并与模型放置在同一目录。(例如hifigan,vits模型,它们是带有配置文件的)
2. **(TTS模型配置)**使用TTS模型前,请编写一个简单的配置文件,并将它命名为`moetts.json`与你的TTS模型放在同一目录。

2. **(TTS模型注意)**1.2.0版本后,你需要将你的模型使用的symbols按以下示例保存为`moetts.json`并与模型放置在同一目录。(如果你不知道该如何进行此步骤,可以参考给出的预训练模型中的配置文件)
**注:如果你使用的不是本仓库提供的模型,那么此步骤是必须的**

GUI配置文件示例 (atri vits模型使用的配置)(文件名:moetts.json):
以下为多人模型配置示例(单人只需要symbols):

```json
{
"symbols":["_", ",", ".", "!", "?", "-", "A", "E", "I", "N", "O", "Q", "U", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "y", "z", "\u0283", "\u02a7", "\u2193", "\u2191", " "]
"symbols":["_", ",", ".", "!", "?", "-", "A", "E", "I", "N", "O", "Q", "U", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "y", "z", "\u0283", "\u02a7", "\u2193", "\u2191", " "],
"speakers":{
"杏璃":0,
"杏铃":1,
"Apeiria":2,
"明日香":3,
"ATRI":4,
"艾拉":5,
"彩音":6,
"星奏":7,
"由依":8,
"冰织":9,
"真白":10,
"美绘瑠":11,
"二阶堂真红":12
}
}

```

注:**此配置不是训练模型使用的config.json**,是用于指定您的模型训练时所使用的symbols,例如VITS,您可以在`vits/text/symbols.py`中找到使用的symbols,并将它按以上格式保存为json。

### 文本输入格式

文本一般是输入音素(日语在这里应该输入罗马音),但具体要看模型训练者的数据是怎么输入的。比如我的ATRI模型(Tacotron2版本)是输入无空格罗马音,标点符号只支持逗号句号。

**注:v1.2.0后弃用了cleaners,Toolbox中提供了日语与中文的文本到发音转换,其他语言请自行clean后输入。**
注:**此配置不是训练模型使用的config.json**,是用于指定您的模型训练时所使用的symbols,例如VITS,您可以在`vits/text/symbols.py`中找到使用的symbols,并将它按以上格式保存为json。

### GUI使用方法

![tacotron2](assets/tacotron2.png)
#### TTS(tacotron2,vits)

选择您的模型路径与输出目录,最后输入待合成文本,点击`合成语音`等待一会软件会将音频输出到`输出目录/outpus.wav`
![VITS界面截图](./assets/vits.png)

注意事项
说明

1. 首次合成需要加载模型,耗时较长,相同模型再次合成不会再次加载,直接合成。
2. 如果切换模型,再次合成会重新加载。
3. 如果修改cleaners与symbols,重新启动软件后才能生效。
4. 软件为64位版本,不支持32位系统。
1. 角色ID:用于指定多人模型的角色。如果配置文件中含有角色表会优先加载下拉框供选择,你可以在设置中关闭下拉框。配置文件未提供角色表即在此输入数字选择角色。单人模型留空即可。

VITS特殊说明
2. 待合成文本:语音合成使用的文本(音素)。你可以将你的文本按模型输入要求clean后在此输入,也可以在工具箱中选择自动clean,在这直接输入原始文本即可。

![vits](assets/vits.png)
例(勾选自动转换后直接输入原始文本):

1. VITS-Single,VITS-Multi分别为单角色模型与多角色模型
2. VITS-Multi中的原角色ID即待合成语音的角色ID,需要填入数字,目标角色ID为语音迁移功能的待迁移目标角色ID。
3. **待迁移音频需要22050的采样率,16位,单声道。**
![ToolBox界面截图](./assets/tools.png)

## V 1.2.0 更新功能说明
![待合成文本](./assets/text_input.png)

1. Toolbox更新
3. 待迁移音频:VITS 多人模型提供的语音转换功能,可以对模型中一位角色的音频转为模型中的另一位角色。输入音频需要22050Hz,单声道wav。
4. 合成并发送至SVC:使用VITS合成语音后再使用diff svc转换音频。使用此功能需要在VITS和Diff-SVC界面中提前选择好模型及输出位置等。

1. 加入中文g2p工具
2. 内置了pyopenjtalk,g2p速度更快,解决gbk编码错误
#### diff-svc

![1.2.0 tool](assets/1.2.0_tool.png)

2. 设置更新

1. 添加批量合成模式
2. 支持自定义文件名输出
3. VITS模型支持语速调节
4. 主题选择

![1.2.0 tool](assets/1.2.0_settings.png)

## Beta版本说明

此版本为测试版,用于测试一些新功能,稳定性仅简单测试(win10系统下测试),代码也可能不规范。

### diff-svc

![diff_svc_gui](./assets/diff_svc.png)
![Diff-SVC界面截图](./assets/diff_svc.png)

参数说明:

1. 升降半音:默认为0,支持正负整数输入,单位为半音
2. 启用Crepe:该选项可降噪音频,启用后CPU耗时较高,约为原音频时长8倍,建议合成最终版本再开启,干净的音频无需开启。
3. Crepe轻量模式:在启用Crepe的前提下,勾选此选项后Crepe使用Tiny模型,耗时更短,约为原音频时长1/4。
4. 加速倍率:默认为20,耗时约1:3,预览可使用100,耗时约1:1(该设置会影响音频质量)
5. 加速倍率:默认为20,耗时约1:3,预览可使用100,耗时约1:1(该设置会影响音频质量)
6. 待转换音频:wav或ogg纯人声音频,转换后为模型角色音色。
5. 待转换音频:wav或ogg纯人声音频,转换后为模型角色音色。
6. 自适应变调:自动评估适合的音域进行转换(需要配置文件包含相关信息)。
7. 角色ID:多人模型用,填入数字或使用下拉框选择。

## 在线Demo

Expand Down Expand Up @@ -173,11 +173,7 @@ Integrated into [Huggingface Spaces ](https://huggingface.co/spaces) using [Gra

1. Q:这个GUI能使用非官方Tacotron2或VITS训练的模型吗?

A:如果模型结构与推理方式没改过的话,只是数据处理不同,应该是没问题的。

2. Q:是否有命令行版本或HttpApi?

A:可能只会有Windows版。
A:未修改过模型结构的可以使用,请参考使用方法中说明进行配置。(so-vits,emo-vits等修改版本不支持)

3. Q:如何获得完整代码?

Expand All @@ -187,6 +183,10 @@ Integrated into [Huggingface Spaces ](https://huggingface.co/spaces) using [Gra

A:本仓库不提供自训练支持,请到本项目使用到的各个原项目中查看帮助。

4. Q : 打不开,缺失DLL等?

A:请安装常用运行库,如果依旧失败,可以使用cmd运行程序并提供尽可能详细的信息提交Issue。

## 分享模型&参与开发

欢迎分享你的预训练模型,由于模型较大,暂时不打算存放在GitHub,可以拉取该项目后将你的模型下载地址以及信息写在Readme的模型下载部分中。提交PR即可。
Expand Down
Binary file removed assets/1.2.0_settings.png
Binary file not shown.
Binary file removed assets/1.2.0_tool.png
Binary file not shown.
Binary file modified assets/diff_svc.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file removed assets/tacotron2.png
Binary file not shown.
Binary file added assets/text_input.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file removed assets/tool.png
Binary file not shown.
Binary file added assets/tools.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified assets/vits.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.

0 comments on commit 7b0738d

Please sign in to comment.