update readme

luoyily · Feb 9, 2023 · 7b0738d · 7b0738d
1 parent 39a943b
commit 7b0738d
Show file tree

Hide file tree

Showing 9 changed files with 54 additions and 54 deletions.
diff --git a/README.md b/README.md
@@ -13,6 +13,16 @@ Speech synthesis model repo for galgame characters based on Tacotron2 , Hifigan
 
 ## 近期更新
 
+1.3.0：
+
+> 1. 增加openvpi版diff svc,原版diff svc 24000模型,带fs模型不再支持，需要请下载1.2.5版本
+> 2. 优化GUI设置相关代码
+> 3. VITS支持发送至diff svc（语音合成完毕后交给diff svc进行语音转换）
+> 4. 修改cleaners逻辑，现在可以选择自动clean（待输入文本clean后再合成）
+> 5. 多人模型可以使用下拉列表选择说话人
+> 6. 修复diff svc界面高DPI 下控件显示错位
+> 7. 更新配置文件格式
+
 1.2.5：
 
 > 1. 规范diff_svc import
@@ -34,7 +44,7 @@ Speech synthesis model repo for galgame characters based on Tacotron2 , Hifigan
 > 1. 更新diff-svc(同步diffsvc原项目：支持nsf hifigan,增加Crepe缓存，修复了一些BUG)
 > 2. 11-22：BUG通知，加载输入音频会覆盖原始wav，记得备份。配置文件开启UV可能导致呼吸声与空白异常。下版本修复。
 
-GPU版请见本仓库“gpu”分支。
+GPU版请见本仓库“gpu”分支。代码见dev分支。
 
 ## 用户协议
 
@@ -51,84 +61,74 @@ GPU版请见本仓库“gpu”分支。
 
 ## 使用方法
 
-### 模型目录格式
+### 模型目录及配置文件格式
+
+1. 单模型可以放在任意位置，如果模型带有配置文件，请将它重命名为`config.json`（diff-svc请重命名为`config.yaml`）并与模型放置在同一目录。
 
-1. 单模型可以放在任意位置，如果模型带有配置文件，请将它重命名为`config.json`（diff-svc请重命名为`config.yaml`）并与模型放置在同一目录。（例如hifigan，vits模型，它们是带有配置文件的）
+2. **（TTS模型配置）**使用TTS模型前，请编写一个简单的配置文件，并将它命名为`moetts.json`与你的TTS模型放在同一目录。
 
-2. **（TTS模型注意）**1.2.0版本后，你需要将你的模型使用的symbols按以下示例保存为`moetts.json`并与模型放置在同一目录。（如果你不知道该如何进行此步骤，可以参考给出的预训练模型中的配置文件）
+   **注：如果你使用的不是本仓库提供的模型，那么此步骤是必须的**。
 
-   GUI配置文件示例 (atri vits模型使用的配置)（文件名：moetts.json）：
+   以下为多人模型配置示例（单人只需要symbols）：
 
    ```json
    {
-   	"symbols":["_", ",", ".", "!", "?", "-", "A", "E", "I", "N", "O", "Q", "U", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "y", "z", "\u0283", "\u02a7", "\u2193", "\u2191", " "]
+   	"symbols":["_", ",", ".", "!", "?", "-", "A", "E", "I", "N", "O", "Q", "U", "a", "b", "d", "e", "f", "g", "h", "i", "j", "k", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "y", "z", "\u0283", "\u02a7", "\u2193", "\u2191", " "],
+       "speakers":{
+   		"杏璃":0,
+   		"杏铃":1,
+   		"Apeiria":2,
+   		"明日香":3,
+   		"ATRI":4,
+   		"艾拉":5,
+   		"彩音":6,
+   		"星奏":7,
+   		"由依":8,
+   		"冰织":9,
+   		"真白":10,
+   		"美绘瑠":11,
+   		"二阶堂真红":12
+   	}
    }
 
    ```
-
-   注：**此配置不是训练模型使用的config.json**,是用于指定您的模型训练时所使用的symbols，例如VITS，您可以在`vits/text/symbols.py`中找到使用的symbols，并将它按以上格式保存为json。
 
-### 文本输入格式
-
-文本一般是输入音素（日语在这里应该输入罗马音），但具体要看模型训练者的数据是怎么输入的。比如我的ATRI模型(Tacotron2版本)是输入无空格罗马音，标点符号只支持逗号句号。
-
-**注：v1.2.0后弃用了cleaners，Toolbox中提供了日语与中文的文本到发音转换，其他语言请自行clean后输入。**
+   注：**此配置不是训练模型使用的config.json**,是用于指定您的模型训练时所使用的symbols，例如VITS，您可以在`vits/text/symbols.py`中找到使用的symbols，并将它按以上格式保存为json。
 
 ### GUI使用方法
 
-![tacotron2](assets/tacotron2.png)
+#### TTS(tacotron2,vits)
 
-选择您的模型路径与输出目录，最后输入待合成文本，点击`合成语音`等待一会软件会将音频输出到`输出目录/outpus.wav`
+![VITS界面截图](./assets/vits.png)
 
-注意事项：
+说明：
 
- 1. 首次合成需要加载模型，耗时较长，相同模型再次合成不会再次加载，直接合成。
- 2. 如果切换模型，再次合成会重新加载。
- 3. 如果修改cleaners与symbols，重新启动软件后才能生效。
- 4. 软件为64位版本，不支持32位系统。
+1. 角色ID：用于指定多人模型的角色。如果配置文件中含有角色表会优先加载下拉框供选择，你可以在设置中关闭下拉框。配置文件未提供角色表即在此输入数字选择角色。单人模型留空即可。
 
-VITS特殊说明
+2. 待合成文本：语音合成使用的文本（音素）。你可以将你的文本按模型输入要求clean后在此输入，也可以在工具箱中选择自动clean，在这直接输入原始文本即可。
 
-![vits](assets/vits.png)
+   例（勾选自动转换后直接输入原始文本）:
 
-1. VITS-Single，VITS-Multi分别为单角色模型与多角色模型
-2. VITS-Multi中的原角色ID即待合成语音的角色ID，需要填入数字，目标角色ID为语音迁移功能的待迁移目标角色ID。
-3. **待迁移音频需要22050的采样率，16位，单声道。**
+![ToolBox界面截图](./assets/tools.png)
 
-## V 1.2.0 更新功能说明
+![待合成文本](./assets/text_input.png)
 
-1. Toolbox更新
+3. 待迁移音频：VITS 多人模型提供的语音转换功能，可以对模型中一位角色的音频转为模型中的另一位角色。输入音频需要22050Hz,单声道wav。
+4. 合成并发送至SVC：使用VITS合成语音后再使用diff svc转换音频。使用此功能需要在VITS和Diff-SVC界面中提前选择好模型及输出位置等。
 
-   1. 加入中文g2p工具
-   2. 内置了pyopenjtalk，g2p速度更快，解决gbk编码错误
+#### diff-svc
 
-   ![1.2.0 tool](assets/1.2.0_tool.png)
-
-2. 设置更新
-
-   1. 添加批量合成模式
-   2. 支持自定义文件名输出
-   3. VITS模型支持语速调节
-4. 主题选择
-
-   ![1.2.0 tool](assets/1.2.0_settings.png)
-
-## Beta版本说明
-
-此版本为测试版，用于测试一些新功能，稳定性仅简单测试（win10系统下测试），代码也可能不规范。
-
-### diff-svc
-
-![diff_svc_gui](./assets/diff_svc.png)
+![Diff-SVC界面截图](./assets/diff_svc.png)
 
 参数说明：
 
 1. 升降半音：默认为0，支持正负整数输入，单位为半音
 2. 启用Crepe：该选项可降噪音频，启用后CPU耗时较高，约为原音频时长8倍，建议合成最终版本再开启，干净的音频无需开启。
 3. Crepe轻量模式：在启用Crepe的前提下，勾选此选项后Crepe使用Tiny模型，耗时更短，约为原音频时长1/4。
 4. 加速倍率：默认为20，耗时约1:3，预览可使用100，耗时约1：1（该设置会影响音频质量）
-5. 加速倍率：默认为20，耗时约1:3，预览可使用100，耗时约1：1（该设置会影响音频质量）
-6. 待转换音频：wav或ogg纯人声音频，转换后为模型角色音色。
+5. 待转换音频：wav或ogg纯人声音频，转换后为模型角色音色。
+6. 自适应变调：自动评估适合的音域进行转换（需要配置文件包含相关信息）。
+7. 角色ID：多人模型用，填入数字或使用下拉框选择。
 
 ## 在线Demo
 
@@ -173,11 +173,7 @@ Integrated into [Huggingface Spaces ](https://huggingface.co/spaces) using  [Gra
 
 1. Q：这个GUI能使用非官方Tacotron2或VITS训练的模型吗？
 
-   A：如果模型结构与推理方式没改过的话，只是数据处理不同，应该是没问题的。
-
-2. Q：是否有命令行版本或HttpApi？
-
-   A：可能只会有Windows版。
+   A：未修改过模型结构的可以使用，请参考使用方法中说明进行配置。（so-vits,emo-vits等修改版本不支持）
 
 3. Q：如何获得完整代码？
 
@@ -187,6 +183,10 @@ Integrated into [Huggingface Spaces ](https://huggingface.co/spaces) using  [Gra
 
    A：本仓库不提供自训练支持，请到本项目使用到的各个原项目中查看帮助。
 
+4. Q : 打不开，缺失DLL等？
+
+   A：请安装常用运行库，如果依旧失败，可以使用cmd运行程序并提供尽可能详细的信息提交Issue。
+
 ## 分享模型&参与开发
 
 欢迎分享你的预训练模型，由于模型较大，暂时不打算存放在GitHub，可以拉取该项目后将你的模型下载地址以及信息写在Readme的模型下载部分中。提交PR即可。

diff --git a/assets/1.2.0_settings.png b/assets/1.2.0_settings.png
diff --git a/assets/1.2.0_tool.png b/assets/1.2.0_tool.png
diff --git a/assets/diff_svc.png b/assets/diff_svc.png
diff --git a/assets/tacotron2.png b/assets/tacotron2.png
diff --git a/assets/text_input.png b/assets/text_input.png
diff --git a/assets/tool.png b/assets/tool.png
diff --git a/assets/tools.png b/assets/tools.png
diff --git a/assets/vits.png b/assets/vits.png