Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

onnx 形式的预训练模型固定了帧长是有什么特别的考虑吗? #380

Open
songfuture opened this issue Oct 24, 2024 · 8 comments

Comments

@songfuture
Copy link

首先非常感谢如此优秀的项目!
请教一下,

  1. 导出的onnx形式的预训练模型的帧数维为什么是固定的200而不是动态的任意帧数?是结合了训练模型的chunk包含的帧数考虑的吗?还是考虑了CMN阶段的帧数要求?
  2. 如果固定帧数为200,当一条语音包含的帧数不是200的整数倍时,应该如何处理剩余的帧?如语音包含278帧,[0:200]帧可以用onnx模型进行推理,剩余的78帧应该如何使用模型进行推理呢?用[78:278]把剩余的78帧也利用起来,还是[200:278]重复至200帧送入onnx进行推理呢?
@cdliang11
Copy link
Collaborator

非常感谢对这个项目的关注!

导出onnx支持动态维度,如下:

if args.num_frames > 0:
num_frms = args.num_frames
dynamic_axes = None
else:
dynamic_axes = {'feats': {0: 'B', 1: 'T'}, 'embs': {0: 'B'}}

@songfuture
Copy link
Author

非常感谢对这个项目的关注!

导出onnx支持动态维度,如下:

if args.num_frames > 0:
num_frms = args.num_frames
dynamic_axes = None
else:
dynamic_axes = {'feats': {0: 'B', 1: 'T'}, 'embs': {0: 'B'}}

@songfuture
Copy link
Author

songfuture commented Oct 24, 2024

请问一下如何获得发布的预训练模型的config呢,这样才能重新导出动态帧数维的预训练onnx模型?
image

@cdliang11
Copy link
Collaborator

cdliang11 commented Oct 24, 2024

请问一下如何获得发布的预训练模型的config呢,这样才能重新导出动态帧数维的预训练onnx模型? image

你好,预训练模型下载页面:https://github.com/wenet-e2e/wespeaker/blob/master/docs/pretrained.md ,里边提供了pytorch模型(包含config文件)和onnx模型,其中onnx模型是动态维度。

@songfuture
Copy link
Author

songfuture commented Oct 25, 2024

@cdliang11
Copy link
Collaborator

cdliang11 commented Oct 25, 2024

抱歉,这个onnx导出的有问题,变成了固定长度。 我们会重新导出并上传。

另外,你也可以利用pt模型,重新导出onnx。 https://wenet.org.cn/downloads?models=wespeaker&version=voxblink2_samresnet34.zip

导出命令如下:

python wespeaker/bin/export_onnx.py --config voxblink2_samresnet34/config.yaml --checkpoint voxblink2_samresnet34/avg_model.pt --output_model voxblink2_samresnet34/final.onnx

@songfuture
Copy link
Author

抱歉,这个onnx导出的有问题,变成了固定长度。 我们会重新导出并上传。

另外,你也可以利用pt模型,重新导出onnx。 https://wenet.org.cn/downloads?models=wespeaker&version=voxblink2_samresnet34.zip

导出命令如下:

python wespeaker/bin/export_onnx.py --config voxblink2_samresnet34/config.yaml --checkpoint voxblink2_samresnet34/avg_model.pt --output_model voxblink2_samresnet34/final.onnx

谢谢您的建议,按要求重新导出动态帧数维的模型后,想对这个模型做一些finetune,但是没有在预训练模型的配置文件中https://wenet.org.cn/downloads?models=wespeaker&version=voxblink2_samresnet34.zip 发现optimizer和学习率变化策略的配置,请问有更详细的配置文件有说明这两点吗?

@cdliang11
Copy link
Collaborator

cdliang11 commented Oct 31, 2024

抱歉,这个onnx导出的有问题,变成了固定长度。 我们会重新导出并上传。
另外,你也可以利用pt模型,重新导出onnx。 https://wenet.org.cn/downloads?models=wespeaker&version=voxblink2_samresnet34.zip
导出命令如下:

python wespeaker/bin/export_onnx.py --config voxblink2_samresnet34/config.yaml --checkpoint voxblink2_samresnet34/avg_model.pt --output_model voxblink2_samresnet34/final.onnx

谢谢您的建议,按要求重新导出动态帧数维的模型后,想对这个模型做一些finetune,但是没有在预训练模型的配置文件中https://wenet.org.cn/downloads?models=wespeaker&version=voxblink2_samresnet34.zip 发现optimizer和学习率变化策略的配置,请问有更详细的配置文件有说明这两点吗?

目前没有voxblink2的recipe,请关注这个issue #365

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants