WoBERT

以词为基本单位的中文BERT（Word-based BERT）

详情

训练

目前开源的WoBERT是Base版本，在哈工大开源的RoBERTa-wwm-ext基础上进行继续预训练，预训练任务为MLM。初始化阶段，将每个词用BERT自带的Tokenizer切分为字，然后用字embedding的平均作为词embedding的初始化。模型使用单张24G的RTX训练了100万步（大概训练了10天），序列长度为512，学习率为5e-6，batch_size为16，累积梯度16步，相当于batch_size=256训练了6万步左右。训练语料大概是30多G的通用型语料。

此外，我们还提供了WoNEZHA，这是基于华为开源的NEZHA进行再预训练的，训练细节跟WoBERT基本一样。NEZHA的模型结构跟BERT相似，不同的是它使用了相对位置编码，而BERT用的是绝对位置编码，因此理论上NEZHA能处理的文本长度是无上限的。这里提供以词为单位的WoNEZHA，就是让大家多一个选择。

依赖

pip install bert4keras==0.8.8

下载

WoBERT: chinese_wobert_L-12_H-768_A-12.zip, 提取码: kim2
WoNEZHA: chinese_wonezha_L-12_H-768_A-12.zip, 提取码: qgkq

引用

Bibtex：

@techreport{zhuiyipretrainedmodels,
  title={WoBERT: Word-based Chinese BERT model - ZhuiyiAI},
  author={Jianlin Su},
  year={2020},
  url="https://github.com/ZhuiyiTechnology/WoBERT",
}

联系

邮箱：ai@wezhuiyi.com 追一科技：https://zhuiyi.ai

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

WoBERT

详情

训练

依赖

下载

引用

联系

Files

README.md

Latest commit

History

README.md

File metadata and controls

WoBERT

详情

训练

依赖

下载

引用

联系