當前位置：首頁 > 运维知识 > windows >内容正文

windows

首次引入大模型!Bert-vits2-Extra中文特化版40秒素材复刻巫师3叶奈法

發布時間：2024/1/8 windows 32 coder

生活随笔收集整理的這篇文章主要介紹了首次引入大模型!Bert-vits2-Extra中文特化版40秒素材复刻巫师3叶奈法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Bert-vits2項目又更新了，更新了一個新的分支：中文特化，所謂中文特化，即針對中文音色的特殊優化版本，純中文底模效果百尺竿頭更進一步，同時首次引入了大模型，使用國產IDEA-CCNL/Erlangshen-MegatronBert-1.3B大模型作為Bert特征提取，基本上完全解決了發音的bad case，同時在情感表達方面有大幅提升，可以作為先前V1.0.1純中文版本更好的替代。

更多情報請參見Bert-vits2項目官網：

https://github.com/fishaudio/Bert-VITS2/releases/tag/Extra

本次我們基于Bert-vits2中文特化版本通過40秒素材復刻巫師3角色葉奈法（Yennefer）的音色。

配置Bert-vits2中文特化版本

首先克隆項目：

git clone https://github.com/v3ucn/Bert-VITS2-Extra_-.git

注意這里是針對官方的Extra分支的修改版本，增加了音頻切分和轉寫。

隨后下載新的純中文底模：

https://openi.pcl.ac.cn/Stardust_minus/Bert-VITS2/modelmanage/show_model

同時還需要下載IDEA-CCNL/Erlangshen-MegatronBert-1.3B大模型的預訓練模型：

值得一提的是，這個新煉的純中文底模非常牛逼，官方作者僅通過一個5秒的素材就可以完美復刻音色。

關于作者的中文特化底模極限測試：

https://www.bilibili.com/video/BV1Fa4y1B7HB/

隨后將模型放入對應的文件夾，bert模型文件結構如下：

E:\work\Bert-VITS2-Extra\bert>tree /f  
Folder PATH listing for volume myssd  
Volume serial number is 7CE3-15AE  
E:.  
│   bert_models.json  
│  
├───bert-base-japanese-v3  
│       .gitattributes  
│       config.json  
│       README.md  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───bert-large-japanese-v2  
│       .gitattributes  
│       config.json  
│       README.md  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───chinese-roberta-wwm-ext-large  
│       .gitattributes  
│       added_tokens.json  
│       config.json  
│       pytorch_model.bin  
│       README.md  
│       special_tokens_map.json  
│       tokenizer.json  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───deberta-v2-large-japanese  
│       .gitattributes  
│       config.json  
│       pytorch_model.bin  
│       README.md  
│       special_tokens_map.json  
│       tokenizer.json  
│       tokenizer_config.json  
│  
├───deberta-v2-large-japanese-char-wwm  
│       .gitattributes  
│       config.json  
│       pytorch_model.bin  
│       README.md  
│       special_tokens_map.json  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───deberta-v3-large  
│       .gitattributes  
│       config.json  
│       generator_config.json  
│       pytorch_model.bin  
│       README.md  
│       spm.model  
│       tokenizer_config.json  
│  
├───Erlangshen-DeBERTa-v2-710M-Chinese  
│       config.json  
│       special_tokens_map.json  
│       tokenizer_config.json  
│       vocab.txt  
│  
├───Erlangshen-MegatronBert-1.3B-Chinese  
│       config.json  
│       pytorch_model.bin  
│       vocab.txt  
│  
└───Erlangshen-MegatronBert-3.9B-Chinese  
        config.json  
        special_tokens_map.json  
        tokenizer_config.json  
        vocab.txt

很明顯，這里關于Erlangshen-MegatronBert大模型，其實有三個參數選擇，有710m和1.3b以及3.9B，作者選擇了居中的1.3b大模型。

這里介紹一下國產的Erlangshen-MegatronBert大模型。

Erlangshen-MegatronBert 是一個具有 39 億參數的中文 BERT 模型，它是目前最大的中文 BERT 模型之一。這個模型的編碼器結構為主，專注于解決各種自然語言理解任務。它同時，鑒于中文語法和大規模訓練的難度，使用了四種預訓練策略來改進 BERT，Erlangshen-MegatronBert 模型適用于各種自然語言理解任務，包括文本生成、文本分類、問答等，這個模型的權重和代碼都是開源的，可以在 Hugging Face 和 CSDN 博客等平臺上找到。

Erlangshen-MegatronBert 模型可以應用于多種領域，如 AI 模擬聲音、數字人虛擬主播等。

另外需要注意的是，clap模型也已經回歸，結構如下：

E:\work\Bert-VITS2-Extra\emotional\clap-htsat-fused>tree /f  
Folder PATH listing for volume myssd  
Volume serial number is 7CE3-15AE  
E:.  
    .gitattributes  
    config.json  
    merges.txt  
    preprocessor_config.json  
    pytorch_model.bin  
    README.md  
    special_tokens_map.json  
    tokenizer.json  
    tokenizer_config.json  
    vocab.json  
  
No subfolders exist

clap主要負責情感風格的引導。2.3版本去掉了，中文特化又加了回來。

至此模型就配置好了。

Bert-vits2中文特化版本訓練和推理

首先把葉奈法的音頻素材放入角色的raw目錄。

隨后需要對數據進行預處理操作：

python3 audio_slicer.py  
python3 short_audio_transcribe.py

這里是切分和轉寫。

接著運行預處理的webui:

python3 webui_preprocess.py

這里需要注意的是，bert特征文件的生成會變慢，因為需要大模型的參與。

后續應該會有一些改進。

數據處理之后，應該包括重采樣音頻，bert特征文件，以及clap特征文件：

E:\work\Bert-VITS2-Extra\Data\Yennefer\wavs>tree /f  
Folder PATH listing for volume myssd  
Volume serial number is 7CE3-15AE  
E:.  
    Yennefer_0.bert.pt  
    Yennefer_0.emo.pt  
    Yennefer_0.spec.pt  
    Yennefer_0.wav  
    Yennefer_1.bert.pt  
    Yennefer_1.emo.pt  
    Yennefer_1.spec.pt  
    Yennefer_1.wav  
    Yennefer_10.bert.pt  
    Yennefer_10.emo.pt  
    Yennefer_10.spec.pt  
    Yennefer_10.wav  
    Yennefer_11.bert.pt  
    Yennefer_11.emo.pt  
    Yennefer_11.spec.pt  
    Yennefer_11.wav  
    Yennefer_12.bert.pt  
    Yennefer_12.emo.pt  
    Yennefer_12.spec.pt  
    Yennefer_12.wav  
    Yennefer_13.bert.pt  
    Yennefer_13.emo.pt  
    Yennefer_13.spec.pt  
    Yennefer_13.wav  
    Yennefer_14.bert.pt  
    Yennefer_14.emo.pt  
    Yennefer_14.spec.pt  
    Yennefer_14.wav  
    Yennefer_15.bert.pt  
    Yennefer_15.emo.pt  
    Yennefer_15.spec.pt  
    Yennefer_15.wav  
    Yennefer_16.bert.pt  
    Yennefer_16.emo.pt  
    Yennefer_16.spec.pt  
    Yennefer_16.wav  
    Yennefer_17.bert.pt  
    Yennefer_17.emo.pt  
    Yennefer_17.spec.pt  
    Yennefer_17.wav  
    Yennefer_18.bert.pt  
    Yennefer_18.emo.pt  
    Yennefer_18.spec.pt  
    Yennefer_18.wav  
    Yennefer_19.bert.pt  
    Yennefer_19.emo.pt  
    Yennefer_19.spec.pt  
    Yennefer_19.wav  
    Yennefer_2.bert.pt  
    Yennefer_2.emo.pt  
    Yennefer_2.spec.pt  
    Yennefer_2.wav  
    Yennefer_20.bert.pt  
    Yennefer_20.emo.pt  
    Yennefer_20.spec.pt  
    Yennefer_20.wav  
    Yennefer_3.bert.pt  
    Yennefer_3.emo.pt  
    Yennefer_3.spec.pt  
    Yennefer_3.wav  
    Yennefer_4.bert.pt  
    Yennefer_4.emo.pt  
    Yennefer_4.spec.pt  
    Yennefer_4.wav  
    Yennefer_5.bert.pt  
    Yennefer_5.emo.pt  
    Yennefer_5.spec.pt  
    Yennefer_5.wav  
    Yennefer_6.bert.pt  
    Yennefer_6.emo.pt  
    Yennefer_6.spec.pt  
    Yennefer_6.wav  
    Yennefer_7.bert.pt  
    Yennefer_7.emo.pt  
    Yennefer_7.spec.pt  
    Yennefer_7.wav  
    Yennefer_8.bert.pt  
    Yennefer_8.emo.pt  
    Yennefer_8.spec.pt  
    Yennefer_8.wav  
    Yennefer_9.bert.pt  
    Yennefer_9.emo.pt  
    Yennefer_9.spec.pt  
    Yennefer_9.wav

隨后訓練即可：

python3 train_ms.py

結語

Bert-vits2中文特化版本引入了大模型，導致入門的門檻略微變高了一點，官方說至少需要8G顯存才可以跑，實際上6G也是可以的，如果bert大模型選擇參數更少的版本，相信運行的門檻會進一步的降低。

最后奉上整合包鏈接：

整合包鏈接：https://pan.quark.cn/s/754f236ef864

總結

以上是生活随笔為你收集整理的首次引入大模型!Bert-vits2-Extra中文特化版40秒素材复刻巫师3叶奈法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： [NLP复习笔记] 基于负采样的 Ski
下一篇：利用腾讯快捷登录协议截取 QQ Clie