當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[2021 icas]PPG-BASED SINGING VOICE CONVERSION WITH ADVERSARIAL REPRESENTATION LEARNING

發布時間：2023/12/14 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 [2021 icas]PPG-BASED SINGING VOICE CONVERSION WITH ADVERSARIAL REPRESENTATION LEARNING 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者：Li Zhonghao
會議：投稿2021 icassp
單位：bytedance

文章目錄

- - - abstract
    - 1. introduction
    - 2. METHOD
    - - 2.1 PPGs Encoder & decoder
      - 2.2 Mel Encoder
    - 2.3 singer confusion module
    - 2.4 Mel-Regressive Representation learning Module
    - 3. EXPERIMENTS
    - - 3.1. Experimental Setup
      - 3.2 Ablation Test
      - 3.3 Noise Robustness

abstract

兩個encoder，一個編碼PPGs的文本信息，一個輸入mel譜編碼聲學和音樂信息；為了改善timbre和melody，另外有adversarial singer confusion module和mel-regressive 表征學習模塊。

1. introduction

在VC中，對于pitch，pause的修改是被允許的；但是在SVC中，pitch，pause被認為是歌唱相關，說話人無關的特征，應該在轉換過程中被保留。

傳統的SVC方法基于平行數據：參數生成結構–GMM，GAN網絡
基于非平行數據的方法：VAE—用wavenet分別做encoder和decoder，用這么強大的一個網絡來做這件事情，可以在非平行數據上達到較好的效果。【8】引入domain confusion module從encoder output中解耦singer information。【9】沿用了domain confusion 的思路，進一步提出了pitch confusion module，可以從encoder outputs中移除picth信息，進而能夠通過F0值控制基頻包絡和韻律。還有一些其他基于VAE的方法在研究SVC，但是他們不能解決輸入音頻包含噪聲的情況。

PPGs(sun) 是一個好的文本特征，同時保留了速度信息。DBLSTM用PPGs做many-to-one的轉換【14】，【15】又進一步將這個方法擴展到many-to-many的轉換。

2. METHOD

2.1 PPGs Encoder & decoder

singing ASR：使用的是歌唱識別數據集，CTC loss訓練的ASR，提取1467-d PPGs
look_up_tabel方式得到的speaker_embedding，GMM attention和stop token被引入
source song中提取LF0
decoder input：encoder_output + LF0 + spk_emb
$Y$ 是mel spec， $t$ 是stop token
binary CE loss預測停止點

2.2 Mel Encoder

PPGs去除了音色信息，僅保留文本信息，但丟失了歌唱轉換需要的風格（intonation-語調，melody， emotion），因此用額外的mel encoder編碼這些信息。
實驗發現：mel encoder的輸出維度被設為最小，這樣可以更好的抑制source voice中的音色和sound noise。4 units在平衡 timbre, sound quality, and musical characters 音素時表現最好。

2.3 singer confusion module

作用：為了加強轉換語音和source的音色相似度；此處嘗試過CBHG結構的module，但是性能不穩定，且很容易訓崩
$C_{target}$ 是目標說話人的one-hot embedding
$C_{target}^j$ 是第 $j$ 幀預測的spk_emb,然后對N幀結果求平均
訓練分成兩步
（1）訓練分類網絡，以最小化 $L_D$
（2）訓練conversion path：（singer 分類器參數不再更新），loss函數是下公式，說話人判別器根據encoder output的輸出判斷說話人身份

2.4 Mel-Regressive Representation learning Module

測試發現加入singer confusion module，在解耦說話人身份之外，發音和音樂特征的表達被削弱了，因此加入額外的模塊，對學習的特征進行指導補充。
訓練階段L：將speaker embedding+mel encoder outputs拼音送入Mel-Regressive Representation learning Module，恢復mel，

生成器的loss函數可以表示為

3. EXPERIMENTS

3.1. Experimental Setup

train-set：中文普通話歌唱數據集32.7h（9個female, 7個male)，每個說話人平均1000句訓練，10句evaluation。
test-set：訓練集以外的20人，40個segment，
decoder:WaveRNN
singing ASR(SASR)：20k hours數據， 1467-d PPGs
參數設置：γ = 1.0, λ = 0.1

18個專業的音樂人進行聽測；測試了（1）自然度；（2）相似度；另外測試了客觀指標NCC(normalized cross-correlation，歸一化互相關）—prediction和ground-truth之間的pitch匹配度；

3.2 Ablation Test

結論：

mel encoder改善了自然度，但是降低了timbre 相似度；

加入singer confusion之后，相似度提升了，但是自然度下降了；

再加入mel-regressive learning module之后，兩個觀測指標都得到提升；

3.3 Noise Robustness

對source加入不同信噪比的白噪聲，性能損失很少（信噪比表明聲音的清晰度）

總結

以上是生活随笔為你收集整理的[2021 icas]PPG-BASED SINGING VOICE CONVERSION WITH ADVERSARIAL REPRESENTATION LEARNING的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python tkinter相关Demo
下一篇：网络渗透（作业）