當前位置：首頁 > 编程语言 > python >内容正文

python

危！我用python克隆了女朋友的声音！

發布時間：2024/9/15 python 72 豆豆

生活随笔收集整理的這篇文章主要介紹了危！我用python克隆了女朋友的声音！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

今天，給大家介紹一個算法。

AI 算法 5 秒鐘，就能克隆你的聲音，你信嗎？

聽聽這段音頻，猜猜看是 AI 合成音，還是真人錄音？

答案是：AI 合成。

這個人的原始聲音在這里：

你給這個 AI 克隆聲音的算法打幾分？

上述兩個音頻，算法運行起來的效果：

錄制一段音頻，就可以根據輸入的文字，5s 即可自動生成對應的合成音。

突然有個大膽的想法，你說女朋友要是哪天突然不承認自己說過了某句話，我就給她造一份！

兄弟們，我做的對嗎？

MockingBird

這個算法是基于比較著名的 Real Time Voice Cloning 實現的。

MockingBird 是最近開源的中文版。

論文的名字是：

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

簡單介紹下：

算法分為三個模塊：encoder模塊、systhesis模塊、vocoder模塊。

encoder模塊將說話人的聲音轉換成人聲的數字編碼（speaker embedding）
synthesis 模塊將文本轉換成梅爾頻譜（mel-spectrogram）
vocoder模塊將梅爾頻譜（mel-spectrogram）轉換成（波形）waveform

具體的算法原理，大家可以先看論文：

https://arxiv.org/pdf/1806.04558.pdf

論文還沒詳細看，等我研究好后，后面有機會再發吧。

今天主要聊聊，這個算法怎么玩。

項目地址：https://github.com/babysor/MockingBird

有深度學習基礎的話，這個應該不難。

就是部署環境，分四步：

Anaconda 配置 Pytorch 開發環境
根據項目 requirements.txt 安裝第三方庫依賴
下載權重文件
下載訓練集，這個幾十G，有點大

具體的配置方法，直接看這里：

https://github.com/babysor/MockingBird/blob/main/README-CN.md

都搞定了，就可以運行代碼了。

有兩種模式可以啟動，Web 模式和工具箱模式。

在項目根目錄運行：

python?web.py

即可開啟 Web ，打開地址 http://localhost:8080 就能操作了。

這個界面比較簡陋，建議使用工具箱模式。

python?demo_toolbox.py?-d?<datasets_root>

datasets_root就是下載好的數據集的地址。

總結

Enjoy it！

喜歡的話，來個再看嘍~

如果人多的話，后面我再出個詳細的算法原理剖析和訓練教程。

E?N?D

各位伙伴們好，詹帥本帥搭建了一個個人博客和小程序，匯集各種干貨和資源，也方便大家閱讀，感興趣的小伙伴請移步小程序體驗一下哦！（歡迎提建議）

推薦閱讀

牛逼！Python常用數據類型的基本操作（長文系列第①篇）

牛逼！Python的判斷、循環和各種表達式（長文系列第②篇）

牛逼！Python函數和文件操作（長文系列第③篇）

牛逼！Python錯誤、異常和模塊（長文系列第④篇）

總結

以上是生活随笔為你收集整理的危！我用python克隆了女朋友的声音！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：数据合并之concat、append、m
下一篇：利用 Python 实现多任务进程