使用Paddle Speech克隆声音（小白的教程很适合小白😜）

前些天写过一篇使用讯飞有声的个人主播功能克隆声音的方法，这方法简单是简单，但最终声音效果也是不太理想，你看现在很多AI合成语音都可以做到以假乱真了，所以我还是要继续探索哒。

于是，我又找到了一个方法。其实就是上次提到过的百度AI Studio里面的一个项目，Paddle speech，之前看到页面那么多代码以为有很大难度没敢去尝试，这次试了试才发现很简单的，代码那些无视就行~

今天就跟大家分享一下这个方法，注意这是一个针对小白的声音克隆教程，要点是不要被页面上的代码干扰到，一步步跟着我点击就成了😂

01，注册飞桨 aistudio.baidu.com/aistudio，登陆后点开“项目”。搜索“语音合成”，找到图中红圈项目点击进入。

02，点击蓝字“运行一下”，会自动复制项目内容。

03，弹出的窗口中选择A100 32GB，确定。

04，待进入以下页面后点击就二个箭头，运行全部Cell

05，运行完毕点击左下角untitiled streamlit.py.打开这个页面后点击图中的“在浏览器”打开。

06，开始上传音频啦，Brows files在页面中间位置。上传好音频文件后点击下面的检查数据。

音频文件要求：无背景音人声音频，wav格式，2到10秒，最好十条以上，数据越多越好啦。要求24000hz采样率，可以用adobe的au，或是Audacity录制，其它录制方法大多需要转换一步。转换的话据说可以用格式工厂，不过我的格式工厂不支持这个数字，所以在au里面进行的转换。au里打开文件另存时改采样率为24000就可以。

07，声音文件通过检查后来到最后一步。微调训练。

步数100到2w，可以先设几百看看效果，以后可以多跑。不过如果音频质量不够好数据量小的话跑再多步数效果也不会好，我试了一千多步，和三百没啥差别。

09，训练完成，我们的克隆也就完成了。

合成声音。声码器有三种，wavernn最慢效果也最好（特别慢，合成一段声音比训练几百步都要慢好多），Pwgan速度和效果都适中。

总结：因为我只用了十三条语音数据，跑出的效果和讯飞有声差不多，甚至还有些许不如......毕竟讯飞有声是二十条🌝，不过理论上来说加大数据，肯定会有更好的效果。想尝试的同学可以动手啦！

Sort:

Trending

[-]

ecency (76) 2 years ago

Yay! 🤗
Your content has been boosted with Ecency Points
Use Ecency daily to boost your growth on platform!

Support Ecency
Vote for new Proposal
Delegate HP and earn more, by @winniex.

$0.00

windowglass (65) 2 years ago

😅感觉还是有点复杂啊……

1 vote

winniex (77) 2 years ago

就是看上去复杂，等我多录些声音去跑，最终效果如果很好你也可以试试😜