使用Paddle Speech克隆声音(小白的教程很适合小白😜)

in HIVE CN 中文社区2 years ago (edited)


前些天写过一篇使用讯飞有声的个人主播功能克隆声音的方法,这方法简单是简单,但最终声音效果也是不太理想,你看现在很多AI合成语音都可以做到以假乱真了,所以我还是要继续探索哒。

于是,我又找到了一个方法。其实就是上次提到过的百度AI Studio里面的一个项目,Paddle speech,之前看到页面那么多代码以为有很大难度没敢去尝试,这次试了试才发现很简单的,代码那些无视就行~

今天就跟大家分享一下这个方法,注意这是一个针对小白的声音克隆教程,要点是不要被页面上的代码干扰到,一步步跟着我点击就成了😂

01,注册飞桨 aistudio.baidu.com/aistudio,登陆后点开“项目”。搜索“语音合成”,找到图中红圈项目点击进入。

02,点击蓝字“运行一下”,会自动复制项目内容。

03,弹出的窗口中选择A100 32GB,确定。

04,待进入以下页面后点击就二个箭头,运行全部Cell

05,运行完毕点击左下角untitiled streamlit.py.打开这个页面后点击图中的“在浏览器”打开。

06,开始上传音频啦,Brows files在页面中间位置。上传好音频文件后点击下面的检查数据。

音频文件要求:无背景音人声音频,wav格式,2到10秒,最好十条以上,数据越多越好啦。要求24000hz采样率,可以用adobe的au,或是Audacity录制,其它录制方法大多需要转换一步。转换的话据说可以用格式工厂,不过我的格式工厂不支持这个数字,所以在au里面进行的转换。au里打开文件另存时改采样率为24000就可以。

07,声音文件通过检查后来到最后一步。微调训练。

步数100到2w,可以先设几百看看效果,以后可以多跑。不过如果音频质量不够好数据量小的话跑再多步数效果也不会好,我试了一千多步,和三百没啥差别。

09,训练完成,我们的克隆也就完成了。

合成声音。声码器有三种,wavernn最慢效果也最好(特别慢,合成一段声音比训练几百步都要慢好多),Pwgan速度和效果都适中。

总结:因为我只用了十三条语音数据,跑出的效果和讯飞有声差不多,甚至还有些许不如......毕竟讯飞有声是二十条🌝,不过理论上来说加大数据,肯定会有更好的效果。想尝试的同学可以动手啦!

Sort:  

Yay! 🤗
Your content has been boosted with Ecency Points
Use Ecency daily to boost your growth on platform!

Support Ecency
Vote for new Proposal
Delegate HP and earn more, by @winniex.

😅感觉还是有点复杂啊……

就是看上去复杂,等我多录些声音去跑,最终效果如果很好你也可以试试😜